El aprendizaje por reforzamiento permite a los robots submarinos localizar y seguir objetos bajo el agua
Las pruebas del estudio se realizaron con el AUV Sparus II, en el puerto de Sant Feliu de Guíxols, en el Baix Empordà, y en la bahía de Monterey, en California/VICOROB
El aprendizaje por refuerzo profundo permite a los vehículos autónomos ya los robots submarinos localizar y realizar un seguimiento cuidadoso de objetos y animales marinos que se encuentran bajo el agua. Así lo ha demostrado, por primera vez, un equipo de investigadores entre los que se encuentra el profesor Mario Martin, del Departamento de Ciencias de la Computación de la UPC.
27/07/2023
Un equipo de investigadores integrado por el profesor Mario Martin, del Departamento de Ciencias de la Computación y docente en la Facultad de Informática de Barcelona (FIB) de la Universitat Politècnica de Catalunya - BarcelonaTech (UPC), junto con otros científicos, ha demostrado por primera vez que el aprendizaje por refuerzo profundo ̶̶ es decir, una red neuronal que aprende la mejor acción a realizar en cada momento en base a una serie de recompensas− permite a los vehículos autónomos y robots submarinos localizar y realizar un seguimiento esmerado de objetos y animales marinos que se encuentran debajo del agua. Los detalles se recogen en un artículo publicado en Science Robòtics, la principal revista científica en el ámbito de la robótica.
El equipo del trabajo lo integran también investigadores del Instituto de Ciencias del Mar (ICM-CSIC) de Barcelona, que ha liderado el estudio, la Universidad de Girona (UdG) y el Monterey Bay Aquarium Research Institute (MBARI) de California.
En la actualidad, la robótica submarina se erige como una herramienta clave para mejorar el conocimiento de los océanos frente a las numerosas dificultades para explorarlos, con vehículos capaces de bajar hasta los 4.000 metros de profundidad. Además, los datos in-situ que proporcionan ayudan a complementar otros, como los obtenidos a través de los satélites. Esta tecnología permite estudiar fenómenos que pasan a pequeña escala, como por ejemplo la captura de CO2 por parte de organismos marinos, que contribuyen a regular el cambio climático.
En concreto, este nuevo trabajo revela que el aprendizaje por reforzamiento, muy utilizado en el ámbito del control y robótica así como en el desarrollo de herramientas actuales del procesamiento del lenguaje natural como el ChatGPT, permite que los robots submarinos aprendan cuáles acciones deben realizar en cada momento para alcanzar un objetivo específico. Estas políticas de acción igualan, o incluso mejoran en determinadas circunstancias, los métodos tradicionales basados en un desarrollo analítico.
Para la elaboración del trabajo, los autores han utilizado técnicas de acústica de rango, que permiten estimar la posición de un objeto teniendo en cuenta medidas de distancia tomadas en distintos puntos. Sin embargo, este hecho hace que la precisión en la localización del objeto dependa mucho del lugar donde se toman las medidas acústicas de rango. Es aquí donde toma importancia la aplicación de la inteligencia artificial, en concreto, el aprendizaje por reforzamiento, que permite identificar los mejores puntos y, por tanto, la trayectoria óptima que debe realizar el robot.
Las redes neuronales fueron entrenadas, en parte, utilizando el cluster de ordenadores del Barcelona Supercomputing Center (BSC-CNS), donde se encuentra el superordenador más potente del Estado español y uno de los más potentes de Europa. "Esto ha permitido ajustar los parámetros de diferentes algoritmos de forma mucho más rápida que utilizando ordenadores convencionales", indica el profesor de la UPC Mario Martin.
Una vez entrenados, los algoritmos se probaron en diferentes vehículos autónomos, entre ellos el AUV Sparus II desarrollado por VICOROB, en una serie de misiones experimentales desarrolladas en el puerto de Sant Feliu de Guíxols, en el Baix Empordà, y en la bahía de Monterey ( California), en colaboración con la investigadora principal del Bioinspiration Lab del MBARI, Kakani Katija.
De cara a futuras investigaciones, el equipo estudiará la posibilidad de aplicar los mismos algoritmos para resolver misiones más complicadas. Por ejemplo, el uso de múltiples vehículos para localizar objetos, detectar frentes y termoclinas, o afloramiento de algas de forma cooperativa, a través de técnicas de aprendizaje por refuerzo multi plataforma.
Artículo de referencia
- Ivan Masmitja, Mario Martin, Tom O'Reilly, Brian Kieft, Narcís Palomeras, Joan Navarro and Kakani Katija (2023). Dynamic robotic tracking of underwater targets using Reinforcement Learning. Science Robotics, ade7811. DOI: 10.1126/scirobotics.ade7811