L’aprenentatge per reforçament permet als robots submarins localitzar i seguir objectes sota l’aigua

Proves amb el vehicle no tripulat Sparus II, al port de Sant Feliu de Guíxols
+
Descarregar

Les proves de l'estudi es van fer amb l’AUV Sparus II, al port de Sant Feliu de Guíxols, al Baix Empordà, i a la badia de Monterey, a Califòrnia/VICOROB

L’aprenentatge per reforçament profund permet als vehicles autònoms i als robots submarins localitzar i fer un seguiment acurat d’objectes i animals marins que es troben sota l’aigua. Així ho ha demostrat, per primer cop, un equip d’investigadors entre els quals hi ha el professor Mario Martin, del Departament de Ciències de la Computació de la UPC.

27/07/2023

Un equip d’investigadors integrat pel professor Mario Martin, del Departament de Ciències de la Computació i docent a la Facultat d’Informàtica de Barcelona (FIB) de la Universitat Politècnica de Catalunya - BarcelonaTech (UPC), juntament amb altres científics, ha demostrat per primera vegada que l’aprenentatge per reforç profund  ̶̶ és a dir, una xarxa neuronal que aprèn la millor acció a realitzar en cada moment a partir d'una sèrie de recompenses− permet als vehicles autònoms i robots submarins localitzar i fer un seguiment acurat d’objectes i animals marins que es troben sota l’aigua. Els detalls es recullen en un article publicat a Science Robotics, la principal revista científica en l’àmbit de la robòtica.

L’equip del treball l’integren també investigadors de l’Institut de Ciències del Mar (ICM-CSIC) de Barcelona, que ha liderat l’estudi, la Universitat de Girona (UdG) i el Monterey Bay Aquarium Research Institute (MBARI) de Califòrnia.

En l’actualitat, la robòtica submarina és una eina clau per millorar el coneixement dels oceans davant les nombroses dificultats per explorar-los, amb vehicles capaços de baixar fins als 4.000 metres de fondària. A més, les dades in-situ que proporcionen ajuden a complementar-ne d’altres, com les obtingudes a través dels satèl·lits. Aquesta tecnologia permet estudiar fenòmens que passen a petita escala, com per exemple la captura de CO₂ per part d’organismes marins, que contribueixen a regular el canvi climàtic.

En concret, aquest treball revela que l’aprenentatge per reforçament, molt utilitzat en l’àmbit del control i robòtica com també en el desenvolupament d'eines actuals del processament del llenguatge natural com ara el ChatGPT, permet que els robots submarins aprenguin quines accions han de realitzar en cada moment per assolir un objectiu específic. Aquestes polítiques d’acció igualen, o fins i tot milloren en determinades circumstàncies, els mètodes tradicionals, basats en un desenvolupament analític.

Per a l’elaboració del treball, els autors han fet servir tècniques d’acústica de rang, que permeten estimar la posició d'un objecte tenint en compte mesures de distància preses en diferents punts. Aquest fet, però, fa que la precisió en la localització de l'objecte depengui molt del lloc on es prenen les mesures acústiques de rang. És aquí on pren importància l’aplicació de la intel·ligència artificial, en concret, l’aprenentatge per reforçament, que permet identificar els millors punts i, per tant, la trajectòria òptima que ha de realitzar el robot.

Les xarxes neuronals van ser entrenades, en part, utilitzant el clúster d’ordinadors del Barcelona Supercomputing Center - Centro Nacional de Supercomputación (BSC- CNS), on es troba el superordinador més potent de l’Estat espanyol i un dels més potents d’Europa. "Això ha permès ajustar els paràmetres de diferents algoritmes de forma molt més ràpida que no pas utilitzant ordinadors convencionals", indica el professor de la UPC Mario Martin, també autor de l'estudi.

Un cop entrenats, els algoritmes es van provar en diferents vehicles autònoms, entre ells l’AUV Sparus II desenvolupat per l'Institut de Recerca en Visió per Computador i Robòtica (VICOROB) de la Universitat de Girona, en una sèrie de missions experimentals desenvolupades al port de Sant Feliu de Guíxols, al Baix Empordà, i a la badia de Monterey (Califòrnia), en col·laboració amb la investigadora principal del Bioinspiration Lab del MBARI, Kakani Katija.

De cara a futures investigacions l’equip estudiarà la possibilitat d'aplicar els mateixos algoritmes per resoldre missions més complicades. Per exemple, l'ús de múltiples vehicles per localitzar objectes, detectar fronts i termoclines, o aflorament d’algues de manera cooperativa, a través de tècniques d'aprenentatge per reforç multiplataforma.

Article de referència