la-importancia-de-usar-sonido-para-entrenar-robots-con-inteligencia-artificial

La importancia de usar sonido para entrenar robots con inteligencia artificial

“Escuchar” y entender mejor el contexto de lo que sucede a su alrededor.

Axel Marazzi

14 de julio 2024, 05:26hs

Las IA entrenadas con audio pueden dar mejores resultados (Imagen generada por IA/Freepik)

Las IA entrenadas con audio pueden dar mejores resultados (Imagen generada por IA/Freepik)

Los robots que existen en la actualidad y que incluyen inteligencia artificial usan cámaras para poder “entender” lo que está pasando a su alrededor. Estas cámaras les permiten “ver” lo que hay en su entorno y, a partir de eso, poder tomar decisiones: agarrar un objeto, esquivarlo, llevarlo de un lugar a otro. Y si bien estamos viendo avances únicos con vehículos que se manejan solos o robots que se encuentran en fábricas para realizar algunas tareas peligrosas para los humanos, hay un aspecto que no se está teniendo en cuenta demasiado: el sonido.

El sonido es clave para entrenar robots porque les da una nueva dimensión de percepción que las cámaras no pueden ofrecer. Mientras que las cámaras permiten a los robots “ver” su entorno, el sonido les permite “escucharlo” y entender mejor el contexto de lo que sucede a su alrededor. Esto les permitiría, por ejemplo, poder detectar eventos no visibles, como una alarma.

Leé también: “No tan brutos”: el proyecto del MIT para que las manos robóticas no rompan todo lo que tocan

Los experimentos en el laboratorio

Y justamente esa fue la intención de los científicos del Laboratorio de Robótica e Inteligencia Artificial Incorporada de la Universidad de Stanford, que fabricaron un sistema para recolectar no solo video sino también audio con una GoPro, una pinza y un micrófono. Después los humanos usaron ese sistema para realizar diferentes tareas domésticas cientos de veces y con eso entrenaron a los algoritmos.

Lo que tuvieron en cuenta para medir el éxito de usar sonido además de video fueron cuatro actividades: dar vuelta un bagel con una espátula, borrar un pizarrón, unir dos tiras de velcro, e identificar si un vaso tenía dados dentro o no. Actividades donde el sonido es más importante que en otras.

Video PlaceholderEntrenamiento de robots con audio

Resultados prometedores

A medida que el sonido era más importante, mejores fueron los resultados. A la hora de identificar si un recipiente tenía dados dentro o no, el resultado usando solo el video fue exitoso en el 27% de los casos. Cuando se usó no solo video sino también sonido, ese número de éxito aumentó a 94%.

A la hora de borrar un pizarrón, los entrenamientos sin sonido daban un éxito del 40%, mientras que con sonido fueron del 85%. Esto era porque solo las imágenes no le permitían al algoritmo saber si el borrador estaba haciendo contacto con el pizarrón. Cuando le agregaban audio, eso cambiaba radicalmente.

Video PlaceholderEntrenar al algoritmo con audios

Si bien no es la primera vez que se usa audio para entrenar algoritmos, Shuran Song, la jefa del laboratorio que llevó adelante la investigación dijo que lo que ellos están intentando es que el audio en entornos reales sea más fácil de capturar.

Los rumores en la industria apuntan a que hay muchas compañías que están desarrollando robots hogareños. Apple es solo un ejemplo. La compañía estaría trabajando en pequeño robot con una pantalla integrada que seguirá a los usuarios por sus hogares. En este tipo de casos, el audio de lo que suceda en el hogar será clave para que la tecnología funcione correctamente e incluya features que, de otra manera, no podría tener.

Leé también: ¿Un robot te sacará el trabajo? Ese es el miedo de 6 de cada 10 argentinos

Desafíos y limitaciones

Pero está claro que el sonido no puede resolver todo y hay momentos donde no sirve demasiado. Por ejemplo, cuando se involucran objetos que no generan demasiado ruido, como es el caso de una prenda de ropa.

A eso se le suma que una de las grandes problemáticas que siempre tuvo el entrenamiento de algoritmos usando audio es que muchas veces es complejo para los sistemas filtrar el de fondo que no suma a la hora de entender el contexto o aprender.

Si bien por ahora no hay sistemas que puedan entrenarse usando audio y que funcione tan bien como la información generada con video, este tipo de experimentos están recorriendo un camino que será clave para mejorar la robótica como la conocemos en la actualidad.