Robots inteligentes que perciben y entienden el mundo: el objetivo del MIT para la IA y el trabajo autómata del futuro

Robots
  • Un equipo de científicos del MIT está desarrollando robots con percepción del mundo que les rodea.
  • Su nuevo modelo permite a un robot generar rápidamente un mapa 3D de su entorno que también incluye objetos y sus etiquetas semánticas (una silla frente a una mesa, por ejemplo), así como personas, habitaciones, paredes y otras estructuras. 
  • "Se trata de transformar los valores de los píxeles que ven a través de una cámara en una comprensión o idea del mundo que les rodea", señala Luca Carlone, profesor asistente de aeronáutica y astronáutica en el MIT.
  • Descubre más historias en Business Insider España. 

Uno de los mayores desafíos de la tecnología al servicio del hogar es facilitar las tareas domésticas hasta su máxima expresión. A día de hoy, artilugios como el Roomba o los robots de cocina han dado un salto cualitativo en este sentido, pero no dejan de ser herramientas, pequeños "trucos" para agilizar el trabajo.

Pero los ingenieros del MIT ya están pensando en dar el próximo paso: no sólo un utensilio que facilite el trabajo, sino un ayudante que directamente lo ejecute. Al fondo de sus investigaciones vislumbran un robot inteligente, adaptable, capaz de seguir comandos de alto nivel, de percibir y entender su entorno.

Porque, de todas las facultades de las que se puede dotar a la inteligencia artificial, los de Massachusetts consideran esta —saber lo que pasa a su alrededor— una de las más complicadas e indispensables. Si el "ayudante" no tiene nociones de su ambiente y situaciones, sus decisiones autónomas tenderán a ser incorrectas.

Leer más: Los robots sustituirán millones de puestos de trabajo que se han destrozado durante la pandemia, según un informe

Así lo refleja Luca Carlone, profesor asistente de aeronáutica y astronáutica en el MIT. "Para los humanos es muy sencillo de entender, pero para los robots es un problema dolorosamente difícil. Se trata de transformar los valores de los píxeles que ven a través de una cámara en una comprensión o idea del mundo que les rodea".

En la actualidad, Carlone y sus estudiantes están ultimando una representación de la percepción espacial basada en los paradigmas humanos. Este nuevo modelo, conocido como Gráficos Dinámicos de Escena 3D, permite a un robot generar rápidamente un mapa 3D de su entorno que también incluye objetos y sus etiquetas semánticas (una silla frente a una mesa, por ejemplo), así como personas, habitaciones, paredes y otras estructuras. 

"Esta representación comprimida del entorno es útil porque permite a nuestro robot tomar decisiones rápidamente y planificar su camino", comenta Carlone. A la larga, y más allá de las labores domésticas, este descubrimiento podría adaptar a las máquinas a otro tipo de trabajos de alto nivel, como explorar ruinas o trabajar codo con codo con humanos en una fábrica.

Por el momento, la visión y la navegación robótica ha avanzado principalmente a lo largo de dos rutas: la cartografía 3D, que permite a los robots reconstruir su entorno en tres dimensiones a medida que exploran en tiempo real; y la segmentación semántica, que ayuda a un robot a clasificar las características de su entorno como objetos semánticos, lo que hasta ahora se había hecho principalmente con imágenes 2D.  

El componente clave del nuevo modelo del equipo es Kimera, una biblioteca de código abierto que el equipo desarrolló previamente para construir simultáneamente un modelo geométrico 3D de un entorno, mientras codifica la probabilidad de que un objeto sea, por ejemplo, una silla frente a un escritorio. Al final, todo funciona con estimaciones.

"Como la criatura mítica que es una mezcla de diferentes animales, queríamos que Kimera fuera una mezcla de mapeo y comprensión semántica en 3D", explica Carlone.

Para generar una malla semántica en 3D, Kimera utiliza una red neuronal existente entrenada en millones de imágenes del mundo real —además de las tomadas por el propio robot—, para predecir la etiqueta de cada píxel, y luego proyecta estas etiquetas en 3D utilizando una técnica conocida como "ray-casting", comúnmente utilizada en los gráficos por ordenador para la representación en tiempo real.

Leer más: Este robot reponedor que amenaza con acabar con miles de puestos de trabajo en tiendas y supermercados va a empezar a desplegarse en Japón

El resultado es un mapa del entorno de un robot que se asemeja a una densa malla tridimensional, donde cada cara está codificada por colores como parte de los objetos, estructuras y personas del entorno. Los gráficos de escena son modelos por ordenador que manipulan y representan escenas complejas, y se utilizan típicamente en los motores de videojuegos para representar entornos 3D. 

En el caso de los gráficos de escena dinámicos en 3D, los algoritmos asociados abstraen, o descomponen, la detallada malla semántica 3D de Kimera en distintas capas semánticas, de forma que un robot puede "ver" o "intuir" una escena a través de una capa u obstáculo en concreto. 

"Esencialmente estamos permitiendo a los robots tener modelos mentales similares a los que usan los humanos", concreta Carlone. "Esto puede impactar en muchas aplicaciones, incluyendo coches autónomos, búsqueda y rescate, produccion colaborativa y robótica doméstica, entre otros".

Otro dominio es la realidad virtual y aumentada (AR), que funciona como una Alexa consciente del entorno que te rodea y que entiende los objetos, los humanos y sus relaciones.

"Nuestro enfoque acaba de ser posible gracias a los recientes avances en el aprendizaje profundo y a décadas de investigación sobre la localización y el mapeo simultáneos", precisa Carlone. "Con este trabajo, estamos dando el salto hacia una nueva era de percepción robótica llamada Spatial-AI, que está en sus comienzos pero que tiene un gran potencial en robótica y realidad virtual y aumentada a gran escala". 

Descubre más sobre , autor/a de este artículo.

Conoce cómo trabajamos en Business Insider.