Los robots de uso general son difíciles de entrenar. El sueño es tener un robot como el Rosie de Jetson que puede realizar una variedad de tareas domésticas, como ordenar o doblar la ropa. Pero para que eso suceda, el robot necesita aprender de una gran cantidad de datos que coincidan con las condiciones del mundo real; que los datos pueden ser difíciles de recopilar. Actualmente, la mayoría de los datos de capacitación se recopilan de múltiples cámaras estáticas que deben configurarse cuidadosamente para recopilar información útil. Pero, ¿qué pasaría si Bots pudiera aprender de las interacciones cotidianas que ya tenemos con el mundo físico? Esa es una pregunta que el laboratorio de robótica de uso general y AI en la Universidad de Nueva York, dirigido por el profesor asistente Lerrel Pinto, espera responder con Egozero, un sistema de vidrios inteligentes que ayuda al aprendizaje de los robots al recopilar datos con una versión mejorada de las gafas de Meta. En una preimpresión reciente, que sirve como prueba de concepto para el enfoque, los investigadores entrenaron a un robot para completar siete tareas de manipulación, como recoger un pedazo de pan y colocarlo en un plato cercano. Para cada tarea, recopilaron 20 minutos de datos de humanos que realizan estas tareas mientras registraban sus acciones con anteojos del Proyecto Aria de Meta. (Estas gafas cargadas de sensores se usan exclusivamente para fines de investigación). Cuando se implementan para completar autónomos estas tareas con un robot, el sistema logró una tasa de éxito del 70 por ciento. La ventaja de la parte del «ego» de Datathe egocéntrico de Egozero se refiere a la naturaleza «egocéntrica» ​​de los datos, lo que significa que se recopila desde la perspectiva de la persona que realiza una tarea. «La cámara se mueve contigo», como cómo nuestros ojos se mueven con nosotros, dice Raunaq Bhirangi, un investigador postdoctoral en el laboratorio de la NYU. Esto tiene dos ventajas principales: primero, la configuración es más portátil que las cámaras externas. En segundo lugar, es más probable que las gafas capturen la información necesaria porque los usuarios se asegurarán de que ellos, y, por lo tanto, la cámara, puedan ver lo que se necesita para realizar una tarea. «Por ejemplo, digamos que tenía algo enganchado debajo de una mesa y quiero desengancharlo. Me doblaría, miraría ese gancho y luego lo desabrochaba, a diferencia de una cámara en tercera persona, que no está activa», dice Bhirangi. «Con esta perspectiva egocéntrica, obtienes esa información horneada en sus datos de forma gratuita». La segunda mitad del nombre de Egozero se refiere al hecho de que el sistema está capacitado sin datos de robot, que puede ser costoso y difícil de recopilar; Los datos humanos por sí solos son suficientes para que el robot aprenda una nueva tarea. Esto está habilitado por un marco desarrollado por el laboratorio de Pinto que rastrea los puntos en el espacio, en lugar de las imágenes completas. Al entrenar robots en datos basados ​​en imágenes, «el desajuste es demasiado grande entre cómo se ven las manos humanas y cómo se ven los brazos de robot», dice Bhirangi. En su lugar, este marco rastrea los puntos en la mano, que se asignan a los puntos del robot. El sistema Egozero toma datos de humanos que usan anteojos inteligentes y los convierten en datos utilizables de navegación 3D para que los robots realicen tareas de manipulación general. «Mientras los puntos de robot se muevan en relación con el objeto de la misma manera que los puntos humanos se mueven, somos buenos», dice Bhirangi. Todo esto lleva a un modelo generalizable que de otro modo requeriría muchos datos de robot diversos para entrenar. Si el robot fue entrenado en datos recogiendo una pieza de pan, por ejemplo, un rollo de delicatessen, puede generalizar esa información para recoger un pedazo de Ciabatta en un nuevo entorno. Una solución escalable en la adición de Egozero, el grupo de investigación está trabajando en varios proyectos para ayudar a hacer realidad los robots de uso general una realidad, incluidos los diseños de robots de código abierto, sensores táctiles flexibles y métodos adicionales para recopilar datos de capacitación en el mundo real. Por ejemplo, como alternativa a Egozero, los investigadores también han diseñado una configuración con una pinza de mano impresa en 3D que se parece más a la mayoría de las «manos» robot. Un teléfono inteligente conectado a la pinza captura el video con el mismo método de espacio de punto que se usa en Egozero. El equipo, al hacer que las personas recopilen datos sin traer un robot a sus hogares, proporciona dos enfoques que podrían ser más escalables para recopilar datos de capacitación. Esa escalabilidad es, en última instancia, el objetivo del investigador. Los modelos de idiomas grandes pueden aprovechar todo el Internet, pero no hay equivalente en Internet para el mundo físico. Aprovechar las interacciones cotidianas con gafas inteligentes podría ayudar a llenar ese vacío. De los artículos de su sitio, artículos relacionados con