Peter Chen, director ejecutivo de la empresa de software para robots Covariant, se sienta frente a una interfaz de chatbot similar a la que se utiliza para comunicarse con ChatGPT. “Muéstrame el bolso que tienes delante”, escribe. En respuesta, aparece un video que revela un brazo robótico sobre un contenedor que contiene varios artículos: un par de calcetines, un tubo de papas fritas y una manzana, entre ellos. El chatbot puede discutir los artículos que ve, pero también manipularlos. Cuando WIRED sugiere que Chen le pida que tome una fruta, el brazo se agacha, agarra suavemente la manzana y luego la mueve a otro contenedor cercano. Este chatbot práctico es un paso para brindar a los robots el tipo de capacidades generales y flexibles. exhibido por programas como ChatGPT. Existe la esperanza de que la IA finalmente pueda solucionar la antigua dificultad de programar robots y hacer que hagan más que un conjunto reducido de tareas. “No es nada controvertido en este momento decir que los modelos básicos son el futuro de la robótica”, dijo Chen. dice, utilizando un término para modelos de aprendizaje automático de propósito general y gran escala desarrollados para un dominio en particular. El práctico chatbot que me mostró funciona con un modelo desarrollado por Covariant llamado RFM-1, por Robot Foundation Model. Al igual que los que están detrás de ChatGPT, Gemini de Google y otros chatbots, ha sido entrenado con grandes cantidades de texto, pero también ha recibido control de video y hardware y datos de movimiento de decenas de millones de ejemplos de movimientos de robots provenientes del trabajo en el mundo físico. mundo. Incluir esos datos adicionales produce un modelo que no solo domina el lenguaje sino también la acción y que es capaz de conectar los dos. RFM-1 no sólo puede chatear y controlar un brazo robótico, sino también generar vídeos que muestran robots realizando diferentes tareas. Cuando se le solicite, RFM-1 mostrará cómo un robot debe agarrar un objeto de un contenedor desordenado. «Puede aceptar todas estas modalidades diferentes que son importantes para la robótica y también puede generar cualquiera de ellas», afirma Chen. «Es un poco alucinante». Vídeo generado por el modelo de IA RFM-1. Cortesía de Covariant Vídeo generado por el modelo de IA RFM-1. Cortesía de Covariant El modelo también ha demostrado que puede aprender a controlar hardware similar que no está en su entrenamiento. datos. Con mayor capacitación, esto podría incluso significar que el mismo modelo general podría operar un robot humanoide, dice Pieter Abbeel, cofundador y científico jefe de Covariant, pionero en el aprendizaje de robots. En 2010, dirigió un proyecto que entrenó a un robot para doblar toallas, aunque lentamente, y también trabajó en OpenAI antes de que dejara de investigar con robots. Covariant, fundada en 2017, actualmente vende software que utiliza el aprendizaje automático para permitir que los brazos robóticos seleccionen artículos. de contenedores en los almacenes, pero normalmente se limitan a la tarea para la que han estado entrenando. Abeel dice que modelos como RFM-1 podrían permitir que los robots utilicen sus pinzas para realizar nuevas tareas con mucha más fluidez. Compara la estrategia de Covariant con la forma en que Tesla utiliza datos de los automóviles que ha vendido para entrenar sus algoritmos de conducción autónoma. «Es más o menos lo mismo que estamos sucediendo aquí», dice. Abeel y sus colegas de Covariant están lejos de ser los únicos expertos en robótica que esperan que las capacidades de los grandes modelos de lenguaje detrás de ChatGPT y programas similares puedan provocar una revolución en robótica. Proyectos como RFM-1 han mostrado resultados iniciales prometedores. Pero la cantidad de datos que se pueden necesitar para entrenar modelos que fabriquen robots con capacidades mucho más generales (y cómo recopilarlos) es una cuestión abierta.

Source link