Cuando IEEE Spectrum escribió por primera vez sobre Covariant en 2020, era una nueva startup de robótica que buscaba aplicar la robótica a la recolección en almacén a escala a través de la magia de una única red neuronal de extremo a extremo. En ese momento, Covariant se centró en este caso de uso de recolección, porque representa una aplicación que podría proporcionar valor inmediato: las empresas de almacén pagan a Covariant por sus robots para seleccionar artículos en sus almacenes. Pero para Covariant, lo emocionante fue que la recolección de artículos en los almacenes ha generado, durante los últimos cuatro años, una enorme cantidad de datos de manipulación del mundo real, y probablemente puedas adivinar a dónde va esto. Hoy, Covariant anuncia RFM-1 , que la compañía describe como un modelo básico de la robótica que otorga a los robots la «capacidad de razonar similar a la humana». Eso es del comunicado de prensa, y aunque no necesariamente interpretaría demasiado sobre «humanidad» o «razón», lo que Covariant está haciendo aquí es bastante bueno. «Modelo de base» significa que RFM-1 se puede entrenar en más datos para hacer más cosas; por el momento, todo se trata de manipulación del almacén porque para eso ha sido entrenado, pero sus capacidades se pueden ampliar al suministrarle más datos. «Nuestro sistema actual ya es lo suficientemente bueno como para realizar una selección y colocación muy rápida y variable», afirma el cofundador de Covariant, Pieter Abbeel. “Pero ahora vamos un poco más allá. Cualquier tarea, cualquier encarnación: esa es la visión a largo plazo. Modelos básicos de robótica que impulsan miles de millones de robots en todo el mundo”. Por lo que parece, el negocio de Covariant de implementar una gran flota de robots de automatización de almacenes fue la forma más rápida para recopilar las decenas de millones de trayectorias (cómo se mueve un robot durante una tarea) que necesitaban para entrenar el RFM de 8 mil millones de parámetros. -1 modelo.Covariante“La única forma de hacer lo que estamos haciendo es implementando robots en el mundo que recopilen una tonelada de datos”, dice Abbeel. «Que es lo que nos permite entrenar un modelo básico de robótica que tiene una capacidad única». Ha habido otros intentos de este tipo de cosas: el proyecto RTX es un ejemplo reciente. Pero mientras RT-X depende de que los laboratorios de investigación compartan los datos que tienen para crear un conjunto de datos que sea lo suficientemente grande como para ser útil, Covariant lo está haciendo solo, gracias a su flota de robots de almacén. «RT-X representa aproximadamente un millón de trayectorias de datos», afirma Abbeel, «pero podemos superarlo porque obtenemos un millón de trayectorias cada pocas semanas». «Al construir un valioso robot de recolección que se implementa en 15 países con docenas de clientes, esencialmente tenemos una máquina de recolección de datos». —Pieter Abbeel, Covariant Puede pensar en la ejecución actual de RFM-1 como un motor de predicción para la manipulación de objetos basada en succión en entornos de almacén. El modelo incorpora imágenes fijas, vídeos, ángulos de las articulaciones, lectura de fuerza, fuerza de la ventosa: todo lo relacionado con el tipo de manipulación robótica que realiza Covariant. Todas estas cosas están interconectadas dentro de RFM-1, lo que significa que puedes poner cualquiera de esas cosas en un extremo de RFM-1, y del otro extremo del modelo saldrá una predicción. Esa predicción puede ser en forma de imagen, video o una serie de comandos para un robot. Lo que es importante entender acerca de todo esto es que RFM-1 no se limita a seleccionar solo cosas que ha visto antes, o solo trabajando en robots con los que tiene experiencia directa. Esto es lo bueno de los modelos básicos: pueden generalizar dentro del dominio de sus datos de entrenamiento, y es así como Covariant ha podido escalar su negocio con tanto éxito como lo ha hecho, al no tener que volver a entrenar para cada nuevo robot de recolección o cada nuevo artículo. . Lo que es contrario a la intuición de estos modelos grandes es que en realidad son mejores para enfrentar situaciones nuevas que los modelos entrenados específicamente para esas situaciones. Por ejemplo, digamos que desea entrenar un modelo para conducir un automóvil en una carretera. La pregunta, dice Abbeel, es si de todos modos valdría la pena dedicar tiempo a entrenar en otros tipos de conducción. La respuesta es sí, porque conducir en carretera a veces no es conducir en carretera. Habrá accidentes o tráfico en horas pico que requerirán que conduzcas de manera diferente. Si también se ha entrenado para conducir en calles de la ciudad, estará entrenando efectivamente en casos extremos en carreteras, lo que será útil en algún momento y mejorará el rendimiento general. Con RFM-1, es la misma idea: entrenar en muchos tipos diferentes de manipulación (diferentes robots, diferentes objetos, etc.) significa que cualquier tipo de manipulación será mucho más capaz. En el contexto de la generalización, Covariant habla de la capacidad de RFM-1 para «comprender» su entorno. Esta puede ser una palabra complicada con la IA, pero lo relevante es fundamentar el significado de «comprender» en lo que RFM-1 es capaz de hacer. Por ejemplo, no necesitas entender física para poder atrapar una pelota de béisbol, solo necesitas tener mucha experiencia atrapando pelotas de béisbol, y ahí es donde está RFM-1. También se podría razonar cómo atrapar una pelota de béisbol sin experiencia pero con conocimientos de física, y RFM-1 no hace esto, razón por la cual dudo en usar la palabra «comprender» en este contexto. Pero esto nos lleva a otro Capacidad interesante de RFM-1: funciona como una herramienta de simulación muy eficaz, aunque limitada. Como motor de predicción que genera vídeo, puedes pedirle que genere cómo se verán los próximos segundos de una secuencia de acción, y te dará un resultado realista y preciso, basado en todos sus datos. La clave aquí es que RFM-1 puede simular eficazmente objetos que son difíciles de simular tradicionalmente, como los disquetes. Abbeel de Covariant explica que el «modelo mundial» en el que RFM-1 basa sus predicciones es efectivamente un motor de física aprendido. «Construir motores de física resulta ser una tarea muy desalentadora para cubrir realmente todo lo posible que puede suceder en el mundo», dice Abbeel. “Una vez que se obtienen escenarios complicados, se vuelve muy inexacto, muy rápidamente, porque la gente tiene que hacer todo tipo de aproximaciones para que el motor de física funcione en una computadora. Simplemente estamos haciendo la versión de datos a gran escala de esto con un modelo mundial, y está mostrando resultados realmente buenos”. Abbeel da un ejemplo de pedirle a un robot que simule (o prediga) lo que sucedería si un cilindro se coloca verticalmente sobre una cinta transportadora. La predicción muestra con precisión que el cilindro cae y rueda cuando la cinta comienza a moverse, no porque el cilindro esté siendo simulado, sino porque RFM-1 ha visto muchas cosas colocadas en muchas cintas transportadoras. «Dentro de cinco años, no es improbable que lo que estamos construyendo aquí sea el único tipo de simulador que alguien utilice». —Pieter Abbeel, Covariant Esto solo funciona si existe el tipo correcto de datos para que RFM-1 se entrene, por lo que, a diferencia de la mayoría de los entornos de simulación, actualmente no se puede generalizar a objetos o situaciones completamente nuevos. Pero Abbeel cree que con suficientes datos será posible una simulación mundial útil. “Dentro de cinco años, no es improbable que lo que estamos construyendo aquí sea el único tipo de simulador que alguien utilice. Es un simulador más capaz que uno construido desde cero con verificación de colisiones y elementos finitos y todo eso. Todas esas cosas son muy difíciles de incorporar en tu motor de física de cualquier forma, sin mencionar el renderizador para hacer que las cosas se vean como en el mundo real; en cierto sentido, estamos tomando un atajo». RFM-1 también incorpora datos lingüísticos para poder comunicarse de manera más efectiva con los humanos. Covariant Para que Covariant expanda las capacidades de RFM-1 hacia esa visión a largo plazo de modelos básicos que impulsen “miles de millones de robots en todo el mundo”, el siguiente paso es para alimentarlo con más datos de una variedad más amplia de robots que realizan una variedad más amplia de tareas. «Básicamente, hemos creado un motor de ingesta de datos», afirma Abbeel. «Si está dispuesto a proporcionarnos datos de un tipo diferente, también los incorporaremos». «Tenemos mucha confianza en que este tipo de modelo podría impulsar todo tipo de robots, tal vez con más datos sobre los tipos de robots y los tipos de situaciones en las que podría usarse». —Pieter Abbeel, Covariant De una forma u otra, ese camino implicará una gran cantidad de datos, y serán datos que Covariant no está recopilando actualmente con su propia flota de robots de manipulación de almacenes. Entonces, si usted es, digamos, una empresa de robótica humanoide, ¿cuál es su incentivo para compartir todos los datos que ha estado recopilando con Covariant? «El argumento es que les ayudaremos a llegar al mundo real», dice el cofundador de Covariant, Peter Chen. “No creo que haya muchas empresas que tengan IA para hacer que sus robots sean verdaderamente autónomos en un entorno de producción. Si quieren una IA que sea robusta y poderosa y que realmente pueda ayudarlos a ingresar al mundo real, realmente somos su mejor opción”. El argumento central de Covariant aquí es que, si bien es ciertamente posible que cada empresa de robótica entrene sus propios modelos individualmente, el rendimiento —Al menos para cualquiera que intente realizar manipulación—no sería tan bueno como usar un modelo que incorpore todos los datos de manipulación que Covariant ya tiene dentro de RFM-1. «Siempre ha sido nuestro plan a largo plazo ser una empresa modelo de base de robótica», dice Chen. «Simplemente no había suficientes datos, computación y algoritmos para llegar a este punto, pero construir una plataforma universal de IA para robots, de eso se ha ocupado Covariant desde el principio». De los artículos de su sitioArtículos relacionados en la Web

Source link