¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora un nuevo marco de investigadores de la Universidad de Hong Kong (HKU) y las instituciones colaboradoras proporciona una base de código abierto para crear agentes de IA robustos que puedan operar computadoras. El marco, llamado OpenCua, incluye las herramientas, datos y recetas para escalar el desarrollo de agentes de uso informático (CUAS). Los modelos entrenados con este marco funcionan fuertemente en los puntos de referencia de CUA, superan a los modelos de código abierto existentes y compiten estrechamente con los agentes cerrados de los principales laboratorios de IA como OpenAi y Anthrope. El desafío de construir agentes de uso informático de los agentes de uso de la computadora está diseñado para completar autónomos las tareas en una computadora, desde la navegación de sitios web hasta el software complejo operativo. También pueden ayudar a automatizar los flujos de trabajo en la empresa. Sin embargo, los sistemas CUA más capaces son patentados, con detalles críticos sobre sus datos de capacitación, arquitecturas y procesos de desarrollo mantenidos en privado. «A medida que la falta de transparencia limita los avances técnicos y plantea preocupaciones de seguridad, la comunidad de investigación necesita marcos de CUA realmente abiertos para estudiar sus capacidades, limitaciones y riesgos», afirman los investigadores en su artículo. AI Scaling alcanza sus límites de potencia de límites, el aumento de los costos de los tokens y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos: convertir la energía en una ventaja estratégica arquitectando una inferencia eficiente para las ganancias de rendimiento real que desbloquean el ROI competitivo con sistemas de IA sostenibles asegura su lugar para mantenerse a la vanguardia: https://bit.ly/4mwgngo al mismo tiempo, los esfuerzos de código abierto enfrentan su propio conjunto de hurtles. No ha habido una infraestructura escalable para recopilar los diversos datos a gran escala necesarios para capacitar a estos agentes. Los conjuntos de datos de código abierto existentes para interfaces gráficas de usuario (GUI) tienen datos limitados, y muchos proyectos de investigación proporcionan detalles insuficientes sobre sus métodos, lo que dificulta a los demás replicar su trabajo. Según el documento, «estas limitaciones obstaculizan colectivamente los avances en los CUA de uso general y restringen una exploración significativa de su escalabilidad, generalización y posibles enfoques de aprendizaje». Introducción de OpenCua OpenCua Framework Fuente: XLANG Lab en HKU OpenCua es un marco de código abierto diseñado para abordar estos desafíos escalando tanto la recopilación de datos como los modelos mismos. En su núcleo está la herramienta Agentnet para grabar demostraciones humanas de tareas informáticas en diferentes sistemas operativos. La herramienta optimiza la recopilación de datos ejecutándose en segundo plano en la computadora personal de un anotador, capturando videos de pantalla, entradas de mouse y teclado, y el árbol de accesibilidad subyacente, que proporciona información estructurada sobre elementos en pantalla. Luego, estos datos sin procesar se procesan en «trayectorias de acción estatal», combinando una captura de pantalla de la computadora (el estado) con la acción correspondiente del usuario (un clic, llave presione, etc.). Los anotadores pueden revisar, editar y enviar estas demostraciones. Fuente de la herramienta AGENTNET: XLANG Lab en HKU Usando esta herramienta, los investigadores recopilaron el conjunto de datos AgentNet, que contiene más de 22,600 demostraciones de tareas en Windows, MacOS y Ubuntu, que abarca más de 200 aplicaciones y sitios web. «Este conjunto de datos captura auténticamente la complejidad de los comportamientos humanos y la dinámica ambiental de los entornos informáticos personales de los usuarios», señala el documento. Reconociendo que las herramientas de grabación de pantalla plantean importantes preocupaciones de privacidad de datos para las empresas, los investigadores diseñaron la herramienta Agentnet con seguridad en mente. Xinyuan Wang, coautor del documento y el estudiante de doctorado en HKU, explicó que implementaron un marco de protección de la privacidad de múltiples capas. «Primero, los anotadores mismos pueden observar completamente los datos que generan … antes de decidir si enviarlos», dijo a VentureBeat. Luego, los datos se someten a una verificación manual para problemas de privacidad y escaneo automatizado por un modelo grande para detectar cualquier contenido confidencial restante antes de la versión. «Este proceso en capas garantiza la robustez de grado empresarial para entornos que manejan datos sensibles al cliente o financieros», agregó Wang. Para acelerar la evaluación, el equipo también seleccionó a AgentNetbench, un punto de referencia fuera de línea que proporciona múltiples acciones correctas para cada paso, ofreciendo una forma más eficiente de medir el rendimiento de un agente. Una nueva receta para los agentes de capacitación El marco OpenCua presenta una tubería novedosa para procesar datos y capacitar a los agentes de uso de la computadora. El primer paso convierte las demostraciones humanas crudas en pares de acción estatal limpia adecuados para capacitar a los modelos de lenguaje de visión (VLMS). Sin embargo, los investigadores descubrieron que simplemente los modelos de entrenamiento en estos pares producen ganancias de rendimiento limitadas, incluso con grandes cantidades de datos. OpenCua Fuente de tuberías de la cadena de pensamiento: Laboratorio XLANG en HKU La visión clave era aumentar estas trayectorias con el razonamiento de la cadena de pensamiento (COT). Este proceso genera un «monólogo interno» detallado para cada acción, que incluye planificación, memoria y reflexión. Este razonamiento estructurado se organiza en tres niveles: una observación de alto nivel de la pantalla, pensamientos reflexivos que analizan la situación y planifican los próximos pasos, y finalmente, la acción concisa y ejecutable. Este enfoque ayuda al agente a desarrollar una comprensión más profunda de las tareas. «Encontramos un razonamiento del lenguaje natural crucial para los modelos de base de uso de computadoras generalizables, ayudando a los CUA a internalizar las capacidades cognitivas», escriben los investigadores. Esta tubería de síntesis de datos es un marco general que las empresas pueden adaptar a los agentes de sus propias herramientas internas únicas. Según Wang, una empresa puede registrar demostraciones de sus flujos de trabajo patentados y usar la misma tubería de «reflector» y «generador» para crear los datos de capacitación necesarios. «Esto les permite arrancar un agente de alto rendimiento adaptado a sus herramientas internas sin necesidad de trazar el razonamiento manual manualmente», explicó. Al poner a prueba OpenCua, los investigadores aplicaron el marco OpenCua para capacitar una variedad de VLM de código abierto, incluidas las variantes de QWEN y KIMI-VL, con tamaños de parámetros de 3 mil millones a 32 mil millones. Los modelos fueron evaluados en un conjunto de puntos de referencia en línea y fuera de línea que prueban su capacidad para realizar tareas y comprender las GUI. El modelo de 32 mil millones de parámetros, OpenCua-32b, estableció una nueva tasa de éxito de última generación entre los modelos de código abierto en el punto de referencia verificado por Osworld. También superó el CUA basado en GPT-4O de OpenAI y cerró significativamente la brecha de rendimiento con los principales modelos patentados de Anthrope. OpenCua muestra una mejora masiva sobre los modelos base (izquierda) mientras compiten con los modelos de CUA líder (derecha) Fuente: XLANG Lab en HKU para desarrolladores empresariales y líderes de productos, la investigación ofrece varios hallazgos clave. El método OpenCua es ampliamente aplicable, mejorando el rendimiento en modelos con diferentes arquitecturas (tanto densas como de mezcla de expertos) y tamaños. Los agentes capacitados también muestran una fuerte generalización, funcionando bien en una amplia gama de tareas y sistemas operativos. Según Wang, el marco es particularmente adecuado para automatizar flujos de trabajo empresariales repetitivos e intensivos en mano de obra. «Por ejemplo, en el conjunto de datos de AgentNet, ya capturamos algunas demostraciones de lanzar instancias EC2 en Amazon AWS y configurar los parámetros de anotación en MTurk», dijo a VentureBeat. «Estas tareas involucran muchos pasos secuenciales pero siguen patrones repetibles». Sin embargo, Wang señaló que cerrar la implementación de la brecha para vivir requiere abordar los desafíos clave en torno a la seguridad y la confiabilidad. «El mayor desafío en el despliegue real es la seguridad y la confiabilidad: el agente debe evitar errores que puedan alterar inadvertidamente la configuración del sistema o activar los efectos secundarios nocivos más allá de la tarea prevista», dijo. Los investigadores han publicado el código, el conjunto de datos y los pesos para sus modelos. A medida que los agentes de código abierto construidos en marcos como OpenCua se vuelven más capaces, podrían evolucionar fundamentalmente la relación entre los trabajadores del conocimiento y sus computadoras. Wang prevé un futuro donde la competencia en el software complejo se vuelve menos importante que la capacidad de articular claramente los objetivos a un agente de IA. Describió dos modos principales de trabajo: «Automatización fuera de línea, donde el agente aprovecha su conocimiento de software más amplio para seguir una tarea de extremo a extremo» y «colaboración en línea, donde el agente responde en tiempo real y trabaja codo a codo con el humano, como un colega». Básicamente, los humanos proporcionarán el «qué» estratégico, mientras que los agentes de IA cada vez más sofisticados manejan el «cómo» operativo. Insights diarias sobre casos de uso de negocios con VB diariamente Si desea impresionar a su jefe, VB Daily lo tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo. Lea nuestra Política de privacidad Gracias por suscribirse. Mira más boletines de VB aquí. Ocurrió un error.
Deja una respuesta