¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Los investigadores de suscripción ahora han publicado la encuesta más completa hasta la fecha de los llamados «agentes del sistema operativo»: sistemas de inteligencia artificial que pueden controlar de forma autónoma, teléfonos móviles y navegadores web interactuando directamente con sus interfaces. La revisión académica de 30 páginas, aceptada para su publicación en la prestigiosa Conferencia de la Asociación para la Lingüística Computacional, asigna un campo en rápida evolución que ha atraído a miles de millones en la inversión de las principales empresas tecnológicas. «El sueño de crear asistentes de IA como capaces y versátil como el jarvis ficticio de Iron Man ha cautivado durante mucho tiempo la imaginación», escriben los investigadores. «Con la evolución de los modelos de idiomas grandes (multimodales) (((M) LLM), este sueño está más cerca de la realidad». La encuesta, dirigida por investigadores de la Universidad de Zhejiang y Oppo AI Center, se produce cuando las principales compañías de tecnología corren para desplegar agentes de IA que pueden realizar tareas digitales complejas. Operai lanzó recientemente «Operator», Anthrope lanzó «Use de la computadora», Apple introdujo capacidades de IA mejoradas en «Apple Intelligence» y Google dio a conocer «Project Mariner», todos los sistemas diseñados para automatizar las interacciones de la computadora. Los agentes del sistema operativo funcionan observando pantallas de computadora y datos del sistema, luego ejecutando acciones como clics y deslizamientos en plataformas móviles, de escritorio y web. Los sistemas deben comprender las interfaces, planificar tareas de varios pasos y traducir esos planes en código ejecutable. (Crédito: GitHub) Los gigantes tecnológicos se apresuran a implementar una IA que controla su escritorio la velocidad a la que la investigación académica se ha transformado en productos listos para el consumidor no tiene precedentes, incluso para los estándares de Silicon Valley. La encuesta revela una explosión de investigación: más de 60 modelos de fundaciones y 50 marcos de agentes desarrollados específicamente para el control de la computadora, con las tasas de publicación que se aceleran dramáticamente desde 2023. La escalado de IA alcanza sus límites de límites de potencia, el aumento de los costos de los tokenses y los retrasos de inferencia están remodelando la empresa AI de Enterprise. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos: convertir la energía en una ventaja estratégica arquitectando una inferencia eficiente para las ganancias de rendimiento real que desbloquean el ROI competitivo con sistemas de IA sostenibles asegura su lugar para mantenerse a la vanguardia: https://bit.ly/4mwgngo Esto no es solo un progreso incremental. Estamos presenciando la aparición de sistemas de IA que pueden entender y manipular genuinamente el mundo digital como lo hacen los humanos. Los sistemas actuales funcionan tomando capturas de pantalla de pantallas de computadora, utilizando visión avanzada de la computadora para comprender lo que se muestra, luego ejecutando acciones precisas como hacer clic en botones, llenar formularios y navegar entre aplicaciones. «Los agentes del sistema operativo pueden completar las tareas de forma autónoma y tener el potencial de mejorar significativamente la vida de miles de millones de usuarios en todo el mundo», señalan los investigadores. «Imagine un mundo en el que tareas como compras en línea, reserva de arreglos de viaje y otras actividades diarias podrían ser realizadas sin problemas por estos agentes». Los sistemas más sofisticados pueden manejar flujos de trabajo complejos de varios pasos que abarcan diferentes aplicaciones: reservar una reserva de restaurante y luego agregarlo automáticamente a su calendario, luego establecer un recordatorio para dejar temprano para el tráfico. Lo que les tomó minutos a los humanos de hacer clic y escribir ahora puede suceder en segundos, sin intervención humana. El desarrollo de los agentes de IA requiere una cartera de capacitación compleja que combine múltiples enfoques, desde la capacitación inicial en los datos de la pantalla hasta el aprendizaje de refuerzo que optimiza el rendimiento a través de la prueba y el error. (Crédito: ARXIV.org) Por qué los expertos en seguridad son alarmas sobre los sistemas corporativos controlados por IA para los líderes tecnológicos empresariales, la promesa de ganancias de productividad viene con una realidad aleccionadora: estos sistemas representan una superficie de ataque completamente nueva que la mayoría de las organizaciones no están preparadas para defender. Los investigadores dedican una atención sustancial a lo que diplomáticamente califican las preocupaciones de «seguridad y privacidad», pero las implicaciones son más alarmantes de lo que sugiere su lenguaje académico. «Los agentes del sistema operativo se enfrentan a estos riesgos, especialmente teniendo en cuenta sus amplias aplicaciones en dispositivos personales con datos de usuarios», escriben. Los métodos de ataque que documentan leen como una pesadilla de ciberseguridad. La «inyección indirecta de indirecto» permite a los actores maliciosos incrustar las instrucciones ocultas en las páginas web que pueden secuestrar el comportamiento de un agente de IA. Aún más preocupantes son los «ataques de inyección ambiental» donde el contenido web aparentemente inocuo puede engañar a los agentes para robar datos de usuarios o realizar acciones no autorizadas. Considere las implicaciones: un agente de IA con acceso a su correo electrónico corporativo, sistemas financieros y bases de datos de clientes podría ser manipulado mediante una página web cuidadosamente diseñada para exfiltrar la información confidencial. Los modelos de seguridad tradicionales, construidos en torno a usuarios humanos que pueden detectar intentos de phishing obvios, se descomponen cuando el «usuario» es un sistema de IA que procesa la información de manera diferente. La encuesta revela una brecha preocupante en la preparación. Si bien existen marcos de seguridad generales para los agentes de IA, «los estudios sobre defensas específicas de los agentes del sistema operativo siguen siendo limitados». Esto no es solo una preocupación académica: es un desafío inmediato para cualquier organización que considere la implementación de estos sistemas. La verificación de la realidad: los agentes actuales de IA aún luchan con tareas digitales complejas a pesar de la exageración que rodea estos sistemas, el análisis de la encuesta de puntos de referencia de rendimiento revela limitaciones significativas que templando las expectativas de adopción generalizada inmediata. Las tasas de éxito varían dramáticamente en diferentes tareas y plataformas. Algunos sistemas comerciales logran tasas de éxito superiores al 50% en ciertos puntos de referencia, impresionantes para una tecnología naciente, pero luchan con otros. Los investigadores clasifican las tareas de evaluación en tres tipos: «base de GUI» básica (elementos de comprensión de la interfaz), «recuperación de información» (encontrar y extraer datos) y complejas «tareas de agente» (operaciones autónomas de múltiples pasos). El patrón es revelador: los sistemas actuales se destacan en tareas simples y bien definidas, pero se vacilan cuando se enfrentan al tipo de flujos de trabajo complejos y dependientes del contexto que definen gran parte del trabajo de conocimiento moderno. Pueden hacer clic de manera confiable en un botón específico o completar un formulario estándar, pero luchar con tareas que requieren razonamiento sostenido o adaptación a cambios inesperados en la interfaz. Esta brecha de rendimiento explica por qué las implementaciones tempranas se centran en tareas estrechas y de alto volumen en lugar de la automatización de uso general. La tecnología aún no está lista para reemplazar el juicio humano en escenarios complejos, pero es cada vez más capaz de manejar el trabajo de trabajo digital de rutina. Los agentes del sistema operativo se basan en sistemas interconectados para la percepción, la planificación, la memoria y la ejecución de la acción. La complejidad de coordinar estos componentes ayuda a explicar por qué los sistemas actuales aún luchan con tareas sofisticadas. (Crédito: arxiv.org) Lo que sucede cuando los agentes de IA aprenden a personalizarse para cada usuario, tal vez el desafío más intrigante y potencialmente transformador identificado en la encuesta involucra lo que los investigadores llaman «personalización y autoevolución». A diferencia de los asistentes de IA apátridos de hoy que tratan cada interacción como independiente, los futuros agentes del sistema operativo deberán aprender de las interacciones del usuario y adaptarse a las preferencias individuales a lo largo del tiempo. «El desarrollo de agentes del sistema operativo personalizado ha sido un objetivo de larga data en la investigación de IA», escriben los autores. «Se espera que un asistente personal se adapte continuamente y proporcione experiencias mejoradas basadas en las preferencias individuales del usuario». Esta capacidad podría cambiar fundamentalmente la forma en que interactuamos con la tecnología. Imagine un agente de IA que aprende su estilo de escritura por correo electrónico, comprenda las preferencias de su calendario, sabe qué restaurantes prefiere y puede tomar decisiones cada vez más sofisticadas en su nombre. Las posibles ganancias de productividad son enormes, pero también lo son las implicaciones de la privacidad. Los desafíos técnicos son sustanciales. La encuesta apunta a la necesidad de mejores sistemas de memoria multimodal que puedan manejar no solo texto sino también imágenes y voz, presentando «desafíos significativos» para la tecnología actual. ¿Cómo se construye un sistema que recuerde sus preferencias sin crear un registro de vigilancia integral de su vida digital? Para los ejecutivos de tecnología que evalúan estos sistemas, este desafío de personalización representa tanto la mayor oportunidad como el mayor riesgo. Las organizaciones que lo resuelven primero obtendrán ventajas competitivas significativas, pero las implicaciones de privacidad y seguridad podrían ser graves si se manejan mal. La carrera para construir asistentes de IA que realmente puedan operar como usuarios humanos se intensifica rápidamente. Si bien los desafíos fundamentales sobre la seguridad, la confiabilidad y la personalización siguen sin resolverse, la trayectoria es clara. Los investigadores mantienen los desarrollos de seguimiento de repositorio de código abierto, reconociendo que «los agentes del sistema operativo todavía están en sus primeras etapas de desarrollo» con «avances rápidos que continúan introduciendo metodologías y aplicaciones novedosas». La pregunta no es si los agentes de IA transformarán cómo interactuamos con las computadoras, es si estaremos listos para las consecuencias cuando lo hagan. La ventana para obtener los marcos de seguridad y privacidad correctos se está reduciendo tan rápido como avanza la tecnología. Insights diarias sobre casos de uso de negocios con VB diariamente Si desea impresionar a su jefe, VB Daily lo tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo. Lea nuestra Política de privacidad Gracias por suscribirse. Mira más boletines de VB aquí. Ocurrió un error.