El nuevo agente de IA de ChatGPT puede navegar por la web y crear PowerPoint -Productiones de diapositivas

El jueves, Openai lanzó ChatGPT Agent, una nueva característica que permite al asistente de IA de IA de la compañía completar tareas de varios pasos controlando su propio navegador web. La actualización fusiona las capacidades de la herramienta de operador anterior de OpenAI y la función de investigación profunda, lo que permite a ChatGPT navegar en los sitios web, ejecutar código y crear documentos mientras los usuarios mantienen el control sobre el proceso. La función marca la última entrada de OpenAI en lo que la industria tecnológica llama «AI de agente», sistemas que pueden tomar acciones autónomas de varios pasos en nombre del usuario. Operai dice que los usuarios pueden solicitar al agente que maneje solicitudes como ensamblar y comprar un atuendo de ropa para una ocasión en particular, crear mazos de diapositivas de PowerPoint, planificar comidas o actualizar hojas de cálculo financieras con nuevos datos. El sistema utiliza una combinación de navegadores web, acceso terminal y conexiones API para completar estas tareas, incluidos los «conectores CHATGPT» que se integran con aplicaciones como Gmail y GitHub. Mientras usan el agente, los usuarios miran una ventana dentro de la interfaz CHATGPT que muestra que todas las acciones de la IA tienen lugar dentro de su propio sandbox privado. Este sandbox presenta su propio sistema operativo virtual y navegador web con acceso a Internet real; No controla su dispositivo personal. «CHATGPT lleva a cabo estas tareas utilizando su propia computadora virtual», escribe Operai, «cambiando fluidamente entre razonamiento y acción para manejar flujos de trabajo complejos de principio a fin, todo basado en sus instrucciones». Una imagen fija de un video de demostración promocional del agente de OpenAI ChatGPT que muestra al agente de IA buscando vuelos. Crédito: OpenAI Like Operator antes, la función de agente requiere permiso del usuario antes de tomar ciertas acciones con consecuencias del mundo real, como realizar compras. Los usuarios pueden interrumpir las tareas en cualquier punto, tomar el control del navegador o detener las operaciones por completo. El sistema también incluye un «modo de reloj» para tareas como enviar correos electrónicos que requieren supervisión activa del usuario. Dado que el agente supera al operador en capacidad, OpenAI dice que el sitio de vista previa del operador anterior de la compañía seguirá siendo funcional durante unas pocas semanas más antes de que se apague. Las afirmaciones de rendimiento de OpenAI son una cosa, pero qué tan bien el nuevo agente de IA de la compañía realmente completará las tareas de varios pasos variará enormemente dependiendo de la situación. Esto se debe a que el modelo AI no es una forma completa de inteligencia de resolución de problemas, sino más bien un complejo imitador maestro. Tiene cierta flexibilidad para reconstruir un escenario, pero también muchos puntos ciegos. Operai capacitó al agente (y sus componentes constituyentes) utilizando ejemplos de uso de computadora y uso de herramientas; Lo que sea que se encuentre fuera de los ejemplos absorbidos por los datos de entrenamiento probablemente será difícil de lograr.