¡Queremos saber de usted! Responda nuestra encuesta rápida sobre IA y comparta sus ideas sobre el estado actual de la IA, cómo la está implementando y qué espera ver en el futuro. Obtenga más información Los agentes de IA se están convirtiendo en una nueva dirección de investigación prometedora con posibles aplicaciones en el mundo real. Estos agentes utilizan modelos básicos como los modelos de lenguaje grande (LLM) y los modelos de lenguaje de visión (VLM) para tomar instrucciones en lenguaje natural y perseguir objetivos complejos de forma autónoma o semiautónoma. Los agentes de IA pueden utilizar varias herramientas como navegadores, motores de búsqueda y compiladores de código para verificar sus acciones y razonar sobre sus objetivos. Sin embargo, un análisis reciente realizado por investigadores de la Universidad de Princeton ha revelado varias deficiencias en los puntos de referencia y las prácticas de evaluación actuales de los agentes que obstaculizan su utilidad en aplicaciones del mundo real. Sus hallazgos destacan que la evaluación comparativa de los agentes conlleva distintos desafíos y no podemos evaluar a los agentes de la misma manera que evaluamos los modelos básicos. Compromiso entre costo y precisión Un problema importante que los investigadores destacan en su estudio es la falta de control de costos en las evaluaciones de los agentes. Los agentes de IA pueden ser mucho más costosos de ejecutar que una sola llamada de modelo, ya que a menudo se basan en modelos de lenguaje estocástico que pueden producir resultados diferentes cuando se les da la misma consulta varias veces. Cuenta regresiva para VB Transform 2024 Únase a los líderes empresariales en San Francisco del 9 al 11 de julio para nuestro evento insignia de IA. Conéctese con colegas, explore las oportunidades y los desafíos de la IA generativa y aprenda cómo integrar aplicaciones de IA en su industria. Regístrese ahora Para aumentar la precisión, algunos sistemas de agentes generan varias respuestas y utilizan mecanismos como herramientas de votación o verificación externa para elegir la mejor respuesta. A veces, muestrear cientos o miles de respuestas puede aumentar la precisión del agente. Si bien este enfoque puede mejorar el rendimiento, tiene un costo computacional significativo. Los costos de inferencia no siempre son un problema en entornos de investigación, donde el objetivo es maximizar la precisión. Sin embargo, en aplicaciones prácticas, existe un límite para el presupuesto disponible para cada consulta, lo que hace que sea crucial que las evaluaciones de los agentes estén controladas por costos. No hacerlo puede alentar a los investigadores a desarrollar agentes extremadamente costosos simplemente para encabezar la clasificación. Los investigadores de Princeton proponen visualizar los resultados de la evaluación como una curva de Pareto de precisión y costo de inferencia y utilizar técnicas que optimicen conjuntamente el agente para estas dos métricas. Los investigadores evaluaron las compensaciones entre precisión y costo de diferentes técnicas de incitación y patrones de agente introducidos en diferentes artículos. “Para una precisión sustancialmente similar, el costo puede diferir en casi dos órdenes de magnitud”, escriben los investigadores. “Sin embargo, el costo de operar estos agentes no es una métrica de primera línea informada en ninguno de estos artículos”. Los investigadores sostienen que la optimización para ambas métricas puede conducir a “agentes que cuestan menos manteniendo la precisión”. La optimización conjunta también puede permitir a los investigadores y desarrolladores compensar los costos fijos y variables de operar un agente. Por ejemplo, pueden gastar más en optimizar el diseño del agente pero reducir el costo variable al usar menos ejemplos de aprendizaje en contexto en la indicación del agente. Los investigadores probaron la optimización conjunta en HotpotQA, un popular punto de referencia de respuesta a preguntas. Sus resultados muestran que la formulación de optimización conjunta proporciona una forma de lograr un equilibrio óptimo entre precisión y costos de inferencia. “Las evaluaciones de agentes útiles deben controlar el costo, incluso si en última instancia no nos importa el costo y solo nos preocupamos por identificar diseños de agentes innovadores”, escriben los investigadores. “La precisión por sí sola no puede identificar el progreso porque se puede mejorar con métodos científicamente sin sentido, como volver a intentarlo”. Desarrollo de modelos versus aplicaciones posteriores Otro problema que destacan los investigadores es la diferencia entre evaluar modelos para fines de investigación y desarrollar aplicaciones posteriores. En la investigación, la precisión suele ser el enfoque principal, y los costos de inferencia se ignoran en gran medida. Sin embargo, al desarrollar aplicaciones del mundo real en agentes de IA, los costos de inferencia juegan un papel crucial a la hora de decidir qué modelo y técnica utilizar. Evaluar los costos de inferencia para los agentes de IA es un desafío. Por ejemplo, diferentes proveedores de modelos pueden cobrar diferentes cantidades por el mismo modelo. Mientras tanto, los costos de las llamadas API cambian regularmente y pueden variar según las decisiones de los desarrolladores. Por ejemplo, en algunas plataformas, las llamadas API en masa se cobran de manera diferente. Los investigadores crearon un sitio web que ajusta las comparaciones de modelos en función del precio de los tokens para abordar este problema. También realizaron un estudio de caso sobre NovelQA, un punto de referencia para tareas de respuesta a preguntas en textos muy largos. Descubrieron que los puntos de referencia destinados a la evaluación de modelos pueden ser engañosos cuando se utilizan para la evaluación posterior. Por ejemplo, el estudio original de NovelQA hace que la generación aumentada por recuperación (RAG) parezca mucho peor que los modelos de contexto largo de lo que es en un escenario del mundo real. Sus hallazgos muestran que la RAG y los modelos de contexto largo fueron aproximadamente igualmente precisos, mientras que los modelos de contexto largo son 20 veces más caros. El sobreajuste es un problema Al aprender nuevas tareas, los modelos de aprendizaje automático (ML) a menudo encuentran atajos que les permiten obtener una buena puntuación en los puntos de referencia. Un tipo destacado de atajo es el «sobreajuste», donde el modelo encuentra formas de hacer trampa en las pruebas de referencia y proporciona resultados que no se traducen al mundo real. Los investigadores descubrieron que el sobreajuste es un problema grave para los puntos de referencia del agente, ya que tienden a ser pequeños, y normalmente constan de solo unos pocos cientos de muestras. Este problema es más grave que la contaminación de datos en los modelos de base de entrenamiento, ya que el conocimiento de las muestras de prueba se puede programar directamente en el agente. Para abordar este problema, los investigadores sugieren que los desarrolladores de benchmarks deberían crear y mantener conjuntos de pruebas de reserva que estén compuestos de ejemplos que no se puedan memorizar durante el entrenamiento y que solo se puedan resolver mediante una comprensión adecuada de la tarea objetivo. En su análisis de 17 benchmarks, los investigadores descubrieron que muchos carecían de conjuntos de datos de reserva adecuados, lo que permitía a los agentes tomar atajos, incluso de forma involuntaria. “Sorprendentemente, descubrimos que muchos benchmarks de agentes no incluyen conjuntos de pruebas de reserva”, escriben los investigadores. “Además de crear un conjunto de pruebas, los desarrolladores de benchmarks deberían considerar mantenerlo en secreto para evitar la contaminación de LLM o el sobreajuste del agente”. También señalan que se necesitan diferentes tipos de muestras de reserva en función del nivel deseado de generalidad de la tarea que realiza el agente. “Los desarrolladores de benchmarks deben hacer todo lo posible para garantizar que los atajos sean imposibles”, escriben los investigadores. “Consideramos que esto es responsabilidad de los desarrolladores de benchmarks en lugar de los desarrolladores de agentes, porque diseñar benchmarks que no permitan atajos es mucho más fácil que verificar cada agente para ver si toma atajos”. Los investigadores probaron WebArena, un punto de referencia que evalúa el rendimiento de los agentes de IA en la resolución de problemas con diferentes sitios web. Encontraron varios atajos en los conjuntos de datos de entrenamiento que permitían a los agentes sobreajustarse a las tareas de maneras que fácilmente se romperían con cambios menores en el mundo real. Por ejemplo, el agente podría hacer suposiciones sobre la estructura de las direcciones web sin considerar que podría cambiar en el futuro o que no funcionaría en diferentes sitios web. Estos errores inflan las estimaciones de precisión y conducen a un optimismo excesivo sobre las capacidades del agente, advierten los investigadores. Como los agentes de IA son un campo nuevo, las comunidades de investigación y desarrollo aún tienen mucho que aprender sobre cómo probar los límites de estos nuevos sistemas que pronto podrían convertirse en una parte importante de las aplicaciones cotidianas. «La evaluación comparativa de agentes de IA es nueva y las mejores prácticas aún no se han establecido, lo que dificulta distinguir los avances genuinos de la publicidad exagerada», escriben los investigadores. «Nuestra tesis es que los agentes son lo suficientemente diferentes de los modelos como para que las prácticas de evaluación comparativa deban repensarse». VB Daily ¡Manténgase informado! Reciba las últimas noticias en su bandeja de entrada todos los días Al suscribirse, acepta los Términos de servicio de VentureBeat. Gracias por suscribirse. Consulte más boletines de VB aquí. Se produjo un error.