Investigadores revelan fallas en la evaluación comparativa de agentes de IA

A medida que los agentes que utilizan inteligencia artificial se han ido abriendo camino en la corriente principal para todo, desde el servicio al cliente hasta la reparación de códigos de software, es cada vez más importante determinar cuáles son los mejores para una aplicación determinada y los criterios que se deben tener en cuenta al seleccionar un agente además de su funcionalidad. Y ahí es donde entra en juego la evaluación comparativa. Los puntos de referencia no reflejan las aplicaciones del mundo real Sin embargo, un nuevo artículo de investigación, AI Agents That Matter, señala que los procesos actuales de evaluación y evaluación comparativa de agentes contienen una serie de deficiencias que dificultan su utilidad en aplicaciones del mundo real. Los autores, cinco investigadores de la Universidad de Princeton, señalan que esas deficiencias fomentan el desarrollo de agentes que funcionan bien en los puntos de referencia, pero no en la práctica, y proponen formas de abordarlas. «La estrella del norte de este campo es crear asistentes como Siri o Alexa y hacer que realmente funcionen: gestionen tareas complejas, interpreten con precisión las solicitudes de los usuarios y funcionen de manera confiable», dijeron en una publicación de blog sobre el artículo dos de sus autores, Sayash Kapoor y Arvind Narayanan. “Pero esto está lejos de ser una realidad, e incluso la dirección de la investigación es bastante nueva”. Esto, según el artículo, hace que sea difícil distinguir los avances genuinos de las exageraciones. Y los agentes son lo suficientemente diferentes de los modelos de lenguaje como para que sea necesario repensar las prácticas de evaluación comparativa. ¿Qué es un agente de IA? La definición de agente en la IA tradicional es la de una entidad que percibe y actúa sobre su entorno, pero en la era de los grandes modelos de lenguaje (LLM), es más compleja. Allí, los investigadores lo ven como un espectro de factores «agenticos» en lugar de una sola cosa. Dijeron que tres grupos de propiedades hacen que un sistema de IA sea agentico: Entorno y objetivos: en un entorno más complejo, más sistemas de IA son agenticos, al igual que los sistemas que persiguen objetivos complejos sin instrucciones. Interfaz de usuario y supervisión: los sistemas de IA que actúan de forma autónoma o aceptan entradas de lenguaje natural son más agenticos, especialmente aquellos que requieren menos supervisión del usuario Diseño del sistema: los sistemas que utilizan herramientas como la búsqueda web o la planificación (como la descomposición de objetivos en subobjetivos), o cuyo control de flujo está impulsado por un LLM son más agenticos. Hallazgos claveCinco hallazgos clave surgieron de la investigación, todos respaldados por estudios de caso: Las evaluaciones de agentes de IA deben controlarse en función de los costos: dado que llamar a los modelos subyacentes a la mayoría de los agentes de IA repetidamente (a un costo adicional por llamada) puede aumentar la precisión, los investigadores pueden verse tentados a construir agentes extremadamente caros para poder reclamar el primer puesto en precisión. Pero el artículo describió tres agentes de referencia simples desarrollados por los autores que superan a muchas de las arquitecturas complejas a un costo mucho menor. Optimizar conjuntamente la precisión y el costo puede producir un mejor diseño del agente: dos factores determinan el costo total de ejecutar un agente: los costos únicos involucrados en la optimización del agente para una tarea y los costos variables incurridos cada vez que se ejecuta. Los autores muestran que al gastar más en la optimización inicial, los costos variables se pueden reducir manteniendo la precisión. El analista Bill Wong, investigador de IA en Info-Tech Research Group, está de acuerdo. «El enfoque en la precisión es una característica natural a la que llamar la atención al comparar LLM», dijo. «Y sugerir que incluir la optimización de costos brinda una imagen más completa del rendimiento de un modelo es razonable, tal como intentaron proporcionar los puntos de referencia de la base de datos basados en TPC, que era una métrica de rendimiento ponderada con los recursos o costos involucrados para entregar una métrica de rendimiento dada». Los desarrolladores de modelos y los desarrolladores posteriores tienen distintas necesidades de evaluación comparativa: los investigadores y quienes desarrollan modelos tienen diferentes necesidades de evaluación comparativa que los desarrolladores posteriores que eligen una IA para usar sus aplicaciones. Los desarrolladores e investigadores de modelos no suelen tener en cuenta el coste durante sus evaluaciones, mientras que para los desarrolladores posteriores, el coste es un factor clave. «Hay varios obstáculos para la evaluación de costes», señala el artículo. «Los distintos proveedores pueden cobrar cantidades distintas por el mismo modelo, el coste de una llamada a la API puede cambiar de la noche a la mañana y el coste puede variar en función de las decisiones del desarrollador del modelo, como por ejemplo si las llamadas a la API en bloque se cobran de forma diferente». Los autores sugieren que hacer que los resultados de la evaluación sean personalizables mediante el uso de mecanismos para ajustar el coste de ejecución de los modelos, como proporcionar a los usuarios la opción de ajustar el coste de los tokens de entrada y salida para el proveedor de su elección, les ayudará a recalcular la disyuntiva entre coste y precisión. Para las evaluaciones posteriores de los agentes, debería haber recuentos de tokens de entrada/salida además de los costes en dólares, de modo que cualquiera que mire la evaluación en el futuro pueda recalcular el coste utilizando los precios actuales y decidir si el agente sigue siendo una buena opción. Los puntos de referencia de los agentes permiten atajos: los puntos de referencia solo son útiles si reflejan la precisión del mundo real, señala el informe. Por ejemplo, los atajos como el sobreajuste, en el que un modelo está tan estrechamente adaptado a sus datos de entrenamiento que no puede hacer predicciones o conclusiones precisas a partir de otros datos que no sean los de entrenamiento, dan como resultado puntos de referencia cuya precisión no se traduce al mundo real. «Este es un problema mucho más grave que la contaminación de los datos de entrenamiento de LLM, ya que el conocimiento de las muestras de prueba se puede programar directamente en el agente en lugar de simplemente estar expuesto a ellas durante el entrenamiento», decía el informe. Las evaluaciones de agentes carecen de estandarización y reproducibilidad: el documento señaló que, sin evaluaciones de agentes reproducibles, es difícil saber si ha habido mejoras genuinas, y esto puede engañar a los desarrolladores posteriores al seleccionar agentes para sus aplicaciones. Sin embargo, como señalaron Kapoor y Narayanan en su blog, son cautelosamente optimistas de que la reproducibilidad en la investigación de agentes de IA mejorará porque hay un mayor intercambio de código y datos utilizados en el desarrollo de documentos publicados. Y, añadieron, “Otra razón es que la investigación demasiado optimista se enfrenta rápidamente a la realidad cuando los productos basados en evaluaciones engañosas acaban fracasando”. El camino del futuro A pesar de la falta de estándares, dijo Wong de Info-Tech, las empresas siguen buscando utilizar agentes en sus aplicaciones. “Estoy de acuerdo en que no hay estándares para medir el rendimiento de las aplicaciones de IA basadas en agentes”, señaló. “A pesar de eso, las organizaciones afirman que existen beneficios en la búsqueda de arquitecturas basadas en agentes para impulsar una mayor precisión y reducir los costes y la dependencia de los LLM monolíticos”. La falta de estándares y el enfoque en las evaluaciones basadas en los costes probablemente continuarán, dijo, porque muchas organizaciones están analizando el valor que pueden aportar las soluciones basadas en IA generativa. Sin embargo, el coste es uno de los muchos factores que se deben tener en cuenta. Las organizaciones con las que ha trabajado priorizan factores como las habilidades necesarias para su uso, la facilidad de implementación y mantenimiento, y la escalabilidad por encima del costo a la hora de evaluar las soluciones. Y, dijo, «estamos empezando a ver más organizaciones en diversas industrias donde la sostenibilidad se ha convertido en un factor esencial para los casos de uso de IA que persiguen». Eso hace que la IA basada en agentes sea el camino del futuro, porque utiliza modelos más pequeños, lo que reduce el consumo de energía y, al mismo tiempo, preserva o incluso mejora el rendimiento del modelo. Copyright © 2024 IDG Communications, Inc.

Todo lo que necesitas saber sobre tecnología

Investigadores revelan fallas en la evaluación comparativa de agentes de IA

Deja una respuesta Cancelar la respuesta

Investigadores revelan fallas en la evaluación comparativa de agentes de IA

EE.UU. crea cadenas globales de suministro de alta tecnología para mitigar riesgos vinculados a China

Sobre la no investigación del CSRB sobre el ataque a SolarWinds

Deja una respuesta Cancelar la respuesta