¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora un nuevo estudio realizado por investigadores de Google Deepmind y University College London revela cómo se forman los modelos de idiomas grandes (LLM), mantienen y pierden confianza en sus respuestas. Los hallazgos revelan similitudes sorprendentes entre los sesgos cognitivos de LLM y humanos, al tiempo que destacan las marcadas diferencias. La investigación revela que los LLM pueden estar demasiado conscientes en sus propias respuestas, pero rápidamente pierden esa confianza y cambia sus mentes cuando se les presenta un contraargumento, incluso si el contraargumento es incorrecto. Comprender los matices de este comportamiento puede tener consecuencias directas sobre cómo construye aplicaciones LLM, especialmente interfaces conversacionales que abarcan varios turnos. Prueba de confianza en LLM Un factor crítico en el despliegue seguro de LLM es que sus respuestas van acompañadas de un sentido confiable de confianza (la probabilidad de que el modelo asigne al token de respuesta). Si bien sabemos que los LLM pueden producir estos puntajes de confianza, la medida en que pueden usarlos para guiar el comportamiento adaptativo está mal caracterizado. También existe evidencia empírica de que los LLM pueden estar demasiado conscientes en su respuesta inicial, pero también ser altamente sensibles a las críticas y rápidamente no ser confiado en esa misma opción. Para investigar esto, los investigadores desarrollaron un experimento controlado para probar cómo los LLM actualizan su confianza y deciden si cambiar sus respuestas cuando se les presenta consejos externos. En el experimento, una «respuesta a LLM» se le dio una pregunta de elección binaria, como identificar la latitud correcta para una ciudad de dos opciones. Después de tomar su decisión inicial, el LLM recibió consejos de un ficticio «consejo LLM». Este consejo vino con una calificación de precisión explícita (por ejemplo, «este consejo LLM es 70% preciso») y estaría de acuerdo con, oponerse o mantenerse neutral en la elección inicial de la LLM. Finalmente, se le pidió a la respuesta LLM que tomara su decisión final. La serie AI Impact regresa a San Francisco – 5 de agosto La próxima fase de IA está aquí – ¿Estás listo? Únase a los líderes de Block, GSK y SAP para una visión exclusiva de cómo los agentes autónomos están remodelando los flujos de trabajo empresariales, desde la toma de decisiones en tiempo real hasta la automatización de extremo a extremo. Asegure su lugar ahora: el espacio es limitado: https://bit.ly/3GUUPLF Ejemplo Prueba de confianza en LLMS Fuente: ARXIV Una parte clave del experimento fue controlar si la respuesta inicial de la LLM fue visible durante la segunda decisión final. En algunos casos, se mostró, y en otros, estaba oculto. Esta configuración única, imposible de replicar a los participantes humanos que no pueden simplemente olvidar sus elecciones anteriores, permitió a los investigadores aislar cómo la memoria de una decisión pasada influye en la confianza actual. Una condición de referencia, donde la respuesta inicial estaba oculta y el consejo fue neutral, estableció cuánto podría cambiar la respuesta de una LLM simplemente debido a la varianza aleatoria en el procesamiento del modelo. El análisis se centró en cómo la confianza de la LLM en su elección original cambió entre el primer y el segundo turno, proporcionando una imagen clara de cómo la creencia inicial, o anterior, afecta un «cambio de mente» en el modelo. El exceso de confianza y la falta de confianza, los investigadores primero examinaron cómo la visibilidad de la respuesta de la LLM afectó su tendencia a cambiar su respuesta. Observaron que cuando el modelo podía ver su respuesta inicial, mostró una tendencia reducida a cambiar, en comparación con cuando la respuesta estaba oculta. Este hallazgo apunta a un sesgo cognitivo específico. Como señala el documento, «este efecto, la tendencia a seguir con la elección inicial de uno en mayor medida cuando esa elección era visible (en oposición a la ocultación) durante la contemplación de la elección final, está estrechamente relacionada con un fenómeno descrito en el estudio de la toma de decisiones humanas, un sesgo de elección». El estudio también confirmó que los modelos integran asesoramiento externo. Cuando se enfrentó a un consejo opuesto, el LLM mostró una mayor tendencia a cambiar de opinión y una tendencia reducida cuando el consejo fue de apoyo. «Este hallazgo demuestra que el contestador LLM integra adecuadamente la dirección de los consejos para modular su cambio de la tasa mental», escriben los investigadores. Sin embargo, también descubrieron que el modelo es demasiado sensible a la información contraria y tiene una actualización de confianza demasiado grande como resultado. Sensibilidad de los LLM a diferentes entornos en la fuente de prueba de confianza: ARXIV Curiosamente, este comportamiento es contrario al sesgo de confirmación a menudo visto en humanos, donde las personas favorecen la información que confirma sus creencias existentes. Los investigadores encontraron que los LLM «con sobrepeso se oponen en lugar de un consejo de apoyo, tanto cuando la respuesta inicial del modelo era visible y oculta al modelo». Una posible explicación es que las técnicas de capacitación como el aprendizaje de refuerzo de la retroalimentación humana (RLHF) pueden alentar a los modelos a ser excesivamente deferentes a la entrada del usuario, un fenómeno conocido como sycophancy (que sigue siendo un desafío para los laboratorios de IA). Implicaciones para las aplicaciones empresariales Este estudio confirma que los sistemas de IA no son los agentes puramente lógicos que a menudo se perciben. Exhiben su propio conjunto de prejuicios, algunos que se asemejan a los errores cognitivos humanos y otros exclusivos de sí mismos, lo que puede hacer que su comportamiento sea impredecible en términos humanos. Para las aplicaciones empresariales, esto significa que en una conversación extendida entre un humano y un agente de IA, la información más reciente podría tener un impacto desproporcionado en el razonamiento de la LLM (especialmente si es contradictoria con la respuesta inicial del modelo), lo que podría hacer que descarte una respuesta inicialmente correcta. Afortunadamente, como también muestra el estudio, podemos manipular la memoria de una LLM para mitigar estos sesgos no deseados de manera que no son posibles con los humanos. Los desarrolladores que construyen agentes de conversación múltiples giros pueden implementar estrategias para administrar el contexto de la IA. Por ejemplo, se puede resumir periódicamente una conversación larga, con hechos y decisiones clave presentadas neutralmente y despojadas de qué agente tomó qué opción. Este resumen se puede utilizar para iniciar una nueva conversación condensada, proporcionando al modelo una pizarra limpia para razonar y ayudando a evitar los sesgos que pueden arrastrarse durante los diálogos extendidos. A medida que los LLM se integran más en los flujos de trabajo empresariales, comprender los matices de sus procesos de toma de decisiones ya no es opcional. Seguir la investigación fundamental como esta permite a los desarrolladores anticipar y corregir estos sesgos inherentes, lo que lleva a aplicaciones que no son solo más capaces, sino también más robustas y confiables. Insights diarias sobre casos de uso de negocios con VB diariamente Si desea impresionar a su jefe, VB Daily lo tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo. Lea nuestra Política de privacidad Gracias por suscribirse. Mira más boletines de VB aquí. Ocurrió un error.