Los LLM generan 'tonterías fluidas' al razonar fuera de su zona de entrenamiento

¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora un nuevo estudio de los investigadores de la Universidad Estatal de Arizona sugiere que el famoso razonamiento de la «cadena de pensamiento» (cot) en modelos de idiomas grandes (LLM) puede ser más un «espejismo quebradizo» que la inteligencia genuina. La investigación se basa en un creciente trabajo que cuestiona la profundidad del razonamiento de LLM, pero se necesita una lente única de «distribución de datos» para probar dónde y por qué la cuna se descompone sistemáticamente. De manera crucial para los constructores de aplicaciones, el documento va más allá de la crítica para ofrecer una guía clara y práctica sobre cómo explicar estas limitaciones al desarrollar aplicaciones con motor LLM, desde estrategias de prueba hasta el papel de ajuste fino. La promesa y el problema de la provisión de cot de la cadena de pensamiento, que le pide a un LLM que «piense paso a paso», ha mostrado resultados impresionantes en tareas complejas, lo que lleva a la percepción de que los modelos están involucrados en procesos inferenciales similares a los humanos. Sin embargo, una inspección más cercana a menudo revela inconsistencias lógicas que desafían esta opinión. Varios estudios muestran que los LLM frecuentemente dependen de la semántica y pistas a nivel de superficie en lugar de los procedimientos lógicos. Los modelos generan lógica de sonido plausible repitiendo patrones de tokens que han visto durante el entrenamiento. Aún así, este enfoque a menudo falla en las tareas que se desvían de plantillas familiares o cuando se introduce información irrelevante. AI Scaling alcanza sus límites de potencia de límites, el aumento de los costos de los tokens y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo los mejores equipos son: convertir la energía en una ventaja estratégica arquitectando una inferencia eficiente para las ganancias de rendimiento real que desbloquean el ROI competitivo con los sistemas de IA sostenibles asegura su lugar para mantenerse a la vanguardia: https://bit.ly/4mwgngo a pesar de estas observaciones, los investigadores del nuevo estudio argumentan que «una comprensión sistemática de una comprensión sistemática de la que razonan cot razonamiento es un misterio que todavía es un misterio, lo que sigue siendo un misterio, lo que sigue siendo un misterio. El trabajo anterior ya ha demostrado que los LLM luchan por generalizar sus habilidades de razonamiento. Como señala el artículo, «La evidencia teórica y empírica muestra que la cuna se generaliza bien solo cuando las entradas de prueba comparten estructuras latentes con datos de entrenamiento; de lo contrario, el rendimiento disminuye bruscamente». Una nueva lente sobre el razonamiento de LLM, los investigadores de ASU proponen una nueva lente para ver este problema: la cuna no es un acto de razonamiento, sino una forma sofisticada de coincidencia de patrones, fundamentalmente vinculada por los patrones estadísticos en sus datos de entrenamiento. Posten que «el éxito de COT no se deriva de la capacidad de razonamiento inherente de un modelo, sino de su capacidad para generalizar condicionalmente a casos de prueba fuera de distribución (OOD) que son estructuralmente similares a los ejemplos de distribución». En otras palabras, un LLM es bueno para aplicar patrones antiguos a nuevos datos que se ven similares, pero no para resolver problemas realmente novedosos. Lente de distribución de datos Fuente: GitHub Para probar esta hipótesis, diseccionaron las capacidades de COT en tres dimensiones de «cambio de distribución» (cambios entre los datos de entrenamiento y los datos de la prueba). Primero, probaron la «generalización de tareas» para ver si un modelo podría aplicar un proceso de razonamiento aprendido a un nuevo tipo de tarea. En segundo lugar, examinaron la «generalización de longitud» para determinar si podía manejar cadenas de razonamiento que son significativamente más largas o más cortas que las que fue entrenada. Finalmente, evaluaron la «generalización de formato» para medir cuán sensible es el modelo a los cambios menores en la redacción o estructura del aviso. Para su análisis, desarrollaron un marco llamado DataAlchemy para entrenar LLMS más pequeños desde cero en un entorno controlado, lo que les permite medir con precisión cómo el rendimiento se degrada cuando se empuja más allá de los datos de entrenamiento. «La lente de distribución de datos y el entorno controlado son fundamentales para lo que estábamos tratando de transmitir», dijo a VentureBeat Chengshuai Zhao, estudiante de doctorado de ASU y coautor del periódico. «Esperamos crear un espacio donde el público, los investigadores y los desarrolladores puedan explorar y investigar libremente la naturaleza de los LLM y avanzar en los límites del conocimiento humano». El Mirage confirmó en base a sus hallazgos, los investigadores concluyen que el razonamiento de COT es una «forma sofisticada de coincidencia de patrones estructurados, limitada fundamentalmente por la distribución de datos observada durante el entrenamiento». Cuando se prueba incluso ligeramente fuera de esta distribución, el rendimiento colapsa. Lo que parece un razonamiento estructurado es más un espejismo, «emergiendo de los patrones memorizados o interpolados en los datos de entrenamiento en lugar de la inferencia lógica». El desglose fue consistente en las tres dimensiones. En nuevas tareas, los modelos no pudieron generalizar y, en cambio, replicaron los patrones más cercanos que habían visto durante el entrenamiento. Cuando se enfrentan a cadenas de razonamiento de diferentes longitudes, lucharon, a menudo tratando de agregar o eliminar artificialmente pasos para que coincidan con la longitud de sus ejemplos de entrenamiento. Finalmente, su desempeño resultó altamente sensible a los cambios superficiales en la solicitud, especialmente las variaciones en elementos e instrucciones centrales. Curiosamente, los investigadores encontraron que estas fallas podrían arreglarse rápidamente. Al ajustar los modelos en una muestra muy pequeña de los datos nuevos y invisibles a través del ajuste fino supervisado (SFT), el rendimiento en ese tipo específico de problema aumentó rápidamente. Sin embargo, esta solución rápida respalda aún más la teoría de la coincidencia de patrones, lo que sugiere que el modelo no está aprendiendo a razonar de manera más abstracta, sino que solo memoriza un nuevo patrón para superar una debilidad específica. Para llevar para la empresa, los investigadores ofrecen una advertencia directa a los profesionales, destacando «el riesgo de confiar en la cuna como una solución plug-and-play para tareas de razonamiento y precaución contra la equitación de la producción de estilo COT con pensamiento humano». Proporcionan tres consejos clave para los desarrolladores que crean aplicaciones con LLM. 1) proteger contra la excesiva dependencia y falsa confianza. La COT no debe tratarse como un módulo confiable para el razonamiento en campos de alto riesgo como las finanzas o el análisis legal. Los LLM pueden producir «tonterías fluidas» (razonamiento plausible pero lógicamente defectuoso) que es más engañoso que una respuesta absoluta incorrecta. Los autores enfatizan que «la auditoría suficiente de los expertos en dominios es indispensable». «El avance de la ciencia debe permanecer centrado en el humano: las máquinas pueden ayudar, pero el descubrimiento aún prospera en la humanidad y la curiosidad», dijo Zhao. 2) Priorizar las pruebas fuera de distribución (OOD). La validación estándar, donde los datos de los datos de prueba reflejan los datos de capacitación, no es suficiente para medir la verdadera robustez. Los desarrolladores deben implementar pruebas rigurosas que investigan sistemáticamente las fallas en las variaciones de tareas, longitud y formato. 3) Reconocer el ajuste fino como un parche, no como panacea. Si bien el ajuste fino supervisado (SFT) puede «parchear» rápidamente el rendimiento de un modelo en una nueva distribución específica de datos, no crea una generalización verdadera. Simplemente expande ligeramente la «burbuja en distribución» del modelo. Confiar en SFT para arreglar cada falla de OOD es una estrategia insostenible que no aborda la falta de razonamiento abstracto del modelo. Si bien la cuna no es una forma de cognición humana, esta limitación se puede manejar. La mayoría de las aplicaciones empresariales implican un conjunto de tareas relativamente estrechas y predecibles. Los hallazgos del documento proporcionan un plan para garantizar la confiabilidad dentro de estos dominios. Los desarrolladores pueden construir suites de evaluación rigurosas que prueben sistemáticamente el rendimiento del modelo contra las variaciones específicas de tareas, longitud y formato que encontrará su aplicación. Esto les permite mapear los límites de la zona de confort de «distribución» de un modelo e identificar dónde se alinea con sus necesidades específicas. Esta prueba dirigida transforma el ajuste fino de un «parche» reactivo en una estrategia proactiva para la alineación. Cuando las evaluaciones revelan una debilidad específica, los desarrolladores pueden crear pequeños conjuntos de datos SFT específicos para abordarlo. En lugar de tratar de lograr un razonamiento general amplio, este enfoque utiliza SFT quirúrgicamente para garantizar que las capacidades de coincidencia de patrones del modelo estén precisamente alineadas con los contornos de una tarea empresarial específica. En última instancia, el estudio ofrece una lente práctica para ir más allá de las aplicaciones de esperanza e ingeniería LLM para lograr un éxito predecible. Insights diarias sobre casos de uso de negocios con VB diariamente Si desea impresionar a su jefe, VB Daily lo tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo. Lea nuestra Política de privacidad Gracias por suscribirse. Mira más boletines de VB aquí. Ocurrió un error.

Todo lo que necesitas saber sobre tecnología

Los LLM generan ‘tonterías fluidas’ al razonar fuera de su zona de entrenamiento

Deja una respuesta Cancelar la respuesta

Los LLM generan ‘tonterías fluidas’ al razonar fuera de su zona de entrenamiento

Papel de pantalla Miércoles: Android Wallpapers 2025-08-20

Cómo comprar con seguridad durante el día de Amazon Prime

Deja una respuesta Cancelar la respuesta