¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscripción ahora investigadores de la Universidad de Illinois Urbana-Champaign y la Universidad de Virginia han desarrollado una nueva arquitectura modelo que podría conducir a sistemas de IA más robustos con capacidades de razonamiento más potentes. Llamado un transformador basado en energía (EBT), la arquitectura muestra una capacidad natural para utilizar la escala de tiempo de inferencia para resolver problemas complejos. Para la empresa, esto podría traducirse en aplicaciones de IA rentables que pueden generalizarse a situaciones novedosas sin la necesidad de modelos especializados ajustados. El desafío del pensamiento del sistema 2 en psicología, el pensamiento humano a menudo se divide en dos modos: el sistema 1, que es rápido e intuitivo, y el sistema 2, que es lento, deliberado y analítico. Los modelos actuales de idiomas grandes (LLM) se destacan en las tareas de estilo 1 estilo System 1, pero la industria de la inteligencia artificial se centra cada vez más en permitir el pensamiento del Sistema 2 para enfrentar desafíos de razonamiento más complejos. Los modelos de razonamiento utilizan diversas técnicas de escala de inferencia para mejorar su rendimiento en problemas difíciles. Un método popular es el aprendizaje de refuerzo (RL), utilizado en modelos como Deepseek-R1 y los modelos «O-Series» de Openii, donde la IA es recompensada por producir tokens de razonamiento hasta que alcanza la respuesta correcta. Otro enfoque, a menudo llamado Best-of-N, implica generar múltiples respuestas potenciales y usar un mecanismo de verificación para seleccionar el mejor. Sin embargo, estos métodos tienen inconvenientes significativos. A menudo se limitan a una gama estrecha de problemas fácilmente verificables, como las matemáticas y la codificación, y pueden degradar el rendimiento de otras tareas, como la escritura creativa. Además, la evidencia reciente sugiere que los enfoques basados en RL podrían no estar enseñando modelos nuevas habilidades de razonamiento, en cambio, solo es probable que usen patrones de razonamiento exitosos que ya conocen. Esto limita su capacidad para resolver problemas que requieren una verdadera exploración y están más allá de su régimen de entrenamiento. Modelos basados en energía (EBM) La arquitectura propone un enfoque diferente basado en una clase de modelos conocidos como modelos basados en energía (EBM). La idea central es simple: en lugar de generar directamente una respuesta, el modelo aprende una «función de energía» que actúa como un verificador. Esta función toma una entrada (como un aviso) y una predicción de candidato y asigna un valor, o «energía». Una puntuación de baja energía indica una alta compatibilidad, lo que significa que la predicción es una buena opción para la entrada, mientras que una puntuación de alta energía significa una mala coincidencia. Aplicando esto al razonamiento de IA, los investigadores proponen en un documento que los desarrolladores deben ver «el pensamiento como un procedimiento de optimización con respecto a un verificador aprendido, que evalúa la compatibilidad (probabilidad no anormalizada) entre una entrada y predicción candidata». El proceso comienza con una predicción aleatoria, que luego se refina progresivamente minimizando su puntaje de energía y explorando el espacio de posibles soluciones hasta que converge en una respuesta altamente compatible. Este enfoque se basa en el principio de que verificar una solución a menudo es mucho más fácil que generar uno desde cero. Este diseño «centrado en el verificador» aborda tres desafíos clave en el razonamiento de IA. Primero, permite la asignación dinámica de cómputo, lo que significa que los modelos pueden «pensar» para más tiempo en problemas más difíciles y más corto en problemas fáciles. En segundo lugar, EBMS puede manejar naturalmente la incertidumbre de los problemas del mundo real donde no hay una respuesta clara. Tercero, actúan como sus propios verificadores, eliminando la necesidad de modelos externos. A diferencia de otros sistemas que utilizan generadores y verificadores separados, EBMS se combinan en un solo modelo unificado. Una ventaja clave de este arreglo es una mejor generalización. Debido a que verificar una solución en los datos nuevos y desactualizados (OOD) a menudo es más fácil que generar una respuesta correcta, EBMS puede manejar mejor escenarios desconocidos. A pesar de su promesa, EBMS ha luchado históricamente con la escalabilidad. Para resolver esto, los investigadores introducen EBTS, que son modelos de transformadores especializados diseñados para este paradigma. Los EBT están capacitados para verificar primero la compatibilidad entre un contexto y una predicción, luego refinar las predicciones hasta que encuentren la producción de energía más baja (más compatible). Este proceso simula efectivamente un proceso de pensamiento para cada predicción. Los investigadores desarrollaron dos variantes EBT: un modelo de decodificador inspirado en la arquitectura GPT y un modelo bidireccional similar a Bert. Transformador basado en energía (Fuente: GitHub) La arquitectura de los EBT los hace flexibles y compatibles con varias técnicas de escala de tiempo de inferencia. “Los EBT pueden generar cunas más largas, autoverificar, hacer lo mejor de N [or] Puede probar de muchos EBT «, dijo a VentureBeat, Alexi Gladstone, estudiante de doctorado en la informática de la Universidad de Illinois Urbana y autor principal del periódico. EBTS en acción Los investigadores compararon EBTS con las arquitecturas establecidas: la receta de transformador ++ popular para la generación de texto (modalidades discretas) y el transformador de difusión (DIT) para tareas como la predicción de videos y la descenso de la imagen (modalidades continuas). Durante el pretrete, EBT demostró una eficiencia superior, logrando una tasa de escala hasta un 35% más alta que el transformador ++ a través de los datos, el tamaño de los lotes, los parámetros y el calculador de la vida. Energía más baja), EBTS mejoró el rendimiento del modelado de idiomas en un 29% más que Transformer ++. Los EBT se generalizan mejor que las otras arquitecturas. con la magnitud de los cambios de distribución, destacando el pensamiento como un mecanismo crítico para una generalización sólida más allá de las distribuciones de entrenamiento «. Los beneficios de los EBT son importantes por dos razones. En segundo lugar, los EBT muestran una eficiencia de datos mucho mejor. «Los EBT son muy compatibles con los marcos de hardware/inferencia actuales», dijo Gladstone, incluida la decodificación especulativa utilizando modelos de alimentación en GPU o TPUS. Las capacidades de generalización de EBT podrían hacer que sean una base poderosa y confiable para construir la próxima generación de aplicaciones de IA. AI, desde los cambios regulatorios hasta las implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.
Deja una respuesta