Desde que ChatGPT cayó en el otoño de 2022, todos y sus burros han probado suerte con la ingeniería rápida: han encontrado una forma inteligente de expresar su consulta en un modelo de lenguaje grande (LLM) o en un generador de video o arte de IA para obtener los mejores resultados o protecciones de paso lateral. Internet está repleto de guías de ingeniería, hojas de trucos e hilos de consejos que le ayudarán a aprovechar al máximo un LLM. En el sector comercial, las empresas ahora están disputando LLM para crear copilotos de productos, automatizar trabajos tediosos y crear asistentes personales. y más, dice Austin Henley, un ex empleado de Microsoft que realizó una serie de entrevistas con personas que desarrollan copilotos con tecnología LLM. “Todas las empresas intentan utilizarlo para prácticamente todos los casos de uso que puedan imaginar”, afirma Henley. “La única tendencia real puede ser que no haya tendencia. Lo que es mejor para cualquier modelo, conjunto de datos y estrategia de estímulo determinado probablemente sea específico de la combinación particular en cuestión”. —Rick Battle y Teja Gollapudi, VMware Para lograrlo, han contado con la ayuda de ingenieros rápidos de manera profesional. Sin embargo, una nueva investigación sugiere que la mejor manera de realizar la ingeniería rápida es el modelo en sí, y no un ingeniero humano. Esto ha arrojado dudas sobre el futuro de la ingeniería rápida y ha aumentado las sospechas de que una buena parte de los trabajos de ingeniería rápida pueden ser una moda pasajera, al menos tal como se imagina actualmente este campo. Las indicaciones autoajustadas son exitosas y extrañas. Rick Battle y Teja Gollapudi en la nube con sede en California. La empresa de informática VMware estaba perpleja por lo quisquilloso e impredecible que era el rendimiento del LLM en respuesta a técnicas de indicaciones extrañas. Por ejemplo, las personas han descubierto que pedir a los modelos que expliquen su razonamiento paso a paso (una técnica llamada cadena de pensamiento) mejoró su desempeño en una variedad de preguntas de matemáticas y lógica. Aún más extraño, Battle descubrió que darle a un modelo indicaciones positivas, como “esto será divertido” o “eres tan inteligente como chatGPT”, a veces mejoraba el rendimiento. Battle y Gollapudi decidieron probar sistemáticamente cómo las diferentes estrategias de ingeniería rápida impactan la capacidad de un LLM para resolver preguntas de matemáticas de la escuela primaria. Probaron tres modelos diferentes de lenguaje de código abierto con 60 combinaciones de mensajes diferentes cada uno. Lo que encontraron fue una sorprendente falta de coherencia. Incluso las indicaciones en cadena de pensamientos a veces ayudaron y otras perjudicaron el desempeño. «La única tendencia real puede ser que no haya tendencia», escriben. «Lo que es mejor para cualquier modelo, conjunto de datos y estrategia de indicaciones probablemente sea específico de la combinación particular en cuestión». Según un equipo de investigación, ningún ser humano debería optimizar manualmente las indicaciones nunca más. Existe una alternativa a la prueba y -Ingeniería de indicaciones de estilo de error que produjo resultados tan inconsistentes: pida al modelo de lenguaje que diseñe su propia indicación óptima. Recientemente, se han desarrollado nuevas herramientas para automatizar este proceso. Dados algunos ejemplos y una métrica de éxito cuantitativa, estas herramientas encontrarán de forma iterativa la frase óptima para incorporar al LLM. Battle y sus colaboradores descubrieron que en casi todos los casos, este mensaje generado automáticamente funcionó mejor que el mejor mensaje encontrado mediante prueba y error. Y el proceso fue mucho más rápido, un par de horas en lugar de varios días de búsqueda. Las indicaciones óptimas que arrojaba el algoritmo eran tan extrañas que es probable que a ningún ser humano se le hubieran ocurrido jamás. «Literalmente no podía creer algunas de las cosas que generó», dice Battle. En un caso, el mensaje era simplemente una referencia extendida a Star Trek: “Comando, necesitamos que trace un curso a través de esta turbulencia y localice la fuente de la anomalía. Utilice todos los datos disponibles y su experiencia para guiarnos a través de esta situación desafiante”. Aparentemente, pensar que fue el Capitán Kirk ayudó a este LLM en particular a obtener mejores resultados en las preguntas de matemáticas de la escuela primaria. Battle dice que optimizar las indicaciones algorítmicamente tiene fundamentalmente sentido dado lo que realmente son los modelos de lenguaje: modelos. “Mucha gente antropomorfiza estas cosas porque ‘habla inglés’. No, no es así”, dice Battle. “No habla inglés. Hace muchos cálculos”. De hecho, a la luz de los resultados de su equipo, Battle dice que ningún humano debería volver a optimizar manualmente las indicaciones. «Estás sentado ahí tratando de descubrir qué combinación mágica especial de palabras te dará el mejor rendimiento posible para tu tarea». Battle dice: “Pero ahí es donde, con suerte, esta investigación entrará y dirá ‘no te molestes’. Simplemente desarrolle una métrica de puntuación para que el sistema pueda determinar si un mensaje es mejor que otro y luego deje que el modelo se optimice”. Los mensajes autoajustados también hacen que las imágenes sean más bonitas. Los algoritmos de generación de imágenes también pueden beneficiarse de los mensajes generados automáticamente. Recientemente, un equipo de los laboratorios Intel, dirigido por Vasudev Lal, emprendió una búsqueda similar para optimizar las indicaciones para el modelo de generación de imágenes Difusión Estable. «Parece más un error de los LLM y los modelos de difusión, no una característica, que hay que hacer esta ingeniería rápida y experta», dice Lal. «Entonces queríamos ver si podemos automatizar este tipo de ingeniería rápida». «Ahora tenemos esta maquinaria completa, el ciclo completo que se completa con este aprendizaje por refuerzo. … Es por eso que podemos superar la ingeniería rápida humana”. —Vasudev Lal, el equipo de Intel LabsLal creó una herramienta llamada NeuroPrompts que toma un mensaje de entrada simple, como “niño a caballo”, y lo mejora automáticamente para producir una mejor imagen. Para hacer esto, comenzaron con una variedad de indicaciones generadas por expertos en ingeniería de indicaciones humanas. Luego entrenaron un modelo de lenguaje para transformar indicaciones simples en indicaciones de nivel experto. Además de eso, utilizaron el aprendizaje por refuerzo para optimizar estas indicaciones y crear imágenes estéticamente más agradables, según lo calificado por otro modelo de aprendizaje automático, PickScore, una herramienta de evaluación de imágenes desarrollada recientemente. NeuroPrompts es un sintonizador automático de indicaciones de IA generativa que transforma imágenes simples indicaciones para obtener resultados de StableDiffusion más detallados y visualmente impresionantes, como en este caso, una imagen generada por una indicación genérica (izquierda) frente a su imagen equivalente generada por NeuroPrompt. Intel Labs/Stable DiffusionAquí también, las indicaciones generadas automáticamente obtuvieron mejores resultados que las de los expertos. indicaciones humanas que utilizaron como punto de partida, al menos según la métrica PickScore. A Lal esto no le sorprendió. «Los humanos sólo lo lograrán mediante prueba y error», dice Lal. “Pero ahora tenemos toda esta maquinaria, el ciclo completo que se completa con este aprendizaje por refuerzo. … Es por eso que podemos superar la ingeniería de avisos humanos”. Dado que la calidad estética es notoriamente subjetiva, Lal y su equipo querían darle al usuario cierto control sobre cómo se optimizaba su aviso. En su herramienta, el usuario puede especificar el mensaje original (por ejemplo, «niño a caballo»), así como un artista a emular, un estilo, un formato y otros modificadores. Lal cree que a medida que evolucionan los modelos generativos de IA, ya sea generadores de imágenes o modelos de lenguaje grandes, las extrañas peculiaridades de la dependencia rápida deberían desaparecer. «Creo que es importante que se investiguen este tipo de optimizaciones y luego, en última instancia, se incorporen realmente al modelo base en sí, de modo que no sea necesario un paso de ingeniería complicado y rápido». La ingeniería rápida seguirá viva, con algún nombre. Incluso Si los avisos de ajuste automático se convierten en la norma de la industria, los trabajos de ingeniería de avisos de alguna forma no desaparecerán, dice Tim Cramer, vicepresidente senior de ingeniería de software de Red Hat. Adaptar la IA generativa a las necesidades de la industria es una tarea complicada y de múltiples etapas que seguirá requiriendo que los seres humanos estén al tanto en el futuro previsible. “Tal vez hoy los llamemos ingenieros rápidos. Pero creo que la naturaleza de esa interacción seguirá cambiando a medida que los modelos de IA también sigan cambiando”. —Vasudev Lal, Intel Labs“Creo que habrá ingenieros rápidos durante bastante tiempo y científicos de datos”, dice Cramer. “No se trata sólo de hacer preguntas al LLM y asegurarse de que la respuesta se vea bien. Pero hay una serie de cosas que los ingenieros realmente necesitan poder hacer”. “Es muy fácil hacer un prototipo”, dice Henley. «Es muy difícil producirlo». La ingeniería rápida parece una gran pieza del rompecabezas cuando se construye un prototipo, dice Henley, pero muchas otras consideraciones entran en juego cuando se fabrica un producto de calidad comercial. Los desafíos de fabricar un producto comercial incluyen garantizar la confiabilidad, por ejemplo, fallar con gracia cuando el modelo se desconecta; adaptar la salida del modelo al formato apropiado, ya que muchos casos de uso requieren salidas distintas al texto; pruebas para asegurarse de que el asistente de IA no haga algo dañino ni siquiera en un pequeño número de casos; y garantizar la seguridad, la privacidad y el cumplimiento. Las pruebas y el cumplimiento son particularmente difíciles, dice Henley, ya que las estrategias tradicionales de prueba de desarrollo de software no están adaptadas para los LLM no deterministas. Para cumplir con estas innumerables tareas, muchas grandes empresas están anunciando un nuevo título de trabajo: Large Language Model Operations, o LLMOps, que incluye ingeniería rápida en su ciclo de vida, pero también implica todas las demás tareas necesarias para implementar el producto. Henley dice que los predecesores de LLMOps, los ingenieros de operaciones de aprendizaje automático (MLOps), están en la mejor posición para asumir estos trabajos. Ya sea que los títulos de trabajo sean “ingeniero rápido”, “ingeniero LLMOps” o algo completamente nuevo, la naturaleza del trabajo seguirá evolucionando rápidamente. «Tal vez hoy los llamemos ingenieros rápidos», dice Lal, «pero creo que la naturaleza de esa interacción seguirá cambiando a medida que los modelos de IA también sigan cambiando». con otro tipo de categoría laboral o función laboral”, dice Cramer, “pero no creo que estas cosas vayan a desaparecer pronto. Y el panorama es demasiado loco en este momento. Todo está cambiando mucho. No vamos a resolverlo todo en unos meses”. Henley dice que, hasta cierto punto, en esta fase inicial del campo, la única regla predominante parece ser la ausencia de reglas. «Esto es una especie de salvaje oeste en este momento». él dice.De los artículos de su sitioArtículos relacionados en la Web
Source link
Deja una respuesta