El año pasado, la ingeniería de indicaciones se convirtió en un trabajo de moda en la industria de la IA, pero parece que Anthropic ahora está desarrollando herramientas para automatizarla al menos parcialmente. Anthropic lanzó varias características nuevas el martes para ayudar a los desarrolladores a crear aplicaciones más útiles con el modelo de lenguaje de la startup, Claude, según una publicación en el blog de la empresa. Los desarrolladores ahora pueden usar Claude 3.5 Sonnet para generar, probar y evaluar indicaciones, utilizando técnicas de ingeniería de indicaciones para crear mejores entradas y mejorar las respuestas de Claude para tareas especializadas. Los modelos de lenguaje son bastante indulgentes cuando les pides que realicen algunas tareas, pero a veces pequeños cambios en la redacción de una indicación pueden llevar a grandes mejoras en los resultados. Normalmente, tendrías que descubrir esa redacción tú mismo o contratar a un ingeniero de indicaciones para que lo haga, pero esta nueva característica ofrece comentarios rápidos que podrían facilitar la búsqueda de mejoras. Las características se encuentran dentro de Anthropic Console bajo una nueva pestaña Evaluar. Console es la cocina de pruebas de la startup para desarrolladores, creada para atraer a las empresas que buscan crear productos con Claude. Una de las características, presentada en mayo, es el generador de indicaciones integrado de Anthropic; Esto toma una breve descripción de una tarea y construye un mensaje mucho más largo y detallado, utilizando las propias técnicas de ingeniería de mensajes de Anthropic. Si bien las herramientas de Anthropic pueden no reemplazar a los ingenieros de mensajes por completo, la compañía dijo que ayudaría a los nuevos usuarios y ahorraría tiempo a los ingenieros de mensajes experimentados. Dentro de Evaluate, los desarrolladores pueden probar qué tan efectivas son las indicaciones de su aplicación de IA en una variedad de escenarios. Los desarrolladores pueden cargar ejemplos del mundo real a una suite de pruebas o pedirle a Claude que genere una serie de casos de prueba generados por IA. Luego, los desarrolladores pueden comparar qué tan efectivas son varias indicaciones una al lado de la otra y calificar las respuestas de muestra en una escala de cinco puntos. Una indicación que se alimenta generó datos para encontrar respuestas buenas y malas. Créditos de imagen: Anthropic En un ejemplo de la publicación del blog de Anthropic, un desarrollador identificó que su aplicación estaba dando respuestas que eran demasiado cortas en varios casos de prueba. El desarrollador pudo modificar una línea en su mensaje para hacer que las respuestas fueran más largas y aplicarla simultáneamente a todos sus casos de prueba. Eso podría ahorrarles mucho tiempo y esfuerzo a los desarrolladores, especialmente a aquellos con poca o ninguna experiencia en ingeniería rápida. El director ejecutivo y cofundador de Anthropic, Dario Amodei, dijo que la ingeniería rápida era una de las cosas más importantes para la adopción generalizada de la IA generativa en las empresas en una entrevista de Google Cloud Next a principios de este año. «Parece simple, pero 30 minutos con un ingeniero rápido a menudo pueden hacer que una aplicación funcione cuando antes no lo hacía», dijo Amodei.