“¿Qué necesito para jugar golf en climas fríos?” “¿Cuáles son las diferencias entre las zapatillas de trail y las zapatillas para correr?” “¿Cuáles son los mejores juguetes de dinosaurios para un niño de cinco años?” Estas son algunas de las preguntas abiertas que los clientes pueden hacer un útil asociado de ventas en una tienda física. Pero, ¿cómo pueden los clientes obtener respuestas a preguntas similares mientras compran en línea? La respuesta de Amazon es Rufus, un asistente de compras impulsado por IA generativa. Rufus ayuda a los clientes de Amazon a tomar decisiones de compra más informadas respondiendo una amplia gama de preguntas dentro de la aplicación de Amazon. Los usuarios pueden obtener detalles del producto, comparar opciones y recibir recomendaciones de productos. Dirijo el equipo de científicos e ingenieros que construyeron el modelo de lenguaje grande (LLM) que impulsa Rufus. Para crear un asistente de compras conversacional útil, utilizamos técnicas innovadoras en múltiples aspectos de la IA generativa. Creamos un LLM personalizado especializado en compras; empleó generación de recuperación aumentada con una variedad de fuentes de evidencia novedosas; aprendizaje por refuerzo aprovechado para mejorar las respuestas; realizó avances en informática de alto rendimiento para mejorar la eficiencia de la inferencia y reducir la latencia; e implementó una nueva arquitectura de transmisión para que los compradores obtengan sus respuestas más rápidamente. Cómo obtiene Rufus las respuestas La mayoría de los LLM se capacitan primero en un amplio conjunto de datos que informa el conocimiento y las capacidades generales del modelo, y luego se personalizan para un dominio en particular. Eso no funcionaría para Rufus, ya que nuestro objetivo era entrenarlo con datos de compras desde el principio: todo el catálogo de Amazon, para empezar, así como reseñas de clientes e información de publicaciones de preguntas y respuestas de la comunidad. Entonces, nuestros científicos crearon un LLM personalizado que se capacitó con estas fuentes de datos junto con información pública en la web. Pero para estar preparado para responder la gran variedad de preguntas que podrían formularse, Rufus debe estar capacitado para ir más allá de sus datos de capacitación iniciales. y traer información nueva. Por ejemplo, para responder a la pregunta: «¿Esta sartén es apta para lavavajillas?» El LLM primero analiza la pregunta y luego determina qué fuentes de recuperación lo ayudarán a generar la respuesta. Nuestro LLM utiliza generación de recuperación aumentada (RAG) para extraer información de fuentes que se sabe que son confiables, como el catálogo de productos y las opiniones de los clientes. y publicaciones de preguntas y respuestas de la comunidad; también puede llamar a las API de Amazon Stores relevantes. Nuestro sistema RAG es enormemente complejo, tanto por la variedad de fuentes de datos utilizadas como por la diferente relevancia de cada una, según la pregunta. Cada LLM y cada uso de la IA generativa es un trabajo en progreso. Para que Rufus mejore con el tiempo, necesita aprender qué respuestas son útiles y cuáles se pueden mejorar. Los clientes son la mejor fuente de esa información. Amazon anima a los clientes a dar su opinión a Rufus, haciéndole saber al modelo si les gustó o no la respuesta, y esas respuestas se utilizan en un proceso de aprendizaje por refuerzo. Con el tiempo, Rufus aprende de los comentarios de los clientes y mejora sus respuestas. Chips especiales y técnicas de manipulación para RufusRufus debe poder interactuar con millones de clientes simultáneamente sin ningún retraso notable. Esto es particularmente desafiante ya que las aplicaciones de IA generativa requieren mucha computación, especialmente a la escala de Amazon. Para minimizar el retraso en la generación de respuestas y al mismo tiempo maximizar la cantidad de respuestas que nuestro sistema podría manejar, recurrimos a los chips de IA especializados de Amazon, Trainium e Inferentia. que están integrados con los principales servicios web de Amazon (AWS). Colaboramos con AWS en optimizaciones que mejoran la eficiencia de la inferencia del modelo, que luego se pusieron a disposición de todos los clientes de AWS. Pero los métodos estándar de procesamiento de solicitudes de usuarios en lotes causarán problemas de latencia y rendimiento porque es difícil predecir cuántos tokens (en este caso, unidades de texto) que generará un LLM a medida que compone cada respuesta. Nuestros científicos trabajaron con AWS para permitir que Rufus utilice procesamiento por lotes continuo, una novedosa técnica LLM que permite que el modelo comience a atender nuevas solicitudes tan pronto como finalice la primera solicitud del lote, en lugar de esperar a que finalicen todas las solicitudes de un lote. Esta técnica mejora la eficiencia computacional de los chips de IA y permite a los compradores obtener sus respuestas rápidamente. Queremos que Rufus brinde la respuesta más relevante y útil a cualquier pregunta. A veces eso significa una respuesta de texto largo, pero a veces es un texto corto o un enlace en el que se puede hacer clic para navegar por la tienda. Y teníamos que asegurarnos de que la información presentada siguiera un flujo lógico. Si no agrupamos y formateamos las cosas correctamente, podríamos terminar con una respuesta confusa que no sea muy útil para el cliente. Es por eso que Rufus utiliza una arquitectura de transmisión avanzada para entregar respuestas. Los clientes no necesitan esperar a que se genere completamente una respuesta larga; en cambio, obtienen la primera parte de la respuesta mientras se genera el resto. Rufus completa la respuesta de transmisión con los datos correctos (un proceso llamado hidratación) realizando consultas a los sistemas internos. Además de generar el contenido para la respuesta, también genera instrucciones de formato que especifican cómo se deben mostrar los distintos elementos de la respuesta. Aunque Amazon ha estado utilizando la IA durante más de 25 años para mejorar la experiencia del cliente, la IA generativa representa algo nuevo y transformador. . Estamos orgullosos de Rufus y de las nuevas capacidades que ofrece a nuestros clientes. Artículos de su sitio Artículos relacionados en la Web