Suscríbase a nuestros boletines diarios y semanales para recibir las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información Más del 40 % de las organizaciones de marketing, ventas y servicio al cliente han adoptado la IA generativa, lo que la convierte en la segunda mejor opción después de TI y la ciberseguridad. De todas las tecnologías de IA generativa, la IA conversacional se extenderá rápidamente dentro de estos sectores, debido a su capacidad para cerrar las brechas de comunicación actuales entre las empresas y los clientes. Sin embargo, muchos líderes empresariales de marketing con los que he hablado se quedan estancados en la encrucijada de cómo comenzar a implementar esa tecnología. No saben cuál de los grandes modelos de lenguaje (LLM) disponibles elegir y si optar por código abierto o código cerrado. Les preocupa gastar demasiado dinero en una tecnología nueva e inexplorada. Las empresas ciertamente pueden comprar herramientas de IA conversacional listas para usar, pero si van a ser una parte central del negocio, pueden construir las suyas propias internamente. Para ayudar a reducir el factor miedo de quienes optan por construir, quería compartir parte de la investigación interna que mi equipo y yo hemos realizado en nuestra propia búsqueda del mejor LLM para construir nuestra IA conversacional. Pasamos un tiempo analizando los diferentes proveedores de LLM y cuánto debería esperar desembolsar por cada uno según los costos inherentes y el tipo de uso que espera de su público objetivo. Elegimos comparar GPT-4o (OpenAI) y Llama 3 (Meta). Estos son dos de los principales LLM que la mayoría de las empresas sopesarán entre sí, y consideramos que son los modelos de mayor calidad que existen. También nos permiten comparar un LLM de código cerrado (GPT) y uno de código abierto (Llama). ¿Cómo se calculan los costos de LLM para una IA conversacional? Las dos consideraciones financieras principales al seleccionar un LLM son el costo de configuración y los costos de procesamiento eventuales. Los costos de configuración cubren todo lo que se requiere para poner en funcionamiento el LLM hacia su objetivo final, incluidos los gastos de desarrollo y operativos. El costo de procesamiento es el costo real de cada conversación una vez que su herramienta está activa. Cuando se trata de la configuración, la relación costo-valor dependerá de para qué esté utilizando el LLM y cuánto lo usará. Si necesita implementar su producto lo antes posible, entonces puede estar satisfecho pagando una prima por un modelo que viene con poca o ninguna configuración, como GPT-4o. Puede llevar semanas configurar Llama 3, tiempo durante el cual ya podría haber estado afinando un producto GPT para el mercado. Sin embargo, si está administrando una gran cantidad de clientes o desea más control sobre su LLM, es posible que desee asumir los mayores costos de configuración al principio para obtener mayores beneficios en el futuro. Cuando se trata de costos de procesamiento de conversaciones, analizaremos el uso de tokens, ya que esto permite la comparación más directa. Los LLM como GPT-4o y Llama 3 utilizan una métrica básica llamada «token», una unidad de texto que estos modelos pueden procesar como entrada y salida. No existe un estándar universal sobre cómo se definen los tokens en diferentes LLM. Algunos calculan tokens por palabra, por subpalabras, por carácter u otras variaciones. Debido a todos estos factores, es difícil hacer una comparación directa de los LLM, pero nos aproximamos a esto simplificando los costos inherentes de cada modelo tanto como sea posible. Descubrimos que, si bien GPT-4o es más económico en términos de costos iniciales, con el tiempo Llama 3 resulta ser exponencialmente más rentable. Veamos por qué, comenzando con las consideraciones de configuración. ¿Cuáles son los costos básicos de cada LLM? Antes de poder profundizar en el costo por conversación de cada LLM, debemos comprender cuánto nos costará llegar allí. GPT-4o es un modelo de código cerrado alojado por OpenAI. Debido a esto, todo lo que necesita hacer es configurar su herramienta para hacer ping a la infraestructura y las bibliotecas de datos de GPT a través de una simple llamada API. Hay una configuración mínima. Llama 3, por otro lado, es un modelo de código abierto que debe alojarse en sus propios servidores privados o en proveedores de infraestructura en la nube. Su empresa puede descargar los componentes del modelo sin costo; luego, depende de usted encontrar un host. El costo del alojamiento es una consideración aquí. A menos que compre sus propios servidores, lo que es relativamente poco común para empezar, debe pagarle a un proveedor de la nube una tarifa por usar su infraestructura, y cada proveedor diferente puede tener una forma diferente de adaptar la estructura de precios. La mayoría de los proveedores de alojamiento le «alquilarán» una instancia y le cobrarán por la capacidad de cómputo por hora o segundo. La instancia ml.g5.12xlarge de AWS, por ejemplo, cobra por tiempo de servidor. Otros pueden agrupar el uso en diferentes paquetes y cobrarle tarifas fijas anuales o mensuales según diferentes factores, como sus necesidades de almacenamiento. Sin embargo, el proveedor Amazon Bedrock calcula los costos en función de la cantidad de tokens procesados, lo que significa que podría resultar una solución rentable para la empresa incluso si sus volúmenes de uso son bajos. Bedrock es una plataforma administrada y sin servidor de AWS que también simplifica la implementación de LLM al manejar la infraestructura subyacente. Más allá de los costos directos, para que su IA conversacional funcione en Llama 3, también necesita asignar mucho más tiempo y dinero a las operaciones, incluida la selección inicial y la configuración de un servidor o una opción sin servidor y el mantenimiento. También necesita gastar más en el desarrollo de, por ejemplo, herramientas de registro de errores y alertas del sistema para cualquier problema que pueda surgir con los servidores LLM. Los principales factores a considerar al calcular la relación costo-valor fundamental incluyen el tiempo de implementación; el nivel de uso del producto (si está impulsando millones de conversaciones por mes, los costos de configuración se verán superados rápidamente por sus ahorros finales); y el nivel de control que necesita sobre su producto y sus datos (los modelos de código abierto funcionan mejor aquí). ¿Cuáles son los costos por conversación para los principales LLM? Ahora podemos explorar el costo básico de cada unidad de conversación. Para nuestro modelo, utilizamos la heurística: 1000 palabras = 7515 caracteres = 1870 tokens. Supusimos que la conversación promedio del consumidor totaliza 16 mensajes entre la IA y el humano. Esto equivalía a una entrada de 29.920 tokens y una salida de 470 tokens, es decir, 30.390 tokens en total. (La entrada es mucho mayor debido a las reglas y la lógica de las indicaciones). En GPT-4o, el precio por cada 1.000 tokens de entrada es de 0,005 USD y por cada 1.000 tokens de salida de 0,015 USD, lo que da como resultado que la conversación de “referencia” cueste aproximadamente 0,16 USD. Entrada/salida de GPT-4oCantidad de tokensPrecio por cada 1000 tokensCostoTokens de entrada29 920$0,00500$0,14960Tokens de salida470$0,01500$0,00705Costo total por conversación$0,15665 Para Llama 3-70B en AWS Bedrock, el precio por cada 1000 tokens de entrada es de $0,00265 y por cada 1000 tokens de salida de $0,00350, lo que da como resultado que la conversación de «referencia» cueste aproximadamente $0,08. Llama 3-70B entrada/salidaNúmero de tokensPrecio por cada 1000 tokensCostoTokens de entrada29 920$0,00265$0,07929Tokens de salida470$0,00350$0,00165Costo total por conversación$0,08093 En resumen, una vez que los dos modelos se hayan configurado por completo, el costo de una conversación ejecutada en Llama 3 costaría casi un 50 % menos que una conversación equivalente ejecutada en GPT-4o. Sin embargo, cualquier costo de servidor tendría que agregarse al cálculo de Llama 3. Tenga en cuenta que esto es solo una instantánea del costo total de cada LLM. Muchas otras variables entran en juego a medida que desarrolla el producto para sus necesidades únicas, como si está utilizando un enfoque de múltiples indicaciones o un enfoque de una sola indicación. Para las empresas que planean aprovechar la IA conversacional como un servicio central, pero no como un elemento fundamental de su marca, es muy posible que la inversión en desarrollar la IA internamente simplemente no valga la pena en comparación con la calidad que se puede obtener de los productos listos para usar. Cualquiera sea el camino que elija, integrar una IA conversacional puede ser increíblemente útil. Solo asegúrese de guiarse siempre por lo que tenga sentido para el contexto de su empresa y las necesidades de sus clientes. Sam Oliver es un emprendedor tecnológico escocés y fundador de startups en serie. DataDecisionMakers ¡Bienvenido a la comunidad VentureBeat! DataDecisionMakers es donde los expertos, incluido el personal técnico que realiza trabajos de datos, pueden compartir conocimientos e innovación relacionados con los datos. Si desea leer sobre ideas de vanguardia e información actualizada, mejores prácticas y el futuro de los datos y la tecnología de datos, únase a nosotros en DataDecisionMakers. ¡Incluso podría considerar contribuir con un artículo propio! Leer más de DataDecisionMakers