En el mercado de AI de voz concurrida, Operai apuesta por instrucciones y discurso expresivo para ganar la adopción empresarial

¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscripción ahora OpenAi se suma a un mercado de voz de IA cada vez más competitivo para empresas con su nuevo modelo, GPT-Realtime, que sigue las instrucciones complejas y con voces «que suenan más naturales y expresivas». A medida que la IA de voz continúa creciendo, y los clientes encuentran casos de uso como llamadas de servicio al cliente o traducción en tiempo real, el mercado de voces de IA que suenan realistas que también ofrecen seguridad de grado empresarial se está calentando. Operai afirma que su nuevo modelo proporciona una voz más humana, pero aún necesita competir contra compañías como ElevenLabs. El modelo estará disponible en la API de tiempo real, que la compañía también puso generalmente disponible. Junto con el modelo GPT-RealTime, OpenAI también lanzó nuevas voces en la API, que llama Cedar y Marin, y actualizó sus otras voces para trabajar con el último modelo. Operai dijo en una transmisión en vivo que funcionó con sus clientes que están construyendo aplicaciones de voz para capacitar a GPT-RealTime y «alineó cuidadosamente el modelo a Evals que se basan en escenarios del mundo real como la atención al cliente y la tutoría académica». AI Scaling alcanza sus límites de potencia de límites, el aumento de los costos de los tokens y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos: convertir la energía en una ventaja estratégica arquitectando una inferencia eficiente para las ganancias de rendimiento real que desbloquean el ROI competitivo con sistemas de IA sostenibles asegura su lugar para mantenerse a la vanguardia: https://bit.ly/4mwgngo, la compañía promocionó la capacidad del modelo para crear voces emotivas y de suministro natural que también alinean con la forma de construir con la tecnología con la tecnología. Modelos de voz a voz El modelo opera dentro de un marco de voz a voz, lo que permite comprender las indicaciones habladas y responder vocalmente. Los modelos de voz a voz son ideales para respuestas en tiempo real, donde una persona, típicamente un cliente, interactúa con una aplicación. Por ejemplo, un cliente quiere devolver algunos productos y llamar a una plataforma de servicio al cliente. Podrían estar hablando con un asistente de voz de IA que responde a preguntas y solicitudes como si estuvieran hablando con un humano. En una transmisión en vivo, los clientes de Operai T-Mobile exhibieron un agente de voz de IA que ayuda a las personas a encontrar nuevos teléfonos. Otro cliente, la plataforma de búsqueda de bienes raíces Zillow, mostró a un agente que ayuda a alguien a reducir un vecindario para encontrar el lugar perfecto. Operai dijo que GPT-Realtime es su «modelo de voz más avanzado listo para la producción». Al igual que sus otros modelos de voz, puede cambiar los idiomas a mitad de la oración. Sin embargo, los investigadores de Operai notaron que GPT-Realtime puede seguir instrucciones más complejas como «hablar enfáticamente con acento francés». Pero GPT-Realtime enfrenta la competencia de otros modelos que muchas marcas ya usan. Elevenlabs lanzó Conversation AI 2.0 en mayo. Soundhound se asocia con franquicias de comida rápida para un dru-thru de voz de IA. La startup de IA de Céntica, Hume, ha lanzado su modelo EVI 3, que permite a los usuarios generar versiones de IA de su propia voz. A medida que las empresas descubren varios casos de uso para la IA de voz, incluso más proveedores de modelos generales que ofrecen LLM multimodales están presentando un caso por sí mismos. Mistral lanzó su nuevo modelo Voxtral, afirmando que funcionaría bien con la traducción en tiempo real. Google está mejorando sus capacidades de audio y ganando popularidad con una función de audio en Notebooklm que convierte las notas de investigación en un podcast. Una mejor instrucción después de Openai dijo que GPT-Realtime es más inteligente y comprende mejor el audio nativo, incluida la capacidad de atrapar señales no verbales como risas o suspiros. La evaluación comparativa utilizando la evaluación de audio de Big Bench mostró que el modelo obtuvo una puntuación del 82.8% en precisión, en comparación con su modelo anterior, que obtuvo un 65.6%. OpenAI no proporcionó números que probaron GPT-Realtime contra modelos de sus competidores. OpenAI se centró en mejorar las capacidades de seguimiento de instrucciones del modelo, asegurando que el modelo se adhiera a las direcciones de manera más efectiva. El nuevo modelo logra una puntuación del 30.5% en el punto de referencia de audio de Multichallenge. Los ingenieros también reforzaron las funciones llamando para que GPT-Realtime pueda acceder a las herramientas correctas. Actualizaciones de API en tiempo real para admitir el nuevo modelo y mejorar cómo las empresas integran las capacidades de IA en tiempo real en sus aplicaciones, OpenAI ha agregado varias características nuevas a la API de tiempo real. Ahora puede admitir MCP y reconocer las entradas de imágenes, lo que le permite informar a los usuarios sobre lo que ve en tiempo real. Esta es una característica que Google enfatizó mucho durante su presentación Astra del proyecto el año pasado. La API de tiempo real también puede manejar el Protocolo de iniciación de la sesión (SIP). SIP conecta aplicaciones a teléfonos como una red de teléfono público o teléfonos de escritorio, abriendo más casos de uso del centro de contacto. Los usuarios también pueden guardar y reutilizar las indicaciones en la API. Hasta ahora, las personas están impresionadas con el modelo, aunque estas todavía son pruebas iniciales de un modelo que se lanzó recientemente. TBH, las características MCP y SIP son la verdadera historia aquí, no solo otro modelo. La capacidad de conectarse a herramientas y sistemas externos sin problemas es lo que finalmente moverá estos modelos de ser demostraciones impresionantes a integrarse en flujos de trabajo reales. El aspecto de tiempo real …-JK (@_Junaidkhalid1) 28 de agosto de 2025 Probar GPT-REALTIMEInitial Review:-Mejora de audio notable-Es un Stickler para las instrucciones (muy buenas)-Se siente rápido Pic.twitter.com/ltycs0qlxv-Jake Colling (@Jacobcolling) 28 de agosto de agosto, 2025 bien, Gtpt-Real-Real Are LIVTream no se ha vuelto a colgar (@Jacobcolling) 28 de agosto, 2025, 2025, Gtpt-Real, Gtpt-Real Are LIVTream no se ha vuelto a colgar (@jacobcolling) 28 de agosto, 2025, 2025, Gtpt-Real, Gpt-Real Are LiMatream. Interesados, pero por razones comerciales estratégicas, los centros sean un objetivo importante para los proveedores de LLM y la primera compañía en alcanzar un avance real obtendrá ingresos masivos: Anko ( @anko_979) 28 de agosto, 2025 pros & contras de @openai actualización real de alguien en el audio de AI: pro: mejor función de la función, más emoción, 20% de barato, mejor control, la imagen es genial, pero no es una actualización en tiempo real: no es una actualización de la construcción de AI: todavía * caro * vs tts-llm-stt tuberías: Gavin Purcell (@gavinpurcell) 28 de agosto de 2025 OpenAI redujo los precios para GPT-RealTime en un 20% a $ 32 por millón de tokens de entrada de audio y $ 64 para tokens de salida de audio. Insights diarias sobre casos de uso de negocios con VB diariamente Si desea impresionar a su jefe, VB Daily lo tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo. Lea nuestra Política de privacidad Gracias por suscribirse. Mira más boletines de VB aquí. Ocurrió un error.

Todo lo que necesitas saber sobre tecnología

En el mercado de AI de voz concurrida, Operai apuesta por instrucciones y discurso expresivo para ganar la adopción empresarial

Deja una respuesta Cancelar la respuesta

En el mercado de AI de voz concurrida, Operai apuesta por instrucciones y discurso expresivo para ganar la adopción empresarial

Construyendo resiliencia cibernética en el ecosistema de semiconductores

Todos están hablando del nuevo Fairphone (Gen. 6)

Deja una respuesta Cancelar la respuesta