OpenAI ha introducido una versión beta pública de Realtime API, una API que permite a los desarrolladores pagos crear experiencias multimodales de baja latencia que incluyen texto y voz en aplicaciones. Presentada el 1 de octubre, la API en tiempo real, similar al modo de voz avanzado OpenAI ChatGPT, admite conversaciones naturales de voz a voz utilizando voces preestablecidas que la API ya admite. OpenAI también está introduciendo entrada y salida de audio en la API Chat Completions para admitir casos de uso que no necesitan los beneficios de baja latencia de la API en tiempo real. Los desarrolladores pueden pasar entradas de texto o audio a GPT-4o y hacer que el modelo responda con texto, audio o ambos. Con la API en tiempo real y la compatibilidad con audio en la API Chat Completions, los desarrolladores no tienen que vincular varios modelos para potenciar las experiencias de voz. Pueden crear experiencias de conversación naturales con una sola llamada a la API, dijo OpenAI. Anteriormente, para crear una experiencia de voz similar, los desarrolladores transcribían un modelo de reconocimiento automático de voz como Whisper, pasaban texto a un modelo de texto para inferencia o razonamiento y reproducían la salida del modelo utilizando un modelo de texto a voz. Este enfoque a menudo resultaba en una pérdida de emoción, énfasis y acentos, además de latencia.