Ampliar / Una foto de archivo de un robot susurrándole a un hombre. El martes, OpenAI comenzó a implementar una versión alfa de su nuevo Modo de Voz Avanzado para un pequeño grupo de suscriptores de ChatGPT Plus. Esta función, que OpenAI presentó en mayo con el lanzamiento de GPT-4o, tiene como objetivo hacer que las conversaciones con la IA sean más naturales y receptivas. En mayo, la función desencadenó críticas por su expresividad emocional simulada y provocó una disputa pública con la actriz Scarlett Johansson por acusaciones de que OpenAI copió su voz. Aun así, las primeras pruebas de la nueva función compartidas por los usuarios en las redes sociales han sido en gran medida entusiastas. En las primeras pruebas informadas por los usuarios con acceso, el Modo de Voz Avanzado les permite tener conversaciones en tiempo real con ChatGPT, incluida la capacidad de interrumpir a la IA a mitad de una oración casi instantáneamente. Puede detectar y responder a las señales emocionales de un usuario a través del tono vocal y la entrega, y proporcionar efectos de sonido mientras cuenta historias. Pero lo que ha tomado a muchas personas por sorpresa inicialmente es cómo las voces simulan tomar aire mientras hablan. «El modo de voz avanzado de ChatGPT cuenta tan rápido como puede hasta 10, luego hasta 50 (esto me dejó atónito: se detuvo para recuperar el aliento como lo haría un humano)», escribió el redactor de tecnología Cristiano Giardina en X. El modo de voz avanzado simula pausas audibles para respirar porque fue entrenado con muestras de audio de humanos hablando que incluían la misma característica. El modelo ha aprendido a simular inhalaciones en momentos aparentemente apropiados después de haber sido expuesto a cientos de miles, si no millones, de ejemplos de habla humana. Los modelos de lenguaje grandes (LLM) como GPT-4o son imitadores maestros, y esa habilidad ahora se ha extendido al dominio del audio. Giardina compartió sus otras impresiones sobre el modo de voz avanzado en X, incluidas observaciones sobre acentos en otros idiomas y efectos de sonido. «Es muy rápido, prácticamente no hay latencia desde que dejas de hablar hasta que responde», escribió. «Cuando le pides que haga ruidos, siempre hace que la voz «realice» los ruidos (con resultados divertidos). Puede hacer acentos, pero cuando habla otros idiomas siempre tiene acento estadounidense. (En el video, ChatGPT actúa como comentarista de un partido de fútbol)» Hablando de efectos de sonido, el usuario X Kesku, que es moderador del servidor Discord de OpenAI, compartió un ejemplo de ChatGPT tocando múltiples partes con diferentes voces y otro de una voz que cuenta una historia de ciencia ficción con sonido de audiolibro a partir del mensaje: «Cuéntame una historia de acción emocionante con elementos de ciencia ficción y crea una atmósfera haciendo ruidos apropiados de las cosas que suceden usando onomatopeyas». Kesku también ejecutó algunos mensajes de ejemplo para nosotros, incluida una historia sobre la mascota de Ars Technica «Moonshark». También le pidió que cantara la «Canción del mayor general» de la ópera cómica de Gilbert y Sullivan de 1879 Los piratas de Penzance: Manuel Sainsily, un frecuente defensor de la IA, publicó un vídeo del Modo de voz avanzado reaccionando a la entrada de la cámara, dando consejos sobre cómo cuidar a un gatito. «Se siente como hacer una videollamada con un amigo súper informado, lo que en este caso fue muy útil: nos tranquilizó con nuestro nuevo gatito», escribió. «¡Puede responder preguntas en tiempo real y también usar la cámara como entrada!» Por supuesto, al estar basado en un LLM, ocasionalmente puede confabular respuestas incorrectas sobre temas o en situaciones en las que su «conocimiento» (que proviene del conjunto de datos de entrenamiento de GPT-4o) es deficiente. Pero si se considera una demostración tecnológica o un entretenimiento impulsado por IA y se conocen las limitaciones, el Modo de voz avanzado parece ejecutar con éxito muchas de las tareas mostradas por la demostración de OpenAI en mayo. Seguridad Un portavoz de OpenAI le dijo a Ars Technica que la compañía trabajó con más de 100 probadores externos en el lanzamiento del Modo de Voz Avanzado, que en conjunto hablan 45 idiomas diferentes y representan 29 áreas geográficas. Según se informa, el sistema está diseñado para evitar la suplantación de identidad de individuos o figuras públicas al bloquear las salidas que difieren de las cuatro voces preestablecidas elegidas por OpenAI. OpenAI también ha agregado filtros para reconocer y bloquear solicitudes para generar música u otro audio con derechos de autor, lo que ha metido en problemas a otras empresas de IA. Giardina informó de una «fuga» de audio en algunas salidas de audio que tienen música no intencional de fondo, lo que demuestra que OpenAI entrenó el modelo de voz AVM en una amplia variedad de fuentes de audio, probablemente tanto de material con licencia como de audio extraído de plataformas de video en línea. Disponibilidad OpenAI planea expandir el acceso a más usuarios de ChatGPT Plus en las próximas semanas, con un lanzamiento completo para todos los suscriptores de Plus esperado este otoño. Un portavoz de la compañía le dijo a Ars que los usuarios del grupo de prueba alfa recibirán un aviso en la aplicación ChatGPT y un correo electrónico con instrucciones de uso. Desde la vista previa inicial de la voz GPT-4o en mayo, OpenAI afirma haber mejorado la capacidad del modelo para admitir millones de conversaciones de voz simultáneas en tiempo real, manteniendo al mismo tiempo una baja latencia y una alta calidad. En otras palabras, se están preparando para una avalancha que requerirá una gran cantidad de computación de back-end para adaptarse.