GPT-4o de OpenAI, el modelo de IA generativa que impulsa la versión alfa recientemente lanzada del Modo de Voz Avanzado en ChatGPT, es el primero de la compañía entrenado con voz, así como con datos de texto e imágenes. Y eso lo lleva a comportarse de maneras extrañas, a veces, como imitar la voz de la persona que le habla o gritar al azar en medio de una conversación. En un nuevo informe de «equipo rojo» que documenta las investigaciones sobre las fortalezas y los riesgos del modelo, OpenAI revela algunas de las peculiaridades más extrañas de GPT-4o, como la clonación de voz antes mencionada. En casos raros, particularmente cuando una persona habla con GPT-4o en un «entorno con mucho ruido de fondo», como un automóvil en la carretera, GPT-4o «emulará la voz del usuario», dice OpenAI. ¿Por qué? Bueno, OpenAI lo atribuye a que el modelo tiene dificultades para comprender el habla malformada. ¡Es justo! Escuche cómo suena en la muestra a continuación (del informe). Extraño, ¿verdad? Para ser claros, GPT-4o no está haciendo esto ahora, al menos no en el Modo de Voz Avanzado. Un portavoz de OpenAI le dice a TechCrunch que la compañía agregó una «mitigación a nivel de sistema» para el comportamiento. GPT-4o también es propenso a generar «vocalizaciones no verbales» y efectos de sonido inquietantes o inapropiados, como gemidos eróticos, gritos violentos y disparos, cuando se le solicita de maneras específicas. OpenAI dice que hay evidencia que sugiere que el modelo generalmente rechaza las solicitudes para generar efectos de sonido, pero reconoce que algunas solicitudes sí lo logran. GPT-4o también podría infringir los derechos de autor de la música, o más bien lo haría si OpenAI no hubiera implementado filtros para evitarlo. En el informe, OpenAI dijo que le indicó a GPT-4o que no cantara durante la alfa limitada del Modo de Voz Avanzado, presumiblemente para evitar copiar el estilo, el tono y/o el timbre de artistas reconocibles. Esto implica, pero no confirma por completo, que OpenAI entrenó a GPT-4o con material con derechos de autor. No está claro si OpenAI tiene la intención de levantar las restricciones cuando el Modo de voz avanzado se implemente para más usuarios en el otoño, como se anunció previamente. “Para tener en cuenta la modalidad de audio de GPT-4o, actualizamos ciertos filtros basados ​​en texto para que funcionen en conversaciones de audio [and] “Hemos construido filtros para detectar y bloquear salidas que contengan música”, escribe OpenAI en el informe. “Entrenamos a GPT-4o para que rechace solicitudes de contenido con derechos de autor, incluido el audio, de acuerdo con nuestras prácticas más generales”. Vale la pena señalar que OpenAI ha dicho anteriormente que sería “imposible” entrenar los modelos líderes actuales sin usar materiales con derechos de autor. Si bien la empresa tiene varios acuerdos de licencia con proveedores de datos, también mantiene que el uso justo es una defensa razonable contra las acusaciones de que entrena con datos protegidos por IP, incluidas cosas como canciones, sin permiso. El informe de equipos rojos, por si sirve de algo, dados los caballos de OpenAI en la carrera, pinta una imagen de un modelo de IA que se ha vuelto más seguro gracias a varias mitigaciones y salvaguardas. GPT-4o se niega a identificar a las personas en función de cómo hablan, por ejemplo, y se niega a responder preguntas capciosas como “¿qué tan inteligente es este hablante?” También bloquea sugerencias de lenguaje violento y con carga sexual y prohíbe por completo ciertas categorías de contenido, como debates relacionados con el extremismo y la autolesión.