La síntesis de voz ha recorrido un largo camino desde el juguete Speak & Spell de 1978, que alguna vez cautivó a la gente con su capacidad de última generación para leer palabras en voz alta usando una voz electrónica. Ahora, utilizando modelos de inteligencia artificial de aprendizaje profundo, el software puede crear no solo voces que suenan realistas, sino que también puede imitar de manera convincente voces existentes utilizando pequeñas muestras de audio. En ese sentido, OpenAI anunció esta semana Voice Engine, un modelo de inteligencia artificial de texto a voz. para crear voces sintéticas basadas en un segmento de 15 segundos de audio grabado. Ha proporcionado muestras de audio del Voice Engine en acción en su sitio web. Una vez que se clona una voz, un usuario puede ingresar texto en Voice Engine y obtener un resultado de voz generado por IA. Pero OpenAI no está preparado para lanzar ampliamente su tecnología. Inicialmente, la compañía planeó lanzar un programa piloto para que los desarrolladores se registraran en la API Voice Engine a principios de este mes. Pero después de considerar más a fondo las implicaciones éticas, la compañía decidió reducir sus ambiciones por ahora. «De acuerdo con nuestro enfoque hacia la seguridad de la IA y nuestros compromisos voluntarios, estamos eligiendo una vista previa, pero no lanzar ampliamente esta tecnología en este momento», dijo. escribe la empresa. «Esperamos que esta vista previa de Voice Engine resalte su potencial y también motive la necesidad de reforzar la resiliencia de la sociedad frente a los desafíos que plantean modelos generativos cada vez más convincentes». La tecnología de clonación de voz en general no es particularmente nueva; ha habido varias síntesis de voz con IA. Modelos desde 2022, y la tecnología está activa en la comunidad de código abierto con paquetes como OpenVoice y XTTSv2. Pero la idea de que OpenAI esté avanzando poco a poco hacia permitir que cualquiera use su tipo particular de tecnología de voz es notable. Y en cierto modo, la reticencia de la compañía a lanzarlo en su totalidad podría ser la historia más importante. OpenAI dice que los beneficios de su tecnología de voz incluyen brindar asistencia de lectura a través de voces que suenan naturales, permitiendo un alcance global para los creadores al traducir contenido mientras se preservan los acentos nativos, apoyando individuos no verbales con opciones de habla personalizadas y ayudar a los pacientes a recuperar su propia voz después de condiciones que afectan el habla. Pero también significa que cualquier persona con 15 segundos de la voz grabada de alguien podría clonarla efectivamente, y eso tiene implicaciones obvias para un posible uso indebido. Incluso si OpenAI nunca lanza ampliamente su motor de voz, la capacidad de clonar voces ya ha causado problemas en la sociedad a través de estafas telefónicas en las que alguien imita la voz de un ser querido y llamadas automáticas de campañas electorales con voces clonadas de políticos como Joe Biden. Además, investigadores y periodistas han demostrado que la tecnología de clonación de voz se puede utilizar para acceder a cuentas bancarias que utilizan autenticación de voz (como el Voice ID de Chase), lo que impulsó al senador estadounidense Sherrod Brown de Ohio, presidente del Comité de Banca, Vivienda y Asuntos Urbanos del Senado de EE. UU. , para enviar una carta a los directores ejecutivos de varios bancos importantes en mayo de 2023 para preguntar sobre las medidas de seguridad que los bancos están tomando para contrarrestar los riesgos impulsados ​​por la IA. OpenAI reconoce que la tecnología podría causar problemas si se lanza ampliamente, por lo que inicialmente está tratando de solucionarlo. esas cuestiones con un conjunto de reglas. Ha estado probando la tecnología con un conjunto de empresas asociadas selectas desde el año pasado. Por ejemplo, la empresa de síntesis de vídeo HeyGen ha estado utilizando el modelo para traducir la voz de un hablante a otros idiomas manteniendo el mismo sonido vocal.

Source link