Únase a los líderes en San Francisco el 10 de enero para una noche exclusiva de networking, conocimientos y conversaciones. Solicite una invitación aquí. Empresas emergentes, incluida la cada vez más conocida ElevenLabs, han recaudado millones de dólares para desarrollar sus propios algoritmos patentados y software de inteligencia artificial para crear clones de voz: programas de audio que imitan las voces de los usuarios. Pero llega una nueva solución, OpenVoice, desarrollada por investigadores del Instituto Tecnológico de Massachusetts (MIT), la Universidad Tsinghua en Beijing, China, y miembros de la startup canadiense de IA MyShell, para ofrecer clonación de voz de código abierto que es casi instantánea y ofrece Controles granulares que no se encuentran en otras plataformas de clonación de voz. «Clonar voces con una precisión incomparable, con control granular del tono, desde la emoción hasta el acento, el ritmo, las pausas y la entonación, usando solo un pequeño clip de audio», escribió MyShell en una publicación hoy en la cuenta oficial de su compañía en X. Hoy, Orgullosamente abre el código fuente de nuestro algoritmo OpenVoice, adoptando nuestro espíritu central: IA para todos. Experimenta ahora: https://t.co/zHJpeVpX3t. Clona voces con una precisión incomparable, con control granular del tono, desde la emoción hasta el acento, el ritmo, las pausas y la entonación, usando solo un… pic.twitter.com/RwmYajpxOt— MyShell (@myshell_ai) 2 de enero de 2024 La compañía también incluyó un enlace a su artículo de investigación revisado previamente que describe cómo desarrolló OpenVoice, y enlaces a varios lugares donde los usuarios pueden acceder y probarlo, incluida la interfaz de la aplicación web MyShell (que requiere una cuenta de usuario para acceder) y HuggingFace (a la que se puede acceder públicamente sin una cuenta). Evento VB The AI ​​Impact Tour Cómo llegar a un plan de gobernanza de AI: solicite una invitación para el evento del 10 de enero. Obtenga más información Contactado por VentureBeat por correo electrónico, uno de los investigadores principales, Zengyi Qin del MIT y MyShell, escribió para decir: “MyShell quiere beneficiar a toda la comunidad de investigación. OpenVoice es sólo un comienzo. En el futuro, incluso proporcionaremos subvenciones, conjuntos de datos y potencia informática para apoyar a la comunidad de investigación de código abierto. El eco central de MyShell es ‘IA para todos’”. En cuanto a por qué MyShell comenzó con un modelo de IA de clonación de voz de código abierto, Qin escribió: “El lenguaje, la visión y la voz son tres modalidades principales de la futura Inteligencia General Artificial (AGI). En el campo de la investigación, aunque el lenguaje y la visión ya tienen algunos buenos modelos de código abierto, todavía falta un buen modelo para la voz, especialmente para un modelo potente de clonación de voz instantánea que permita a todos personalizar la voz generada. Entonces, decidimos hacer esto”. Usando OpenVoice En mis pruebas no científicas del nuevo modelo de clonación de voz en HuggingFace, pude generar un clon relativamente convincente, aunque algo robótico, de mi propia voz rápidamente, en cuestión de segundos, usando discurso completamente aleatorio. A diferencia de otras aplicaciones de clonación de voz, no me obligaron a leer un fragmento de texto específico para que OpenVoice clonara mi voz. Simplemente hablé extemporáneamente durante unos segundos y el modelo generó un clon de voz que pude reproducir casi de inmediato, leyendo el mensaje de texto que le proporcioné. También pude ajustar el «estilo» entre varios valores predeterminados (alegre, triste, amigable, enojado, etc.) usando un menú desplegable, y escuché el notable cambio de tono para coincidir con estas diferentes emociones. Aquí hay una muestra de mi clon de voz hecho por OpenVoice a través de HuggingFace configurado en el tono de estilo «amigable». Cómo se creó OpenVoice En su artículo científico, los cuatro creadores nombrados de OpenVoice (Qin, Wenliang Zhao y Xumin Yu de la Universidad de Tsinghua, y Xin Sun de MyShell) describen su enfoque para crear la IA de clonación de voz. OpenVoice comprende dos modelos de IA diferentes: un modelo de texto a voz (TTS) y un «convertidor de tonos». El primer modelo controla “los parámetros de estilo y los idiomas” y fue entrenado con 30.000 oraciones de “muestras de audio de dos hablantes de inglés (con acento estadounidense y británico), un hablante de chino y un hablante de japonés”, cada una etiquetada según la emoción que se expresa. en ellos. También aprendió entonación, ritmo y pausas de estos clips. Mientras tanto, el modelo de convertidor de tonos se entrenó con más de 300.000 muestras de audio de más de 20.000 hablantes diferentes. En ambos casos, el audio del habla humana se convirtió en fonemas (sonidos específicos que diferencian las palabras entre sí) y se representó mediante incrustaciones de vectores. Al utilizar un «altavoz base» para el modelo TTS y luego combinarlo con el tono derivado del audio grabado proporcionado por el usuario, los dos modelos juntos pueden reproducir la voz del usuario, así como cambiar su «color de tono» o el expresión emocional del texto que se habla. Aquí hay un diagrama incluido en el artículo del equipo de OpenVoice que ilustra cómo estos dos modelos funcionan juntos: El equipo señala que su enfoque es conceptualmente bastante simple. Aún así, funciona bien y puede clonar voces utilizando muchísimo menos recursos informáticos que otros métodos, incluido el modelo de clonación de voz con IA rival de Meta, Voicebox. «Queríamos desarrollar el modelo de clonación de voz instantánea más flexible hasta la fecha», señaló Qin en un correo electrónico a VentureBeat. “Flexibilidad aquí significa control flexible sobre estilos/emociones/acento, etc., y puede adaptarse a cualquier idioma. Nadie podía hacer esto antes porque es demasiado difícil. Lidero un grupo de científicos experimentados en IA y dediqué varios meses a encontrar la solución. Descubrimos que existe una manera muy elegante de desacoplar la tarea difícil en algunas subtareas factibles para lograr lo que parece demasiado difícil en su conjunto. El proceso desacoplado resulta muy eficaz pero también muy sencillo”. ¿Quién está detrás de OpenVoice? MyShell, fundada en 2023 en Calgary, Alberta, una provincia de Canadá, con una ronda inicial de 5,6 millones de dólares liderada por INCE Capital con inversiones adicionales de Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC y OP Crypto, ya cuenta con más de 400.000 usuarios. según Las noticias de Saas. Observé a más de 61.000 usuarios en su servidor Discord cuando revisé antes mientras escribía este artículo. La startup se describe a sí misma como una «plataforma integral y descentralizada para descubrir, crear y apostar aplicaciones nativas de IA». Además de ofrecer OpenVoice, la aplicación web de la compañía incluye una gran cantidad de diferentes personajes de IA basados ​​en texto y bots con diferentes «personalidades», similares a Character.AI, incluidos algunos NSFW. También incluye un creador de GIF animados y juegos de rol basados ​​en texto generados por el usuario, algunos con propiedades protegidas por derechos de autor, como las franquicias de Harry Potter y Marvel. ¿Cómo planea MyShell ganar dinero si hace que OpenVoice sea de código abierto? La empresa cobra una suscripción mensual a los usuarios de su aplicación web, así como a los creadores de bots de terceros que deseen promocionar sus productos dentro de la aplicación. También cobra por los datos de entrenamiento de IA. La misión de VentureBeat es ser una plaza digital para que los tomadores de decisiones técnicas adquieran conocimientos sobre tecnología empresarial transformadora y realicen transacciones. Descubra nuestros Briefings.


Source link