Después de dominar el arte de la clonación y síntesis de voz basada en el aprendizaje automático (ML), ElevenLabs, la startup de inteligencia artificial de dos años fundada por ex empleados de Google y Palantir, está avanzando para expandir su cartera con un nuevo modelo de texto a sonido. La IA, anunciada hace unas horas, permitirá a los creadores generar efectos de sonido simplemente describiendo su imaginación con palabras. Se espera que enriquezca el contenido de una manera nueva en la era de las experiencias digitales impulsadas por la IA. El modelo no está disponible públicamente, pero ElevenLabs ha mostrado sus capacidades lanzando un adelanto de un minuto con videos producidos por el nuevo Sora de OpenAI y mejorados con sus propios sonidos de IA. La compañía también creó una página de registro y está llamando a los usuarios potenciales a unirse a una lista de espera de acceso temprano para el modelo. Más allá de la voz con efectos de sonido de IA Fundada en 2022, ElevenLabs ha estado investigando la IA para hacer que el contenido de audio y video, desde películas hasta podcasts, sea accesible en todos los idiomas y geografías. La compañía ha presentado una gama de ofertas para promover esto, incluidos modelos de texto a voz y de voz a voz que pueden producir voz con IA a partir de un contenido determinado (texto/audio/vídeo) en 29 idiomas diferentes, al mismo tiempo que ofrece información natural. Voz y emociones (voz del hablante original en discurso a discurso). Evento VB The AI ​​Impact Tour – Nueva York Estaremos en Nueva York el 29 de febrero en asociación con Microsoft para discutir cómo equilibrar los riesgos y las recompensas de las aplicaciones de IA. Solicite una invitación al evento exclusivo a continuación. Solicite una invitación Si bien estas dos herramientas continúan teniendo una adopción generalizada por parte de empresas e individuos que producen contenido, también ha habido un aumento del contenido totalmente generado por IA, gracias a herramientas como Runway, Pika y, más recientemente, OpenAI (con Sora). Estos productos generan videos realistas de IA a partir de simples indicaciones de texto, pero lo que les falta es audio predeterminado. Aquí es donde entrará en juego el nuevo modelo de ElevenLabs, que permitirá a los usuarios producir efectos de sonido para su contenido describiendo lo que quieran. Cuando se utiliza, esta oferta puede permitir fácilmente a los creadores de IA mejorar su trabajo con sonidos de fondo que naturalmente deberían acompañarlo. El efecto de sonido puede ser cualquier cosa, desde el canto de pájaros hasta vehículos en movimiento y bocinas. Incluso pueden ser personas hablando, comiendo o caminando por una calle concurrida. “En ElevenLabs solo hemos mostrado nuestros modelos de conversión de texto a voz en público. Sin embargo, tenemos mucho más en desarrollo. Y cuando OpenAI anunció su modelo Sora, que genera videos increíbles pero sin sonido, decidimos mostrar un adelanto de nuestra nueva línea de productos”, escribió Luke Harries, quien dirige el crecimiento en ElevenLabs, mientras compartía la publicación X que presentaba un montón de Vídeos generados por Sora mejorados con efectos de sonido de IA del modelo de la empresa. Más allá del contenido generado por IA, los sonidos producidos por el nuevo modelo podrían incluso aplicarse a un discurso simple producido a partir de texto o cualquier otro video (clip de Instagram, comercial o avance de videojuego) que necesite un toque de audio de fondo. Queda por ver cómo se utiliza y qué tipo de calidad ofrece. Regístrese para acceso temprano Si bien ElevenLabs no ha compartido cuándo planea lanzar el modelo públicamente, la compañía ha abierto registros para acceso temprano. Los usuarios interesados ​​pueden dirigirse a esta página y registrarse con su nombre y correo electrónico mientras describen para qué necesitan los efectos de sonido. ElevenLabs también está pidiendo a los primeros voluntarios que escriban un mensaje de muestra para un efecto de sonido de IA, potencialmente para optimizar las respuestas del modelo. Una vez que se completa el registro, el usuario se incluye en una lista de espera y obtendrá acceso cuando el modelo esté disponible. Sin embargo, el calendario sigue siendo incierto en este momento. La nueva tecnología de conversión de texto a sonido puede darle a ElevenLabs la ventaja de ser el primero en actuar, pero es importante señalar que varias otras empresas que están activas en el espacio del habla con IA también tienen el potencial de aventurarse en este segmento. Esto incluye jugadores conocidos como MURF.AI, Play.ht y WellSaid Labs. Según Market US, el mercado global de este tipo de herramientas ascendió a 1.200 millones de dólares en 2022 y se estima que alcanzará casi los 5.000 millones de dólares en 2032, con una tasa compuesta anual ligeramente superior al 15,40%. La misión de VentureBeat es ser una plaza digital para que los tomadores de decisiones técnicas adquieran conocimientos sobre tecnología empresarial transformadora y realicen transacciones. Descubra nuestros Briefings.

Source link