VentureBeat presenta: AI Unleashed: un evento ejecutivo exclusivo para líderes de datos empresariales. Escuche a los principales líderes de la industria el 15 de noviembre. Reserve su pase gratuito El lenguaje es fundamental para la interacción humana, pero también lo es la emoción detrás de él. Expresar felicidad, tristeza, enfado, frustración u otros sentimientos ayuda a transmitir nuestros mensajes y a conectarnos. Si bien la IA generativa ha sobresalido en muchas otras áreas, ha tenido dificultades para captar estos matices y procesar las complejidades de las emociones humanas. Typecast, una startup que utiliza inteligencia artificial para crear voces y videos sintéticos, dice que está revolucionando esta área con su nueva Cross-Speaker Emotion Transfer. Evento VB AI Unleashed ¡No te pierdas AI Unleashed el 15 de noviembre! Este evento virtual mostrará conocimientos exclusivos y mejores prácticas de líderes de datos, incluidos Albertsons, Intuit y más. Regístrese gratis aquí. La tecnología permite a los usuarios aplicar emociones grabadas de la voz de otra persona a la suya propia mientras mantienen su estilo único, lo que permite una creación de contenido más rápida y eficiente. Está disponible hoy a través de la función My Voice Maker de Typecast. «Los actores de IA aún tienen que capturar completamente el rango emocional de los humanos, que es su mayor factor limitante», dijo Taesu Kim, director ejecutivo y cofundador de Neosapience y Typecast, con sede en Seúl, Corea del Sur. Con el nuevo Typecast Cross-Speaker Emotion Transfer, “cualquiera puede utilizar actores de IA con una profundidad emocional real basándose solo en una pequeña muestra de su voz”. Decodificar las emociones Aunque las emociones suelen clasificarse dentro de siete categorías (felicidad, tristeza, ira, miedo, sorpresa y disgusto, basadas en movimientos faciales universales), esto no es suficiente para expresar la amplia variedad de emociones en el habla generada, señaló Kim. Hablar no es sólo una correlación uno a uno entre un texto dado y el discurso de salida, señaló. «Los humanos pueden pronunciar la misma frase de miles de maneras diferentes», dijo a VentureBeat en una entrevista exclusiva. También podemos mostrar varias emociones diferentes en una misma frase (o incluso en la misma palabra). Por ejemplo, grabar la frase «¿Cómo puedes hacerme esto?» con el mensaje emocional “Con voz triste, como si estuviera decepcionado” sería completamente diferente del mensaje emocional “Enojado, como regañando”. De manera similar, una emoción descrita en el mensaje “Muy triste porque su padre falleció pero mostrando una sonrisa en su rostro” es complicada y no es fácil de definir en una categoría determinada. «Los humanos pueden hablar con diferentes emociones y esto conduce a conversaciones ricas y diversas», escriben Kim y otros investigadores en un artículo sobre su nueva tecnología. Limitaciones emocionales de la conversión de texto a voz La tecnología de texto a voz ha experimentado avances significativos en tan solo un corto período de tiempo, liderada por los modelos ChatGPT, LaMDA, LLama, Bard, Claude y otros ya existentes y nuevos participantes. La conversión de texto a voz emocional también ha mostrado un progreso considerable, pero requiere una gran cantidad de datos etiquetados a los que no se puede acceder fácilmente, explicó Kim. Captar las sutilezas de diferentes emociones a través de grabaciones de voz ha sido una tarea ardua y que requiere mucho tiempo. Además, «es extremadamente difícil grabar varias frases durante mucho tiempo preservando constantemente la emoción», escriben Kim y sus colegas. En la síntesis de voz emocional tradicional, todos los datos de entrenamiento deben tener una etiqueta de emoción, explicó. Estos métodos a menudo requieren codificación de emociones adicional o audio de referencia. Pero esto plantea un desafío fundamental, ya que debe haber datos disponibles para cada emoción y cada hablante. Además, los enfoques existentes están expuestos a problemas de etiquetado incorrecto ya que tienen dificultades para extraer la intensidad. La transferencia de emociones entre hablantes se vuelve aún más difícil cuando se asigna una emoción invisible a un hablante. Hasta ahora, la tecnología ha funcionado mal, ya que no es natural que el habla emocional sea producida por un hablante neutral en lugar del hablante original. Además, muchas veces no es posible controlar la intensidad de las emociones. «Incluso si es posible adquirir un conjunto de datos del habla emocional», escriben Kim y sus colegas investigadores, «todavía existe una limitación en el control de la intensidad de las emociones». Aprovechando las redes neuronales profundas y el aprendizaje no supervisado Para abordar este problema, los investigadores primero ingresaron etiquetas de emociones en una red neuronal profunda generativa, lo que Kim llamó una primicia mundial. Si bien tuvo éxito, este método no fue suficiente para expresar emociones y estilos de habla sofisticados. Luego, los investigadores construyeron un algoritmo de aprendizaje no supervisado que discernía estilos de habla y emociones a partir de una gran base de datos. Durante el entrenamiento, todo el modelo fue entrenado sin ninguna etiqueta de emoción, dijo Kim. Esto proporcionó números representativos de los discursos dados. Si bien no son interpretables para los humanos, estas representaciones pueden usarse en algoritmos de conversión de texto a voz para expresar emociones existentes en una base de datos. Además, los investigadores entrenaron una red neuronal de percepción para traducir descripciones de emociones en lenguaje natural en representaciones. «Con esta tecnología, el usuario no necesita registrar cientos o miles de estilos de habla/emociones diferentes porque aprende de una gran base de datos de varias voces emocionales», dijo Kim. Adaptándose a las características de la voz a partir de solo fragmentos Los investigadores lograron una “síntesis del habla de emociones transferible y controlable” aprovechando la representación latente, escriben. El entrenamiento adversario de dominio y la pérdida de coherencia del ciclo desenredan al hablante del estilo. La tecnología aprende de grandes cantidades de voces humanas grabadas (a través de audiolibros, vídeos y otros medios) para analizar y comprender patrones, tonos e inflexiones emocionales. El método transfiere con éxito la emoción a un hablante de estilo de lectura neutral con sólo un puñado de muestras etiquetadas, explicó Kim, y la intensidad de la emoción se puede controlar mediante un valor escalar fácil e intuitivo. Esto ayuda a lograr la transferencia de emociones de forma natural sin cambiar la identidad, dijo. Los usuarios pueden grabar un fragmento básico de su voz y aplicar una variedad de emociones e intensidad, y la IA puede adaptarse a características de voz específicas. Los usuarios pueden seleccionar diferentes tipos de discurso emocional grabado por otra persona y aplicar ese estilo a su voz mientras conservan su propia identidad de voz única. Al grabar sólo cinco minutos de su voz, pueden expresar felicidad, tristeza, enojo u otras emociones incluso si hablan en un tono normal. La tecnología de Typecast ha sido utilizada por Samsung Securities en Corea del Sur (una subsidiaria del Grupo Samsung), LG Electronics en Corea y otros, y la compañía ha recaudado 26.8 mil millones de dólares desde su fundación en 2017. La startup ahora está trabajando para aplicar sus tecnologías centrales en el habla. síntesis de las expresiones faciales, dijo Kim. La controlabilidad es fundamental para la IA generativa. El entorno de los medios de comunicación cambia rápidamente, señaló Kim. En el pasado, los blogs basados ​​en texto eran el formato de medios corporativos más popular. Pero ahora, los videos de formato corto reinan y las empresas y los individuos deben producir mucho más contenido de audio y video, con mayor frecuencia. «Para transmitir un mensaje corporativo, una voz expresiva de alta calidad es esencial», afirmó Kim. Una producción rápida y asequible es de suma importancia, añadió: el trabajo manual realizado por actores humanos es simplemente ineficiente. «La controlabilidad en la IA generativa es crucial para la creación de contenido», dijo Kim. «Creemos que estas tecnologías ayudan a la gente corriente y a las empresas a liberar su potencial creativo y mejorar su productividad». La misión de VentureBeat es ser una plaza digital para que los tomadores de decisiones técnicas adquieran conocimientos sobre tecnología empresarial transformadora y realicen transacciones. Descubra nuestros Briefings.

Source link