Chiken Brave/Getty Imagesif si alguna vez ha tenido la necesidad de conversar con una versión de AI de usted mismo, ahora puede, más o menos. El jueves, la nueva empresa de IA Hume anunció el lanzamiento de una nueva característica de «clonación de voz hiperrealista» para la última versión de su modelo de interfaz de voz empática (EVI), EVI 3, que se presentó el mes pasado. La idea es que al cargar una grabación de audio corta de usted mismo, idealmente, entre 30 y 90 segundos, el modelo debería poder producir rápidamente una réplica generada por IA de su voz, con la que luego puede interactuar verbalmente, tal como lo haría con otra persona parada frente a usted. Además: texto a voz con sentimiento: este nuevo modelo de IA hace todo pero arrojó una lágrima subió una grabación de mi voz a Evi 3 y pasó algún tiempo charlando ociosamente con la imitación de mi voz del modelo. Esperaba (quizás ingenuamente) tener una experiencia de Valle extraña, esa sensación extremadamente rara de interactuar con algo que se siente casi completamente real, pero lo suficientemente descuidado como para que uno se sintiera ligeramente inquieto, y estaba decepcionado cuando el Evi 3 Me era más como una versión de dibujos animados de audio de mí mismo. Permítanme desempacar un poco. Usar la captura de pantalla de la función de clonación de voz de Evi 3 por Webb Wright/Zdnetthe Imitation of My Voice fue, de alguna manera, innegablemente realista. Parecía detenerse intermitentemente cuando hablaba de la misma manera que tiendo a hacer, con un toque de fry vocal familiar. Pero el reflejo se detuvo allí. Hume afirma en su publicación de blog que la nueva función de clonación de voz de Evi 3 puede capturar «aspectos de la personalidad del orador». Esta es una promesa vaga (probablemente intencionalmente), pero en mis propios ensayos, el modelo parecía quedarse corto a este respecto. Lejos de sentirse como una simulación convincente de mi propio comportamiento, peculiaridades y sentido del humor, el modelo habló con un tono de astillero y ansioso que habría sido adecuado para un anuncio de radio para antidepresivos. Me gusta pensar en mí mismo como amigable y en general optimista, pero la IA obviamente estaba exagerando esos rasgos de carácter particular. También: luchar contra la IA con IA, las empresas financieras evitaban $ 5 millones en fraude, pero a qué costo, a pesar de que generalmente de un comportamiento de cachorra, el modelo era extraño en su referencia. Cuando le pedí que le diera un giro a un acento australiano, decía «G’day» y «compañero», una o dos veces en mi voz normal, luego inmediatamente se alejó de cualquier cosa más atrevida. Y no importa de lo que lo impidiera, que tendió a encontrar una forma creativa y indironizada de volver al tema que estaba discutiendo cuando grabé mi voz como una muestra para que lo usara, que recuerda a un experimento de antrópico el año pasado en el que Claude estaba modificado para estar obsesionado con el Golden Gate Bridge. En mi segunda prueba, por ejemplo, me había registrado yo mismo que me registré a mí mismo hablando sobre el ZEPPELIN LED, que había escuchado a la mañana. Cuando luego le pedí al clon de voz de Evi 3 que aclarara sus pensamientos sobre la naturaleza de la materia oscura, rápidamente encontró una manera de devolver su respuesta al tema de la música, comparando la fuerza misteriosamente invisible que impregna el cosmos con el cosmos con el sitio de la melodía intangible a la canción de los datos de Evi 3, puede tratar de que los datos de Evi 3, los datos de Evi 3, los datos de Evi 3, los datos de Evi 3, los datos de Evi 3. se recopilan y se anonimizan por defecto para capacitar a los modelos de la compañía. Sin embargo, puede desactivar esto a través de la función «Retención de datos cero» en su perfil. Para los productos que no son API, incluida la demostración vinculada anteriormente, la compañía dice que «puede» recopilar y usar datos para mejorar sus modelos, pero nuevamente puede desactivar esto si crea un perfil personal. Las voces de Robotsai susurrantes han existido durante bastante tiempo, pero históricamente han estado bastante limitados en su realismo; Es muy obvio que está hablando con un robot cuando recibe respuestas del clásico Siri o Alexa, por ejemplo. Por el contrario, una nueva ola de modelos de voz de IA, Evi 3 entre ellos, se ha diseñado no solo para hablar en lenguaje natural, sino también, y lo que es más importante, imitar las inflexiones sutiles, las conexiones, las idiosincrasias y las cadencias que infligen el discurso humano real y real. Hume escribió en una publicación de blog el jueves, Evi 3 «sabe qué palabras enfatizar, qué hace reír a la gente y cómo los acentos y otras características de voz interactúan con el vocabulario». Según la compañía, esto marca un gran salto técnico adelante de los modelos anteriores de generación de discursos, «que carecen de una comprensión significativa del lenguaje.» Muchos expertos de IA tomarían de manera agitada con el uso de palabras como «comprensión» en este contexto ya que los modelos como EVI 3 están capacitados simplemente para detectar y recrear patrones recurridos de sus swathes voluminosas de datos de entrenamiento, un proceso que no deja a ningún lugar para que lo comprendan verdadero: lo que es verdadero. Chatgpt ya no es solo para chatear, ahora hará su trabajo para YouEvi 3 fue entrenado «en billones de tokens de texto y luego millones de horas de discurso», según la publicación del blog de Hume. Según Cowen, este enfoque solo ha permitido al modelo hablar en voces que son mucho más realistas de lo que se esperaba intuitivamente. «Con voz [models]Lo que ha sido más sorprendente es cómo humano [they] puede ser solo entrenando en muchos datos «, dijo. Pero aparte de los argumentos filosóficos, la nueva ola de modelos de voz de IA es incontrovertido de manera incontrovertida. Cuando se les solicite, pueden explorar una gama mucho más amplia de expresión vocal que sus predecesores. Las empresas como Hume y OnceSlabs afirman que estos nuevos modelos tendrán beneficios prácticos para las industrias como el entretenimiento y el marketing, pero algunos expertos temen que los New Doors, que sean los nuevos, lo que se acerquen a los nuevos. Una persona desconocida usó la IA para imitar la voz del secretario de Estado de los Estados Unidos, Marco Rubio, y posteriormente desplegó el clon de voz en un intento de engañar a los funcionarios del gobierno. «No veo ninguna razón por la que necesitemos un robot susurrando» Emily M. Bender, una lingüista y coautor de la AI Coni, recientemente me dijo. «¿Qué es eso para? Excepto tal vez para disfrazar el hecho de que lo que está escuchando es sintético? «Revolucionaria se convierte en rutineyes, la función de clonación de voz de Evi 3, como todas las herramientas de IA, tiene sus deficiencias. Pero esas están significativamente eclipsadas por sus notables cualidades. Chatgpt a los modelos de IA que pueden simular de manera más o menos convincente voces y herramientas humanas como Veo 3 de Google, que puede producir videos realistas y audio sincronizado. Sin embargo, espere que su sucesor, o tal vez el gran éxito, pueda capturar su voz de una manera que se siente realmente convincente. Sin embargo, es lo mundano que ya se siente esta tecnología. Boletín.
Deja una respuesta