Los humanos tenemos funciones sensoriales únicas, entre ellas la audición binaural, lo que significa que podemos identificar tipos de sonido, así como de qué dirección proviene y a qué distancia está, y también podemos diferenciar múltiples fuentes de sonido que ocurren todas a la vez. Si bien los modelos de lenguaje grande (LLM) son impresionantes por su capacidad para realizar respuestas de preguntas en audio y reconocimiento, traducción y síntesis de voz, todavía tienen que manejar esa entrada de audio espacial «en la naturaleza». Un grupo de investigadores finalmente está comenzando a descifrar ese código, presentando BAT, lo que llaman el primer LLM espacial basado en audio que puede razonar sobre sonidos en un entorno tridimensional. El modelo muestra una precisión impresionante al clasificar tipos de audio (como risas, latidos del corazón y salpicaduras de agua), dirección del sonido (derecha, izquierda, abajo) y distancia del sonido (entre 1 y 10 pies). También tiene fuertes capacidades de razonamiento espacial en escenarios donde se superponen dos sonidos diferentes. Evento GB Convocatoria de oradores para la Cumbre GamesBeat Estamos encantados de abrir nuestra convocatoria de oradores para nuestro evento principal, la Cumbre GamesBeat 2024, celebrada en Los Ángeles, donde exploraremos el tema “Resiliencia y adaptación”. Solicite hablar aquí «La integración del audio espacial en los LLM representa un paso significativo hacia sistemas de IA verdaderamente multimodales», escriben los investigadores. Las complejidades del audio espacial El audio espacial, a veces denominado «sonido envolvente virtual», crea la ilusión de fuentes de sonido en un espacio tridimensional. Se utiliza en aplicaciones que incluyen realidad virtual (VR) y sistemas de teatro avanzados (así como otras áreas emergentes, como el metaverso). Pero el audio espacial supone un desafío para la IA y el aprendizaje automático (ML), ya que los agentes inteligentes en espacios tridimensionales luchan por localizar e interpretar las fuentes de sonido. Los científicos han intentado mitigar esto con el desarrollo de técnicas y algoritmos de simulación acústica que incorporan información de audio espacial (como YouTube-360 y STARSS23). Sin embargo, los desarrolladores de BAT señalan que estas aplicaciones a menudo son inconsistentes en calidad y carecen de «etiquetas de verdad cruciales», como la distancia y la dirección de la fuente. De manera similar, la localización y detección de eventos sonoros (SELD), que fusiona la localización de fuentes de sonido con la detección de eventos sonoros (SED), a menudo se centra en la «percepción de audio espacial superficial», señalan los investigadores. Otras aplicaciones en el dominio del audio incluyen AudioGPT, que integra ChatGPT para una amplia gama de aplicaciones de audio y voz; LTU, que entrena modelos para razonar y responder preguntas sobre sonidos en un clip; y Qwen-audio, que permite la comprensión universal del audio. «Sin embargo, a pesar de su impresionante rendimiento en el ámbito del audio, ninguno de estos modelos tiene la capacidad de percibir y razonar sobre el audio espacial situado en entornos tridimensionales diversos, reverberantes y complejos», afirman los investigadores. Las preguntas sobre el tipo de sonido, la dirección, la distancia y el razonamiento espacial BAT parecen cambiar esto, demostrando fuertes capacidades en el razonamiento espacial con sonidos y fuentes mixtos, logrando una tasa de precisión de casi el 77%. Mientras tanto, su codificador de audio espacial subyacente logró una precisión promedio promedio de más del 50% en la identificación del tipo de sonido; un error angular medio de casi 18 grados para la dirección del sonido; y una tasa de error de distancia dentro de 1,64 pies de la ubicación real del 32,54% para la estimación de distancia. Los investigadores, de la Universidad de Texas, el Departamento de Ciencias de la Computación e Ingeniería de EE. UU. y la Universidad Jiao Tong de Shanghai en China, comenzaron desarrollando primero un transformador de espectrograma de audio espacial (SPATIAL-AST), que es capaz de detectar eventos sonoros y localizar espacios. y percepción de distancia; y SPATIALSOUNDQA, una colección de tareas espaciales de respuesta a preguntas. El LLM BAT resultante integró SPATIAL-AST con el LLM LLaMA-2. Al modelo se le hicieron preguntas en categorías que incluían el tipo de sonido, de qué dirección provenía el sonido y a qué distancia estaba. Por último, se le encomendó el razonamiento espacial, en el que dos sonidos simultáneos procedían de distancias y direcciones completamente diferentes. Debido a que los conjuntos de datos de audio espacial anteriores a menudo se limitan a música, habla y sonidos domésticos básicos, los investigadores seleccionaron un conjunto binaural de 355 etiquetas de eventos de audio utilizando Audioset y Soundspaces. Para sus mallas ambientales, confiaron en el conjunto de datos RGB-D a gran escala Matterport3D, que incluye representaciones de 90 edificios completos, cada uno con un promedio de 24,5 habitaciones en aproximadamente dos pisos y medio de 5550 pies cuadrados. Preguntas sobre el tipo de sonido P: ¿Qué eventos sonoros puedes detectar en la grabación? R: La risa de un bebé P: ¿Cuáles son los distintos sonidos presentes en este clip de audio? R: Latido del corazón P: Identifique los eventos de sonido en el clip de audio que provienen de la derecha, del frente, de abajo, aproximadamente a 9 pies de distancia. R: Salpicaduras; discurso P: ¿Qué eventos sonoros puedes detectar en la grabación de audio que emana desde la izquierda, detrás, arriba, aproximadamente a un pie y medio de distancia? Una música; instrumento musical; bandeja de acero Preguntas sobre dirección y distancia P: ¿En qué dirección y a qué distancia está la fuente de los sonidos cardíacos? A: Izquierda, atrás, abajo; 3 pies de distancia P: ¿De dónde viene el sonido de la música? A: izquierda, detrás, abajo; A 10 pies de distancia Preguntas sobre razonamiento espacial P: ¿El sonido de las sibilancias está más cerca que el sonido del vuelo de un pájaro o del aleteo de sus alas? R: No P: ¿La fuente de los sonidos de la explosión y del habla está en su lado izquierdo? R: Sí P: ¿El sonido de una afeitadora eléctrica se produce detrás del sonido de la cascada? R: Sí P: ¿Puedes estimar la distancia entre el sonido del habla y el sonido del perro? R: 1,64 pies P: ¿Cuál es el sonido en el lado superior del sonido de la vibración? R: Croar; rana P: ¿Podrías determinar si el sonido del canto está a la izquierda o a la derecha del sonido del vapor? R: Izquierda “Esta tarea exige tanto percepción como razonamiento complejo”, escriben los investigadores sobre este último. «El modelo debe separar implícitamente las fuentes de sonido en función de sus clases únicas, localizar espacialmente cada fuente y luego analizar la relación entre las fuentes en el contexto de la pregunta». Las capacidades de audio espacial abren una multitud de posibilidades. El desarrollo de LLM para audio espacial abre una multitud de posibilidades cuando se trata de realidad virtual, juegos, ingeniería de audio y más. «Esto puede conducir a experiencias más inmersivas y realistas en estos dominios», escriben los investigadores. La capacidad de interpretar y razonar sobre sonidos espaciales también puede mejorar los sistemas de IA incorporados, como robots o vehículos autónomos. Y un mayor desarrollo de los ambisónicos (fuentes arriba y abajo) podría proporcionar una experiencia aún más inmersiva y realista. Los investigadores concluyen: «Estamos seguros de que BAT contribuirá significativamente al desarrollo de la percepción y el razonamiento del audio espacial, así como a los LLM multimodales». La misión de VentureBeat es ser una plaza digital para que los tomadores de decisiones técnicas adquieran conocimientos sobre tecnología empresarial transformadora y realicen transacciones. Descubra nuestros Briefings.

Source link