Etiqueta: reconocimiento de voz

Cada vez que usas tu voz para generar un mensaje en un teléfono móvil Samsung Galaxy o activas un dispositivo Google Home, estás usando herramientas que Chanwoo Kim ayudó a desarrollar. El ex vicepresidente ejecutivo de los Centros Globales de IA de Samsung Research se especializa en reconocimiento de voz de un extremo a otro, herramientas de conversión de texto a voz de un extremo a otro y modelado de lenguaje. «La parte más gratificante de mi carrera es ayudar a desarrollar tecnologías que mis amigos y familiares usan y disfrutan», dice Kim. Recientemente dejó Samsung para continuar su trabajo en el campo en la Universidad de Corea, en Seúl, dirigiendo el laboratorio de procesamiento del habla y el lenguaje de la escuela. Profesor de inteligencia artificial, dice que le apasiona enseñar a la próxima generación de líderes tecnológicos. «Estoy emocionado de tener mi propio laboratorio en la escuela y guiar a los estudiantes en la investigación», dice. Llevar Google Home al mercado Cuando Amazon anunció en 2014 que estaba desarrollando parlantes inteligentes con tecnología de asistencia de inteligencia artificial, un dispositivo ahora conocido como Echo, Google decidió desarrollar su propia versión. Kim vio un papel por su experiencia en el esfuerzo: tiene un doctorado. en lenguaje y tecnología de la información de Carnegie Mellon, y se especializó en reconocimiento de voz robusto. Amigos suyos que trabajaban en proyectos de este tipo en Google en Mountain View, California, lo animaron a postularse para un trabajo de ingeniería de software allí. Dejó Microsoft en Seattle, donde había trabajado durante tres años como ingeniero de desarrollo de software y científico del habla. Después de unirse al equipo de modelado acústico de Google en 2013, trabajó para garantizar que la tecnología de asistencia de inteligencia artificial de la compañía, utilizada en los productos Google Home, pudiera funcionar en presencia de ruido de fondo. Chanwoo Kim Empleador Universidad de Corea en Seúl Título Director del laboratorio de procesamiento del habla y el lenguaje y profesor de inteligencia artificial Miembro de grado Miembro alma maters Universidad Nacional de Seúl; Carnegie Mellon Lideró un esfuerzo para mejorar los algoritmos de reconocimiento de voz de Google Home, incluido el uso de modelado acústico, que permite que un dispositivo interprete la relación entre el habla y los fonemas (unidades fonéticas en los idiomas). «Cuando las personas utilizaban la función de reconocimiento de voz en sus teléfonos móviles, se encontraban como máximo a un metro de distancia del dispositivo», afirma. «Para el orador, mi equipo y yo teníamos que asegurarnos de que entendiera al usuario cuando hablaba a mayor distancia». Kim propuso utilizar un aumento de datos a gran escala que simule datos de voz de campo lejano para mejorar las capacidades de reconocimiento de voz del dispositivo. El aumento de datos analiza los datos de entrenamiento recibidos y genera artificialmente datos de entrenamiento adicionales para mejorar la precisión del reconocimiento. Sus contribuciones permitieron a la empresa lanzar su primer producto Google Home, un altavoz inteligente, en 2016. «Fue una experiencia realmente gratificante», afirma. Ese mismo año, Kim ascendió a ingeniero de software senior y continuó mejorando los algoritmos utilizados por Google Home para el aumento de datos a gran escala. También desarrolló tecnologías para reducir el tiempo y la potencia informática utilizados por la red neuronal y mejorar la formación de haces de múltiples micrófonos para el reconocimiento de voz de campo lejano. Kim, que creció en Corea del Sur, extrañaba a su familia y en 2018 regresó y se unió a Samsung como vicepresidente de su Centro de IA en Seúl. Cuando se unió a Samsung, su objetivo era desarrollar motores de reconocimiento de voz de extremo a extremo y de reconocimiento de texto a voz para los productos de la empresa, centrándose en el procesamiento en el dispositivo. Para ayudarlo a alcanzar sus objetivos, fundó un laboratorio de procesamiento de voz y dirigió un equipo de investigadores que desarrollaron redes neuronales para reemplazar los sistemas convencionales de reconocimiento de voz que entonces usaban los dispositivos de inteligencia artificial de Samsung. «La parte más gratificante de mi trabajo es ayudar a desarrollar tecnologías que mis amigos y familiares usan y disfrutan». Esos sistemas incluían un modelo acústico, un modelo de lenguaje, un modelo de pronunciación, un transductor de estado finito ponderado y un normalizador de texto inverso. El modelo de lenguaje analiza la relación entre las palabras pronunciadas por el usuario, mientras que el modelo de pronunciación actúa como un diccionario. El normalizador de texto inverso, utilizado con mayor frecuencia por las herramientas de conversión de texto a voz en los teléfonos, convierte la voz en expresiones escritas. Debido a que los componentes eran voluminosos, no fue posible desarrollar un sistema preciso de reconocimiento de voz en el dispositivo utilizando tecnología convencional, dice Kim. Una red neuronal de extremo a extremo completaría todas las tareas y “simplificaría enormemente los sistemas de reconocimiento de voz”, afirma. chanwoo kim [top row, seventh from the right] con algunos de los miembros de su laboratorio de procesamiento del habla en Samsung Research. Chanwoo Kim He y su equipo utilizaron un enfoque basado en la atención en streaming para desarrollar su modelo. Una secuencia de entrada (las palabras habladas) se codifica y luego se decodifica en una secuencia objetivo con la ayuda de un vector de contexto, una representación numérica de palabras generada por un modelo de aprendizaje profundo previamente entrenado para traducción automática. El modelo se comercializó en 2019 y ahora forma parte del teléfono Galaxy de Samsung. Ese mismo año se comercializó una versión en la nube del sistema que es utilizada por el asistente virtual del teléfono, Bixby. El equipo de Kim continuó mejorando los sistemas de reconocimiento de voz y texto a voz en otros productos y cada año comercializaban un nuevo motor. Incluyen los coeficientes cepstrales normalizados por potencia, que mejoran la precisión del reconocimiento de voz en entornos con perturbaciones como ruido aditivo, cambios en la señal, múltiples hablantes y reverberación. Suprime los efectos del ruido de fondo mediante el uso de estadísticas para estimar las características. Ahora se utiliza en una variedad de productos Samsung, incluidos aires acondicionados, teléfonos móviles y aspiradoras robóticas. Samsung ascendió a Kim en 2021 a vicepresidente ejecutivo de sus seis Centros Globales de IA, ubicados en Cambridge, Inglaterra; Montréal; Seúl; Silicon Valley; Nueva York; y Toronto. En ese cargo, supervisó la investigación sobre la incorporación de inteligencia artificial y aprendizaje automático en los productos Samsung. Es la persona más joven en ser vicepresidente ejecutivo de la empresa. También dirigió el desarrollo de los modelos generativos de lenguaje grande de Samsung, que evolucionaron en Samsung Gauss. El conjunto de modelos generativos de IA puede generar código, imágenes y texto. En marzo dejó la empresa para incorporarse a la Universidad de Corea como profesor de inteligencia artificial, lo cual es un sueño hecho realidad, afirma. «Cuando comencé mi trabajo de doctorado, mi sueño era seguir una carrera en el mundo académico», dice Kim. «Pero después de obtener mi doctorado, me sentí atraído por el impacto que mi investigación podría tener en productos reales, así que decidí dedicarme a la industria». Dice que estaba entusiasmado de unirse a la Universidad de Corea, ya que “tiene una fuerte presencia en inteligencia artificial” y es una de las mejores universidades del país. Kim dice que su investigación se centrará en los modelos del habla generativa, el procesamiento multimodal y la integración del habla generativa con los modelos del lenguaje. Persiguiendo su sueño en Carnegie Mellon El padre de Kim era ingeniero eléctrico y, desde muy joven, Kim quiso seguir sus pasos, dice. Asistió a una escuela secundaria centrada en las ciencias en Seúl para comenzar a aprender temas de ingeniería y programación. Obtuvo su licenciatura y maestría en ingeniería eléctrica de la Universidad Nacional de Seúl en 1998 y 2001, respectivamente. Durante mucho tiempo, Kim había esperado obtener un doctorado en una universidad estadounidense porque sentía que le brindaría más oportunidades. Y eso es exactamente lo que hizo. Se fue a Pittsburgh en 2005 para realizar un doctorado. en lenguaje y tecnología de la información en Carnegie Mellon. «Decidí especializarme en reconocimiento de voz porque estaba interesado en elevar el estándar de calidad», dice. «También me gustó que el campo es multifacético y podía trabajar en hardware o software y cambiar fácilmente el enfoque del procesamiento de señales en tiempo real al procesamiento de señales de imágenes u otro sector del campo». Kim hizo su trabajo doctoral bajo la dirección de Richard Stern, miembro vitalicio del IEEE, quien probablemente sea mejor conocido por su trabajo teórico sobre cómo el cerebro humano compara el sonido proveniente de cada oído para juzgar de dónde proviene. «En ese momento, quería mejorar la precisión de los sistemas de reconocimiento automático de voz en entornos ruidosos o cuando había varios hablantes», dice. Desarrolló varios algoritmos de procesamiento de señales que utilizaban representaciones matemáticas creadas a partir de información sobre cómo los humanos procesan la información auditiva. Kim obtuvo su doctorado. en 2010 y se unió a Microsoft en Seattle como ingeniero de desarrollo de software y científico del habla. Trabajó en Microsoft durante tres años antes de unirse a Google. Acceso a información confiable Kim se unió al IEEE cuando era estudiante de doctorado para poder presentar sus trabajos de investigación en las conferencias del IEEE. En 2016, se publicó un artículo que escribió con Stern en IEEE/ACM Transactions on Audio, Speech, and Language Processing. Les valió el premio al mejor artículo de la IEEE Signal Processing Society de 2019. Kim se sintió honrado, dice, de recibir este “prestigioso premio”. Kim mantiene su membresía en IEEE en parte porque, dice, IEEE es una fuente confiable de información y puede acceder a la información técnica más reciente. Otro beneficio de ser miembro es la red global del IEEE, dice Kim. «Al ser miembro, tengo la oportunidad de conocer a otros ingenieros en mi campo», dice. Asiste habitualmente a la Conferencia anual IEEE sobre acústica, habla y procesamiento de señales. Este año es el vicepresidente del comité del programa técnico para la reunión, que está prevista para el próximo mes en Seúl.

Source link

¿Qué es el aprendizaje automático y cómo implementarlo en la IA?

por Javier Javier Rodriguez

el noviembre 2, 2023

en Computadoras

Comparte en tu plataforma favorita El aprendizaje automático (ML), es un subcampo de la inteligencia artificial. Enfocándose en el desarrollo de algoritmos y modelos estadísticos. Estos módulos permiten a las computadoras aprender de los datos, sin estar programados explícitamente. Es una herramienta poderosa para dar sentido a grandes cantidades de datos y ya ha cambiado el mundo de muchas maneras, desde vehículos autónomos y reconocimiento de voz hasta detección de fraude y recomendaciones personalizadas. En esencia, el aprendizaje automático consiste en encontrar patrones en los datos. El objetivo es identificar relaciones entre diferentes características de los datos y utilizar estas relaciones para hacer predicciones o decisiones. Para ello, los algoritmos de aprendizaje automático utilizan modelos matemáticos y métodos estadísticos para analizar los datos e identificar los patrones subyacentes. Hay tres tipos principales de aprendizaje automático: aprendizaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo. Aprendizaje supervisado El aprendizaje supervisado es el tipo más común de aprendizaje automático e implica el uso de datos etiquetados para entrenar el algoritmo. En el aprendizaje supervisado, el algoritmo recibe un conjunto de entradas (características) y salidas (etiquetas) e intenta aprender la relación entre ellas. Una vez que el algoritmo ha aprendido esta relación, puede utilizarla para hacer predicciones sobre datos nuevos e invisibles. Por ejemplo, un algoritmo de aprendizaje supervisado podría entrenarse en un conjunto de datos de imágenes de dígitos escritos a mano, junto con sus etiquetas correspondientes (el dígito que está escrito en la imagen). Una vez entrenado, el algoritmo se puede utilizar para reconocer nuevos dígitos escritos a mano. Aprendizaje no supervisado El aprendizaje no supervisado, por otro lado, implica el uso de datos sin etiquetar para encontrar patrones en los datos. En el aprendizaje no supervisado, el algoritmo intenta identificar la estructura de los datos sin ninguna guía o supervisión. Por ejemplo, se podría utilizar un algoritmo de aprendizaje no supervisado para agrupar imágenes similares, incluso si el algoritmo no sabe qué representan las imágenes. El aprendizaje por refuerzo es un tipo de ML que implica entrenar algoritmos para tomar decisiones en un entorno. En el aprendizaje por refuerzo, el algoritmo recibe recompensas o penalizaciones por sus acciones e intenta maximizar sus recompensas a lo largo del tiempo. El aprendizaje por refuerzo se utiliza a menudo en robótica y sistemas de control, donde el algoritmo debe controlar un sistema físico para lograr un objetivo determinado. Independientemente del tipo de aprendizaje automático, el proceso de entrenamiento de un algoritmo de aprendizaje automático se puede dividir en varios pasos: Recopilación y preprocesamiento de datos: el primer paso en el entrenamiento de un algoritmo de aprendizaje automático es recopilar y preparar los datos. Por lo general, esto implica recopilar datos de varias fuentes, limpiarlos y preprocesarlos, y dividirlos en conjuntos de entrenamiento y prueba. Ingeniería de características: una vez que los datos han sido preprocesados, el siguiente paso es seleccionar y transformar las características (entradas) que utilizará el algoritmo. Este paso a menudo se denomina ingeniería de características e implica seleccionar las características más importantes y transformarlas de manera que mejoren el rendimiento del algoritmo. Selección del modelo: una vez seleccionadas y transformadas las características, el siguiente paso es elegir el tipo correcto de algoritmo de aprendizaje automático a utilizar. Hay muchos algoritmos diferentes para elegir, cada uno con sus propias fortalezas y debilidades. Algunos de los algoritmos más utilizados incluyen la regresión lineal, los árboles de decisión y las redes neuronales. Entrenamiento: una vez seleccionado el modelo, el siguiente paso es entrenar el algoritmo con los datos. Durante el entrenamiento, el algoritmo actualiza sus parámetros para minimizar el error entre sus predicciones y los resultados reales. El objetivo es encontrar los parámetros que resulten en el mejor rendimiento de los datos de entrenamiento. Evaluación: una vez entrenado el algoritmo, el siguiente paso es evaluar su rendimiento. Por lo general, esto implica hacer predicciones en un conjunto de pruebas separado y comparar las predicciones con los resultados reales. La precisión de las predicciones se utiliza para medir el rendimiento del algoritmo. Ajuste de hiperparámetros: después de la evaluación inicial, el siguiente paso es ajustar el rendimiento del algoritmo ajustando sus hiperparámetros. Los hiperparámetros son los parámetros que no se aprenden de los datos, sino que los establece el usuario. Ejemplos de hiperparámetros incluyen la tasa de aprendizaje en el descenso de gradiente, la cantidad de nodos ocultos en una red neuronal o la profundidad de un árbol de decisión. El objetivo del ajuste de hiperparámetros es encontrar los valores óptimos de los hiperparámetros que resulten en el mejor rendimiento de los datos de prueba. Implementación: una vez que el algoritmo ha sido entrenado y evaluado, está listo para implementarse en un escenario del mundo real. En muchos casos, esto implica integrar el algoritmo en un sistema más grande, como un sitio web, una aplicación móvil o un proceso de fabricación. El aprendizaje automático es la fuerza impulsora de muchas aplicaciones, el famoso ChatGPT se basa en el aprendizaje automático. En conclusión, el aprendizaje automático es una herramienta poderosa que se puede utilizar para encontrar patrones en los datos y hacer predicciones o decisiones basadas en esos patrones. El proceso de entrenamiento de un algoritmo de aprendizaje automático implica recopilar y preprocesar datos, seleccionar y transformar características, elegir un modelo, entrenar el modelo, evaluar su desempeño y ajustar su desempeño ajustando sus hiperparámetros. Con los datos, las funciones y los algoritmos adecuados, el aprendizaje automático tiene el potencial de revolucionar muchas industrias y cambiar la forma en que vivimos nuestras vidas. Relacionado Comparte en tu plataforma favorita

Source link

Todo lo que necesitas saber sobre tecnología

Etiqueta: reconocimiento de voz

El ingeniero detrás del software de reconocimiento de voz de Samsung

¿Qué es el aprendizaje automático y cómo implementarlo en la IA?