Resolviendo el problema de la calidad de los datos en la IA generativa

El potencial de la IA generativa ha cautivado tanto a las empresas como a los consumidores, pero las crecientes preocupaciones en torno a cuestiones como la privacidad, la precisión y el sesgo han suscitado una pregunta candente: ¿Con qué estamos alimentando estos modelos? -Modelos de propósito general de calidad, pero no es suficiente para alimentar los modelos especializados que necesitan las empresas. Mientras tanto, las regulaciones emergentes sobre IA están dificultando el manejo y procesamiento seguro de datos confidenciales sin procesar dentro del dominio privado. Los desarrolladores necesitan fuentes de datos más ricas y sostenibles, razón por la que muchas empresas tecnológicas líderes están recurriendo a datos sintéticos. A principios de este año, importantes empresas de inteligencia artificial como Google y Anthropic comenzaron a aprovechar datos sintéticos para entrenar modelos como Gemma y Claude. Aún más recientemente, se lanzaron el Llama 3 de Meta y el Phi-3 de Microsoft, ambos entrenados parcialmente con datos sintéticos y ambos atribuyendo fuertes mejoras de rendimiento al uso de datos sintéticos. Tras estos avances, ha quedado muy claro que los datos sintéticos son esencial para escalar la innovación en IA. Al mismo tiempo, es comprensible que exista mucho escepticismo y temor en torno a la calidad de los datos sintéticos. Pero, en realidad, los datos sintéticos son muy prometedores para abordar los desafíos más amplios de calidad de los datos a los que se enfrentan los desarrolladores. He aquí por qué. Calidad de los datos en la era de la IA Tradicionalmente, las industrias que aprovechan los “grandes datos” necesarios para entrenar potentes modelos de IA han definido la calidad de los datos mediante las “tres V” (volumen, velocidad, variedad). Este marco aborda algunos de los desafíos más comunes que enfrentan las empresas con “datos sucios” (datos obsoletos, inseguros, incompletos, inexactos, etc.) o datos de capacitación insuficientes. Pero en el contexto del entrenamiento moderno de IA, hay dos dimensiones adicionales a considerar: veracidad (la precisión y utilidad de los datos) y privacidad (garantías de que los datos originales no se verán comprometidos). En ausencia de cualquiera de estos cinco elementos, es probable que se produzcan cuellos de botella en la calidad de los datos que obstaculizan el rendimiento del modelo y el valor empresarial. Aún más problemático, las empresas corren el riesgo de incumplimiento, fuertes multas y pérdida de confianza entre clientes y socios. Mark Zuckerberg y Dario Amodei también han señalado la importancia de volver a capacitar a los modelos con datos nuevos y de alta calidad para construir y escalar la próxima generación de IA. sistemas. Sin embargo, para lograrlo será necesario incorporar motores sofisticados de generación de datos, tecnologías que mejoren la privacidad y mecanismos de validación en el ciclo de vida del entrenamiento de la IA. Este enfoque integral es necesario para aprovechar de manera segura los “datos semilla” del mundo real y en tiempo real, que a menudo contienen información de identificación personal (PII), para producir conocimientos verdaderamente novedosos. Garantiza que los modelos de IA aprendan y se adapten continuamente a eventos dinámicos del mundo real. Sin embargo, para hacer esto de forma segura y a escala, primero se debe resolver el problema de la privacidad. Aquí es donde entra en juego la generación de datos sintéticos que preservan la privacidad. Muchos de los LLM actuales se capacitan completamente con datos públicos, una práctica que crea un cuello de botella crítico para la innovación con IA. A menudo, por motivos de privacidad y cumplimiento, los datos valiosos que recopilan las empresas, como registros médicos de pacientes, transcripciones de centros de llamadas e incluso notas médicas, no se pueden utilizar para enseñar el modelo. Esto se puede resolver mediante un enfoque de preservación de la privacidad llamado privacidad diferencial, que permite generar datos sintéticos con garantías matemáticas de privacidad. El próximo gran avance en IA se basará en datos que hoy no son públicos. Las organizaciones que logren entrenar modelos de manera segura con datos confidenciales y controlados regulatoriamente surgirán como líderes en la era de la IA. ¿Qué se considera datos sintéticos de alta calidad? Primero, definamos los datos sintéticos. “Datos sintéticos” ha sido durante mucho tiempo un término vago que se refiere a cualquier dato generado por IA. Pero esta definición amplia ignora la variación en cómo se generan los datos y con qué fin. Por ejemplo, una cosa es crear datos de prueba de software y otra es entrenar un modelo de IA generativa en 1 millón de registros médicos sintéticos de pacientes. Ha habido un progreso sustancial en la generación de datos sintéticos desde que surgió por primera vez. Hoy en día, los estándares para los datos sintéticos son mucho más altos, particularmente cuando hablamos de entrenar modelos comerciales de IA. Para la capacitación en IA de nivel empresarial, los procesos de datos sintéticos deben incluir lo siguiente: Sistemas avanzados de detección y transformación de datos confidenciales. Estos procesos pueden automatizarse parcialmente, pero deben incluir cierto grado de supervisión humana. Generación mediante transformadores previamente entrenados y arquitecturas basadas en agentes. Esto incluye la orquestación de múltiples redes neuronales profundas en un sistema basado en agentes y potencia el modelo (o combinación de modelos) más adecuado para abordar cualquier entrada determinada. Privacidad diferencial a nivel de entrenamiento de modelos. Cuando los desarrolladores entrenan modelos de datos sintéticos en sus conjuntos de datos reales, se agrega ruido alrededor de cada punto de datos para garantizar que no se pueda rastrear ni revelar ningún punto de datos. Precisión y utilidad mensurables y protecciones de privacidad demostrables. La evaluación y las pruebas son esenciales y, a pesar del poder de la IA, los humanos siguen siendo una parte importante de la ecuación. Los conjuntos de datos sintéticos deben evaluarse para determinar su exactitud con respecto a los datos originales, la inferencia sobre tareas posteriores específicas y las garantías de privacidad demostrable. Equipos de evaluación, validación y alineación de datos. La supervisión humana debe integrarse en el proceso de datos sintéticos para garantizar que los resultados generados sean éticos y estén alineados con las políticas públicas. Cuando los datos sintéticos cumplen con los criterios anteriores, son tan efectivos o mejores que los datos del mundo real para mejorar el rendimiento de la IA. Tiene el poder no sólo de proteger la información privada, sino también de equilibrar o mejorar los registros existentes y simular muestras novedosas y diversas para llenar vacíos críticos en los datos de entrenamiento. También puede reducir drásticamente la cantidad de datos de capacitación que necesitan los desarrolladores, acelerando significativamente los ciclos de experimentación, evaluación e implementación. Pero, ¿qué pasa con el colapso del modelo? Uno de los mayores conceptos erróneos en torno a los datos sintéticos es el colapso del modelo. Sin embargo, el colapso del modelo surge de investigaciones que en realidad no tratan en absoluto de datos sintéticos. Se trata de bucles de retroalimentación en los sistemas de inteligencia artificial y aprendizaje automático, y de la necesidad de una mejor gobernanza de los datos. Por ejemplo, el problema principal planteado en el artículo La maldición de la recursión: el entrenamiento sobre datos generados hace que los modelos olviden es que las generaciones futuras de modelos de lenguaje grandes pueden ser defectuosas debido a los datos de entrenamiento que contienen datos creados por generaciones anteriores de LLM. La conclusión más importante de esta investigación es que, para seguir siendo eficaces y sostenibles, los modelos necesitan un flujo constante de datos de entrenamiento de alta calidad y específicos de tareas. Para la mayoría de las aplicaciones de IA de alto valor, esto significa datos nuevos y en tiempo real que se basan en la realidad en la que deben operar estos modelos. Debido a que esto a menudo incluye datos confidenciales, también requiere infraestructura para anonimizar, generar y evaluar grandes cantidades de datos. —con humanos involucrados en el circuito de retroalimentación. Sin la capacidad de aprovechar los datos confidenciales de manera segura, oportuna y continua, los desarrolladores de IA seguirán luchando contra las alucinaciones y el colapso de los modelos. Es por eso que los datos sintéticos de alta calidad que preservan la privacidad son una solución al colapso del modelo, no la causa. Proporciona una interfaz privada y convincente para datos confidenciales en tiempo real, lo que permite a los desarrolladores crear de forma segura modelos más precisos, oportunos y especializados. Los datos de mayor calidad son sintéticos. A medida que se agotan los datos de alta calidad de dominio público, los desarrolladores de IA se encuentran bajo intensa presión. presión para aprovechar fuentes de datos patentadas. Los datos sintéticos son el medio más confiable y eficaz para generar datos de alta calidad, sin sacrificar el rendimiento ni la privacidad. Para seguir siendo competitivos en el acelerado panorama actual de la IA, los datos sintéticos se han convertido en una herramienta que los desarrolladores no pueden permitirse el lujo de pasar por alto. Alex Watson es cofundador y director de productos de Gretel. Generative AI Insights ofrece un lugar para que los líderes tecnológicos (incluidos proveedores y otros contribuyentes externos) exploren y discutan los desafíos y oportunidades de la inteligencia artificial generativa. La selección es amplia, desde análisis profundos de tecnología hasta estudios de casos y opiniones de expertos, pero también subjetiva, basada en nuestro juicio sobre qué temas y tratamientos servirán mejor a la audiencia técnicamente sofisticada de InfoWorld. InfoWorld no acepta garantías de marketing para su publicación y se reserva el derecho de editar todo el contenido aportado. Póngase en contacto con doug_dineley@foundryco.com. Copyright © 2024 IDG Communications, Inc.

Todo lo que necesitas saber sobre tecnología

Resolviendo el problema de la calidad de los datos en la IA generativa

Deja una respuesta Cancelar la respuesta

Resolviendo el problema de la calidad de los datos en la IA generativa

Galvanic Games, con sede en Seattle, está cerrando

Meta retrasa la recopilación de datos para planes de IA en Europa – Fuente: www.databreachtoday.com

Deja una respuesta Cancelar la respuesta