Encontrar y adquirir los datos correctos para construir un conjunto de datos empresariales es quizás la tarea más crítica a la que se enfrentan las organizaciones que quieren construir sus propios modelos de inteligencia artificial (IA). Incluso con experiencia práctica, las cosas pueden salir mal fácilmente, según Waseem Ali, CEO de la consultora Rockborne. «Siempre comienza con los datos», dice Ali. «Si sus datos no son buenos, el modelo no será bueno». En cambio, muy a menudo, el desafío no debería ser que las empresas quieran conquistar el mundo con su primer proyecto, sino hacer un piloto que les permita llevar las cosas más allá, sugiere. Examine la necesidad y el requisito empresarial específicos para los datos o el proyecto digital y pregunte qué problema necesita resolverse y qué «corazonada» necesita consultar, pero evite profundizar en los «impactos globales» al principio. Trabaje desde los primeros principios hacia la adquisición de datos para el caso de uso específico en cuestión, como explica Johannes Maunz, director de IA en el especialista en IoT industrial Hexagon. «No hay un modelo de ML o aprendizaje profundo para resolver todos los casos de uso», dice Maunz. “Compara tu status quo con lo que necesitas mejorar. ¿Qué datos disponibles se deben capturar? Hazlo de forma pequeña o finita, solo para ese caso de uso”. El enfoque de Hexagon generalmente se centra en sus propios sensores, con datos para casos de uso de construcción en paredes, ventanas, puertas, etc. Hasta lo que se muestra en el navegador, Hexagon conoce los datos y sus estándares, formato, consistencia, etc. Considere primero los datos y conjuntos de datos que la empresa ya tiene o puede usar. Esto generalmente implica trabajar en estrecha colaboración con los equipos legales y de privacidad, incluso en un entorno industrial interno. Asegúrese de que los datos destinados para su uso no contengan ninguna información personal privada, recomienda Maunz. Y, a partir de aquí, las empresas pueden construir el modelo que desean usar y entrenarlo, suponiendo que los costos y la viabilidad estén en su lugar. A partir de ahí, puede surgir la transparencia de los puntos de decisión necesarios para que las cosas funcionen y los valores de señal para estimar factores como la usabilidad y la viabilidad, los efectos comerciales o el rendimiento potencial en comparación con los datos de la competencia. En el caso de los datos que la empresa no posee actualmente, puede ser necesario negociar con algunos socios o clientes para adquirirlos. “La gente es bastante abierta, francamente, pero siempre hay un contrato vigente”, dice Maunz. “Solo entonces comenzamos a hacer lo que normalmente llamamos campañas de datos. A veces incluso tiene sentido comenzar con más datos de los necesarios, para que la empresa pueda reducir la muestra”. La calidad y la simplicidad de los datos pueden ser esenciales Emile Naus, socio de la consultora de la cadena de suministro BearingPoint, destaca el enfoque en la calidad de los datos para la IA/ML. Mantenga las cosas simples siempre que sea posible. La complejidad dificulta la toma de decisiones correctas y daña los resultados, y luego hay que tener en cuenta el sesgo y la propiedad intelectual. “Los datos internos no son perfectos, pero al menos tendrás una idea de lo buenos que son”, agrega Naus. En comparación con un ajuste de línea 2D fácil de usar, o incluso un ajuste de línea 3D, un ajuste de línea multidimensional complicado impulsado por IA/ML puede generar resultados mucho mejores (optimización de la producción, «recetas» de soluciones, minimización de desperdicios y más) si las empresas «se dejan llevar» con los datos correctos, advierte. «Como ocurre con todos los modelos, debido a que un modelo de IA se utiliza para construir un modelo, y un modelo siempre es incorrecto, la gobernanza de datos es clave», dice. «Los bits que no tienes pueden ser en realidad más importantes. Tienes que determinar qué tan completos son los datos y qué tan precisos son». Andy Crisp, vicepresidente sénior de datos y análisis de Dun & Bradstreet (D&B), recomienda el uso de información de los clientes y elementos de datos críticos para establecer estándares y tolerancias de calidad de datos, medición y monitoreo. «Los datos que [clients[ want or acquire from us [for example] “También estamos alimentando potencialmente sus modelos”, dice Crisp. “Estamos calculando alrededor de 46 mil millones de cálculos de calidad de datos, tomando nuestros datos y luego tal vez haciéndolos nuevamente contra esos estándares, y luego publicando observaciones de calidad de datos”. [each month].” Un atributo específico a través de la lente de un estándar específico, por ejemplo, debe funcionar lo suficientemente bien como para pasarlo al siguiente equipo, que toma esos estándares y tolerancias, los resultados de esas mediciones y puntos de observación, y luego trabaja con la administración de datos para capturar, curar y mantener los datos. “No hay sustituto para dedicar tiempo a las cosas y desarrollar su comprensión”, coincide Crisp. “Comience cortando una pieza de madera y verifique la longitud antes de ir y cortar 50 tablones todos mal”. Las empresas necesitan “saber cómo se ve lo bueno” para mejorar el rendimiento y los conocimientos de los datos, que luego se pueden reunir. Mantenga los enunciados de los problemas ajustados, limitando la identificación de los datos para los conjuntos de datos necesarios. La anotación y los metadatos meticulosos pueden permitir la curación de conjuntos de datos de control y un enfoque verdaderamente científico que identifique y ayude a minimizar el sesgo. Tenga cuidado con las declaraciones grandes y audaces que combinan múltiples factores y asegúrese de “probar hasta la destrucción”. Esta es un área de TI en la que las empresas no quieren “moverse rápido y romper cosas”. Todos los datos utilizados deben cumplir con estándares que deben examinarse y remediarse continuamente. “Mida y monitoree, remedie y mejore”, dice Crisp, y señala que el equipo de ingeniería de calidad de D&B está compuesto por unos 70 miembros en todo el mundo. “Una ingeniería competente ayudará a intentar reducir las alucinaciones, etc.”. Greg Hanson, vicepresidente general de Informatica para el norte de Europa, Oriente Medio y África, coincide en que la fijación de objetivos es crucial y puede ayudar a las empresas a determinar cómo emplear mejor su tiempo en términos de catalogar información, integrarla y qué datos se requieren para entrenar a la IA para que respalde los resultados. Incluso los datos propios de una empresa suelen estar fragmentados y ocultos en distintas ubicaciones, nubes o instalaciones locales. “Catalogue todos sus activos de datos y comprenda dónde residen esos datos”, dice Hanson. “Considere también la IA para una gestión de datos más rápida”. Asegúrese de la gobernanza antes de la ingesta Aplique todas las reglas de calidad de los datos antes de que el motor de IA los ingiera, suponiendo que la gobernanza y el cumplimiento sean adecuados. Si una empresa no mide, cuantifica y corrige, entonces simplemente tomará decisiones incorrectas a un ritmo acelerado, dice Hanson, y agrega: “Recuerde: basura que entra, basura que sale”. Tendü Yogurtçu, director de tecnología del proveedor de suites de datos Precisely, afirma que, en función del tamaño de la empresa y el tipo de sector, una organización puede considerar la posibilidad de crear un comité directivo o un consejo interfuncional para ayudar a definir las mejores prácticas y procesos en todas las iniciativas de IA pertinentes. Esto también puede ayudar a acelerar el proceso mediante la identificación de casos de uso o patrones comunes en todos los equipos, que a su vez pueden seguir cambiando a medida que las organizaciones aprenden de los proyectos piloto y de la producción. Los marcos de gobernanza de datos pueden requerir una expansión para incluir modelos de IA. Dicho esto, abundan los posibles casos de uso de la IA. “Tomemos como ejemplo el seguro. Para modelar el riesgo y la precisión de los precios, las aseguradoras necesitan información detallada sobre los riesgos de incendios forestales e inundaciones, la topografía de la parcela, la ubicación exacta del edificio dentro de la parcela, la proximidad a las bocas de incendio y la distancia a puntos de interés potencialmente riesgosos, como las gasolineras”, explica Yogurtçu. Sin embargo, la creación de modelos de IA, especialmente la IA generativa (GenAI), puede resultar costosa, advierte Richard Fayers, director sénior de datos y análisis de la consultora Slalom. “Quizás, en algunas áreas, las empresas puedan trabajar juntas, como en el ámbito jurídico o el médico”, dice Fayers. “Donde empezamos a ver el valor es cuando aumentamos [GenAI] En arquitectura, por ejemplo, los usuarios pueden complementar el uso de grandes modelos de lenguaje (LLM) con sus propios conjuntos de datos y documentación para consultar. Una estrategia similar podría funcionar para crear una plataforma de búsqueda de entradas que considere de forma inteligente un conjunto de criterios basados ​​en lenguaje natural que no estén vinculados uno a uno a los metadatos y las etiquetas. “Por ejemplo, si pudieras usar una plataforma de venta de entradas que te permita descubrir ‘un espectáculo del fin de semana que sea adecuado para niños’, ese es un tipo de búsqueda que ahora mismo puede resultar bastante difícil”, dice Fayers. La creación de conjuntos de datos y la ingeniería rápida para empresas como ChatGPT, para un enfoque más «conversacional», aún exige un enfoque en la calidad y la gobernanza de los datos, dice, y la ingeniería rápida se convertirá en un conjunto de habilidades esenciales con una gran demanda.