El corazón del marco original era su esquema de metadatos, almacenado en la base de datos Azure SQL, que permitió la configuración dinámica de trabajos ETL. Para incorporar IA, extendí este esquema para orquestar tareas de aprendizaje automático junto con la integración de datos, creando una tubería unificada que maneja ambos. Esto requirió agregar varias tablas nuevas al repositorio de metadatos: ml_models: esta tabla captura detalles sobre cada modelo ML, incluido su tipo (p. Ej. Por ejemplo, un modelo de pronóstico podría hacer referencia a un cuaderno de Databricks específico y una tabla Delta que contiene datos de ventas históricas. Feing_ingineering: define los pasos de preprocesamiento como el escala de características numéricas o variables categóricas de codificación única. Al codificar estas transformaciones en metadatos, el marco automatiza la preparación de datos para diversos modelos ML. Pipeline_dependencies: garantiza que las tareas se ejecuten en la secuencia correcta, es decir, ETL antes de la inferencia, almacenamiento después de la inferencia, manteniendo la integridad del flujo de trabajo en las etapas. Output_storage: Especifica destinos para resultados de inferencia, como las tablas delta para análisis o Azure SQL para informar, asegurando que las salidas sean fácilmente accesibles. Considere este ejemplo de metadatos para un trabajo que combina la inferencia ETL y ML: {«Job_id»: 101, «Etapas»: [
{
«id»: 1,
«type»: «ETL»,
«source»: «SQL Server»,
«destination»: «ADLS Gen2»,
«object»: «customer_transactions»
},
{
«id»: 2,
«type»: «Inference»,
«source»: «ADLS Gen2»,
«script»: «predict_churn.py»,
«output»: «Delta Table»
},
{
«id»: 3,
«type»: «Storage»,
«source»: «Delta Table»,
«destination»: «Azure SQL»,
«table»: «churn_predictions»
}
]
} Este esquema permite a ADF administrar una tubería que extrae datos de transacciones, ejecuta un modelo de predicción de giro en Databricks y almacena los resultados, todos impulsados por metadatos. Los beneficios son dobles: elimina la necesidad de una codificación a medida para cada caso de uso de AI, y permite que el sistema se adapte a nuevos modelos o conjuntos de datos simplemente actualizando los metadatos. Esta flexibilidad es crucial para las empresas que tienen como objetivo escalar iniciativas de IA sin incurrir en una deuda técnica significativa.
Deja una respuesta