Microsoft Fabric es una plataforma de software como servicio (SaaS) de extremo a extremo para análisis de datos. Está construido alrededor de un lago de datos llamado OneLake y reúne componentes nuevos y existentes de Microsoft Power BI, Azure Synapse y Azure Data Factory en un único entorno integrado. Microsoft Fabric abarca el movimiento de datos, el almacenamiento de datos, la ingeniería de datos, la integración de datos, ciencia de datos, análisis en tiempo real e inteligencia empresarial, junto con seguridad, gobernanza y cumplimiento de datos. En muchos sentidos, Fabric es la respuesta de Microsoft a Google Cloud Dataplex. Al momento de escribir este artículo, Fabric está en versión preliminar. Microsoft Fabric está dirigido a todos: administradores, desarrolladores, ingenieros de datos, científicos de datos, analistas de datos, analistas de negocios y gerentes. Actualmente, Microsoft Fabric está habilitado de forma predeterminada para todos los inquilinos de Power BI. Microsoft Fabric Data Engineering combina Apache Spark con Data Factory, lo que permite programar y organizar cuadernos y trabajos de Spark. Fabric Data Factory combina Power Query con la escala y la potencia de Azure Data Factory y admite más de 200 conectores de datos. Fabric Data Science se integra con Azure Machine Learning, lo que permite el seguimiento de experimentos y el registro de modelos. Fabric Real-Time Analytics incluye un flujo de eventos, una base de datos KQL (Kusto Query Language) y un conjunto de consultas KQL para ejecutar consultas, ver resultados de consultas y personalizar resultados de consultas sobre datos. Si KQL es nuevo para usted, bienvenido al club. Pantalla de inicio de IDG Microsoft Fabric. Tenga en cuenta los vínculos a Power BI, Data Factory, Data Activator, Synapse Data Engineering, Synapse Data Science, Synapse Data Warehouse y Synapse Real-Time Analytics. OneLakeOneLake es un lago de datos lógico y unificado para toda su organización; cada inquilino tiene un solo lago de datos. OneLake está diseñado para ser el único lugar para todos sus datos analíticos, de la misma manera que Microsoft quiere que use OneDrive para todos sus archivos. Para simplificar el uso de OneLake desde su escritorio, puede instalar el explorador de archivos OneLake para Windows. OneLake se basa en Azure Data Lake Storage (ADLS) Gen2 y puede admitir cualquier tipo de archivo. Sin embargo, todos los componentes de datos de Fabric, como los almacenes de datos y los lagos de datos, almacenan sus datos automáticamente en OneLake en formato Delta (basado en Apache Parquet), que también es el formato de almacenamiento utilizado por Azure Databricks. No importa si los datos fueron generados por Spark o SQL, todavía van a un único lago de datos en formato Delta. Crear una casa de lago de datos OneLake es bastante sencilla: cambie a la vista Ingeniería de datos, cree y nombre una nueva casa de lago y cargue algunos archivos CSV en la parte de archivos del lago de datos. IDG En la vista de ingeniería de datos de Microsoft Fabric, puede ver sus archivos y tablas. Las mesas están en formato Delta Parquet. Cuando selecciona un archivo, obtiene un menú de tres puntos para realizar operaciones en ese archivo, por ejemplo, cargarlo en una tabla. Pasar de allí a tener mesas en la casa del lago puede (actualmente) ser más trabajo de lo que cabría esperar. Uno pensaría que el elemento del menú emergente Cargar en tablas haría el trabajo, pero falló en mis pruebas iniciales. Finalmente descubrí, con la ayuda del soporte técnico de Microsoft, que la función Cargar en tablas no sabe (en el momento de escribir este artículo) cómo manejar títulos de columnas con espacios incrustados. Ay. Todas las casas del lago de la competencia manejan eso sin problemas, pero Fabric aún está en la vista previa. Estoy seguro de que esta capacidad se agregará en el producto lanzado. Conseguí que esa conversión funcionara con archivos CSV limpios. También pude ejecutar una consulta Spark SQL en un cuaderno en una tabla nueva. Los portátiles IDG Fabric son compatibles con Python y SQL. Aquí estamos usando Spark SQL para mostrar el contenido de una tabla de la casa del lago OneLake. Spark no es la única forma de ejecutar consultas SQL en las tablas de Lakehouse. Puede acceder a cualquier tabla de formato Delta en OneLake a través de un punto final SQL, que se crea automáticamente cuando implementa Lakehouse. Un punto final SQL hace referencia a la misma copia física de la tabla Delta en OneLake y ofrece una experiencia T-SQL. Básicamente, utiliza Azure SQL en lugar de Spark SQL. Como verá más adelante, OneLake puede alojar Synapse Data Warehouses y Lakehouses. Los almacenes de datos son mejores para usuarios con conocimientos de T-SQL, aunque los usuarios de Spark también pueden leer datos en los almacenes. Puede crear accesos directos en OneLake para que las casas de lago y los almacenes de datos puedan acceder a tablas sin duplicar datos. Power BIPower BI se ha ampliado para poder trabajar con tablas de casa de lago de OneLake (Delta). Como siempre, Power BI puede realizar análisis básicos de datos de inteligencia empresarial y generación de informes, e integrarse con Microsoft 365. IDG Un informe de Power BI dentro de Microsoft Fabric. Prácticamente todas las características importantes de Power BI se han trasladado a Fabric. Data FactoryData Factory en Microsoft Fabric combina capacidades de integración de datos ciudadanos y de integración de datos profesionales. Se conecta a unas 100 bases de datos relacionales y no relacionales, lagos, almacenes de datos e interfaces genéricas. Puede importar datos con flujos de datos, que permiten transformaciones de datos a gran escala con unas 300 transformaciones, usar el editor de Power Query y aplicar la extracción de datos por ejemplo de Power Query. Probé un flujo de datos que importaba y transformaba dos tablas del conjunto de datos Northwind. Me impresionaron las capacidades hasta que falló el paso final de publicación. Bien, está en versión preliminar. También puede utilizar canalizaciones de datos para crear flujos de trabajo de orquestación de datos que reúnan tareas como extracción de datos, carga en almacenes de datos preferidos, ejecución de cuadernos y ejecución de scripts SQL. Importé con éxito dos conjuntos de datos de muestra, días festivos y viajes en taxi de Nueva York, y los guardé en lagos de datos. No probé la capacidad de actualizar la canalización periódicamente. Si necesita cargar datos locales en OneLake, eventualmente podrá crear una puerta de enlace de datos local y conectarla a un flujo de datos. Como solución temporal, puede copiar sus datos locales a la nube y cargarlos desde allí. Activador de datos Según Microsoft, Activador de datos es una experiencia sin código en Microsoft Fabric para tomar acciones automáticamente cuando se detectan patrones o condiciones en los datos cambiantes. Supervisa los datos en los informes de Power BI y los elementos de Eventstreams, para cuando los datos alcancen ciertos umbrales o coincidan con otros patrones. Luego, automáticamente toma las medidas adecuadas, como alertar a los usuarios o iniciar los flujos de trabajo de Power Automate. Los casos de uso típicos de Data Activator incluyen publicar anuncios cuando las ventas en la misma tienda disminuyen, alertar a los gerentes de las tiendas para que retiren los alimentos de los congeladores defectuosos de los supermercados antes de que se echen a perder y alertar a los usuarios. equipos de cuentas cuando los clientes caen en mora, con límites personalizados de tiempo o valor por cliente. Ingeniería de datos La mayor parte de lo que mencioné en la sección anterior de OneLake en realidad se incluye en la ingeniería de datos. La ingeniería de datos en Microsoft Fabric incluye Lakehouse, definiciones de trabajo de Apache Spark, cuadernos (en Python, R, Scala y SQL) y canalizaciones de datos (que se analizan en la sección Data Factory anterior). Ciencia de datosLa ciencia de datos en Microsoft Fabric incluye modelos de aprendizaje automático , experimentos y cuadernos. Tiene alrededor de media docena de cuadernos de muestra. Elegí ejecutar el ejemplo del modelo de pronóstico de series temporales, que utiliza Python, la biblioteca Prophet (de Facebook), MLflow y la función Fabric Autologging. La muestra de pronóstico de series de tiempo utiliza el conjunto de datos de ventas de propiedades de la ciudad de Nueva York, que usted descarga y luego carga en una casa de lago de datos. Prophet utiliza un modelo de estacionalidad tradicional para la predicción de series de tiempo, una desviación refrescante de la tendencia hacia modelos de aprendizaje automático y aprendizaje profundo cada vez más complicados. . El tiempo total de ejecución de las pruebas y las predicciones fue de 147 segundos, no tres minutos. Predicción IDG de ventas de propiedades después de ajustar los datos de ventas de propiedades de Nueva York a un modelo de estacionalidad de Prophet. Data WarehouseData Warehouse en Microsoft Fabric tiene como objetivo hacer converger los mundos de los lagos de datos y los almacenes de datos. No es lo mismo que el punto final SQL de la casa del lago: el punto final SQL es un almacén de solo lectura que se genera automáticamente al crearse desde una casa del lago en Microsoft Fabric, mientras que el almacén de datos es un almacén de datos «tradicional», lo que significa que admite la Capacidades transaccionales completas de T-SQL como cualquier almacén de datos empresarial. A diferencia de SQL Endpoint, donde las tablas y los datos se crean automáticamente, Data Warehouse le da control total sobre la creación de tablas y la carga, transformación y consulta de sus datos en el almacén de datos. usando el portal de Microsoft Fabric o comandos T-SQL. Creé un nuevo almacén y lo cargué con datos de muestra proporcionados por Microsoft. Resulta ser otro conjunto de datos de viajes en taxi (de un año diferente), pero esta vez incluido en las tablas de almacén. Microsoft también proporciona algunos scripts SQL de muestra. Vista previa de datos de IDG Fabric Data Warehouse para una tabla. Tenga en cuenta los mensajes sobre el conjunto de datos de Power BI creado automáticamente en la parte superior. Vista del modelo IDG Fabric Data Warehouse. Vista de consulta de IDG Fabric Data Warehouse. Microsoft proporcionó el script SQL como parte del ejemplo. Análisis en tiempo realEl análisis en tiempo real en Microsoft Fabric está estrechamente relacionado con Azure Data Explorer, tan estrechamente que los vínculos de documentación para Real-Time Analytics actualmente van a la documentación de Azure Data Explorer. Me han asegurado que la documentación real de Fabric se está actualizando. Real-Time Analytics y Azure Data Explorer utilizan bases de datos y consultas de Kusto Query Language (KQL). Consultar datos en Kusto es mucho más rápido que el RDBMS transaccional, como SQL Server, especialmente cuando el tamaño de los datos crece a miles de millones de filas. Kusto lleva el nombre de Jacques Cousteau, el explorador submarino francés. Utilicé una muestra de Microsoft, análisis meteorológico, para explorar KQL y análisis en tiempo real. Ese ejemplo incluye un script con varias consultas KQL. La galería de muestras de IDG The Fabric Real-Time Analytics ofrece actualmente media docena de ejemplos, con tamaños de datos que van desde 60 MB para análisis meteorológicos hasta casi 1 GB para viajes en taxi en Nueva York. La consulta KQL para la siguiente captura de pantalla es interesante porque utiliza funciones geoespaciales y representa un gráfico de dispersión.//Podemos realizar análisis geoespaciales con potentes funciones incorporadas en KQL //Trazar eventos de tormentas que ocurrieron a lo largo de la costa sur let southCoast =dynamic({ «tipo»:»LineString»,»coordenadas»:[[-97.18505859374999,25.997549919572112],[-97.58056640625,26.96124577052697],[-97.119140625,27.955591004642553],[-94.04296874999999,29.726222319395504],[-92.98828125,29.82158272057499],[-89.18701171875,29.11377539511439],[-89.384765625,30.315987718557867],[-87.5830078125,30.221101852485987],[-86.484375,30.4297295750316],[-85.1220703125,29.6880527498568],[-84.00146484374999,30.14512718337613],[-82.6611328125,28.806173508854776],[-82.81494140625,28.033197847676377],[-82.177734375,26.52956523826758],[-80.9912109375,25.20494115356912]]}); Eventos de tormenta | proyecto BeginLon, BeginLat, EventType | donde geo_distance_point_to_line(BeginLon, BeginLat, SouthCoast) < 5000 | render scatterchart with (kind=map) //Observación: debido a que estas áreas están cerca de la costa, la mayoría de los eventos son vientos de tormentas marinas IDG A pesar de tener 60 MB de datos, esta consulta KQL geoespacial se ejecutó en un tercio de segundo. Amplio alcance y análisis profundoSi bien descubrí numerosos errores mientras exploraba la vista previa de Microsoft Fabric, también tuve una buena idea de su amplio alcance y capacidades analíticas profundas. Cuando esté completamente estructurado y desarrollado, bien podría competir con Google Cloud Dataplex. ¿Es Microsoft Fabric realmente apropiado para todos? No tengo ni idea. Pero puedo decir que Fabric hace un buen trabajo al permitirte ver solo tu área de interés actual con el selector de vistas en la esquina inferior izquierda de la interfaz, lo que me recuerda la forma en que Adobe Photoshop atiende a sus diversos públicos (fotógrafos, retocadores, artistas, etc.). Desafortunadamente, Photoshop tiene la reputación bien ganada de no sólo tener mucho poder, sino también ser un oso para aprender. Queda por ver si Fabric desarrollará una reputación similar. Copyright © 2024 IDG Communications, Inc.
Source link