Cravetiger / Moment / GettyEste artículo fue escrito por Rahul Pathak, vicepresidente de motores de bases de datos relacionales en AWS. La integración de datos en una organización puede brindarle una mejor imagen de sus clientes, optimizar sus operaciones y ayudar a los equipos a tomar decisiones mejores y más rápidas. Pero integrar datos no es fácil. A menudo, las organizaciones recopilan datos de diferentes fuentes, utilizando una variedad de herramientas y sistemas, como servicios de ingesta de datos. Los datos a menudo se almacenan en silos, lo que significa que deben trasladarse a un lago o almacén de datos antes de que se puedan ejecutar cargas de trabajo de análisis, inteligencia artificial (IA) o aprendizaje automático (ML). Y antes de que los datos estén listos para el análisis, es necesario combinarlos, limpiarlos y normalizarlos (un proceso también conocido como extracción, transformación y carga (ETL), que puede ser laborioso y propenso a errores. En AWS, nuestro objetivo es facilitar que las organizaciones se conecten a todos sus datos y hacerlo con la velocidad y agilidad que nuestros clientes necesitan. Hemos desarrollado nuestro enfoque pionero para un futuro sin ETL basado en estos objetivos: romper los silos de datos, facilitar la integración de datos y aumentar el ritmo de su innovación basada en datos. El problema con ETL: combinar datos de diferentes fuentes puede ser como mover un montón de grava de un lugar a otro: es un trabajo difícil, que requiere mucho tiempo y, a menudo, insatisfactorio. Primero, ETL frecuentemente requiere que los ingenieros de datos escriban código personalizado. Luego, los ingenieros de DevOps o los administradores de TI deben implementar y administrar la infraestructura para asegurarse de que los canales de datos escale. Y cuando las fuentes de datos cambian, los ingenieros de datos tienen que cambiar manualmente su código e implementarlo nuevamente. Además, cuando los ingenieros de datos se encuentran con problemas, como retrasos en la replicación de datos, actualizaciones de esquemas interrumpidas e inconsistencia de datos entre las fuentes y los destinos, tienen que dedicar tiempo y recursos a depurar y reparar las canalizaciones de datos. Mientras se preparan los datos (un proceso que puede llevar días), los analistas de datos no pueden ejecutar análisis interactivos ni crear paneles de control, los científicos de datos no pueden crear modelos de aprendizaje automático ni ejecutar predicciones, y los usuarios finales, como los gerentes de la cadena de suministro, sí pueden. t tomar decisiones basadas en datos. Maxxa Satori / iStock / Getty Images Plus Este largo proceso elimina la oportunidad de cualquier caso de uso en tiempo real, como asignar conductores a rutas según las condiciones del tráfico, colocar anuncios en línea o proporcionar actualizaciones del estado del tren a los pasajeros. En estos escenarios, se puede perder la oportunidad de mejorar las experiencias de los clientes o abordar nuevas perspectivas comerciales. Obtener valor más rápido Zero-ETL permite consultar datos existentes a través de consultas federadas y automatiza el movimiento de datos desde el origen al destino sin esfuerzo. Esto significa que puede hacer cosas como ejecutar análisis de datos transaccionales casi en tiempo real, conectarse a datos en aplicaciones de software y generar predicciones de aprendizaje automático desde almacenes de datos para obtener información empresarial más rápidamente, en lugar de tener que mover los datos a una herramienta de aprendizaje automático. . También puede consultar múltiples fuentes de datos en bases de datos, almacenes de datos y lagos de datos sin tener que mover los datos. Para realizar estas tareas, hemos creado una variedad de integraciones ETL cero entre nuestros servicios para abordar muchos casos de uso diferentes. Por ejemplo, digamos que una empresa manufacturera global con fábricas en una docena de países utiliza un grupo de bases de datos para almacenar pedidos y datos de inventario en cada uno de esos países. Para obtener una vista en tiempo real de todos los pedidos y el inventario, la empresa debe crear canales de datos individuales entre cada uno de los grupos hasta un almacén de datos central para consultar el conjunto de datos combinado. Para hacer esto, el equipo de integración de datos tiene que escribir código para conectarse a 12 clústeres diferentes y administrar y probar 12 canales de producción. Después de que el equipo implementa el código, debe monitorear y escalar constantemente las canalizaciones para optimizar el rendimiento y, cuando algo cambia, deben realizar actualizaciones en 12 lugares diferentes. Al utilizar la integración zero-ETL de Amazon Aurora con Amazon Redshift, el equipo de integración de datos puede eliminar el trabajo de crear y administrar canalizaciones de datos personalizadas. Otro ejemplo sería el de un director de ventas y operaciones que busca dónde debería centrar sus esfuerzos el equipo de ventas de la empresa. Al utilizar Amazon AppFlow, un servicio de integración sin código totalmente administrado, un analista de datos puede incorporar registros de oportunidades de ventas de Salesforce a Amazon Redshift y combinarlos con datos de diferentes fuentes, como sistemas de facturación, ERP y bases de datos de marketing. Al analizar los datos de todos estos sistemas para realizar análisis de ventas, el gerente de ventas puede actualizar el panel de ventas sin problemas y orientar al equipo hacia las oportunidades de ventas adecuadas. Estudio de caso: Magellan Rx Management En un caso de uso del mundo real, Magellan Rx Management (ahora parte de Prime Therapeutics). ha utilizado datos y análisis para ofrecer soluciones clínicas que mejoran la atención al paciente, optimizan los costos y mejoran los resultados. La empresa desarrolla y ofrece estos análisis a través de su solución MRx Predict, que utiliza una variedad de datos, incluidos reclamos médicos y farmacéuticos y datos del censo, para optimizar el desarrollo y la implementación del modelo predictivo, así como maximizar la precisión predictiva. Antes de que Magellan Rx Management comenzara a utilizar Redshift ML, sus científicos de datos llegaban a una predicción siguiendo una serie de pasos utilizando varias herramientas. Tuvieron que identificar los algoritmos de aprendizaje automático apropiados en SageMaker o usar Amazon SageMaker Autopilot, exportar los datos desde el almacén de datos y preparar los datos de entrenamiento para trabajar con estos modelos. Cuando se implementó el modelo, los científicos realizaron varias iteraciones con nuevos datos para hacer predicciones (también conocido como inferencia). Esto implicó mover datos de un lado a otro entre Amazon Redshift y SageMaker a través de una serie de pasos manuales. Con Redshift ML, los analistas de la compañía pueden clasificar nuevos medicamentos para comercializar mediante la creación y el uso de modelos de ML con un mínimo esfuerzo. La eficiencia obtenida al aprovechar Redshift ML para respaldar este proceso ha mejorado la productividad, ha optimizado los recursos y ha generado un alto grado de precisión predictiva. Los servicios integrados nos acercan al ETL cero. Nuestra misión es facilitar que los clientes obtengan el máximo valor. de sus datos, y los servicios integrados son clave para este proceso. Es por eso que hoy estamos avanzando hacia un futuro con ETL cero. Al tener los ingenieros de datos libres para centrarse en crear valor a partir de los datos, las organizaciones pueden acelerar el uso de los datos para optimizar las operaciones e impulsar el crecimiento empresarial. Obtenga más información sobre el futuro de ETL cero de AWS y cómo puede desbloquear el poder de todos sus datos.

Source link