LinkedIn ha decidido abrir su herramienta de gestión de datos, OpenHouse, que, según afirma, puede ayudar a los ingenieros de datos y a los equipos de infraestructura de datos relacionados en una empresa a reducir su esfuerzo de ingeniería de productos y disminuir el tiempo necesario para implementar productos o aplicaciones. OpenHouse es compatible con open lagos de datos de origen y es un plano de control que comprende un catálogo «declarativo» y un conjunto de servicios de datos. Un lago de datos es una arquitectura de datos que ofrece capacidades de almacenamiento y análisis, en contraste con los conceptos de lagos de datos, que almacenan datos en formato nativo y almacenes de datos, que almacenan datos estructurados (a menudo en formato SQL). “Los usuarios pueden definir sin problemas tablas, sus esquemas y metadatos asociados de forma declarativa dentro del catálogo. OpenHouse concilia el estado observado de las tablas con el estado deseado orquestando varios servicios de datos”, escribió LinkedIn mientras describía la oferta en GitHub. Idea fundamental detrás del producto. Pero, ¿por qué LinkedIn eligió desarrollar la herramienta de gestión de big data para casas en lagos? Según el ingeniero de la empresa Sumedh Sakdeo, todo comenzó cuando la empresa optó por lagos de datos de código abierto para requisitos internos en lugar de almacenes de datos en la nube, ya que el primero «permite una mayor escalabilidad y flexibilidad». Sin embargo, Sakdeo dijo que a pesar de adoptar un lago de código abierto, LinkedIn enfrentó desafíos para ofrecer una experiencia administrada para sus usuarios finales. En contraste con la comprensión típica de ofertas administradas a través de bases de datos o plataformas de datos, en este caso, los usuarios finales estaban Los equipos de datos internos de LinkedIn y la gestión tendrían que estar a cargo de su equipo de ingeniería de productos. “No tener una experiencia administrada a menudo significa que nuestros usuarios finales tienen que lidiar con preocupaciones de infraestructura de bajo nivel, como administrar el diseño óptimo de los archivos en el almacenamiento, caducar los datos según TTL para evitar quedarse sin cuota, replicar datos en todas las geografías y administrar permisos a nivel de archivo”, dijo Sakdeo. Además, los equipos de infraestructura de datos de LinkedIn se quedarían con poco control sobre el sistema que tenían que operar, lo que les dificultaría regular la gobernanza y la optimización adecuadas, explicó Sakdeo. Ingrese a OpenHouse, una herramienta que resuelve estos desafíos al eliminar la necesidad de realizar actividades adicionales de administración de datos en una casa de lago de código abierto. Según LinkedIn, la compañía ha implementado más de 3500 tablas OpenHouse administradas en producción, atendiendo a más de 550 usuarios activos diarios y atendiendo a un amplio espectro. de casos de uso. «En particular, OpenHouse ha agilizado el tiempo de comercialización de la implementación dbt de LinkedIn en tablas administradas, recortándolo en más de 6 meses», dijo Sakdeo, y agregó que la incorporación de los sistemas de comercialización de LinkedIn a OpenHouse le ha ayudado a alcanzar un 50% reducción del trabajo del usuario final asociado con el intercambio de datos. Dentro de OpenHouse ¿Pero cómo funciona? En esencia, OpenHouse, que es un panel de control para administrar tablas, es un catálogo que viene con un servicio de tablas RESTful diseñado para ofrecer aprovisionamiento de tablas seguro y escalable y administración de metadatos declarativos, dijo Sakdeo. Además, el plano de control abarca servicios de datos. que se puede personalizar para organizar sin problemas los trabajos de mantenimiento de la mesa, dijo el ingeniero de software senior. El servicio de catálogo, según LinkedIn, facilita la creación, recuperación, actualización y eliminación de una tabla OpenHouse. «Está perfectamente integrado con Apache Spark para que los usuarios finales puedan utilizar la sintaxis del motor estándar, consultas SQL y la API DataFrame para ejecutar estas operaciones», dijo LinkedIn en un comunicado. La sintaxis estándar admitida incluye, entre otras: MOSTRAR BASE DE DATOS, MOSTRAR TABLAS, CREAR TABLA, ALTERAR TABLA, SELECCIONAR, INSERTAR EN y SOLTAR TABLA. Además, el servicio de catálogo permitirá a los usuarios establecer políticas de retención en tablas OpenHouse con particiones de tiempo. “A través de estas políticas configuradas, los servicios de datos identifican y eliminan automáticamente las particiones anteriores al umbral especificado. Los usuarios finales también pueden emplear una sintaxis SQL extendida diseñada para OpenHouse”, dijo Sakdeo, y agregó que el servicio también permite a los usuarios compartir tablas OpenHouse. OpenHouse admite los formatos de tablas Apache Iceberg, Hudi y Delta. Para ayudar a los usuarios empresariales a replicar tablas, la empresa ha ampliado el marco de inducción de datos, Apache Gobblin, contribuyendo con una funcionalidad de replicación entre geografías diseñada para tablas Iceberg. IcebergDistcp, un componente dentro de este marco, garantiza una alta disponibilidad para las tablas Iceberg, lo que permite a los usuarios ejecutar flujos de trabajo críticos desde cualquier ubicación geográfica, la empresa dijo. “OpenHouse clasifica las tablas como tipos de tablas primarias o de réplica, lo que permite que las tablas de réplica sean de solo lectura para los usuarios finales. Los permisos de actualización y escritura se otorgan exclusivamente al trabajo distcp y al usuario del sistema OpenHouse”, agregó. En el frente del almacenamiento, admite una interfaz de sistema de archivos Hadoop, compatible con HDFS y almacenes de blobs que lo admiten. Las interfaces de almacenamiento se pueden ampliar para conectarse con API nativas de almacenamiento de blobs, dijo la compañía. En cuanto al soporte de bases de datos, OpenHouse utiliza una base de datos MySQL para almacenar punteros de metadatos para los metadatos de la tabla Iceberg en el almacenamiento. “La elección de la base de datos es conectable. OpenHouse utiliza el marco Spring Data JPA para ofrecer flexibilidad para la integración con varios sistemas de bases de datos”, dijo Sakdeo. Otras funcionalidades de OpenHouse incluyen observabilidad y gobernanza. Copyright © 2024 IDG Communications, Inc.

Source link