Redactado por Juan Manuel Recio, CEO de Modus
La disciplina que trata la arquitectura de datos es un factor estratégico crucial para el uso de los datos y el análisis cuando necesita gestionar adecuadamente su Data Management . Para conectar eficazmente la estrategia de las empresas con su implementación técnica, los CDAO (Chief Data and Analytics Officer) deben diseñar una adecuada arquitectura de datos, esto permite a los responsables de D&A (Data & Analytics) planificar eficazmente, conectar la estrategia con los procesos y generar valor a largo plazo para la organización.
La arquitectura de datos está evolucionando para ofrecer autoservicio de datos habilitado por metadatos
Las mejores prácticas de la arquitectura de análisis de datos han evolucionado a lo largo de las últimas décadas, a medida que las iniciativas de transformación digital han puesto de relieve la necesidad de modernizar la estrategia de datos y aprovechar las oportunidades para su uso. Estas etapas incluyen:
Período anterior al año 2000: La era del Enterprise Data Warehouse: arquitectura de datos centrada en el éxito del (EDW).
2000-2010 Era posterior a EDW: Este período se caracteriza por el análisis fragmentado de datos, donde los data marts dependían del data warehouse. Y, según a quién se preguntara, se obtenía una versión diferente de la realidad, ya que cada consolidación de Data Marts generaba un nuevo silo de datos, lo que resultaba en análisis fragmentados e inconsistentes.
2010-2020 La era del Logical Data Warehouse (LDW): Este período vio un análisis más unificado de los datos mediante una capa semántica común, lo que permitió el acceso a Data Warehouse, Data Marts y Data Lakes. Esta es la mejor práctica actual.
2020-futuro La era de metadatos activos: En el futuro se verá un análisis aumentado de datos utilizando todas las fuentes de datos relevantes, a las que se puede acceder y habilitar mediante análisis avanzados, motores de recomendación, orquestación de datos e IA, prácticas adaptativas y análisis de metadatos. Todo esto a través de los Metadatos Activos.
La democratización del acceso a los datos y el análisis de autoservicio impulsa la evolución actual de la era de los LDW a la era de los metadatos activos. Los directores de datos y análisis (CDAO) también esperan ampliar los casos de uso de los datos más allá de los que los LDW pueden gestionar. Estos incluyen la gestión de datos maestros, el intercambio de datos interempresariales, la integración de datos B2B, el intercambio de datos de socios, la integración de datos de aplicaciones, entre otros.
Pero ¿qué son los metadatos y qué papel desempeñan en esta evolución?: Los metadatos describen diferentes facetas de los datos, como el contexto de los datos. Se generan como subproducto de la transferencia de datos a través de los sistemas empresariales. Existen cuatro tipos de metadatos: técnicos, operativos, empresariales y sociales. Cada uno de estos tipos puede ser metadatos «pasivos» que las organizaciones recopilan pero no analizan activamente, o metadatos «activos» que identifican acciones en dos o más sistemas que utilizan los mismos datos.
Los metadatos activos pueden facilitar la automatización, proporcionar información y optimizar la interacción del usuario, y son un elemento clave para el análisis de autoservicio. Sin embargo, para alcanzar su potencial se requiere una arquitectura de datos que equilibre los requisitos de repetibilidad, reutilización, gobernanza, autoridad, procedencia y entrega optimizada.
Los líderes en análisis de datos ven dos opciones para evolucionar su arquitectura de datos desde la era LDW, donde la mayoría opera actualmente, hacia la era de los metadatos activos. Estas opciones son Data Fabric o Data Mesh. Estos conceptos comparten el objetivo de facilitar el acceso a los datos a todos sus usuarios, incluyendo científicos, analistas e ingenieros de datos, así como a los consumidores de datos. Si bien muchos líderes de datos hablan de Data Fabric y Data Mesh como enfoques de arquitectura de datos que compiten entre sí, se consideran más acertadamente complementarios.
Últimas tendencias y tecnologías en arquitectura de datos
Data Fabric: Este concepto de diseño facilita el acceso a los datos en toda la empresa mediante una integración de datos flexible, reutilizable y mejorada. Aprovecha la tecnología y los metadatos existentes para modernizar la arquitectura de datos sin necesidad de una revisión completa.
Data Mesh: Un enfoque arquitectónico que descentraliza la gestión de datos, asignando su propiedad a los dominios empresariales. Su objetivo es apoyar la definición, la entrega, el mantenimiento y la gestión de productos de datos, facilitando su localización y uso por parte de los consumidores.
Active Metadata: La transición de metadatos pasivos a activos permite la automatización, proporciona información y optimiza el engagement con el usuario. Los metadatos activos identifican acciones en todos los sistemas utilizando los mismos datos, lo que facilita el análisis en forma de autoservicio.
Best Practices para garantizar la escalabilidad y flexibilidad de la arquitectura de Data Management
Diseño modular: Construya una arquitectura modular que permita el escalado independiente de los componentes a medida que evolucionan las demandas.
Microservicios: Utilice microservicios para la implementación y el escalado de servicios de datos específicos, mejorando la flexibilidad y la agilidad.
Escalado elástico: Adopte soluciones nativas de la nube para el escalado automático y así gestionar cargas de trabajo variables de forma eficiente.
¿Cómo cumple la arquitectura de Data Management con las normativas de privacidad de datos como el RGPD y la CCPA?
Mediante un framework de gobernanza de datos: Implementar políticas de gobernanza sólidas para gestionar el ciclo de vida de los datos, garantizando su correcta creación, uso y control, de acuerdo con la normativa.
Enmascaramiento y Encriptación: Aplicar estas técnicas para proteger los datos sensibles y mantener el cumplimiento de los estándares de privacidad.
Información para auditoría: Mantener registros detallados del acceso y los cambios en los datos para facilitar la supervisión y la generación de informes de cumplimiento.
Arquitectura Data Warehouse en la nube
Suelen tener tres componentes principales: fuentes de datos, almacenamiento de datos y procesamiento de datos. Las fuentes de datos incluyen diversos sistemas y aplicaciones, mientras que el almacenamiento de datos utiliza un sistema de archivos distribuido dentro de la nube. El procesamiento de datos permite consultar y analizar los datos. Dos tipos principales de arquitectura son las basadas en clústeres (como Amazon Redshift) y las serverless (como Google BigQuery).
Fuentes de datos: Los almacenes de datos en la nube incorporan datos de diversas fuentes, como bases de datos transaccionales, archivos de registro, plataformas de redes sociales y dispositivos IoT.
Almacenamiento de datos: Los datos se almacenan en un sistema de archivos distribuido en la nube, lo que permite escalabilidad y resiliencia.
Procesamiento de datos: Un entorno de procesamiento SQL permite a los usuarios consultar y analizar los datos almacenados en el almacén, a menudo utilizando procesamiento paralelo masivo (MPP) para una ejecución más rápida de las consultas.
Esto nos lleva a utilizar esquemas preestablecidos de arquitecturas:
Arquitectura basada en Clústeres: Esta arquitectura implica recursos informáticos compartidos (nodos) que se combinan para alojar el almacén de datos. Algunos ejemplos son Amazon Redshift y Azure SQL Data Warehouse.
Arquitectura Serverless: En esta arquitectura, el clúster de bases de datos es administrado por el proveedor de servicios en la nube y se comparte entre múltiples clientes. Google BigQuery y Snowflake son ejemplos de almacenes de datos en la nube serverless.
Y gestionar adecuadamente los componentes clave:
Capa de datos (Base de datos central): El almacenamiento principal para datos estructurados y semiestructurados.
Herramientas ETL (Extracción, Transformación y Carga): Se utilizan para la integración, limpieza y carga de datos en el almacén.
Metadatos: Datos sobre los datos, incluyendo esquemas, tipos de datos y relaciones.
Herramientas de acceso: Permiten a los usuarios interactuar con el almacén de datos para realizar consultas y análisis.
Beneficios de la arquitectura de almacenes de datos en la nube:
Escalabilidad: Las soluciones en la nube ofrecen funciones de escalado automático para adaptarse al aumento de volúmenes de datos y cargas de trabajo.
Rendimiento: Los almacenes de datos en la nube pueden realizar consultas analíticas complejas mucho más rápido que las soluciones locales tradicionales gracias a MPP y otras optimizaciones específicas de la nube.
Rentabilidad: Los proveedores de la nube ofrecen diversos modelos de precios, lo que permite a las organizaciones pagar solo por los recursos que consumen.
Gestión simplificada: Los servicios en la nube automatizan muchas tareas de gestión del almacén de datos, como copias de seguridad, actualizaciones y escalado, lo que reduce la carga operativa del personal de TI.
Data Fabric aprovecha los activos existentes de la era del Logical Data Warehouse
Data Fabric es un concepto emergente para la gestión e integración de datos. Su objetivo es lograr una integración de datos flexible, reutilizable y aumentada para facilitar el acceso a los datos en toda la empresa. Data Fabric es una evolución natural para muchas organizaciones de sus modelos lógicos de almacenamiento de datos, ya que aprovecha la tecnología y los metadatos existentes, para convertirse en una arquitectura de datos modernizada. Con un diseño de Data Fabric, no se trata de «eliminar y reemplazar». En cambio, se aprovecha la inversión realizada y a la vez que proporciona orientación para la priorización y el control de costes de las nuevas inversiones en gestión de datos.
Data Fabric ofrece beneficios desde diferentes perspectivas:
Perspectiva empresarial: Permite a los usuarios de negocio con menos conocimientos técnicos (incluidos los analistas) encontrar, integrar, analizar y compartir datos rápidamente.
Perspectiva del equipo de gestión de datos: Mejora la productividad gracias al acceso e integración automatizados de datos para los ingenieros de datos, y una mayor agilidad que resulta en un mayor número de solicitudes cumplimentadas de datos por día, semana y año.
Perspectiva general de la organización: Mayor rapidez para obtener información valiosa a partir de las inversiones en datos y análisis; mejor utilización de los datos de la organización; reducción de costes mediante el análisis de metadatos en todos los sistemas participantes y la obtención de información sobre el diseño, la entrega y la utilización eficaces de los datos.
Los dos factores que determinan si un diseño de Data Fabric es adecuado para una organización son: la integridad de los metadatos y la experiencia en la materia de Data Fabric. En concreto, las organizaciones con una cantidad insuficiente de metadatos no verán los beneficios de Data Fabric. La falta de metadatos también aumenta la dependencia de expertos en la materia que puedan ayudar a descubrir, inferir e incluso crear metadatos, lo que puede anular los requisitos relativamente bajos de un diseño de Data Fabric para expertos en la materia.


