Data Mesh vs Data Fabric

Si bien Data Mesh tiene como objetivo resolver muchos de los mismos problemas que Data Fabric,(https://www.modus.es/data-fabric/por-que-es-importante-utilizar-data-fabric/)  es decir, la dificultad de administrar datos en un entorno de datos heterogéneo, aborda el problema de una manera fundamentalmente diferente. Como primera idea podríamos decir que mientras Data Fabric busca construir una única capa de administración virtual sobre los datos distribuidos, Data Mesh alienta que  grupos distintos de equipos a administrar los datos como mejor les parezca, aunque con algunas disposiciones de gobernanza comunes.

El principio inicial que impulsa Data Mesh es rectificar la incongruencia entre el concepto de Data Lake y el de Data Wahehouse. Mientras que Data Warehouse de primera generación está diseñado para almacenar datos en gran parte estructurados que utilizan los analistas de datos para análisis de SQL retrospectivos, el Data Lake de segunda generación se usa principalmente para almacenar datos en gran parte no estructurados que el científico de datos utiliza para construir modelos de  Machine Leaning. También podríamos pensar un sistema de tercera generación marcado por data flow en tiempo real con la adopción de servicios en la nube, pero no resuelve los problemas de integración subyacente entre los sistemas de primera y segunda generación.

Muchas organizaciones crean y mantienen elaborados procesos de ETL en un intento por mantener los datos sincronizados. Esto también impulsa la necesidad de  técnicos de datos muy especializados que tienen la tarea de mantener el sistema muchas veces muy complicado.

El enfoque dado por Data Mesh consiste en aplicar  una especie de filtro que se aplica a un conjunto común de datos que está disponible para todos los usuarios. Entonces, en lugar de construir un conjunto complejo de tuberías ETL para mover y transformar datos en repositorios especializados donde las diversas comunidades pueden analizarlos, los datos se retienen aproximadamente en su forma original, y una serie de equipos de dominios específicos recogen esos datos dándolos a modo de un producto. Data Mesh aborda esta preocupación con una nueva arquitectura que está marcada por cuatro características principales:

  • Propiedad y arquitectura de datos descentralizada orientada al dominio.
  • Datos como producto.
  • Infraestructura de datos de autoservicio como plataforma.
  • Gobernanza computacional federada.

En efecto, el enfoque de Data Mesh reconoce que solo los Data Lakes tienen la escalabilidad para manejar las necesidades analíticas actuales, pero el estilo de gestión  Top-down que las organizaciones han tratado de imponer en los Data Lakes ha sido un fracaso. Data Mesh intenta volver a imaginar esa estructura de propiedad de forma ascendente, lo que permite a los equipos individuales dentro de una organización construir los sistemas que satisfagan sus propias necesidades, aunque con cierta gobernanza previa.