Modus

Qué es data mesh?

Tal y como la definió por primera vez Zhamak Dehghani, consultor de ThoughtWorks y arquitecto original del término, un data mesh es un tipo de arquitectura de plataforma de datos que adopta la ubicuidad de los datos en la empresa aprovechando un diseño de autoservicio orientado al dominio. 

Es una arquitectura de datos descentralizada que organiza los datos por dominio empresarial específico (por ejemplo, marketing, ventas, servicio al cliente, etc.). Un data mesh transfiere la propiedad de los datos a los productores de un determinado conjunto de datos. Así, los productores de datos pueden definir políticas de gobernanza de datos centradas en la documentación, la calidad y el acceso. 

Un data mesh utiliza un enfoque centrado en el ser humano y en el producto para ayudar a resolver los retos que plantea la naturaleza heterogénea de las fuentes de datos hoy en día.

Con los métodos tradicionales de almacenamiento de datos, como los data lakes y los ware houses, centralizar y consolidar todas las fuentes de datos en una ubicación puede convertirse en un problema cuando se busca obtener información rápida que ayude a tomar decisiones.

Para utilizar los datos, las empresas se enfrentan a la necesidad de sumergirse en un almacenamiento de datos centralizado, donde muchos de los datos pueden ser irrelevantes. Además, la limpieza y el procesamiento de los datos pueden requerir amplios conocimientos técnicos, de los que a menudo carecen los usuarios de la línea de negocio y que pueden causar fricciones en el proceso.

Data mesh arquitectura
Data mesh arquitectura - Cloudera

Un Data Fabric es una mezcla de arquitectura y tecnología que pretende aliviar la dificultad y la complejidad de gestionar varios tipos de datos diferentes. Se despliega en diversas plataformas y utiliza numerosos sistemas de gestión de bases de datos. Un Data Fabric proporciona una experiencia de usuario consistente y consolidada, así como acceso a los datos para cualquier miembro de una organización a nivel global y en tiempo real.

El objetivo de un Data Fabric es ayudar a las organizaciones a entender y gestionar todos sus datos independientemente de:

  • La forma en que se almacenan los datos
  • La ubicación en la que se almacenan los datos y
  • La plataforma o aplicación en la que se almacenan los datos.

Se trata de una solución integral que integra y gestiona datos de diversas fuentes y proporciona acceso a todos los datos en una plataforma que permite un fácil acceso en un entorno de datos distribuidos. 

Te contamos más sobre la importancia del data fabrik en este post.

 

Diferencias entre Data Mesh y Data Fabric

Si bien Data Mesh tiene como objetivo resolver muchos de los mismos problemas que Data Fabric,(https://www.modus.es/data-fabric/por-que-es-importante-utilizar-data-fabric/)  es decir, la dificultad de administrar datos en un entorno de datos heterogéneo, aborda el problema de una manera fundamentalmente diferente. Como primera idea podríamos decir que mientras Data Fabric busca construir una única capa de administración virtual sobre los datos distribuidos, Data Mesh alienta que  grupos distintos de equipos a administrar los datos como mejor les parezca, aunque con algunas disposiciones de gobernanza comunes.

El principio inicial que impulsa Data Mesh es rectificar la incongruencia entre el concepto de Data Lake y el de Data Wahehouse. Mientras que Data Warehouse de primera generación está diseñado para almacenar datos en gran parte estructurados que utilizan los analistas de datos para análisis de SQL retrospectivos, el Data Lake de segunda generación se usa principalmente para almacenar datos en gran parte no estructurados que el científico de datos utiliza para construir modelos de  Machine Leaning. También podríamos pensar un sistema de tercera generación marcado por data flow en tiempo real con la adopción de servicios en la nube, pero no resuelve los problemas de integración subyacente entre los sistemas de primera y segunda generación.

Muchas organizaciones crean y mantienen elaborados procesos de ETL en un intento por mantener los datos sincronizados. Esto también impulsa la necesidad de  técnicos de datos muy especializados que tienen la tarea de mantener el sistema muchas veces muy complicado.

El enfoque dado por Data Mesh consiste en aplicar  una especie de filtro que se aplica a un conjunto común de datos que está disponible para todos los usuarios. Entonces, en lugar de construir un conjunto complejo de tuberías ETL para mover y transformar datos en repositorios especializados donde las diversas comunidades pueden analizarlos, los datos se retienen aproximadamente en su forma original, y una serie de equipos de dominios específicos recogen esos datos dándolos a modo de un producto. Data Mesh aborda esta preocupación con una nueva arquitectura que está marcada por cuatro características principales:

  • Propiedad y arquitectura de datos descentralizada orientada al dominio.

  • Datos como producto.

  • Infraestructura de datos de autoservicio como plataforma.

  • Gobernanza computacional federada.

En efecto, el enfoque de Data Mesh reconoce que solo los Data Lakes tienen la escalabilidad para manejar las necesidades analíticas actuales, pero el estilo de gestión  Top-down que las organizaciones han tratado de imponer en los Data Lakes ha sido un fracaso. Data Mesh intenta volver a imaginar esa estructura de propiedad de forma ascendente, lo que permite a los equipos individuales dentro de una organización construir los sistemas que satisfagan sus propias necesidades, aunque con cierta gobernanza previa.

Implementación de Talend para una Data Fabric

Implementación de Talend para una Data Fabric

Publicación de Blog sobre la Implementación de Talend para una Data Fabric

Subvenciones para la I+D+i: cómo conseguir financiación para tu proyecto innovador

Subvenciones para la I+D+i: cómo conseguir financiación para tu proyecto innovador

Las subvenciones para la I+D+i son una herramienta fundamental para impulsar la investigación y el desarrollo tecnológico en España. En este artículo, se analiza en profundidad el marco normativo que regula estas subvenciones y los requisitos necesarios para obtenerlas. Además, se explican los diferentes tipos de subvenciones disponibles y se ofrecen consejos para conseguir la […]

Integración de Aplicaciones en la Nube, Lo que Necesitas Saber

Integración de Aplicaciones en la Nube, Lo que Necesitas Saber

Integración de Aplicaciones en la Nube, Lo que Necesitas Saber En la era digital actual, la mayoría de las empresas tienen múltiples aplicaciones que utilizan para su funcionamiento diario. Desde aplicaciones de contabilidad hasta aplicaciones de marketing, cada empresa tiene sus propias necesidades de software. Sin embargo, el problema surge cuando estas aplicaciones no se […]