Qué es data mesh?

Tal y como la definió por primera vez Zhamak Dehghani, consultor de ThoughtWorks y arquitecto original del término, un data mesh es un tipo de arquitectura de plataforma de datos que adopta la ubicuidad de los datos en la empresa aprovechando un diseño de autoservicio orientado al dominio. 

Es una arquitectura de datos descentralizada que organiza los datos por dominio empresarial específico (por ejemplo, marketing, ventas, servicio al cliente, etc.). Un data mesh transfiere la propiedad de los datos a los productores de un determinado conjunto de datos. Así, los productores de datos pueden definir políticas de gobernanza de datos centradas en la documentación, la calidad y el acceso. 

Un data mesh utiliza un enfoque centrado en el ser humano y en el producto para ayudar a resolver los retos que plantea la naturaleza heterogénea de las fuentes de datos hoy en día.

Con los métodos tradicionales de almacenamiento de datos, como los data lakes y los ware houses, centralizar y consolidar todas las fuentes de datos en una ubicación puede convertirse en un problema cuando se busca obtener información rápida que ayude a tomar decisiones.

Para utilizar los datos, las empresas se enfrentan a la necesidad de sumergirse en un almacenamiento de datos centralizado, donde muchos de los datos pueden ser irrelevantes. Además, la limpieza y el procesamiento de los datos pueden requerir amplios conocimientos técnicos, de los que a menudo carecen los usuarios de la línea de negocio y que pueden causar fricciones en el proceso.

Data mesh arquitectura
Data mesh arquitectura - Cloudera

Un Data Fabric es una mezcla de arquitectura y tecnología que pretende aliviar la dificultad y la complejidad de gestionar varios tipos de datos diferentes. Se despliega en diversas plataformas y utiliza numerosos sistemas de gestión de bases de datos. Un Data Fabric proporciona una experiencia de usuario consistente y consolidada, así como acceso a los datos para cualquier miembro de una organización a nivel global y en tiempo real.

El objetivo de un Data Fabric es ayudar a las organizaciones a entender y gestionar todos sus datos independientemente de:

  • La forma en que se almacenan los datos
  • La ubicación en la que se almacenan los datos y
  • La plataforma o aplicación en la que se almacenan los datos.

Se trata de una solución integral que integra y gestiona datos de diversas fuentes y proporciona acceso a todos los datos en una plataforma que permite un fácil acceso en un entorno de datos distribuidos. 

Te contamos más sobre la importancia del data fabrik en este post.

 

Diferencias entre Data Mesh y Data Fabric

Si bien Data Mesh tiene como objetivo resolver muchos de los mismos problemas que Data Fabric,(https://www.modus.es/data-fabric/por-que-es-importante-utilizar-data-fabric/)  es decir, la dificultad de administrar datos en un entorno de datos heterogéneo, aborda el problema de una manera fundamentalmente diferente. Como primera idea podríamos decir que mientras Data Fabric busca construir una única capa de administración virtual sobre los datos distribuidos, Data Mesh alienta que  grupos distintos de equipos a administrar los datos como mejor les parezca, aunque con algunas disposiciones de gobernanza comunes.

El principio inicial que impulsa Data Mesh es rectificar la incongruencia entre el concepto de Data Lake y el de Data Wahehouse. Mientras que Data Warehouse de primera generación está diseñado para almacenar datos en gran parte estructurados que utilizan los analistas de datos para análisis de SQL retrospectivos, el Data Lake de segunda generación se usa principalmente para almacenar datos en gran parte no estructurados que el científico de datos utiliza para construir modelos de  Machine Leaning. También podríamos pensar un sistema de tercera generación marcado por data flow en tiempo real con la adopción de servicios en la nube, pero no resuelve los problemas de integración subyacente entre los sistemas de primera y segunda generación.

Muchas organizaciones crean y mantienen elaborados procesos de ETL en un intento por mantener los datos sincronizados. Esto también impulsa la necesidad de  técnicos de datos muy especializados que tienen la tarea de mantener el sistema muchas veces muy complicado.

El enfoque dado por Data Mesh consiste en aplicar  una especie de filtro que se aplica a un conjunto común de datos que está disponible para todos los usuarios. Entonces, en lugar de construir un conjunto complejo de tuberías ETL para mover y transformar datos en repositorios especializados donde las diversas comunidades pueden analizarlos, los datos se retienen aproximadamente en su forma original, y una serie de equipos de dominios específicos recogen esos datos dándolos a modo de un producto. Data Mesh aborda esta preocupación con una nueva arquitectura que está marcada por cuatro características principales:

  • Propiedad y arquitectura de datos descentralizada orientada al dominio.

  • Datos como producto.

  • Infraestructura de datos de autoservicio como plataforma.

  • Gobernanza computacional federada.

En efecto, el enfoque de Data Mesh reconoce que solo los Data Lakes tienen la escalabilidad para manejar las necesidades analíticas actuales, pero el estilo de gestión  Top-down que las organizaciones han tratado de imponer en los Data Lakes ha sido un fracaso. Data Mesh intenta volver a imaginar esa estructura de propiedad de forma ascendente, lo que permite a los equipos individuales dentro de una organización construir los sistemas que satisfagan sus propias necesidades, aunque con cierta gobernanza previa.

Comparativa entre herramientas de Data Management

Comparativa entre herramientas de Data Management

Comparamos Qlik Talend Cloudera y otras opciones eficientes Con la llegada del nuevo programa Kit Consulting, impulsado por Red.es, que podrá solicitarse en breve, y destinado a contratar servicios de asesoramiento digital especializado y personalizado  para 10 categorías de servicios en áreas clave en transformación digital, entre las que se incluyen servicios de asesoramiento en análisis de datos, asesoramiento en IA  y servicios de asesoramiento en procesos de negocio o de producción, asesoramiento en estrategia y rendimiento de negocio entre otros. Obviamente, Modus participará como Agente Digitalizador una vez aprobadas las bases.Esto noticia ha dado lugar a alguna preguntas de nuestros clientes o colaboradores sobre su funcionamiento y que vamos a poder aportar. Este nuevo programa de ayudas, dirigido a pymes de entre 10 y menos de 250 empleados, se enmarca en el Plan de Recuperación Transformación y Resiliencia, y cuenta con un presupuesto de 300 millones de euros. Las bases reguladoras de Kit Consulting se publicaron en el BOE el pasado 11 de mayo y se pueden consultar en la web de Red.es. Se aplicarán bonos de 12.000, 18.000 y 24.000 euros para servicios de asesoramiento que las pymes deberán emplear en la contratación de uno o varios de los servicios de asesoramiento de los que se compone el Programa. Estos servicios de asesoramiento permitirán a las pymes beneficiarias contar con una hoja de ruta para avanzar en la digitalización de su negocio y seguir avanzando en su transformación digital.La principal consulta que nos llega es la duda sobre que herramienta consideramos más adecuada para aplicar es sus compañías y mejorar su competitividad y eficiencia, pregunta de casi imposible respuesta hasta analizar cuales son las necesidades reales y el tipo de mejora más eficiente. Para resolverlo, nos sentamos a charlar sobre ello y hemos establecido una comparación entre nuestros tres principales partners de negocio, aunque para ser objetivos hemos analizado otras opciones. Os dejamos el resumen de nuestras conclusiones, enfocados a un correcto Data Governance, y esperamos que os resulte interesante. Nuestros Partners ClouderaDescripción: Cloudera es una plataforma de gestión de datos y análisis que se centra en la gestión y procesamiento de grandes volúmenes de datos utilizando tecnologías como Hadoop y Apache Spark. Ofrece una solución integral para el ciclo de vida completo de los datos, incluyendo ingesta, almacenamiento, análisis y machine learning.Ventajas:Escalabilidad: Capaz de manejar grandes volúmenes de datos y escalabilidad horizontal.Flexibilidad: Soporta múltiples tipos de datos y arquitecturas de Big Data.Integración: Compatible con diversas herramientas de análisis y procesamiento de datos.Seguridad: Ofrece robustas características de seguridad y gestión de datos.Desventajas:Complejidad: Puede ser complejo de configurar y administrar.Precio: Es una herramienta enfocada a mediana y gran empresa.Requiere Expertise: Necesita personal con conocimientos técnicos avanzados para su gestión y operación.TalendDescripción: Talend es una plataforma de integración de datos y gestión de datos que permite conectar, extraer, transformar y cargar (ETL) datos desde diversas fuentes. Está diseñada para facilitar la integración de datos en tiempo real y la gestión de datos maestros.Ventajas:Facilidad de uso: Interfaz de usuario intuitiva y visual, lo que facilita el diseño de flujos de trabajo de ETL.Amplia Conectividad: Ofrece una amplia gama de conectores para diversas fuentes de datos.Código Abierto: Talend tiene una versión open-source que es accesible y puede ser una buena opción para startups o proyectos con presupuestos limitados.Escalabilidad: Capaz de manejar desde pequeñas hasta grandes cantidades de datos.Desventajas:Rendimiento: Puede ser menos eficiente en comparación con herramientas optimizadas para Big Data.Precio de Licencias: Adecuado para las prestaciones y el ahorro de gastos queaporta a la empresa.Dependencia de Software Adicional: Puede requerir otros sistemas y software para algunas funcionalidades avanzadas.QlikDescripción: Qlik es una plataforma de análisis de datos y visualización que permite a los usuarios explorar datos y crear informes y dashboards interactivos. Se centra en la analítica visual y la inteligencia de negocios (BI).Ventajas:Interactividad: Fuerte enfoque en la visualización interactiva y la exploración de datos.Simplicidad de Uso: Interfaz de usuario intuitiva que facilita la creación de visualizaciones complejas.Data Discovery: Permite descubrir relaciones entre datos de manera dinámica y rápida.Integración: Se integra bien con una variedad de fuentes de datos.Desventajas:Precio: Un proyecto complejo puede ser caro para pequeñas  empresas.Curva de Aprendizaje: Aunque es fácil de usar, puede requerir tiempo para dominar todas sus capacidades.Capacidades de ETL Limitadas: No es tan robusto en funciones de ETL comparado con herramientas dedicadas como Talend. ClouderaTalendQlikFunción PrincipalGestión y análisis de Big DataIntegración y gestión de datos (ETL)Análisis de datos y visualizaciónFacilidad de UsoModerada a ComplejaAltaAltaEscalabilidadAltaAltaModeradaPrecioMedioVariable (versión open-source disponible)MedioFlexibilidadAltaAltaModeradaInteractividadModeradaModeradaAltaSeguridadAltaModeradaModeradaIntegraciónAltaAltaAltaRendimiento ETLAlto (para Big Data)Alto (para diversos volúmenes de datos)Bajo (no optimizado para ETL) Otras Plataformas Encontrar un único software que integre perfectamente las capacidades de Cloudera, Talend y Qlik puede ser un desafío, ya que cada uno de estos productos está altamente especializado en diferentes aspectos del manejo y análisis de datos. Sin embargo, algunas plataformas integrales intentan cubrir un amplio rango de funcionalidades similares a las que ofrecen estos tres:Apache SparkDescripción: Apache Spark es un motor de análisis unificado para procesamiento de Big Data a gran escala. Puede realizar tareas de ETL, análisis de datos y machine learning.Ventajas:Big Data Processing: Similar a Cloudera en cuanto a manejo de grandes volúmenes de datos.Machine Learning: Integrado con MLlib para capacidades avanzadas de machine learning.Integración: Funciona bien con herramientas de visualización como Qlik a través de conectores.Desventajas:Curva de Aprendizaje: Requiere conocimientos técnicos avanzados.No es Plug-and-Play: Requiere configuración y mantenimiento considerable.DatabricksDescripción: Databricks es una plataforma de análisis de datos basada en Apache Spark que facilita la colaboración entre equipos de data science, ingeniería de datos y negocios.Ventajas:Plataforma Unificada: Combina procesamiento de Big Data, ETL y análisis.Machine Learning: Capacidades avanzadas para desarrollar y desplegar modelos de ML.Integración: Compatible con una variedad de herramientas de visualización y almacenamiento de datos.Desventajas:Precio: Puede ser muy elevado dependiendo del uso.Complejidad: Necesita conocimientos avanzados para su configuración y uso.Microsoft Azure Synapse AnalyticsDescripción: Azure Synapse Analytics es un servicio de análisis que reúne el almacenamiento de datos empresariales y el Big Data. Ofrece integración, análisis y visualización de datos en una sola plataforma.Ventajas:Integración de Datos: Herramientas de ETL integradas.Análisis: Capacidades

Implementación de Talend para una Data Fabric

Implementación de Talend para una Data Fabric

Publicación de Blog sobre la Implementación de Talend para una Data Fabric

Subvenciones para la I+D+i: cómo conseguir financiación para tu proyecto innovador

Subvenciones para la I+D+i: cómo conseguir financiación para tu proyecto innovador

Las subvenciones para la I+D+i son una herramienta fundamental para impulsar la investigación y el desarrollo tecnológico en España. En este artículo, se analiza en profundidad el marco normativo que regula estas subvenciones y los requisitos necesarios para obtenerlas. Además, se explican los diferentes tipos de subvenciones disponibles y se ofrecen consejos para conseguir la financiación que necesitas para tu proyecto innovador. También se aborda la situación actual de las subvenciones para la I+D+i en España y se analizan las perspectivas de futuro para la investigación y el desarrollo tecnológico en nuestro país. Marco General de las Subvenciones para la I+D+i en España Concepto de subvención para la I+D+i Las subvenciones para la I+D+i son ayudas financieras que se otorgan para fomentar el desarrollo de proyectos de investigación y desarrollo tecnológico en empresas, organismos públicos y privados. Estas ayudas están diseñadas para apoyar el esfuerzo y los costes asociados a la investigación y para incentivar la innovación y la tecnología, lo que permite a las empresas ser más competitivas en el mercado y mejorar su posición en el mismo. Marco normativo de las subvenciones para la I+D+i en España En España, las subvenciones para la I+D+i están reguladas por diferentes leyes y disposiciones normativas. La legislación más relevante incluye la Ley de la Ciencia, la Tecnología y la Innovación, la Ley General de Subvenciones y el Real Decreto 4/2004, además de otra normativa específica que se aplica a los diferentes sectores, comunidades autónomas y programas de ayudas. Estrategias y planes de innovación en España En España, las estrategias de innovación se han desarrollado en el marco de la Estrategia Española de Ciencia, Tecnología e Innovación (EECTI). La EECTI establece los objetivos, las líneas de actuación y los instrumentos necesarios para fomentar la innovación en España, incluyendo la I+D+i, y se ha desarrollado en estrecha colaboración con las diferentes comunidades autónomas, universidades, organismos públicos y empresas del país. Tipos de Subvenciones para la I+D+i Subvenciones destinadas a proyectos de investigación y desarrollo En la actualidad, existen diversas subvenciones en España que buscan financiar proyectos de investigación y desarrollo en diferentes áreas. Estas subvenciones están destinadas a empresas, universidades y centros de investigación para fomentar el desarrollo de proyectos innovadores. Dentro de este tipo de subvenciones podemos encontrar las siguientes: Ayudas a proyectos de I+D+i sin ánimo de lucro Además de las subvenciones mencionadas anteriormente, existen otras ayudas para proyectos de I+D+i sin ánimo de lucro. Estas ayudas están dirigidas a organizaciones que quieran desarrollar proyectos de investigación científica y técnica, así como proyectos con un enfoque social, cultural o medioambiental. Desarrollo experimental y protección de datos personales en I+D+i La protección de datos personales es un aspecto fundamental en cualquier proyecto de I+D+i. Por ello, existen subvenciones específicas para proyectos que aborden la protección de datos personales en su desarrollo experimental. Estas subvenciones están destinadas a empresas y organizaciones que quieran desarrollar proyectos innovadores con un enfoque en la protección de la privacidad de los datos personales. Financiación de proyectos de I+D+i con regímenes de concurrencia competitiva Por último, existen subvenciones que se conceden a través de procedimientos de concurrencia competitiva. En este tipo de subvenciones, los proyectos son seleccionados en base a su valor innovador y su capacidad para generar impacto económico y social. Estas subvenciones están destinadas a empresas, universidades y centros de investigación que quieran desarrollar proyectos de I+D+i en diferentes áreas. Requisitos para Obtener las Subvenciones para la I+D+i Certificaciones y documentación requerida para obtener subvenciones para la I+D+i Para optar a las subvenciones para la I+D+i en España, es necesario presentar una serie de certificaciones y documentación requerida para su obtención. Entre las certificaciones exigidas se encuentran las relacionadas con la protección de datos personales, que deberán ser adaptadas al Reglamento General de Protección de Datos (RGPD). En cuanto a la documentación necesaria, debe presentarse un plan de innovación a largo plazo, que incluya el objetivo de investigación y desarrollo, la metodología a seguir y los resultados esperados. También se exige la acreditación del personal investigador, así como su experiencia y formación. Además, se deberán presentar los presupuestos y los programas de financiación del proyecto, así como un calendario de ejecución de las actividades previstas. Sistema de información y tratamiento de datos personales para la I+D+i Es necesario contar con un sistema de información y tratamiento de datos personales que cumpla con los requisitos establecidos en el RGPD para la gestión de la información de los proyectos de investigación y desarrollo. Es también importante considerar la necesidad de obtener el consentimiento explícito, informado y libre de los titulares de los datos personales que se vayan a utilizar en el proyecto. Actividades de tratamiento de datos en proyectos de investigación y desarrollo En los proyectos de investigación y desarrollo que impliquen el uso de datos personales, se deberá garantizar su confidencialidad y seguridad, así como el respeto de los derechos de los titulares de los datos. Se deberá cumplir con las normativas en materia de protección de datos personales, estableciendo medidas técnicas, organizativas y legales que garanticen la seguridad en el tratamiento de la información. Para ello, es recomendable contar con un Delegado de Protección de Datos (DPD) que se encargue de velar por el cumplimiento de la normativa en materia de protección de datos de carácter personal y que establezca los protocolos y medidas necesarias para garantizar la seguridad y privacidad de los datos. Conclusiones Cumplir con los requisitos para poder acceder a las subvenciones para la I+D+i es fundamental para llevar a cabo proyectos innovadores y conseguir financiación. Contar con la certificación y la documentación necesaria, tener un sistema de información y tratamiento de datos personales adecuado, establecer medidas de seguridad y privacidad y contar con un DPD son claves para el éxito en la obtención de estas subvenciones. Situación Actual de las Subvenciones para la I+D+i en España Plan de recuperación del Gobierno para la I+D+i en España en el año 2023 En la actualidad, el Gobierno español está implementando un plan de