Arquitecturas para un eficiente Data Management

Redactado por Juan Manuel Recio, CEO de Modus La disciplina que trata la arquitectura de datos es un factor estratégico crucial para el uso de los datos y el análisis cuando necesita gestionar adecuadamente su Data Management . Para conectar eficazmente la estrategia de las empresas con su implementación técnica, los CDAO (Chief Data and Analytics Officer) deben diseñar una adecuada arquitectura de datos, esto permite a los responsables de D&A (Data & Analytics) planificar eficazmente, conectar la estrategia con los procesos y generar valor a largo plazo para la organización. La arquitectura de datos está evolucionando para ofrecer autoservicio de datos habilitado por metadatos Las mejores prácticas de la arquitectura de análisis de datos han evolucionado a lo largo de las últimas décadas, a medida que las iniciativas de transformación digital han puesto de relieve la necesidad de modernizar la estrategia de datos y aprovechar las oportunidades para su uso. Estas etapas incluyen: Período anterior al año 2000: La era del Enterprise Data Warehouse: arquitectura de datos centrada en el éxito del (EDW). 2000-2010 Era posterior a EDW: Este período se caracteriza por el análisis fragmentado de datos, donde los data marts dependían del data warehouse. Y, según a quién se preguntara, se obtenía una versión diferente de la realidad, ya que cada consolidación de Data Marts generaba un nuevo silo de datos, lo que resultaba en análisis fragmentados e inconsistentes. 2010-2020 La era del Logical Data Warehouse (LDW): Este período vio un análisis más unificado de los datos mediante una capa semántica común, lo que permitió el acceso a Data Warehouse, Data Marts y Data Lakes. Esta es la mejor práctica actual. 2020-futuro La era de metadatos activos: En el futuro se verá un análisis aumentado de datos utilizando todas las fuentes de datos relevantes, a las que se puede acceder y habilitar mediante análisis avanzados, motores de recomendación, orquestación de datos e IA, prácticas adaptativas y análisis de metadatos. Todo esto a través de los Metadatos Activos. La democratización del acceso a los datos y el análisis de autoservicio impulsa la evolución actual de la era de los LDW a la era de los metadatos activos. Los directores de datos y análisis (CDAO) también esperan ampliar los casos de uso de los datos más allá de los que los LDW pueden gestionar. Estos incluyen la gestión de datos maestros, el intercambio de datos interempresariales, la integración de datos B2B, el intercambio de datos de socios, la integración de datos de aplicaciones, entre otros. Pero ¿qué son los metadatos y qué papel desempeñan en esta evolución?: Los metadatos describen diferentes facetas de los datos, como el contexto de los datos. Se generan como subproducto de la transferencia de datos a través de los sistemas empresariales. Existen cuatro tipos de metadatos: técnicos, operativos, empresariales y sociales. Cada uno de estos tipos puede ser metadatos «pasivos» que las organizaciones recopilan pero no analizan activamente, o metadatos «activos» que identifican acciones en dos o más sistemas que utilizan los mismos datos. Los metadatos activos pueden facilitar la automatización, proporcionar información y optimizar la interacción del usuario, y son un elemento clave para el análisis de autoservicio. Sin embargo, para alcanzar su potencial se requiere una arquitectura de datos que equilibre los requisitos de repetibilidad, reutilización, gobernanza, autoridad, procedencia y entrega optimizada. Los líderes en análisis de datos ven dos opciones para evolucionar su arquitectura de datos desde la era LDW, donde la mayoría opera actualmente, hacia la era de los metadatos activos. Estas opciones son Data Fabric o Data Mesh. Estos conceptos comparten el objetivo de facilitar el acceso a los datos a todos sus usuarios, incluyendo científicos, analistas e ingenieros de datos, así como a los consumidores de datos. Si bien muchos líderes de datos hablan de Data Fabric y Data Mesh como enfoques de arquitectura de datos que compiten entre sí, se consideran más acertadamente complementarios. Últimas tendencias y tecnologías en arquitectura de datos Data Fabric: Este concepto de diseño facilita el acceso a los datos en toda la empresa mediante una integración de datos flexible, reutilizable y mejorada. Aprovecha la tecnología y los metadatos existentes para modernizar la arquitectura de datos sin necesidad de una revisión completa. Data Mesh: Un enfoque arquitectónico que descentraliza la gestión de datos, asignando su propiedad a los dominios empresariales. Su objetivo es apoyar la definición, la entrega, el mantenimiento y la gestión de productos de datos, facilitando su localización y uso por parte de los consumidores. Active Metadata: La transición de metadatos pasivos a activos permite la automatización, proporciona información y optimiza el engagement con el usuario. Los metadatos activos identifican acciones en todos los sistemas utilizando los mismos datos, lo que facilita el análisis en forma de autoservicio. Best Practices para garantizar la escalabilidad y flexibilidad de la arquitectura de Data Management Diseño modular: Construya una arquitectura modular que permita el escalado independiente de los componentes a medida que evolucionan las demandas. Microservicios: Utilice microservicios para la implementación y el escalado de servicios de datos específicos, mejorando la flexibilidad y la agilidad. Escalado elástico: Adopte soluciones nativas de la nube para el escalado automático y así gestionar cargas de trabajo variables de forma eficiente. ¿Cómo cumple la arquitectura de Data Management con las normativas de privacidad de datos como el RGPD y la CCPA? Mediante un framework de gobernanza de datos: Implementar políticas de gobernanza sólidas para gestionar el ciclo de vida de los datos, garantizando su correcta creación, uso y control, de acuerdo con la normativa. Enmascaramiento y Encriptación: Aplicar estas técnicas para proteger los datos sensibles y mantener el cumplimiento de los estándares de privacidad. Información para auditoría: Mantener registros detallados del acceso y los cambios en los datos para facilitar la supervisión y la generación de informes de cumplimiento. Arquitectura Data Warehouse en la nube Suelen tener tres componentes principales: fuentes de datos, almacenamiento de datos y procesamiento de datos. Las fuentes de datos incluyen diversos sistemas y aplicaciones, mientras que el almacenamiento de datos utiliza un sistema

Arquitecturas para un eficiente Data Management Leer más »

¿Qué es ETL?

¿Qué es ETL? Un proceso clave para la gestión de datos En un mundo donde los datos se han convertido en el activo más valioso de las empresas, contar con procesos eficientes para su manejo es fundamental. Uno de los métodos más utilizados para gestionar grandes volúmenes de información es el proceso ETL (Extract, Transform, Load). Pero, ¿qué significa exactamente ETL? ¿Cómo funciona y por qué es tan importante? En este artículo exploraremos en profundidad este concepto clave en la gestión y análisis de datos. ETL es el acrónimo de Extract, Transform, Load (Extracción, Transformación y Carga). Se trata de un conjunto de procesos que permiten recopilar datos desde diversas fuentes, transformarlos en un formato adecuado y almacenarlos en un sistema de destino, generalmente un data warehouse o un data lake. Este proceso es crucial en el mundo de la inteligencia de negocios (BI), el big data y el análisis avanzado de datos. El proceso ETL es fundamental para cualquier empresa que desee aprovechar el potencial de los datos para la toma de decisiones. Permite estructurar, limpiar y transformar información proveniente de diversas fuentes, garantizando su calidad y disponibilidad para el análisis. Con una estrategia ETL bien definida y el uso de herramientas adecuadas, las organizaciones pueden mejorar su eficiencia operativa, detectar oportunidades de negocio y obtener ventajas competitivas en un mundo cada vez más impulsado por los datos. Extracción de Datos (Extract) La fase de extracción consiste en recolectar datos de diferentes fuentes, que pueden incluir bases de datos relacionales, APIs, archivos CSV, XML, JSON, o incluso sistemas en la nube y aplicaciones de terceros. La extracción de datos puede ser un proceso complejo debido a la diversidad de formatos y estructuras en los que la información se almacena. Algunos tipos de fuentes de datos comunes incluyen: Bases de datos estructuradas (SQL, PostgreSQL, Oracle, etc.). Aplicaciones empresariales (CRM, ERP, herramientas de marketing, etc.). Archivos de texto y hojas de cálculo. Datos de sensores y dispositivos IoT. APIs de servicios web. La extracción de datos debe ser eficiente para evitar la sobrecarga de los sistemas de origen y garantizar que se recolecta la información correcta en el momento adecuado. Transformación de Datos (Transform) Una vez extraídos los datos, es necesario transformarlos para que sean compatibles con el sistema de destino. La transformación puede incluir varias tareas como: Limpieza de datos: Eliminación de valores nulos, datos duplicados o registros incorrectos. Conversión de formatos: Adaptación de fechas, unidades de medida, códigos y otros formatos. Enriquecimiento de datos: Incorporación de información adicional proveniente de otras fuentes. Normalización y desnormalización: Ajuste de datos para mantener coherencia en la estructura de la base de datos. Agregaciones y cálculos: Creación de indicadores clave y resumen de datos según sea necesario. La transformación de los datos es una etapa crítica, ya que determina la calidad de la información final y su utilidad para la toma de decisiones. Carga de Datos (Load) Finalmente, los datos transformados se cargan en su destino final, que puede ser un almacén de datos (data warehouse), un data lake o una base de datos operativa. La carga puede realizarse de dos maneras: Carga completa: Se borra la información existente y se carga todo el conjunto de datos actualizado. Carga incremental: Solo se añaden o actualizan los registros que han cambiado desde la última carga, optimizando el rendimiento del sistema. La elección del tipo de carga depende de las necesidades del negocio y del volumen de datos procesado. ¿Por qué es importante el proceso ETL? ETL juega un papel clave en la gestión de datos empresariales por varias razones: Centralización de datos: Permite consolidar información de múltiples fuentes en un solo sistema, facilitando su análisis. Mejora en la calidad de los datos: Gracias a los procesos de limpieza y transformación, se eliminan errores y se garantiza la coherencia de la información. Optimización del rendimiento: Los datos organizados en un data warehouse facilitan la generación de reportes y dashboards de manera eficiente. Facilitación del análisis avanzado: Permite a los científicos de datos y analistas trabajar con información estructurada y de alta calidad. Herramientas ETL más conocidas Existen numerosas herramientas ETL en el mercado, tanto de código abierto como comerciales. Algunas de las más utilizadas incluyen: Talend: Plataforma ETL de código abierto ampliamente utilizada. Informatica PowerCenter: Solución empresarial con potentes capacidades de transformación. Apache Nifi: Herramienta de código abierto diseñada para la automatización del flujo de datos. Microsoft SQL Server Integration Services (SSIS): Solución integrada con el ecosistema de Microsoft. Google Cloud Dataflow y AWS Glue: Opciones en la nube diseñadas para el procesamiento de grandes volúmenes de datos. La elección de la herramienta adecuada depende de factores como el presupuesto, el volumen de datos, la integración con otros sistemas y la facilidad de uso. ETL vs. ELT: ¿Cuál es la diferencia? Con el auge del big data, ha surgido una variación del proceso ETL conocida como ELT (Extract, Load, Transform). La principal diferencia es que en ETL los datos se transforman antes de ser almacenados, mientras que en ELT primero se cargan y luego se procesan dentro del sistema de destino. ELT es especialmente útil en entornos de big data donde los datos se almacenan en crudo y se transforman según sea necesario, aprovechando la potencia de procesamiento de plataformas como Apache Spark o Google BigQuery. Otros artículos ¿Qué es ETL? Learn more Implementación de Talend para una Data Fabric Learn more Talend Cloud: Gestión y integración de datos en la nube al alcance de tu mano Learn more Integración de Datos y Aplicaciones Ofrecemos herramientas líderes en el sector, así como servicios y formación adaptados a tu empresa Productos Talend Rapidminer Modus integration Logistics Política de privacidad Servicios Business Intelligence Data integration Data Science Data Warehouse Integración de Aplicaciones Data Fabric Términos de uso

¿Qué es ETL? Leer más »

Una pantalla recibiendo datos de distintas fuente, mientras una manos señala la información. Significa la facilidad con la que Talend permite a los usuarios hacer conexiones entre los datos.

Implementación de Talend para una Data Fabric

Publicación de Blog sobre la Implementación de Talend para una Data Fabric

Implementación de Talend para una Data Fabric Leer más »

Talend Cloud: Gestión y integración de datos en la nube al alcance de tu mano

Talend Cloud: Gestión e integración de datos en la nube Talend Cloud es una plataforma de gestión e integración de datos en la nube líder en Europa. Ofrece una solución completa para la ingesta, tratamiento y gobierno de datos en diferentes industrias y departamentos. Puedes construir canalizaciones de datos rápidas y sencillas en diferentes nubes y bases de datos, y cuenta con más de 1000 conectores para diferentes aplicaciones y fuentes de datos. ¿Qué es Talend Cloud? Talend Cloud es una plataforma líder en Europa de gestión e integración de datos en la nube. Con una amplia variedad de soluciones para la gestión de datos en diferentes industrias y departamentos, permite construir canalizaciones de datos de manera rápida y sencilla. Definición de Talend Cloud Talend Cloud es una herramienta de gestión e integración de datos en la nube. Ofrece una solución completa de extremo a extremo para la ingesta, tratamiento y gobierno de datos. Permite construir canalizaciones de datos de manera rápida y sencilla. Características de Talend Cloud Talend Cloud cuenta con una amplia variedad de soluciones para la gestión de datos en diferentes industrias y departamentos. La integración de datos en la plataforma Talend Cloud es posible en AWS, múltiples nubes y en combinación híbrida. Talend Cloud cuenta con más de 1000 conectores para diferentes bases de datos y aplicaciones. Ventajas de utilizar Talend Cloud Talend Cloud simplifica el cumplimiento de las reglas de uso. Permite a las organizaciones integrar y segmentar datos históricos y en tiempo real. Permite responder en tiempo real a nuevas oportunidades y retos. Permite crear información coherente mediante un conjunto de aplicaciones de colaboración. Talend Cloud ofrece precios asequibles, alta calidad de datos y variadas opciones de conectividad. ¿Cómo funciona Talend Cloud? Talend Cloud es la plataforma de integración de datos en la nube. En esta sección se describe cómo se lleva a cabo la integración de datos en Talend Cloud y cómo se puede utilizar en AWS. Integración de datos en Talend Cloud En Talend Cloud la integración de datos se lleva a cabo de manera rápida y sencilla. Cuenta con más de 1000 conectores para diferentes aplicaciones y fuentes de datos. Se pueden construir canalizaciones de datos con facilidad, permitiendo la ingestión, tratamiento y gobierno de datos de una manera eficiente. Opciones de integración en Talend Cloud Talend Cloud permite una amplia variedad de opciones para la integración de datos. Los usuarios pueden optar por la integración en la nube de Talend Cloud, en múltiples nubes o en combinación híbrida. La plataforma tiene una flexibilidad sin igual para resolver los desafíos de integración de una organización. Conectividad y compatibilidad de Talend Cloud Talend Cloud cuenta con más de 1000 conectores a diferentes aplicaciones y fuentes de datos, lo que facilita la integración de datos en cualquier empresa o industria. Talend Cloud está optimizada para AWS y se integra con facilidad a más de 900 componentes y conectores con soporte multi-nube e híbrido. La plataforma también cuenta con la solución Talend Data Quality, que limpia los datos inexactos e incoherentes. Uso de Talend Cloud en AWS Talend Cloud está disponible en AWS Marketplace y ofrece conectividad sencilla con AWS. Ofrece una variedad de beneficios, como la capacidad de responder en tiempo real a nuevas oportunidades y retos y crear información coherente mediante un conjunto de aplicaciones de colaboración. Integración de Talend Cloud en AWS La integración de Talend Cloud en AWS es sencilla y optimizada para esta plataforma. Se pueden construir canalizaciones de datos de manera rápida y sencilla, y cuenta con más de 1000 conectores para diferentes bases de datos y aplicaciones. La plataforma ofrece servicios de migraciones y expertos en integrar/mover todo tipo de fuentes de datos y de integraciones. Beneficios de utilizar Talend Cloud en AWS Talend Cloud en AWS ofrece varias ventajas, como la capacidad de segmentar y almacenar datos históricos y en tiempo real, y la simplificación del cumplimiento de las reglas de uso. La plataforma también permite a las organizaciones integrar datos de diferentes departamentos e industrias de manera eficiente. Soluciones de Talend Cloud Talend Cloud ofrece diversas soluciones para la gestión e integración de datos, con el propósito de mejorar la calidad de los mismos y simplificar su gobierno. A continuación, se describen las principales soluciones: Talend Data Quality Talend Data Quality es una solución específica de Talend Cloud para limpiar los datos inexactos e incoherentes. Esta herramienta permite identificar errores, como metadatos dobles o valores atípicos, y corregirlos antes de su utilización, mejorando así la calidad de la información manejada por la organización. Entre sus principales características se encuentran: Análisis de calidad de datos en tiempo real Identificación y corrección automática de errores de datos Implementación guiada con asistente de creación de reglas de calidad de datos Comprensión instantánea de los valores de los datos con una vista previa de los registros Talend Studio Talend Studio es la principal herramienta de diseño de canales de datos de Talend Cloud, permitiendo crear y diseñar integraciones desde cualquier lugar. Con una interfaz gráfica única, esta herramienta proporciona una flexibilidad sin igual para resolver los desafíos de integración de una organización. Entre sus principales características se encuentran: Creación y diseño de integraciones de datos Creación de canales de datos personalizados con una interfaz gráfica fácil de usar Automatización completa de procesos manuales y repetitivos Funcionalidades de preparación y enriquecimiento de datos Talend Data Governance La solución de Talend Cloud, Talend Data Governance, permite simplificar la gestión y el gobierno de los datos empresariales, garantizando su conformidad y la calidad de los datos. La solución está diseñada para simplificar el cumplimiento de las reglas de uso y garantizar la integración y segmentación de datos históricos y en tiempo real. Entre sus principales características se encuentran: Gestión centralizada de los datos y su calidad Automatización de procesos de gobierno de datos Control de acceso y seguridad de los datos Integración y segmentación de datos históricos y en tiempo real Servicios y formaciones de Talend Cloud Servicios de Talend Cloud

Talend Cloud: Gestión y integración de datos en la nube al alcance de tu mano Leer más »

Talend Open Studio: La plataforma de integración de datos líder en España

Descripción de Talend Open Studio

Talend Open Studio: La plataforma de integración de datos líder en España Leer más »

Cuales son las herramientas ETL más usadas?

¿Qué son las herramientas ETL? Las herramientas ETL son un componente esencial para data warehousing y analítica y se encargan de asegurar la integración de datos entre bases de datos y aplicaciones mediante tres fases: Extracción: ·La fase de extracción consiste en la recuperación de información de varios sistemas de origen Transformación: la transformación involucra procesos para validar y transformar los datos extraídos en un formato útil y fácil de entender Carga: la carga es la fase final en la cual los datos se cargan en un almacén de datos. Las fuentes de datos pueden ser muy variadas, como bases de datos relacionales o no relacionales, ficheros, aplicaciones SaaS, CRMs, ERPs, APIs, páginas web o sistemas de logs. Para realizar estas transformaciones, es frecuente apoyarse en un Data Warehouse que almacena datos con diversas características. En los últimos años se han popularizado las herramientas ETL para tiempo real o streaming frente a los procesos de tipo Batch. Los casos de uso que requieren bajas latencias y obtener información de valor lo más rápido posible han aumentado mucho con los dispositivos IoT para Big Data y el enfoque hacia mejorar la experiencia de usuario. Herramientas ETL más usadas Las herramientas ETL más utilizadas en la actualidad son Apache NiFi, Streamsets, Talend, y Microsoft SSIS. A continuación, se detallan los pros y contras de cada una de estas herramientas: Apache NiFi Apache NiFi es una herramienta gratuita y open source que permite definir flujos o topologías de una forma visual, intuitiva y flexible para ETLs. Los procesadores son las unidades de procesamiento o carga de datos y se pueden extender con funcionalidad personalizada. Una de las principales ventajas de esta herramienta es su licencia Apache 2.0, el concepto de programación de flujo de datos, integración con Data Provenance y auditoría, y la posibilidad de manejar datos binarios. La interfaz de usuario es sencilla con grafos visuales y se puede gestionar la política de usuarios mediante LDAP. Sin embargo, algunos de sus contras incluyen la falta de estadísticas por registro procesado y su consumo elevado de recursos. StreamSets StreamSets es una plataforma empresarial centrada en construir y ejecutar procesos batch y flujos de datos en streaming. Se puede desplegar on premise y en cloud, y está preparada para escalar cómodamente. Streamsets se divide en varios componentes que se pueden configurar y desplegar por separado. Algunas de sus ventajas incluyen estadísticas individuales por registro, visualización pensada para realizar debugging, interfaz de usuario atractiva y facilidades para streaming. Algunas de sus desventajas son la falta de configuración JDBC reutilizable y que los cambios de configuración en el procesador requieren detener todo el flujo de datos. Talend Talend es una herramienta ETL empresarial open source que ofrece integraciones listas para usar con numerosas herramientas y tecnologías en cloud y on-premise. Además, cuenta con una versión de pago que ofrece componentes adicionales para el gobierno del dato, así como la monitorización de los procesos de integración del dato y ETL. Esta herramienta también permite descubrir fácilmente datos y relaciones, lo que la convierte en una opción popular en el mercado. Además, según el cuadrante de Gartner para herramientas de integración de datos, Talend es considerada una herramienta líder en su categoría. Entre sus ventajas, podemos destacar su gran cantidad de integraciones con tecnologías externas listas para usar, una versión open source gratuita disponible, una interfaz sencilla con funcionalidad de arrastrar y soltar, y su fácil extensibilidad con scripts y librerías en Java. Por otro lado, es posible que se requieran perfiles expertos en Java para crear elementos ad-hoc. Talend Data Fabric Talend Data Fabric es una plataforma de código abierto, perteneciente a Talend que ofrece un conjunto completo de herramientas para simplificar el procesamiento de datos. La herramienta ofrece una variedad de características, incluyendo la capacidad de conectar diferentes fuentes de datos, realizar análisis avanzados, desarrollar y ejecutar flujos de trabajo, así como realizar el seguimiento de los datos. Además, Talend es compatible con la mayoría de los sistemas operativos, incluidos Windows, Linux y Mac OS. Informatica PowerCenter Informatica PowerCenter, esta herramienta ha sido desarrollada por la empresa Informatica y es una solución empresarial para la integración del dato que requiere una licencia comercial. Es compatible con clouds de AWS y Azure. Entre sus ventajas, destaca la abundante documentación y formación, la facilidad de uso para gente no técnica ejecutando trabajos y su capacidad para integrar procesos de inteligencia artificial. También tiene una buena madurez y rendimiento. Sin embargo, es importante tener en cuenta que el precio de la licencia comercial es elevado y la curva de aprendizaje es más elevada que otras herramientas de integración de datos. Si no estás dispuesto a pagar una licencia comercial y prefieres una curva de aprendizaje más suave, Talend puede ser una mejor opción para ti. Apache Airflow Apache Airflow es una plataforma gratuita y open source que te permite crear, programar y monitorizar flujos de trabajo. Está basada en Python y es compatible con gestores de recursos como Mesos y Yarn. Entre sus ventajas están la visualización clara para tener una vista general de tus flujos de trabajo y una interfaz fácil de usar para programar y modificar tus trabajos, escalabilidad para adaptarse a tus necesidades. Entre sus contras destacamos que no es adecuado para streaming de datos y que tiene una cantidad de operadores que pueden ser insuficientes. AWS Data Pipeline AWS Data Pipeline es la solución de Amazon Web Services para transferir y transformar datos en la nube. Aunque no es gratuita y Amazon cobra por uso, es una opción interesante si necesitas realizar transformaciones de datos sencillas y trabajar con las tecnologías y servicios de Amazon en la nube. Entre sus ventajas destacan la facilidad de uso y su flexibilidad para integrarse con otros servicios de Amazon. Además tiene un precio razonable. Pentaho Pentaho es una herramienta desarrollada por Hitachi para llevar a cabo procesos empresariales ETL. Incluye Pentaho Data Integration (PDI), también conocido como Kettle, que permite la transformación y migración de datos entre aplicaciones.

Cuales son las herramientas ETL más usadas? Leer más »

Implementación de Jenkins: Parámetros y Elementos externos

Implementación de Jenkins: Parámetros y Elementos externos Como vimos en la primera parte, hemos elegido el flujo de trabajo siguiente: Los paquetes ejecutables obtenidos por el Build de Talend Open Studio (TOS), se almacenan con versionado en un repositorio de Nexus. Jenkins sacará la versión de producción. Puede ser una versión especifica o la última versión. El paquete ejecutable Java es un archivo comprimido zip, que se debe extraer al espacio de trabajo de Jenkins. Jenkins, a continuación, lanza uno de los scripts del paquete que son bat, powershell ou shell según la plataforma del agente. Un ejemplo de script Groovy completo (Jenkins File) se presentará en la tercera parte. La instalación de Nexus se realiza según el procedimiento detallado en le pagina de Sonatype https://help.sonatype.com/repomanager3/product-information/download Nexus puede instalarse en cualquier maquina de la red, siempre que se pueda acceder desde el agente y el controlador de Jenkins. El código del servidor Nexus está en forma de archivo comprimido. El servidor se lanza mediante comando “nexus run/start”. El comando exacto se encuentra en la pagina de https://help.sonatype.com/repomanager3/installation-and-upgrades/installation-methods Ejecutar Nexus como servicio en el servidor necesita pasos diferente descritos por plataforma https://help.sonatype.com/repomanager3/installation-and-upgrades/run-as-a-service Se crea un repositorio de tipo Maven / Hosted que es el tipo adecuado para los artefactos de Java tales como un paquete construido por Talend. En Jenkins, para que la magia actué, hay que realizar esos ajustes: Labels: Etiqueta para identificar la máquina aunque en principio, el controlador no servirá para ejecuciones, suelen identificar el sistema operativo o propiedades que permite al controlador de elegir la maquina para ejecutar una determinada tarea. # of executors: En el caso de maquina de producción que se usa solamente como controlador 0, sino el nombre de hilos paralelos que se pueden ejecutar URL IP y puerto de acceso en la red, evitando localhost No olvidar de añadir una variable para la URL del servidor Nexus, por ejemplo con nombre NEXUS_URL y valor http://IP_DE_NEXUS:PUERTO_DE_NEXUS En el apartado “Nexus Repository Manager 3.x Server” se configura el acceso de escritura al servidor Nexus y así poder cargar los artefactos Java de Talend desde un proyecto de Jenkins En los ajustes a nivel de nodo, las variables globales para identificar el camino de acceso a carpetas de datos y/o herramientas. En el caso de plataforma basada en Unix hay que tener wget instalado. Se configuran a nivel de nodo, ya que pueden ser diferentes en cada máquina. Con esos ajustes básicos, el controlador está preparado para funcionar, pero le falta definir nodos de ejecución. Por defecto ya existe el nodo del controlador (Built-In). Hay una sección de configuración que permite de agregar nuevos nodos: En general, lo mejor es instalar el código del agente automáticamente desde el controlador conectándolo por SSH. En cambio, si el nodo es una maquina Windows, se aconseja de instalar manualmente el agente en la maquina y lanzarlo. El controlador genera una línea de comando única que permite al agente Windows de llamar al controlador cuando está activo. Una vez acabada la configuración, se puede probar un primero proyecto freestyle para cargar nuestro primero artefacto en el repositorio Nexus. Se crea un nuevo elemento de tipo “Freestyle Project” Se añade un paso de publicación a Nexus 3: Puesto que hemos configurado el servidor se nos aparece en el menú: Se escoge en el segundo menú el repositorio donde se quiere subir el artefacto ponemos los identificadores del paquete et del artefato que tenemos que subir Guardar y ejecutar (Build en el idioma de Jenkins). Jenkins nos indica que el build (la subida del artefacto, en nuestro caso) se ha ejecutado con éxito. Y podemos navegar en Nexus para ver el artefacto que acabamos de subir. De la misma manera podríamos componer un proyecto para automatizar las etapas para seleccionar un artefacto de Nexus, descomprimir el archivo y ejecutar el script lanzador de Java. Como ya vimos, hacer un seguimiento de etapas múltiples vistas como un solo bloque, no es lo más cómodo. Sobre todo que Jenkins dispone de una modalidad que nos permite de ver el resultado de cada etapa por separado. En la siguiente parte, veremos que los proyectos de tipo pipeline son la herramienta ideal para un seguimiento fino de ejecuciones de pasos múltiples. Post relacionados Cuales son las herramientas ETL más usadas? Learn more Implementación de Jenkins: Parámetros y Elementos externos Learn more Jenkins como gestor de ejecuciones de job de Talend Learn more Integración de Datos y Aplicaciones Ofrecemos herramientas líderes en el sector, así como servicios y formación adaptados a tu empresa Productos Talend Rapidminer Modus integration Logistics Política de privacidad Servicios Business Intelligence Data integration Data Science Data Warehouse Integración de Aplicaciones Data Fabric Términos de uso

Implementación de Jenkins: Parámetros y Elementos externos Leer más »

Jenkins como gestor de ejecuciones de job de Talend

Introducción a Jenkins como gestor de ejecuciones de job de Talend Talend Open Studio (TOS) TOS, sin llegar a ser tan potente como su hermano mayor Talend Studio, tiene una oferta de módulos importante que no supone mayor impedimento para al desarrollo de jobs muy potentes. En cambio, a la hora de ejecutar el paquete Java compilado, se echa de menos a la funcionalidad de planificación y seguimiento que ofrece el TAC (con licencias on-premise) o la TMC (en el caso de licencias Cloud). Planificador de tareas de Windows La solución en plataforma Windows, es el “viejo” planificador de tareas de Windows. Basta con unos cuantos jobs para llegar a un cierto nivel de caos. Hay que diseñar job específicamente con salida de consola a ficheros para poder saber lo que pasa en caso de fallo en la ejecución. No es muy posible gestionar ejecuciones en varias maquinas y menos ejecutar jobs en instancia de cloud. Jenkins al rescate Hemos estado buscando una solución para crear un marco de ejecución mas eficiente y con más flexibilidad para job de Talend. Proponemos el uso de Jenkins junto con Nexus, ambos de código libre y gratuitos. Jenkins es originalmente, una aplicación para desarrollo o integración continuo. Por lo tanto, está integrado con los repositorios comunes de manera nativa o mediante cienes de plugins. Jenkins un proyecto basado en Java, muy activo, lo que asegura una buena protección contra los fallos de sus bibliotecas y módulos. Hemos elegido asociarlo con Nexus y así tener un almacenamiento con versionado de los diferentes ejecutables compilados desde TOS. De paso, si es necesario, podemos ejecutar otros script tales como Python u cualquier otro si fuese necesario. Qué es y qué hace Jenkins? Jenkins es un servidor de automatización de código abierto que supervisa las ejecuciones de trabajos repetidos, como la construcción de proyectos de software y otras tareas repetitivas. Tiene una arquitectura de plugins que permite ampliarlo con nuevas funciones o personalizaciones. Jenkins admite varios lenguajes de programación y herramientas para integrarse con diversos sistemas de control de versiones. Jenkins proporciona servicios de integración continua en un servidor en el que los desarrolladores pueden enviar código para que se construya, pruebe y despliegue. Ofrece muchas funcionalidades listas para usar, como notificaciones por correo electrónico, varios complementos para la gestión del control de código fuente, etc. Jenkins viene con configuraciones predeterminadas para las herramientas de desarrollo más populares, como Java, C/C++, Python, Ruby y otras. Un usuario puede configurar estos ajustes de acuerdo con los requisitos de su proyecto. La función de integración continua (CI) permite a los desarrolladores automatizar el proceso de construcción mediante la integración de todas las actividades de desarrollo en un solo sistema, tales como pruebas unitarias automatizadas y análisis de código antes de confirmar los cambios en el repositorio de código fuente. La función CI asegura que cada vez que un desarrollador realiza un cambio en cualquier rama o sistema de control de versiones, se actualiza inmediatamente en Jenkins sin tener que reiniciar manualmente los trabajos una y otra vez cada vez que algo cambia en ellos. Una instalación típica de Jenkins, se compone de un controlador y de un nodo. El nodo puede ser la misma maquina que el controlador, pero no se aconseja para entorno de producción por razón de seguridad dado que Jenkins tiene muchos derechos. En cambio el agente, está diseñado para ejecutar las tareas mandadas por el controlador con el menor impacto posible en la maquinas huéspedes que pueden ser además tanto una maquinas física, una maquina virtual, un contenedor Docker o incluso una instancia de cloud. El agente ejecuta el código Java que le transmite el controlador, en nuestro caso eligiendo la versión adecuada en el repositorio de Nexus. Freestyle versus Pipeline En Jenkins, la unidad de código que se ejecuta se llama proyecto, los hay de varios tipos. Hemos elegido 2 tipos: Freestyle y Pipeline. Freestyle Un proyecto freestyle se configura seleccionando los pasos en una interfaz de menú que lista todas las posibilidades tanto como proceso antes de ejecución, de trigger o de tratamiento después de ejecución. Es fácil de realizar un proyecto pero solo se ve como un único bloque de ejecución. Además es tedioso copiarlo e usarlo como plantilla. Pipeline Jenkins, da la posibilidad de escribir todos los pasos de un proyecto con lenguaje Groovy en un bloque de texto de tipo “Jenkins File”. Se copia fácilmente, puede incluir paso de ejecución condicional, lectura de fichero externos… Groovy está derivado de Java y tiene acceso a todas sus bibliotecas. Como vamos a bajar un ejecutable desde un repositorio para poder ejecutarlo en un agente, puede haber fallos en diferentes etapas. La vista de ejecución permite identificar inmediatamente donde ocurrió el fallo y consultar el log del paso correspondiente. Plugins A la hora de elegir de instalar un plugin, hay que tomar en cuenta si el proyecto es suficiente activo para asegurar una reacción rápida en caso de fallo de seguridad. Hay plugins que cubren casi cualquier necesidad. Presentamos una lista de los que pueden ser útiles. Locale: Para cambiar el idioma de la aplicación diferente del navegador, aconsejado para seguir los tutoriales que son mayoritariamente en inglés. Nexus Platform: Permite la integración con Nexus, no sirve para cargar código en el repositorio. Job Configuration History: Guarda copia de todo los cambio de configuración y Job. Permite comparar y restaurar versión antigua de un elemento. Calendar View: Nos da una vista de calendario de los proyectos planificados incluyendo el resultado para el pasado. PowerShell plugin Version: En caso de usar powershell permite de disponer de sus funciones dentro de un proyecto. En plataforma windows permite de diseñar pipeline más eficientes. Role-based Authorization Strategy: Añade una gestión fina de los accesos y capacidades, necesario para un uso en producción. Versions Node Monitors plugin: Ayuda a asegurar que los nodos de ejecución tienen la versión de Java y del agente adecuada para correcta actuación del controlador. Blue Ocean: Nuevo interfaz pensada para

Jenkins como gestor de ejecuciones de job de Talend Leer más »

Talend Data Fabric

Comprender la plataforma Talend Data Fabric Estructurar los datos empresariales puede resultar muy complicado, o imposible, sin las soluciones adecuadas. Los sistemas de información, cada vez más grandes y complejos, obligan a las empresas a utilizar programas informáticos especializados en la gestión de datos. Ahí es donde entran en juego proveedores de software como Talend. Talend Data Fabric es un conjunto de aplicaciones para cubrir todos los proyectos de integración y cualificación de datos empresariales. Data Fabric se dedica a empresas de todos los tamaños y sectores, desde empresas de nueva creación hasta grandes corporaciones. La solución combina la cualificación, preparación, gobernanza e integración de datos en la nube, la gestión de big data, la creación de catálogos de datos y el despliegue de API en una única plataforma unificada. Permite acceder a todos los productos Talend desde una única interfaz. Talend Data Fabric centraliza todos tus proyectos de gestión de datos en una única herramienta. Permite a las empresas pasar de un proyecto a otro sin tener que formarse en nuevas aplicaciones. Un entorno común y unificado de desarrollo y gestión. Así, los equipos son operativos rápidamente, pueden trabajar juntos y en autoservicio en el mismo proyecto. Puntos fuertes de Talend Data Fabric Talend Data Fabric tiene muchos puntos fuertes: Un enfoque unificado que aborda todas las facetas de la gestión de datos en una plataforma todo en uno. Conectividad nativa a todas las fuentes de información del mercado con más de 900 conectores incluidos. Funciones para garantizar rápidamente la pertinencia y fiabilidad de sus datos. Una interfaz gráfica intuitiva y fácil de usar Un sistema flexible y escalable Adecuado para entornos híbridos on-premise y multi-cloud Módulos integrados Data Fabric Como acabamos de ver en la presentación, Data Fabric combina varios productos Talend en una plataforma todo en uno.Talend Data Fabric: módulos integrados en esta plataforma unificada. Cloud IntegrationCloud Integration es una solución dedicada a la integración de datos y aplicaciones en la nube y en tiempo real. Stitch Data LoaderStitch Data Loader permite a las organizaciones cargar datos de diversas fuentes en la nube en un almacén de datos y un lago de datos. Talend Data Integration Talend Data Integration es el software estrella de Talend. Permite a las organizaciones integrar datos rápidamente mediante la creación de flujos ETL de arrastrar y soltar. Big Data PlatformBig Data Platform es el producto de Talend dedicado a la gestión de Big Data. Permite complejas integraciones de datos. Talend Cloud API ServicesTalend Cloud API Services es un producto de software que ofrece la posibilidad de crear, probar y desplegar sus propias API rápidamente, sin necesidad de código. Talend Data CatalogData Catalog integra todas las funciones necesarias para crear un catálogo central de datos que pueda documentarse y compartirse. Talend Data QualityLa calidad de los datos es la solución ideal para cualificar las bases de datos empresariales. Esta aplicación ofrece limpieza y perfilado masivo de datos. Talend Data PreparationLa preparación de datos permite a los usuarios empresariales preparar y transformar datos en un entorno de autoservicio. Esta solución es accesible a la empresa, no sólo al departamento informático. Somos el primer partner reseller de Talend en España. Nuestros integradores expertos ayudan a las empresas a diseñar trabajos complejos, desarrollar componentes específicos o realizar migraciones entre aplicaciones. Contacta con nosotros Integración de Datos y Aplicaciones Ofrecemos herramientas líderes en el sector, así como servicios y formación adaptados a tu empresa Productos Talend Rapidminer Modus integration Logistics Política de privacidad Servicios Business Intelligence Data integration Data Science Data Warehouse Integración de Aplicaciones Data Fabric Términos de uso

Talend Data Fabric Leer más »

Entienda los pros y contras: ETL vs ELT

Entienda los pros y contras: ETL vs ELT Extract (Extraer): Este paso siempre es la primera tarea. Implica extraer datos estructurados y no estructurados de todos sus sistemas de origen, incluidos SaaS, web sites, datos locales etc. Una vez extraídos los datos, se trasladan al llamado stage area. Transform (Transformar): en este paso, los datos se limpian, procesan y transforman en un formato común, de modo que puedan ser consumidos por el destino (por ejemplo, almacén de datos, data lake o base de datos). Load (Carga): este paso implica cargar los datos formateados en el sistema de destino. A partir de ahí, los datos están listos para ser analizados. ETL ETL (Extract, Transform, Load) ha sido el enfoque estándar para recopilar, reformar e integrar datos durante décadas. Hoy en día, las empresas que necesitan sincronizar diferentes entornos de datos y migrar datos de sistemas heredados utilizan tareas ETL. Según se puede apreciar en el esquema anterior la transformación de la información la realiza una herramienta ETL en un servidor de ejecución de ETL’s, normalmente se utiliza una herramienta especializada en estas tareas, aunque realmente se podría utilizar un lenguaje de programación. Esta forma de trabajar, hace que se libere de procesamiento a la CPU el servidor de la base de datos final, lógico, ya que todo este procesamiento intermedio recae en la CPU del servidor de ejecución de ETL’s. Dado que transforma los datos antes de cargarlos en el sistema de destino, ETL ayuda a reducir el volumen de datos que se almacenan en el almacén de datos final. También puede enmascarar, eliminar y codificar datos específicos para permitir que las empresas cumplan con las normas de privacidad de datos, como GDPR y CCPA. Sin embargo, ETL tiene algunas desventajas importantes. Los procesos ETL tradicionales suelen ser lentos y consumen muchos recursos. A menudo, es necesario esperar a que se completen todas las transformaciones antes de cargar los datos en el destino. Tampoco son muy flexibles y requieren un mantenimiento continuo. Por ejemplo, si sus fuentes de entrada y formatos cambian, debe configurar estas transformaciones y casos límite con anticipación. Finalmente, definir la lógica comercial y las transformaciones para su proceso ETL generalmente tiene un alto precio. ELT ELT (Extract, Load, Transform) es un enfoque más nuevo y ahora muy popular para la integración de datos. Intercambia los pasos segundo y tercero en el proceso de integración, de modo que los datos solo se transforman después de que se cargan en el sistema de destino. En el proceso ELT, la transformación la realiza directamente el gestor de base de datos (con las operaciones que realiza el gestor de base de datos), por ello, la herramienta ETL únicamente se usa como traductor de operaciones de transformación sobre los datos a sentencias SQL interpretables por el motor donde se envían estas instrucciones. De esta forma, su tiempo de ejecución será menor que en su versión ETL, y la carga de procesamiento se le traspasa a la CPU de la base de datos. En un esquema ETL jamás se va a tardar menos en transformar la información que en la propia base de datos del gestor de base de datos, con lo que el rendimiento de este proceso será mayor que en su forma ELT. Como consecuencia de lo anterior se obtiene que no todas las transformaciones son posibles ELT, o al menos de una forma sencilla y práctica. En otro artículo hablaremos de las transformaciones que encajan en un esquema ETL y no en uno ELT. El auge de ELT se debe a la ubicuidad del almacenamiento en la nube. Hoy en día, las empresas pueden almacenar cantidades masivas de datos en la nube de manera potente y asequible, de esa manera se utiliza a las bases de datos para realizar las transformaciones. Como resultado, es mucho menos importante filtrar los datos y reducir los volúmenes de datos antes de transferirlos a los sistemas de destino. La otra razón principal por la elección de ELT es porque las tareas de integración de datos no son adecuadas para procesar el creciente volumen de datos no estructurados generados por los sistemas basados en la nube. Como ya hemos dicho antes diferencia ELT es rápido, flexible y permite una fácil integración de fuentes de datos nuevas o diferentes. Dado que ELT está más automatizado, requiere un mantenimiento mínimo, y debido a la fácil escalabilidad de los servidores de base de datos en cloud, también es más fácilmente. Sin embargo, ELT también tiene sus propias desventajas. Primero, todavía es necesario transformar los datos, una vez que se mueven al lago de datos o a cualquier otro almacén de datos de destino. La transformación puede ser costosa, ya que los proveedores de almacenes y lagos de datos cobran a los clientes por procesar datos en el sistema. Además, el esfuerzo necesario para transformar, limpiar y preparar los datos pasó del ingeniero de datos al usuario de datos comerciales o al científico de datos, lo que genera cargas de trabajo adicionales que consumen mucho tiempo y una mayor latencia. Por otra parte, cargar todos los datos en los sistemas de destino antes de que se transformen da acceso a varios usuarios y aplicaciones a los mismos, lo que crea riesgos de seguridad y dificulta el cumplimiento de las normas de privacidad de datos. Como hemos visto todo tiene sus pros y contras, lo que sí que proponemos desde Modus es no tener posturas maximalistas de ante mano y ser flexibles para proporcionar la mejor solución técnica ante un determinado proyecto manejando la posibilidad de ambos enfoques. Blog Jenkins como gestor de ejecuciones de job de Talend Read More Talend Data Fabric Read More Módulos de Talend Read More ¿Qué es Talend ESB? Read More Integración de Datos y Aplicaciones Ofrecemos herramientas líderes en el sector, así como servicios y formación adaptados a tu empresa Productos Talend Rapidminer Modus integration Logistics Política de privacidad Servicios Business Intelligence Data integration Data Science Data Warehouse Integración de Aplicaciones

Entienda los pros y contras: ETL vs ELT Leer más »