La Integración de Datos consiste en acceder a la información proveniente de diferentes fuentes con diversos objetivos, por un lado se pueden unificar esta información para labores de reporting, o creación de Modelos de Data Science; por otra parte nuestro objetivo puede ser cambiar el formato de los datos, ej. cambiar la estructura de la BBDD para una migración de ERP; también la reunión de los datos necesarios para una nueva app caería en la Integración de Datos.
Cada vez más se interpreta que las funciones de Data Quality, como buscar y modificar los datos caen dentro del Data Integration, obteniéndose herramientas con ambas funciones integradas. Gracias a esto, tu empresa logra tener una visión unificada, mejorando la toma de decisiones de cualquier operación empresarial.
El Data Integration, implica tener procesos transparentes en tu empresa, permitiendo una mayor comprensión de los mismos por parte de los usuarios. Toda la información es accesible de una manera muy sencilla, permitiendo una mejor toma de decisiones, una mayor innovación y un mayor intercambio de conocimientos.
La tecnología de Integración de Datos permite conectar y gestionar todos los datos corporativos, sin importar dónde se encuentren. Las herramientas de Integración de Datos poseen infinidad de conectores y componentes para conectar prácticamente cualquier fuente de datos con prácticamente cualquier entorno, ya sea en la nube o local. Permiten desarrollar e implementar fácilmente pipelines de datos reutilizables con una interfaz de arrastrar y soltar, que es varias veces más rápida que la programación manual.
Existen varios enfoques para ejecutar un proceso de integración de datos: ETL («Extract, Transform, Load» o Extracción, Transformación, Carga), ELT («Extract, Load, Transform» o Extraer, Cargar, Transformar), Streaming (Transmisión continua de datos) y virtualización de datos. Para implementar estos procesos, los ingenieros, arquitectos y desarrolladores de datos pueden codificar manualmente una arquitectura con instrucciones SQL o, como es más habitual, configurar y gestionar una herramienta de integración de datos que agiliza el desarrollo y automatiza el sistema.
La siguientes ilustraciones muestran su situación dentro de un proceso moderno de gestión de datos, transformando los datos sin procesar en información limpia y lista para el negocio.
Cada uno de estos cinco enfoques continúa evolucionando con el ecosistema de la pila de datos moderna. Históricamente, los almacenes de datos eran los repositorios de destino y, por lo tanto, los datos debían transformarse antes de cargarse. Esta es la clásica canalización de datos ETL (Extraer > Transformar > Cargar) y sigue siendo adecuada para conjuntos de datos pequeños que requieren transformaciones complejas.
Sin embargo, con el auge de las soluciones de Plataforma de Integración como Servicio (iPaaS), los conjuntos de datos más grandes, las arquitecturas de Data Fabric y Data Mesh, y la necesidad de respaldar proyectos de análisis en tiempo real y aprendizaje automático, la integración está cambiando de ETL a ELT, streaming y API.
Una canalización ETL es un tipo tradicional de canalización de datos que convierte los datos sin procesar para que coincidan con el sistema de destino mediante tres pasos: extracción, transformación y carga. Los datos se transforman en un área de almacenamiento temporal antes de cargarse en el repositorio de destino (normalmente un almacén de datos). Esto permite un análisis de datos rápido y preciso en el sistema de destino y es especialmente adecuado para conjuntos de datos pequeños que requieren transformaciones complejas.
En la canalización ELT más moderna, los datos se cargan inmediatamente y luego se transforman en el sistema de destino, generalmente un lago de datos en la nube, un almacén de datos o un data lakehouse. Este enfoque es más adecuado cuando los conjuntos de datos son grandes y la puntualidad es importante, ya que la carga suele ser más rápida. ELT opera en una escala de tiempo de microlotes o (CDC). Los microlotes, o «carga delta», solo cargan los datos modificados desde la última carga exitosa. CDC, por otro lado, carga continuamente los datos a medida que cambian en la fuente.
En lugar de cargar datos en lotes en un nuevo repositorio, la integración de datos en streaming los traslada continuamente en tiempo real desde el origen hasta el destino. Las plataformas modernas de integración de datos (ID) pueden entregar datos listos para análisis en plataformas de streaming y en la nube, Data Warehouse y Data Lakes.
Al igual que el streaming, la virtualización de datos también entrega datos en tiempo real, pero solo cuando los solicita un usuario o una aplicación. Aun así, esto permite crear una vista unificada de los datos y permite que estén disponibles bajo demanda mediante la combinación virtual de datos de diferentes sistemas. La virtualización y el streaming son ideales para sistemas transaccionales diseñados para consultas de alto rendimiento.
Aprovechar el Big Data
Los datalakes pueden ser muy complejos y con grandes volúmenes, por lo que se necesita de la integración de datos para realizar muchas operaciones empresariales.
Crear Almacenes de Datos
Los almacenes de datos permiten a los usuarios ejecutar consultas y extraer datos de manera uniforme.
Simplificar el Business Intelligence
Al proporcionar una visión unificada, la integración de datos simplifica los procesos de análisis de Business Intelligence.
Procesos ETL
Procesos continuos donde el almacenamiento de datos, transforma los mismos, en información útil y uniforme.
Las técnicas de integración de datos están disponibles en una amplia gama de niveles organizativos, desde los métodos totalmente automatizados hasta los manuales para ciertas ocasiones. Las herramientas y técnicas típicas para la integración de datos incluyen:
Interfaz de usuario común: Normalmente no existe una visión unificada de los datos, por lo que los usuarios operan con toda la información relevante accediendo a todos los sistemas fuente, un interface común resuelve este problema.
Integración basada en aplicaciones: requiere que cada aplicación contenga un conjunto de datos integrados con el resto de aplicaciones.
Integración de datos de middleware: se transfiere la lógica de integración de una aplicación a una nueva capa de middleware.
Acceso uniforme a los datos: deja los datos en los sistemas de origen y define un conjunto de vistas para ofrecer una visión unificada a los usuarios de toda la empresa.
Almacenamiento común de datos o integración física de datos: crea un nuevo sistema en el que se almacena una copia de los datos del sistema de origen y se gestiona independientemente del sistema original.
Los desarrolladores pueden utilizar abstracciones de SQL o SQL directamente (para usuarios avanzados), aumentando la productividad, existiendo un conjunto de herramientas que agilizan, automatizan y documentan el proceso de desarrollo.