E T L

Mat. Recoleccion t Clasificacion de DatosProceso E T L .

Comienza Ya. Es Gratis
ó regístrate con tu dirección de correo electrónico
Rocket clouds
E T L por Mind Map: E T L

1. 3. Carga (Load)

1.1. Formas básicas

1.1.1. Acumulación simple.

1.1.1.1. Esta manera de cargar los datos consiste en realizar un resumen de todas las transacciones comprendidas en el período de tiempo seleccionado y transportar el resultado como una única transacción hacia el data warehouse, almacenando un valor calculado que consistirá típicamente en un sumatorio o un promedio de la magnitud considerada. Es la forma más sencilla y común de llevar a cabo el proceso de carga.

1.1.2. Rolling

1.1.2.1. Este proceso sería el más recomendable en los casos en que se busque mantener varios niveles de granularidad. Para ello se almacena información resumida a distintos niveles, correspondientes a distintas agrupaciones de la unidad de tiempo o diferentes niveles jerárquicos en alguna o varias de las dimensiones de la magnitud almacenada (por ejemplo, totales diarios, totales semanales, totales mensuales, etc.).

1.2. Restricciones

1.2.1. Sea cual sea la manera de desarrollar este proceso elegida, hay que tener en cuenta que esta fase interactúa directamente con la base de datos de destino y, por eso, al realizar esta operación se aplicarán todas las restricciones que se hayan definido en ésta. Si están bien definidas, la calidad de los datos en el proceso ETL estará garantizada.

1.2.1.1. Ejemplos de estas restricciones pueden ser: • Valores únicos. • Integridad referencial. • Campos obligatorios. • Rangos de valores.

2. 1. Extracción (Extract)

2.1. Pasos para la Extración

2.1.1. 1. Extraer los datos desde los sistemas de origen.

2.1.2. 2. Analizar los datos extraídos obteniendo un chequeo.

2.1.3. 3. Interpretar este chequeo para verificar que los datos extraídos cumplen la pauta o estructura que se esperaba. Si no fuese así, los datos deberían ser rechazados.

2.1.4. 4. Convertir los datos a un formato preparado para iniciar el proceso de transformación.

2.2. Puntos a Revisar

2.2.1. En el momento de la extracción, análisis e interpretación: los formatos en que se presenten los datos o los modos como éstos estén organizados pueden ser distintos en cada sistema separado, ya que la mayoría de los proyectos de almacenamiento de datos fusionan datos provenientes de diferentes sistemas de origen.

2.2.2. En el momento de la conversión de datos: conviene recordar que los formatos de las fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u otras estructuras diferentes.

2.2.3. La mesura más importante a considerar sería el exigir siempre que la tarea de extracción cause un impacto mínimo en el sistema de origen. Este requisito se basa en la práctica ya que, si los datos a extraer son muchos, el sistema de origen se podría ralentizar e incluso colapsar, provocando que no pudiera volver a ser utilizado con normalidad para su uso cotidiano.

2.2.3.1. Para evitar este impacto y sus consecuencias, en sistemas grandes las operaciones de extracción suelen programarse en horarios o días donde la interferencia con el sistema y su uso sea nula o mínimo.

3. Historia

3.1. Los procesos ETL existen desde los años ’70, cuando las empresas comenzaron a usar múltiples base de datos para almacenar distintos tipos de información y surgió la necesidad de integrar todos los datos. Sin embargo, al comienzo de los ’90, el nacimiento de los Data Warehouse propició un uso intensivo de los procesos ETL y su programación. Los cuales se realizaban mediante lenguajes clásicos, por lo que comenzaron a volverse difícil de mantener. Así fue cuando grandes compañías lanzaron al mercado sus propias herramientas ETL orientadas al diseño y desarrollo de procesos. Estas han ido evolucionando con el tiempo. Por otro lado, esta oferta se ha ido complementando con herramientas de tipo open source, nacidas para adecuarse a las necesidades de empresas de cualquier tamaño. Las más conocidas son Talend Open Studio y Pentaho Data Integration. También existen distintas soluciones ETL proporcionadas como servicios en la nube,como Snaplogic, AWS EMR y AWS Glue de Amazon, Azure Data Factory de Microsoft y Google Cloud Dataflow.

4. Desafíos

4.1. Procesamiento de datos en tiempo real. Cada día más se necesita tomar decisiones con mayor velocidad, lo que contrasta con el funcionamiento en batch de los sistemas ETL tradicionales, que tiene que adecuarse para operar lo más cercano posible al tiempo real.

4.2. Aumentar la velocidad del procesamiento de datos. El aumento tanto de la cantidad como de la complejidad de los datos, dificulta a veces las tareas de transformación. En este sentido, nación el concepto de ELT (Extract, Load and Transformation), que pospone la transformación en último lugar, realizándose ya en el sistema destino, y aprovechando de la potencia de cálculo del motor de la base de datos.

4.3. Integración de nuevas fuentes de datos. En la actualidad, las empresas necesitan acceder a todo tipo de fuentes de datos heterogéneas: videos, redes sociales y hasta datos generados por máquinas (Internet de las cosas). Por esto, las herramientas ETL necesitan evolucionar y agregar nuevas transformaciones para soportar estas nuevas fuentes de datos y las que vendrán en futuro

5. Beneficios

5.1. Permitir extraer y consolidar datos de múltiples fuentes.

5.2. Proporcionar un contexto histórico profundo sobre nuestra empresa y negocio.

5.3. Facilita el análisis y el reporte de datos de una forma sencilla y eficiente, mediante representación visual.

5.4. Aumentar la productividad y facilitar el trabajo en equipo.

5.5. Permitir adaptarse a la evolución de las tecnologías e integrar nuevas fuentes de datos con las tradicionales.

5.6. Permitir la toma de decisión estratégica basadas en datos por parte de los directivos de la empresa.

5.7. En definitiva, ETL nos pone en condición de poder extraer de ellos el conocimiento que nos pueda ayudar a solucionar nuestros problemas de negocio y ser verdaderas empresas data driven.

6. Fases

6.1. 2. Transformación (Transform)

6.1.1. Reglas

6.1.2. Ejemplos de Transformaciones

6.1.2.1. • Seleccionar sólo ciertas columnas para su carga (por ejemplo, que las columnas con valores nulos no se carguen). • Traducir códigos (por ejemplo, si la fuente almacena una “H” para Hombre y “M” para Mujer pero el destino tiene que guardar “1″ para Hombre y “2″ para Mujer). • Codificar valores libres (por ejemplo, convertir “Hombre” en “H” o “Sr” en “1″). • Obtener nuevos valores calculados (por ejemplo, total_venta = cantidad * precio). • Unir datos de múltiples fuentes (por ejemplo, búsquedas, combinaciones, etc.). • Calcular totales de múltiples filas de datos (por ejemplo, ventas totales de cada región). • Generar campos clave en el destino. • Transponer o pivotar (girando múltiples columnas en filas o viceversa). • Dividir una columna en varias (por ejemplo, columna “Nombre: García, Miguel”; pasar a dos columnas “Nombre: Miguel” y “Apellido: García”). • Aplicar para formas simples o complejas, la acción que en cada caso se requiera, como por ejemplo: o Datos OK: entregar datos a la siguiente etapa (fase de carga). o Datos erróneos: ejecutar políticas de tratamiento de excepciones.

7. ¿Qué es?

7.1. Conocemos como ETL al proceso de extraer datos de múltiples sistemas de origen, transformarlos para adaptarlos a las necesidades del negocio y cargarlos en una base de datos de destino.

8. Características

8.1. Complejidad

8.2. Continuidad

8.3. Criticidad

9. Usos del proceso ETL

9.1. Migración de datos desde sistemas legacy con formatos de datos distintos.

9.2. Consolidación de datos como consecuencia de una fusión empresarial.

9.3. Recolección y fusión de datos desde proveedores o partners externos.

9.4. Integración de nuevas fuentes de datos como social media, videos, dispositivos conectados a internet de las cosas, entre otras.

9.5. Analítica “Self-Service” para ofrecer la posibilidad de hacer decisiones basadas en los datos a perfiles de negocio y sin conocimientos técnicos.

9.6. Integrarse con herramientas de Data Quality para asegurar que los datos sean confiables.

9.7. Trabajar con metadatos para permitir la trazabilidad de los datos.

9.8. Integrarse con sistemas transaccionales, almacenes de datos operativos, plataformas de Business Intelligence y sistemas de Master Data Management (MDM).