Integração de Dados e ETL

Get Started. It's Free
or sign up with your email address
Integração de Dados e ETL by Mind Map: Integração de Dados e ETL

1. Integração de Dados

1.1. Porquê

1.1.1. Acesso agrupado aos dados

1.1.2. Menos esforço de integração

1.1.3. Tornar Business Inteligence possível

1.1.4. Permitir que os sistemas funcionem

1.2. Desafios

1.2.1. Técnicos

1.2.1.1. Segurança e privacidade

1.2.1.2. 100% automatizado pouco provável

1.2.1.3. Múltiplas plataformas

1.2.2. Semânticos

1.2.2.1. Localizar fontes de dados na organização

1.2.2.2. dados e esquemas heterogeneos

1.2.2.3. Baixa qualidade de metadados

1.3. Arquitetura

1.3.1. Virtual Data Integration

1.3.1.1. Dados continuam com suas fontes de origem

1.3.1.1.1. Wrappers enviam consultas e trazem a resposta em tuplas

1.3.1.2. Meadiação

1.3.1.3. Pouco esforço de modelagem

1.3.1.4. Esforço consideravel de mapeamento

1.3.1.5. Reformulação a cada query

1.3.1.6. Não suporta computações complexas

1.3.2. Data Warehouse

1.3.2.1. Central de todos os dados

1.3.2.1.1. Dado é carregado de tempos em tempos por ETL

1.3.2.1.2. Base para Analitycs

1.3.2.1.3. Soluciona a integração de dados

1.3.2.2. Visão moderna como master data management

1.3.2.2.1. Referencia limpa e confiável de todas as entidades organizacionais

1.3.2.2.2. Base para governança de dados

1.3.2.3. Grande esforço de modelagem

1.3.2.4. Não requer reformulação de queries

2. ETL

2.1. Extract

2.1.1. Capturar os dados nos locais de origem

2.1.2. Entender a origem e semântica/estrutura dos dados

2.2. Transform

2.2.1. Limpeza dos dados

2.2.1.1. Deduplicaçao

2.2.1.1.1. Muitos algoritmos mas ainda precisa de interação humana

2.2.1.2. Conversões

2.2.2. Preparar os dados para o DW

2.2.2.1. Formatação

2.2.2.2. Reestruturação de chaves primarias

2.2.2.3. Decodificação de atributo

2.2.3. Integração de múltiplas origens

2.2.4. Definição do melhor dado

2.3. Load

2.3.1. Estratégia de carga

2.3.1.1. Full Load

2.3.1.1.1. Indicado para cargas iniciais e Entidades append-only

2.3.1.1.2. Baixo esforço de construção e evolução

2.3.1.1.3. Stagging Area deve conter todos os dados

2.3.1.2. Incremental Load

2.3.1.2.1. Constructive Merge

2.3.1.2.2. Destructive Merge

2.3.1.2.3. Stagging Area deve conter apenas novos e modificados

2.3.1.2.4. Alto custo de construção e evolução

2.3.2. Ordem e dependência das cargas

2.4. Ferramentas

2.4.1. Diferentes funções para fazer ETL

2.4.2. Exemplos

2.4.2.1. MapReduce

2.4.2.2. SQL Server Integration Services (SSIS)

2.4.2.3. SAS Data Management

2.4.2.4. Oracle Warehouse Builder (OWB)