Exibir mapa completo

05 - Tratamento de Dados

Educação

Autran Dias de Almeida Germiniani

Seguir

Tratamento de Dados

Começar. É Gratuito

ou inscrever-se com seu endereço de e-mail

Mapas mentais semelhantes Esboço do mapa mental

05 - Tratamento de Dados por Autran Dias de Almeida Germiniani Mind Map: 05 - Tratamento de Dados

1. Conceitos

1.1. Para chegar a resultados consistentes e confiáveis

1.1.1. É fundamental que a base satisfaça algumas condições

1.1.2. exigidas pelo formalismo matemático

1.1.3. pelos algoritmos que sintetizam a informação

1.1.4. cerca de 40% dos dados coletados estão comprometidos de alguma forma

1.1.5. geralmente pode levar de 50 a 80% do tempo

1.1.5.1. processo é demorado é porque existem muitos cenários possíveis

1.1.5.2. os dados também podem ter inconsistências na mesma coluna

1.1.5.3. Os tipos de dados também podem ser inconsistentes

1.1.5.4. podem ter erros de ortografia

1.1.5.5. ter casos diferentes, como categorias para homens e mulheres.

1.2. Por que é importante?

1.2.1. Dados do mundo real são coletados de várias fontes e processos

1.2.2. podem conter irregularidades ou dados corrompidos

1.2.3. Exemplos

1.2.3.1. Dados incompletos

1.2.3.1.1. Os dados não têm atributos ou contém valores ausentes.

1.2.3.1.2. Atributos ausentes

1.2.3.1.3. Valores de atributos ausentes

1.2.3.1.4. Dados agregados

1.2.3.2. Dados com ruído

1.2.3.2.1. Os dados contêm registros incorretos ou exceções.

1.2.3.2.2. Erros (ex: idade = -50 erro!)

1.2.3.2.3. Outliers (valores discrepantes)

1.2.3.3. Dados inconsistentes

1.2.3.3.1. Os dados contêm registros conflitantes ou discrepâncias.

1.2.3.3.2. Ex: idade = 43 e data de nascimento = 03/07/1997

1.2.3.3.3. Atributos com valores “1,2,3” passa a assumir “a,b,c”

1.2.4. Importante:

1.2.4.1. Entra Lixo.... Sai Lixo.

1.2.4.2. Dados de qualidade são um pré-requisito para modelos de previsão de qualidade

1.2.4.3. Antes de aplicar qualquer uma das técnicas de tratamento de dados

1.2.4.4. é importante fazer uma análise exploratória dos dados

1.2.4.5. para saber o que tem que ser feito

1.2.4.5.1. Histograma

1.2.4.5.2. Medidas de Dispersão

2. Limpeza dos dados

2.1. Objetivo

2.1.1. Tambem chamada de Pré-Processamento

2.1.2. Identificar as anomalias e discrepâncias que podem vir a comprometer a análise.

2.1.3. proceder com as medidas necessárias para sua adequação

2.1.3.1. métodos estatísticos

2.1.3.2. recursos de detecção de anomalias

2.1.4. não deve se limitar à resolução das inconsistências

2.1.4.1. podendo também atuar no enriquecimento da base

2.1.4.2. A agregação ou desagregação de um número de telefone (DDD e número de telefone)

2.1.4.3. ou um endereço

2.1.4.4. pode melhorar o processamento e a visualização dos dados

2.2. Etapas

2.2.1. A exclusão ou substituição de valores duplicados

2.2.1.1. redundâncias em uma base de dados

2.2.1.2. podem gerar alguns conflitos que comprometerão a análise

2.2.1.3. colocando em risco a confiabilidade de todos os resultados obtidos.

2.2.1.4. Exemplo

2.2.1.4.1. base de 200 cadastros de clientes

2.2.1.4.2. onde 5 estão duplicados

2.2.1.4.3. cada venda realizada pode ser atribuída a um cadastro de cliente diferente

2.2.1.4.4. gerando um problema no momento de analisar as transações

2.2.2. A identificação, exclusão ou tratamento de valores nulos ou inconsistentes.

2.2.2.1. Valores nulos podem causar erros

2.2.2.2. incapacitando a condução de análises.

2.2.2.3. Inconsistentes

2.2.2.3.1. registros alfanuméricos preenchidos em campos exclusivamente numéricos

2.2.2.3.2. também podem resultar em erros

2.2.3. A adequação na distribuição dos dados

2.2.3.1. identificação e do tratamento de valores atípicos ou aberrantes

2.2.3.2. muito superiores ou muito inferiores aos que podem ser encontrados na maior parte dos registros da base de dados

2.2.3.3. também chamados de outliers

2.2.3.4. pode acabar por enviesar os resultados

2.2.4. Presença de dados ausentes ou incompletos

2.2.4.1. O que é?

2.2.4.1.1. Imagine um formulário onde a pessoa tivesse que informar o seu salário

2.2.4.1.2. mas ela tinha a opção de não informar

2.2.4.1.3. Se ela não informar o salário

2.2.4.1.4. termos um dado ausente neste registro

2.2.4.2. O que fazer?

2.2.4.2.1. Uma opção é ignorar as instâncias que possuem valores ausentes

2.2.4.2.2. Exclusão

2.2.4.2.3. Substituição fictícia

2.2.4.2.4. Substituição de regressão

2.2.4.2.5. Substituição frequente

2.2.4.3. Causas mais comuns para dados incompletos

2.2.4.3.1. Mau funcionamento de equipamento

2.2.4.3.2. Dado não foi originalmente considerado importante

2.2.4.3.3. Dado inconsistente, removido da base

2.3. Importante:

2.3.1. a limpeza dos dados também faz parte do controle de qualidade

2.3.2. figura como uma etapa essencial para que os resultados de uma análise sejam confiáveis

2.3.3. Negligenciar este passo pode comprometer total ou parcialmente as etapas subsequentes da análise de dados

3. Redução de Dados

3.1. O que é?

3.1.1. A análise de dados é usada, principalmente, para lidar com grande volume de dados

3.1.2. Por isso, o processamento computacional se torna cada vez mais complexo

3.1.3. Dependendo do caso, alguns algoritmos podem levar dias para executar

3.1.4. Para aumentar a eficiência e reduzir os custos usamos o processo de redução de dados.

3.2. Objetivos

3.2.1. Redução do custo computacional (Bases de dados podem ser muito volumosas)

3.2.2. Eliminação de redundância

3.2.3. Evitar maldição da dimensionalidade

3.3. Maldição da Dimensionalidade

3.3.1. É uma tendência natural achar que

3.3.2. quanto mais informações, melhor será a solução de um problema

3.3.3. mas isso não é sempre verdadeiro

3.3.4. A maldição da dimensionalidade diz que a quantidade de dados de que você precisa, para alcançar o conhecimento desejado, impacta exponencialmente o número de atributos necessários

3.3.4.1. O desempenho do classificador tende a se degradar a partir de um determinado nº de atributos, mesmo que sejam úteis.

3.3.4.2. adicionar características não significa que sempre melhora o desempenho de um classificador.

3.3.4.3. “Precisamos evitar o excesso de atributos”

3.4. Como fazer?

3.4.1. Redução de dimensionalidade

3.4.1.1. “Dimensões = Número de atributos”

3.4.1.2. reduz o tamanho dos dados por mecanismos de codificação

3.4.1.3. Pode ser com ou sem perdas

3.4.1.4. Eliminar atributos pouco relevantes vai

3.4.1.4.1. Reduzir tempo de processamento

3.4.1.4.2. Facilitar visualização

3.4.1.5. A primeira coisa a se fazer é, remover os identificadores

3.4.1.5.1. quase sempre são irrelevantes

3.4.1.5.2. Podem atrapalhar

3.4.1.6. Técnicas para redução de dimensionalidade

3.4.1.6.1. PCA (Principal Components Analysis)

3.4.1.6.2. Seleção de atributos

3.4.1.7. Matriz de correlação

3.4.1.7.1. é uma tabela que indica os coeficientes de conexão entre os fatores

3.4.1.7.2. Cada célula da tabela mostra a conexão entre os dois fatores

3.4.1.7.3. Esta conexão é calculada através de métodos estatísticos

3.4.2. Amostragem

3.4.2.1. escolher somente o subconjunto representativo dos dados

3.4.2.2. Tecnicas

3.4.2.2.1. Amostragem casual ou aleatória simples

3.4.2.2.2. Amostragem proporcional estratificada

3.4.2.2.3. Amostragem sistemática

3.4.3. Agregação

3.4.3.1. Dividir os dados em grupos

3.4.3.2. armazenar os números em cada grupo

3.4.3.3. os números de receita diária de uma cadeia de restaurante nos últimos 20 anos podem ser agregados para receita mensal para reduzir o tamanho dos dados.

4. Normalização

4.1. O que é?

4.1.1. redimensiona os valores numéricos para um intervalo especificado

4.1.2. Normalizar dados significa trabalhar com a mesma escala para as nossas análises

4.1.3. Diferentes escalas é um problema que pode inferir sobre os resultados dos algoritmos

4.2. Exemplo

4.2.1. um atributo que seja uma contagem de valores

4.2.2. outro pode ser um valor em medidas de peso

4.2.3. pode ser interessante normalizar os valores em uma única faixa

4.2.4. transformamos os valores do atributo em intervalos determinados

4.2.5. normalizar os dados entre a faixa de valores 0 e 1

4.2.5.1. maior valor será o número 1 e o menor 0

4.2.5.2. A normalização altera a escala dos dados, normalmente para padronizá-la

4.3. Tipos

4.3.1. min-max

4.3.1.1. redimensiona linearmente cada recurso no intervalo [0,1].

4.3.1.2. O redimensionamento do intervalo [0,1] é feito mudando os valores de cada recurso para que o valor mínimo seja 0

4.3.1.3. em seguida, dividindo pelo novo valor máximo (que é a diferença entre os valores máximos e mínimos originais)

4.3.1.4. Formula

4.3.1.4.1. se valores variam de 12000 a 98000

4.3.1.4.2. e queremos normalizá-los entre [0,1]

4.3.1.4.3. então 73600 vira:

4.3.1.4.4. { (73600 – 12000) / (98000 – 12000) } * (1 – 0) + 0 = 0,716

4.3.2. Z-score

4.3.2.1. Escalar dados com base na média e desvio padrão

4.3.2.2. dividir a diferença entre os dados e a média pelo desvio padrão

4.3.2.3. Formula

4.3.2.3.1. A média e o desvio padrão são calculados para cada coluna separadamente

4.3.3. Escala decimal

4.3.3.1. dimensionamos os dados movendo o ponto decimal do valor do atributo.

4.3.3.2. O número de pontos decimais depende do máximo valor absoluto dos dados

4.3.3.3. Formula

5. Discretização

5.1. É o processo de transferência de funções contínuas, modelos, variáveis e equações em contrapartes discretas

5.1.1. é o processo de colocar valores em agrupamentos de modo que haja um número limitado de possíveis estados

5.1.2. cria um número limitado de possíveis estados fazendo a conversão de valores numéricos em intervalos categóricos.

5.2. alguns algoritmos só trabalham com entradas de valores discretos

5.2.1. não conseguindo prever valores contínuos

5.2.2. algumas colunas podem conter tantos valores

5.2.3. que o algoritmo não pode identificar facilmente os padrões

5.3. Exemplo

5.3.1. Ao invés de trabalhar com a idade

5.3.2. o atributo idade pode ser discretizado nos seguintes intervalos fixos:

5.3.3. (0, 20], (20, 30], (30, 40], (40, 50], (50, 65], (65, 80], (80, ∞]

5.4. Métodos comuns de discretização

5.4.1. Por entropia

5.4.1.1. Maximiza o ganho de informação nos intervalos

5.4.2. Usando técnica de agrupamento

5.4.2.1. k-means

5.4.3. Por intervalo

5.4.3.1. Largura fixa – Intervalos Iguais

5.4.3.1.1. Dividir o intervalo de todos os possíveis valores de um atributo entre N grupos

5.4.3.1.2. do mesmo tamanho

5.4.3.1.3. atribuir os valores correspondentes a um compartimento a um número do compartimento

5.4.3.2. Frequência fixa – Intervalos com a mesma frequência

5.4.3.2.1. Dividir o intervalo de todos os possíveis valores de um atributo em N grupos

5.4.3.2.2. que contém o mesmo número de instâncias

5.4.3.2.3. atribuir os valores correspondentes a um compartimento ao número do compartimento

ou Inscrever-se