Machine Learning

Compilação dos meus estudos sobre Machine Learning.Mapa Mental ainda em desenvolvimento e aprimoramentos.

Começar. É Gratuito
ou inscrever-se com seu endereço de e-mail
Rocket clouds
Machine Learning por Mind Map: Machine Learning

1. Aprendizado Não Supervisionado

1.1. O que é?

1.2. Clustering K-médias

1.2.1. K-médias

1.2.1.1. Define o K = dedine qtde de centroides / grupos

1.2.1.1.1. Encontrar o melhor K com algoritmo Elbow Method

1.2.1.1.2. Centróides (pontos centrais dos grupos)

1.2.1.2. Calcula a distância média entre os centros (K) dos grupos, nessa média é traçada uma linha. Essa é a primeira divisão que separa os grupos

1.2.1.3. Para o tamanho da primeira linha que separa os grupos, é calculada a média dos pontos em relação ao centro. Esse processo se repete até não haver mais alteração dos pontos para outros grupos

1.2.1.4. Entendendo como funciona o algoritmo de Cluster K-Means – Think Think SQL

1.2.1.5. Funciona melhor com agrupamentos ciculares

1.2.1.6. Assim funciona mal https://i.stack.imgur.com/gFaCT.png

1.2.1.7. distancia euclidiana ?

1.3. Cluster Hierarquico baseado em densidade

1.3.1. Clustering Hierarquico

1.3.1.1. Ligação simples (single-link)

1.3.1.1.1. Aleatóriamente escolhe dois pontos. Verifica a distância média entre dois eles e cria um centroide ali

1.3.1.1.2. Os pontos que estão mais afastados, é verificada a distância média em relação a todos os centróides dos cluesters, a menor média é o cluster desse ponto afastado

1.3.1.1.3. Dendograma - cluster dentro de cluster

1.3.1.2. Ligação média

1.3.1.3. Ligação Completa - Agrupamento aglomerado

1.3.1.3.1. De inicio usa a mesma técnica da ligação simples para criar os primeiro clusters

1.3.1.3.2. Metodo Ward do scikite kearn tenta diminuir a variância dos pontos E UNIR DOIS CLUSTERS

1.3.1.3.3. Em relação ao ponto que esta sem cluster, Procura os dois clusters mais próximos e nele o ponto mais afstado

1.3.1.3.4. from sklearn import cluster clust = cluster.AgglomerativeClustering(n_clusters=3, linkage='ward') clust.fit_predict(X)

1.3.1.3.5. #desenhando dendogramas from scipy.cluster.hierarchy import dendrogram, ward, single

1.3.1.3.6. # Métrica from sklearn.metrics import adjusted_rand_score ward_ar_score = adjusted_rand_score(iris.target, ward_pred)

1.3.1.4. Metodo Ward

1.3.2. Exemplo de Aplicação

1.3.2.1. • Psicologia: • Classificação de pessoas de acordo com seus perfis de personalidade • Biologia: • Classificação de espécies • Medicina: • Classificação de sub-tipos de doenças (diabetes, câncer, etc) • Administração/Marketing • Segmentação de clientes de acordo com perfis de consum

1.4. DBSCAN

1.4.1. Cluster com base na densidade - DBSCAN

1.4.2. Epsilon - é uma entrada que vai definir o limite ao redor de um ponto aleat´rio no inicio do processo

1.4.3. MinPts - número minimo depontos dentro do circulo gerado pelo Epsilon

1.4.4. O DBSCAN faz clusters de pontos com base em e outros processos de identificação. Não é um método de cluster hierárquico, no entanto

1.5. Misturas gaussianas e validação de clusters

1.5.1. Introdução

1.5.1.1. Use a distribuição de Gamas para encontrar mais informações dos dados

1.5.1.2. Distribuição Normal ou Gauss: Forma de ver concentração dos dados em histograma. Usando a média ou mediana e desvio padrão

1.5.1.2.1. Na distribuição normal podemos verificar variância e concetração

1.5.1.2.2. Existe uma distribuição normal quando o histograma é maior aglutinação em um ponto e pouca variancia nas pontas

1.5.1.2.3. Visualmente, espera-se que uma distribuição gaussiana em uma área tenha pontos aglutinados em uma só área. A densidade dos pontos é alterada conforme os movimentos da área central.

1.5.2. Mistura Gaussiana é Repetida quando os dados apresentam uma Distribuição Normal / Gauss

1.5.3. GMM | Mistura Gaussiana multivariada, quando Existe Duas Dimensões com Distribuição normais

1.5.4. Usa o algo de Maximização de Expectativas.

1.5.4.1. Inicia o K: O algo MG inicia encontrando os K (centroides).

1.5.4.2. Inicia o E: Depois inicia o agrupamento suave, ao redor do K, usando o E de expectativa.

1.5.4.3. Inicia o M: Re estimar as gaussianas, que é a Maximização

1.5.4.4. Avalia Log verossimilhanç para verificar convergências

1.5.4.4.1. Se convergir esta ok e retorna valores

1.5.4.4.2. Se não covergir, volta ao passo 2 de iniciar o E

1.6. Dimensionalidade de atributos ou festure scaling

1.6.1. Dimensionalidade de atributos esta na etapa de pre-processamento

1.6.2. Redimensionar atributos, melhorar os valores para os cálculos

1.6.3. usar quando haver valores muito distantes em relação a intervalos

1.6.4. O que redimensionamento faz eh, deixar os valores no mesmo intervalo, normalmente de 0 e 1, assim faz o calculo para chegar no melhor valor

1.6.5. MMinScaler

1.7. PCA

1.7.1. O PCA encontra novas coordenadas de dados usando rotação e translação a prtir das coordenadas antigas dos recursos

1.7.2. PCA eh um modo sistematizado de transformação de características de entrada em componentes principais

1.7.3. PCA cria novas dimensões no conjunto de dados, unindo/transformando através de cálculos as antigas dimensões

1.7.4. PCA maximiza a variância e diminui a perda de informa coes

1.7.5. PCA ao criar uma nova dimensão, classifica como a mais importante, quando tiver a maior variância

1.8. Processo Análise de Cluster

1.8.1. Selecção

1.8.2. Extração de variaveis

1.8.2.1. Transformação de variaveis usando ferramento como o PCA

1.8.3. Escolha de algoritimos de cluster

1.8.3.1. Escolha com base na aparência dos dados e no seu problema

1.8.3.2. Testar e usar o que tiver mehor resultado

1.8.4. Validação do agrupamento

1.8.4.1. Medidadas de validação são os índices

1.8.4.1.1. Indices externos, para dados rotulado (aprendizado supervisionado)

1.8.4.1.2. Índices internos, medem o ajuste entre os dados e a estrutura

1.8.4.1.3. Índices relativos, qual a melhor estrtura de agrupamento a usar

1.8.4.2. Avaliar de maneira objetiva e quantitativa

1.8.5. Interpretação dos resultados

1.9. Projeção aleatória e ICA

1.9.1. Processo de Redimensionalidade matematicamente mais eficaz que o PCA

1.9.2. Geralmente usado quando tem muitas dimensões para o PCA calcúlar

1.10. Algoritmo FastICA

2. O que apresender? (Soft Skill)

2.1. Matemática

2.1.1. Cáculo

2.1.1.1. Funções

2.1.1.1.1. Lineares

2.1.1.1.2. Quadraticas

2.1.1.1.3. Funções trasforma um valores em outro valor Exemplo: Pegar um tâxi, a quilometragem rodada sem transformara em um valor em reais a ser pago.

2.1.1.1.4. Variavel X é a independente ou abcissa

2.1.1.1.5. Variável Y é a dependente ou ordenada

2.1.1.2. Limite

2.1.1.3. Derivadas

2.1.1.4. Derivadas parciais

2.1.1.5. Integral

2.1.2. Álgebra linear

2.1.2.1. Variáveis e espaços

2.1.2.2. Operações com matrizes

2.1.2.3. Projeções e bases

2.1.3. Estatistica

2.1.3.1. Descritiva

2.1.3.2. Inferrencial

2.2. Programação

2.2.1. Python OO

2.2.2. Python para Ciência de dados

2.2.3. Git e Github

2.3. Referência e apoio

2.3.1. Stackoverflow

2.3.2. Cross Validated

2.3.3. Quora

3. introdução ML?

3.1. Por que Machine Learning?

3.1.1. Faz possíveis previsões!

3.1.2. Otimiza processos com inteligência

3.1.3. Extrai dados ocultos

3.1.4. Classifica dados

3.1.5. Ajuda na Tomada de Decisão

3.2. Etapas

3.2.1. Extralçao

3.2.2. Exploração

3.2.3. Pré processamneto

3.2.4. Análises

3.2.5. Previsões

3.3. Exemplo de Ferramentas

3.3.1. Python

3.3.1.1. SciKit Learn

3.3.1.2. Numpy

3.3.1.3. Pandas

3.3.1.4. Matplotlib

3.3.1.5. SciPy

3.3.2. R

3.3.3. SAS

3.3.4. SSPS

4. Aprendizado Supervisionado

4.1. O que é?

4.2. Classificação

4.2.1. O que é?

4.2.1.1. Algoritmos de classificação são aqueles que por exemplo, respondem a perguntas do tipo sim/não

4.2.1.2. Geralmente tem uma saída não númerica

4.2.2. Naive Bayes

4.2.2.1. Classificador de dados . Entrada de dados não numericos e saídas rotuladas

4.2.3. Algo. Perceptron

4.2.3.1. Algoritimo para classificar dados

4.2.3.2. Pilar das redes neurais

4.2.3.3. Fronteiras lineares

4.2.3.4. Dimensões superiores

4.2.3.5. Truque com percepetrons

4.2.4. Máquinas de Suporte Vetorial - SVM

4.2.5. Métodos de Ensemble

4.2.6. Árvores de Decisão

4.2.6.1. Estrutura para tomadas de decisão, que leva a outras decisões

4.2.6.2. Visualmente são como ganhos de arvores sendo as folhas as decisões

4.2.6.3. Entropia

4.3. Regressão

4.3.1. Regressão Linear

4.3.1.1. Conceitos

4.3.1.1.1. Prever dados numéricos

4.3.1.1.2. Descobrir relação entre duas variaveis,, relaçãoo posivitiva, negativa ou neutra

4.3.1.1.3. Variável independente ajudará a estimar o valor da variável dependente

4.3.1.1.4. variável X é a independente, que possibilitará previsão da variável Y que é e depentendente

4.3.1.2. Erro absoluto médio

4.3.1.3. Erro quadrado médio

4.3.1.4. Gradiente descendente

4.3.2. Regressão polinomial

4.3.3. Regressão de rede neural

5. Aprendizado Por Reforço

5.1. Introdução

5.1.1. Agente

5.1.1.1. Agente, será quem recebe aprendizado

5.1.1.2. Agente recebe a recompensa quando aprende o 'sinal', repetindo o comportamento

5.1.1.3. Agente sempre ira tentar maximizar o ganho da recompensa

5.1.2. Ação

5.1.2.1. ções para que você possa executar qualquer um dos passos do tempo específico, na sua busca por alcançar o

5.1.3. Recompensa

5.1.4. State

5.2. Tarefas

5.2.1. Uma tarefa é uma instância do problema da aprendizagem por reforço.

5.2.2. Episodicas

5.2.2.1. Tm um final pr[e definido

5.2.2.2. Squencia completa de intera;'/ao do [inicio ao fim. um EPISODIO

5.2.3. Contínuas

5.2.3.1. Tarefas contínuas são tarefas que são para sempre, sem fim.

5.3. Objetivos e recompensas

6. Validação de modelos

7. Métricas