DATA SCIENCE

Começar. É Gratuito
ou inscrever-se com seu endereço de e-mail
DATA SCIENCE por Mind Map: DATA SCIENCE

1. Project Review

1.1. Summary of Project

1.2. Timeline:

1.3. Budget:

1.4. Resources:

2. Modelos em Produção

2.1. Opens Souce

2.1.1. Kubeflow

2.1.2. TFX

2.1.3. FBLearner Flow

2.1.4. MLFlow

2.1.5. Pytohn Flask

2.1.6. Metaflow

2.1.7. Airflow

2.2. Cloud Platforms

2.2.1. Google ML Engine

2.2.2. Amazon SageMarker

2.2.3. Azure ML Service

3. Algoritimos de Machine Learning

3.1. Supervisionados

3.1.1. Classificação

3.1.1.1. K-NN

3.1.1.2. Naive Bayes

3.1.1.3. SVM

3.1.1.4. Decision Tree

3.1.1.5. Logistic Regression

3.1.1.6. Deep Learning

3.1.1.6.1. Auto Encoders

3.1.1.6.2. GAN - Generative Adversarial Networks

3.1.1.6.3. CNN - Convolutional Neural Network

3.1.1.6.4. RNN Recurrent Neural Networks

3.1.2. Regressão

3.1.2.1. Linear Regression

3.1.2.2. Polynomial Regression

3.1.2.3. Ridge/Lasso Regression

3.1.3. Time Series

3.1.3.1. Autoregression - AR

3.1.3.2. Moving Acerage - MA

3.1.3.3. ARMA - Autoregressive Moving Average

3.1.3.4. ARIMA - Autoregressive Integrated Moving Average

3.1.3.5. SARIMA - Seasonal Autoregressive Integrated Moving Average

3.1.3.6. SARIMAX - Seasonal Autoregressive Integrated Moving Average with Exogenous Regressors

3.1.3.7. VAR - Vector Autoregressive

3.1.3.8. VARMA - Vector Autoregressive Moving Average

3.1.3.9. VARMAX - Vector Autoregressive Moving Average with Exogenerous Regressors

3.1.3.10. SES - Simple Exponential Smoothing

3.1.3.11. HWES - Holt Winter's Exponential Smoothing

3.1.3.12. LSTM - Long Short Term Memory

3.2. Ensemble Methods

3.2.1. Random Forest

3.2.2. AdaBoost

3.2.3. CatBost

3.2.4. LigthhGBM

3.2.5. XGBoost

3.2.6. Gradient Boost

3.3. Não Supervisionados

3.3.1. Clusterização

3.3.1.1. DBSCAM

3.3.1.2. K-Means

3.3.1.3. Hierarchical Clustering

3.3.2. Associação

3.3.2.1. Basket Analyis

3.3.2.2. Item-Based RecSys

3.3.2.3. User-Based Recsys

3.4. Semi-Spervisionados

3.4.1. Reinforcement

3.4.1.1. Genetic Algorithms

3.4.1.2. SARSA

3.4.1.3. Q-Learning

3.4.1.4. DQN - Deep Q-Learning

3.5. Dimensionality Reduction

3.5.1. LDA

3.5.2. PCA

3.5.3. SVD

3.5.4. t-SNE

4. Avaliação dos Algoritimos

4.1. Regressão

4.1.1. MAE - Mean Absolute Error

4.1.2. MSE - Mean Square Error

4.1.3. MAPE - Mean Absolute Percentage Error

4.1.4. MPE - Mesn Percentage Error

4.1.5. RMSE - Root Mean Square Error

4.1.6. RMSLE - Root Mean Square Logarithmic Error

4.1.7. R-Square

4.2. Calssificação

4.2.1. Confusion Matrix

4.2.2. F1 Score

4.2.3. Acurácia

4.2.4. Precision

4.2.5. Recall

4.2.6. Curva ROC

4.2.7. AUC

4.3. Clusterização

4.3.1. Elbow-Method

4.3.2. Silhouette Coefficient

4.3.3. Dunn Index

4.3.4. AIC / BIC

5. Coleta de DADOS:

5.1. Planilha de Dados

5.1.1. Google Scripts

5.1.2. Planilhas de Excel

5.2. Banco de Dados - Aprenda SQL

5.2.1. Redshift

5.2.2. Oracle

5.2.3. Microsoft Server

5.2.4. Snowflake

5.2.5. Postgres

5.2.6. MySQL

5.3. API Request

5.3.1. Python

5.3.1.1. Requests

5.3.1.2. Urlib

5.3.1.3. Json

5.3.2. Java Script

5.3.3. Ruby

5.3.4. Postman

5.4. WebScrapping

5.4.1. Python

5.4.1.1. Selenium

5.4.1.2. BeautifulSoup

5.4.1.3. Scrapy

5.4.1.4. Requests

5.4.1.5. LXML

5.4.2. Ruby

5.4.2.1. kimurai

5.4.2.2. Pismo

6. Limpeza dos DADOS

6.1. Python

6.1.1. Pandas

6.2. Spark

6.2.1. Pyspark

6.2.2. Scala

6.3. R

6.3.1. Dplyr

6.4. Java

7. Modelagem de DADOS

7.1. Rescaling

7.1.1. Stander Scaler

7.1.2. MinMax Scaler

7.1.3. MaxAbs Scaler

7.1.4. Robust Scaler

7.2. Encoding

7.2.1. Numérica

7.2.1.1. Discretização

7.2.1.2. Binarização

7.2.2. Categórica

7.2.2.1. Label Encoder

7.2.2.2. One Hot Encoder

7.2.2.3. Binary Encoder

7.2.2.4. Hashing Encoder

7.2.2.5. Helmet Encoder

7.2.2.6. Polynominal Encoder

7.2.2.7. Target Encoder

7.2.2.8. Backward Difference Encoder

7.3. Seleção de Features

7.3.1. Boruta Algorithm

7.3.2. Pearson Correlation

7.3.3. Chi-Squared

7.3.4. Lasso Regression Model

7.3.5. Random Forest

7.3.6. Spearmen Correlation

7.3.7. ANOVA

7.3.8. Kendall Correlation

7.3.9. Mutual Information

8. NEGÓCIO

8.1. Bussiness Model:

8.1.1. E-commerce

8.1.2. SaaS Software as a Service:

8.1.3. Fre Mobile App

8.1.4. Média Site

8.1.5. User-Sided Marketplaces

8.1.6. Consultant Company

8.1.7. Startup

8.2. Métricas

8.2.1. Custo

8.2.2. Receita

8.2.3. Usuários

8.2.4. Conversão

8.2.5. Margem de Contribuição

8.2.6. HEART - https://www.cursospm3.com.br/blog/framework-heart-o-que-e-quais-sao-os-seus-beneficios-e-como-ele-funciona/

8.2.6.1. Happiness - Categoria que mede o grau de satisfação dos clientes com o produto

8.2.6.1.1. Objetivos - Otimizar produto e experiencia do cliente - assim será possivel medir o progresso e moldar estratégias

8.2.6.2. Engageament - Analisa grau de realcionamento do cliente com o produto, plataforma, se usam ou não e apartir da análise criar ações pra aumentar o enganjamento

8.2.6.2.1. Objetivos

8.2.6.3. Adoption - Metrica de adoção que revela o numero de novos usuarios ou quantos clientes utilizaram novas funcionalidades

8.2.6.3.1. Objetivos

8.2.6.4. Retention - Medir a recorrencia e o uso. Correlacionado ao Churn e ao LTV - https://www.cursospm3.com.br/glossario/ltv/

8.2.6.4.1. Objetivos

8.2.6.5. Task Success - Avalia a usuabilidade da sua solução, se o produto atinge as espectativas do cliente. Necessario colher o feedback dos usuarios.

8.2.6.5.1. Objetivos

8.2.7. NPS - Net Promoter Score - https://www.cursospm3.com.br/glossario/nps/

9. Comunicação de Resultados

9.1. Storytelling

9.1.1. Métodos

9.1.1.1. SPSP

9.1.1.2. PPCSP

9.1.1.3. PMHOS

9.2. Apresentações

9.3. Portifólio de Projetos

9.3.1. Machine Learn

9.3.2. Análise de Dados

9.3.3. Data Engeneering

9.3.4. Competições

9.4. Post em Blogs

9.4.1. Medium

9.4.2. Blog Pessoal

9.5. Linkedin

10. Ferramentas de Estudo

10.1. GitHub

10.2. GitLab

10.3. Ambiente de Virtualização

10.4. IDE's

10.5. Instalando Linux

11. Exploração de DADOS

11.1. Python

11.1.1. Pandas

11.1.2. Seaborn

11.1.3. Matplotlib

11.1.4. Plotly

11.2. Visualização de Dados

11.2.1. Tbleau

11.2.2. PowerBI

11.2.3. Plotly

11.2.4. RShiny

11.2.5. Looker

11.3. Spark

11.3.1. PySpark

11.3.2. RSpark

11.3.3. ScakaSpark

11.4. Estatística

11.4.1. Estatística Descritiva

11.4.2. Distribuiçao de Probabilidades

11.4.3. Análise Bivariada

11.4.3.1. Correlação Numerica X Numérica

11.4.3.2. Correlação Numérica X Categórica

11.4.3.3. Correlação Categórica X Categórica

11.4.3.4. Correlação entre TIme Series

11.4.4. Histogramas

11.5. Hip[oteses

11.5.1. Criação de Hipóteses

11.5.2. Validação de hipóteses