1. Algorithmes
1.1. Apprentissage supervisé
1.1.1. Modèles
1.1.1.1. Régression
1.1.1.1.1. Arbre de régression
1.1.1.1.2. Forêt de décision
1.1.1.1.3. Linéaire
1.1.1.1.4. de Poisson
1.1.1.1.5. Ordinale
1.1.1.1.6. Quantile de forêt rapide
1.1.1.1.7. Réseau neuronal
1.1.1.1.8. Support Vector Regression (SVR) / SVM
1.1.1.2. Détection d'anomalies
1.1.1.2.1. PCA-based anomaly detection
1.1.1.2.2. One-class SVM
1.1.1.2.3. Fitting an elliptic envelope
1.1.1.2.4. Local Outlier Factor (LOF)
1.1.1.2.5. Isolation Forest
1.1.1.3. Classification
1.1.1.3.1. Naive Bayes
1.1.1.3.2. Régression logistique
1.1.1.3.3. support Vector Classification (SVC) / SVM
1.1.1.3.4. KNN
1.1.1.3.5. Arbre de classification
1.1.1.3.6. QDA : Analyse Discriminante Quadratique
1.1.1.3.7. LDA : Analyse Discriminante Linéaire
1.1.1.3.8. Random Forest
1.1.2. Critères de coûts
1.1.2.1. Entropy
1.1.2.2. Gini
1.1.2.3. Erreur de classification
1.2. Apprentissage non supervisé
1.2.1. Clustering
1.2.1.1. Méthodes de partitionnement (avec réaffection des objets)
1.2.1.1.1. Centres mobiles
1.2.1.1.2. K-means
1.2.1.1.3. K-medoids
1.2.1.1.4. K-modes
1.2.1.1.5. K-prototypes
1.2.1.1.6. Nuées dynamiques
1.2.1.2. Hidden Markov Model
1.2.1.3. GMM : Gaussian Mixture Modelling
1.2.1.4. Réseau de neurones (Neurals Net)
1.2.1.4.1. Perceptron
1.2.1.4.2. Kohonen
1.2.1.4.3. Réseau de neurones récurrent
1.2.1.4.4. Réseau de neurones à convolution
1.2.1.5. Méthodes hiérarchiques
1.2.1.5.1. Classification Ascendante Hiérarchique (HAC)
1.2.1.6. Méthodes basées sur la densité
1.2.1.6.1. Density Based Spatial Clustering of Applications with Noise (DBSCAN)
1.2.1.6.2. OPTICS : Ordering Points To Identify the Clustering Structure
1.2.1.7. APriori
1.2.2. Règles d'associations
1.2.2.1. APriori
1.2.3. Réduction de dimension
1.2.3.1. Analyse en Composantes Principales (ACP ou PCA)
1.2.3.2. Analyse Factorielle des Correspondances (AFC)
1.2.3.3. Analyse des Correspondances Multiples (ACM)
1.2.3.4. Analyse Discriminante linéaire (LDA)
1.3. Apprentissage par renforcement
1.3.1. Markov decision process
1.3.2. Value iteration
1.3.3. Temporal difference
1.3.4. State-Action-Reward-State-Action (SARSA)
2. Méthodologie
2.1. 1. Définir l'espace de représentation des données
2.1.1. 1.1 Collecter les données
2.1.2. 1.2 Stocker les données
2.1.3. 1.3 Nettoyer les données
2.1.3.1. Preprocessing
2.1.3.1.1. Echelle
2.1.3.1.2. Traitement des données manquantes
2.1.4. 1.4 Explorer les données
2.1.4.1. Python
2.1.4.1.1. Pandas
2.1.4.1.2. Matplotlib
2.1.4.1.3. Numpy
2.1.5. 1.5 Visualiser les données
2.2. 2. Définir la classe des classifieurs considérés
2.3. 3. Définir la fonction de perte à minimiser pour obtenir le meilleur classifieur dans cette classe
2.3.1. Modèles de Gini
2.4. 4. Définir l'algorithme de minimisation de cette fonction de perte
2.5. 5. Définir une méthode de sélection de modèle pour choisir les hyperparamètres
2.5.1. Sélection de modèle
2.5.1.1. Stratégie classique: partager les données disponibles en 3 sous-échantillons
2.5.1.1.1. • Apprentissage: données pour entraîner les modèles
2.5.1.1.2. • Validation: données pour sélectionner les hyperparamètres
2.5.1.1.3. • Test: données pour estimer l’erreur en généralisation du modèle
2.6. 6. Définir une méthode d'évaluation des performances
2.6.1. Evaluation de modèle
2.6.1.1. Choix de la métrique de performance
2.6.1.1.1. RMSE : Root Mean Squared Error (racine carrée de MSE)
2.6.1.1.2. MSE : somme des différences des distances au carré
2.6.1.1.3. 1 - RSE = (corrélation de Pearson)²
2.6.1.2. l’erreur quadratique pour la régression
2.6.1.3. l’erreur de prédiction (0-1) pour la classification
2.6.1.3.1. courbe ROC
2.6.1.3.2. AUC : Aire sous la courbe (ROC)
2.6.1.3.3. ROC n'explique que Vrais Positifs et Faux Positifs
2.6.1.4. Moindres carrés
2.6.1.5. Maximum de vraissemblance
2.6.1.6. Inférence bayésienne
3. Méthodes ensemblistes
3.1. L’erreur de la méthode ensembliste (vote majoritaire)est égale à la probabilité que plus de la moitié des classifieurs se trompent
3.2. Arbres
3.2.1. Bagging
3.2.1.1. Classification : vote majoritaire
3.2.1.2. Régression : moyenne des prédictions
3.2.1.3. Echantillon BOOTSTRAP
3.2.1.3.1. On recrée un ensemble de même taille en prenant une variable aléatoirement avec remise dans l'ensemble de départ.
3.2.2. Les Forêts Aléatoires (Random Forest)
3.2.2.1. Pour obtenir l’arbre b, on applique une version modifiée de CART sur Sb : à chaque noeud, on choisit la coupure parmi k < p variables tirées aléatoirement : ordre de grandeur : racine de p
3.3. Boosting
3.3.1. Utilisation de plusieurs classifieurs (faibles (=simples et rapide) + même type)
3.3.2. Le plus souvent utilisés : les arbres et les séparateurs linéaires
3.3.3. modèles en séquentiel
3.4. Stacking
3.4.1. Combinaison de différents modèles
4. Statistiques
4.1. Biais
4.1.1. exprime à quel point la fonction d'estimation est loin de la cible
4.2. Variance
4.2.1. exprime à quel point la fonction d'estimation est sensible aux données d’apprentissage
4.3. Bruit
4.3.1. Bruit des données : terme incompressible
4.4. Sensibilité
4.4.1. = Recall
4.5. Spécificité
4.5.1. =VN / [VN + FP]
4.6. Ecart-type
4.6.1. mesure la dispersion d'une variable aléatoire
4.6.2. = racine carrée de la Variance
4.7. Co-variance
4.7.1. La matrice de covariance
4.7.1.1. semi-définie positive
4.7.1.2. diagonalisable
4.7.1.3. l’étude des valeurs propres et vecteurs propres permet de caractériser la distribution à l’aide d’une base orthogonale
4.7.1.3.1. cette approche est l'objet de l'analyse en composantes principales qui peut être considérée comme une sorte de compression de l’information.
4.8. Espérance
4.8.1. notation E(X)
4.8.2. valeur que l'on s'attend à trouver, en moyenne. Moyenne pondérée des valeurs que peut prendre la variable aléatoire X
4.9. Précision
4.9.1. = "vrai positif" / ["vrai positif" + "faux positif"]
4.10. Rappel (=recall = sensibilité")
4.10.1. = "vrai positif" / ["vrai positif" + "faux négatif"]
4.11. F1-score
4.11.1. =2.(rappel.precision)/(rappel+precision)
4.12. TP / FP / TN / FN
4.12.1. dans le cas d'une classification binaire [1,-1] :
4.12.1.1. TP : les vrais positifs sont les prévisions correctes de la classe "1"
4.12.1.2. FP : les faux positifs sont les prévisions incorrectes de la classe "1"
4.12.1.3. TN : les vrais négatifs sont les prévisions correctes de la classe "-1"
4.12.1.4. FN : les faux négatifs sont les prévisions incorrectes de la classe "-1"
4.13. Coefficient de corrélation
4.13.1. compris entre -1 et +1
4.13.2. Pearson
4.13.3. Spearman
5. A classer
5.1. Séries temporelles
5.1.1. individu
5.1.2. XGBRegressor