1. Définition
1.1. Représentation vectorielle des mots
1.2. Capture le sens des mots en fonction de leur contexte
2. Application
2.1. Traitement du Langage Naturel (NLP)
2.1.1. Analyse de sentiments
2.1.2. Traduction automatique
2.1.3. Résumé automatique
2.2. Recherche et Récupération d'Information
2.2.1. Moteurs de recherche
2.2.2. Systèmes de recommandation
2.3. Génération de texte
2.3.1. Chatbots
2.3.2. Assistants virtuels
2.4. Analyse de similarité sémantique
2.4.1. Détection de synonymes
2.4.2. Groupement de documents
3. Avancées Récentes
3.1. Embeddings contextuels
3.1.1. ELMo (Embeddings from Language Models)
3.1.1.1. Utilise des réseaux de neurones bidirectionnels
3.1.1.2. Génère des embeddings dynamiques basés sur le contexte
3.1.2. BERT (Bidirectional Encoder Representations from Transformers)
3.1.2.1. Utilise des transformers
3.1.2.2. Contexte bidirectionnel profond
3.1.3. GPT (Generative Pre-trained Transformer)
3.1.3.1. Modèle autoregressif
3.1.3.2. Contextualisation unidirectionnelle
3.2. Architecture
3.2.1. ELMo : Basé sur des LSTM, capture les relations séquentielles bidirectionnelles.
3.2.2. BERT : Basé sur des transformateurs bidirectionnels, capture les relations globales dans une phrase.
3.2.3. GPT : Basé sur des transformateurs unidirectionnels, focalisé sur la génération de texte à partir du contexte précédent.
3.3. Objectifs d'entraînement
3.3.1. ELMo : Modélisation bidirectionnelle de langage via LSTM.
3.3.2. BERT : Modélisation de langage masqué et prédiction de la phrase suivante.
3.3.3. GPT : Modélisation de langage autoregressif pour la prédiction du mot suivant.
3.4. Applications et Performance
3.4.1. ELMo : Excellent pour les tâches nécessitant des représentations contextuelles dynamiques.
3.4.2. BERT : Excellente performance sur une large gamme de tâches NLP grâce à ses riches représentations contextuelles bidirectionnelles.
3.4.3. GPT : Très performant pour les tâches de génération de texte et d'autres applications créatives.
4. Techniques Traditionnelles
4.1. Bag of Words (BoW)
4.1.1. Comptage de la fréquence des mots
4.2. TF-IDF (Term Frequency-Inverse Document Frequency)
4.2.1. Pondération basée sur la fréquence des mots dans un corpus
5. Techniques de Word Embeddings
5.1. Word2Vec
5.1.1. Continuous Bag of Words (CBOW)
5.1.2. Skip-Gram
5.1.3. Exemple : "roi" - "homme" + "femme" ≈ "reine"
5.2. GloVe (Global Vectors for Word Representation)
5.2.1. Basé sur la factorisation de la matrice de cooccurrence
5.2.2. Capture les statistiques globales
5.3. FastText
5.3.1. Utilise des sous-mots (n-grammes)
5.3.2. Meilleure performance sur les mots rares et les formes fléchies