Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus, A. Geyken

Jetzt loslegen. Gratis!
oder registrieren mit Ihrer E-Mail-Adresse
Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus, A. Geyken von Mind Map: Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus, A. Geyken

1. 2) CORPUS ÉQUILIBRÉS

2. 1) CORPUS ET DICTIONNAIRES : COMPARAISON QUANTITATIVE

3. 3) CORPUS OPPORTUNISTES ET TRÈS GRANDES COLLECTIONS DE TEXTES

3.1. Corpus Opportuniste

3.1.1. Non proportionnel par rapport à l'usage dans le langage courant

3.1.2. Utilisés pour leur disponibilité (exemple : articles de journaux électroniques).

3.2. Grande collection de textes

3.2.1. Réunit des milliards de mots

3.2.2. Compilation basée sur le lexique et pas la typologie de texte

3.2.3. Attestent d'expressions rares

3.3. Genre grammatical

3.3.1. Évalue les informations morphosyntaxiques dans les usages.

3.3.2. Informe des usages de formes concurrentes

3.4. Archaïsme

3.4.1. Difficile de déduire l'absence de l'usage par l'absence dans le corpus

4. 4) LES CORPUS, UNE QUESTION DE TAILLE ?

4.1. Problèmes

4.1.1. Difficile de décrire une taille de corpus "suffisante"

4.1.2. Difficile de recueillir le langage parlé en quantité représentative

4.2. Analyse morphologique

4.2.1. Division du corpus en deux

4.2.1.1. Liste négative : les formes inintéressantes pour l'analyse (chiffres, noms propres, etc.)

4.2.1.2. Liste positive : formes analysables sur le plan morphologique

4.2.2. Analyse lexicale

4.2.2.1. Déterminée avec de nombreuses règles de formation des mots (suffixation, composition de mots...).

4.2.2.2. Utilisation du TAGH (#)pour indiquer les découpages à ne pas faire, mais ne résout pas tous les cas

4.3. Accroissement du vocabulaire

4.3.1. Difficile à calculer par simple soustraction

4.3.2. Règles statistiques complexes

4.3.2.1. Plusieurs itération de comparaison aléatoire d'échantillons semblables, opération répétée jusqu'à l'épuisement des échantillons

4.3.3. La croissance s'observe même avec de très grands échantillons (proche du milliard de mots)