"Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus - A. Geyken

Get Started. It's Free
or sign up with your email address
"Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus - A. Geyken by Mind Map: "Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus - A. Geyken

1. Corpus et dictionnaires : comparaison

1.1. Taille

1.1.1. taille corpus : déterminé par le nombre de token et de types

1.1.2. taille dictionnaire : déterminé par le nombre d'entrées annoncées

1.2. Les corpus de 1ere génération (ex : Brown)

1.2.1. trop petits

1.2.2. pas adaptés

1.3. BNC ou les corpus allemands (DWDS)

1.3.1. dépassent les plus grands dictionnaires de leur langues

1.4. Types et entrées

1.4.1. Le nombre = le résultat d'un comptage informatique

1.4.2. DWDS contient des chiffres, dates, noms de marques, noms propres, noms composés (même si inintéressant)

1.4.3. Lacunes lexicographiques

1.5. Dictionnaires qu'à partir d'un corpus ?

2. Corpus équilibrés

2.1. Mots simples ou composés

2.1.1. trouve des mots dans les grands dictionnaires monolingues mais pas dans les corpus

2.1.2. Entrées comportant des lacunes du corpus (mots enfantins ou dialectes)

2.2. Expressions figés

2.2.1. décrire l'accroissement du nombre d’occurrences des expressions figés pour déduire la taille minimal d'un corpus

2.2.2. Somme des occurrences : courbe ; si croissance régulière : procédure d'échantillonnage = correcte

2.2.3. BNC : taille du corpus insuffisant

2.3. Les corpus disponibles n'ont pas la taille suffisante pour contenir tous les mots des dictionnaires