Problèmes observés dans l’élaboration de dictionnaires à partir de corpus
by Nina Sassi
1. CORPUS EQUILIBRES
1.1. Mots simples
1.1.1. Lacunes systématiques = entrées dico absentes dans le corpus (variantes régionales + langage enfantin)
1.2. Mots composés
1.2.1. Manque d'attestation plus flagrant ! Impossibilité de recenser au moins une fois tous les mots composés
1.3. Expressions figées
1.3.1. Même problème que précédemment : expressions absentes
2. CORPUS ET DICTIONNAIRES : UNE COMPARAISON QUANTITATIVE
2.1. Comparaison nb d'entrées dicos/corpus
2.2. Pb des noms propres et mots composés (allemand) pas présents
2.3. Pb rareté des occurrences : Loi de Zipf
2.4. --> Grand corpus = lacunes lexicographiques dans les dictionnaires
3. Taille dictionnaire = déterminée nb d'entrées VS. Taille corpus = nb de tokens/types
3.1. Tokens, terme non approprié --> Pour comparer "mot forme" à la place
3.2. parler de lexème (flexion)
4. 2 tendances :
5. Corpus 1ère génération = trop petit // dictionnaire monolingue
5.1. ex : corpus Brown
6. Corpus Allemands = types >entrées du dictionnaire monolingue
6.1. ex : corpus DWDS
7. ALBERT Myriam, SASSI Nina