Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus

Get Started. It's Free
or sign up with your email address
Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus by Mind Map: Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus

1. EGROT Manon

2. Corpus équilibrés

2.1. certaines entrées dictionnaires non présentes dans corpus

2.1.1. mots simples ou composés

2.1.1.1. mots simples

2.1.1.1.1. lacunes systématiques corpus

2.1.1.2. mots composés

2.1.1.2.1. manque d'attestations + flagrant

2.1.2. expressions figées

2.1.2.1. étude répartition nombre d’occurrences de certaines expressions figées du corpus DWDS-E

2.1.2.2. But

2.1.2.2.1. description accroissement du nombre d’occurrences

2.1.2.2.2. taille minimale d'un corpus pour étude solide

2.1.2.3. Méthode

2.1.2.3.1. 46 expressions idiomatiques verbales courantes

2.1.2.3.2. 100 échantillons de 10 millions de graphies

2.1.2.4. Résultats

2.1.2.4.1. croissance régulière

2.1.2.4.2. corpus 100 millions de graphies : trop petit

2.1.2.4.3. recherche variantes lexicales/syntaxiques impossible

2.1.2.5. Conclusion

2.1.2.5.1. corpus équilibrés trop petits pour élaboration dictionnaires monolingues

3. Corpus et dictionnaires : comparaison quantitative

4. Corpus opportunistes et très grandes collections de textes

4.1. Beaucoup plus grands que corpus équilibré BNC

4.2. Textes publiés

4.2.1. souvent articles journaux électroniques

4.2.1.1. exemple : Bank of English®

4.2.1.1.1. 524 millions de graphies

4.3. Très utiles pour attestations mots ou expressions rares

4.3.1. + nombre d'entrées manquantes diminue

4.4. Déséquilibre résultats lexicographiques

4.4.1. notion de fréquence

4.4.1.1. genre grammatical

4.4.1.1.1. évaluation infos morpho-syntaxiques dictionnaires par les corpus

4.4.1.1.2. fréquence : informations distribution du genre grammatical des anglicismes

4.4.1.1.3. exemple : nom Blackout

4.4.1.2. archaïsmes

4.4.1.2.1. souhait d'annotation ou d'élimination

4.4.1.2.2. absence mots dans corpus ≠ absence dans langue ≠ archaïsmes

5. Les corpus : une question de taille ?