Problèmes observés dans l'élaboration de dictionnaire à partir de corpus

Lancez-Vous. C'est gratuit
ou s'inscrire avec votre adresse e-mail
Problèmes observés dans l'élaboration de dictionnaire à partir de corpus par Mind Map: Problèmes observés dans l'élaboration de dictionnaire à partir de corpus

1. Corpus équilibré

1.1. Les dictionnaires monolingues ont toujours des entrées qui ne sont pas dans les corpus

1.2. on trouve des acceptations ( dans le dictionnaire ) non attestées dans les corpus

1.2.1. exemple : 'dope' ( anglais ) emploi adjectival attesté dans le NODE mais pas dans le BNC

1.3. Mots composés

1.3.1. manque d'attestation dans les corpus

1.4. Expressions figées

1.4.1. Etude de la répartition et du nombre d'occurrence d'expressions figées dans DWDS-E

1.4.2. courbe de croissance

1.4.2.1. DWDS-E : fragmenté en 100 échantillons de même taille avec 10 millions de tokens

1.4.2.2. fréquence de chaque expression idiomatique calculée dans chaque échantillon. => croissance d'apparition des expressions figées

1.4.2.2.1. Si la croissance est régulière =>procédure d’échantillonnage est correcte

1.5. Conclusion

1.5.1. Corpus équilibré trop petits pour servir de bases à l'élaboration d'un grand dictionnaire monolingue

2. RIOUFFREYT MATHILDE

3. Corpus opportuniste et très grande collections de textes

4. Les corpus : une question de taille

5. Intro

5.1. lexicographie : discipline empirique

5.2. sélection des données langagières

5.2.1. critères : linguistique et extralinguistique

6. Copus/dictionnaire : comparaison quantitative

6.1. taille des corpus =>nombre de graphies et de formes ( tokens et types)

6.1.1. tokens et types : résultat d'un comptage informatique

6.2. augmentation du nombre de graphies ( tokens ) donne aussi une augmentation de formes (types)

6.2.1. le nombre de types ne peut pas se comparer avec le nombre d'entrées d'un dictionnaire

6.3. Il est important de comparer le nombre de formes (types) avec le nombre d'entrées d'un dico

6.3.1. exemple : DWDS a 2.2millions de types => dépasse de plus de 7 fois le nombre d'entrée du plus grand dico monolingue allemand

6.4. mot-forme : désigne les chaînes de caractères ( tokens ) analysable morphologiquement

6.4.1. facilite la comparaison entre dictionnaire et corpus

6.4.1.1. exemple : DWDS-E contient des mots-formes allemand mais aussi des mots-formes d'autres langues, dates, chiffres,...

6.4.1.2. exemple : DXDS-E Le corpus contient des noms propres et des noms composés => pas candidats pour constituer une entrée dans un dico

6.4.2. mots-formes qui ont très peut d'occurrences ne peuvent être pris en compte dans l'élaboration d'un corpus

6.5. Lexème : désigne une forme regroupant des mots-formes se distinguant que par leur fléxion