Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus - A. GEIKEN

Lancez-Vous. C'est gratuit
ou s'inscrire avec votre adresse e-mail
Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus - A. GEIKEN par Mind Map: Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus - A. GEIKEN

1. 1. Corpus et dictionnaires: une comparaison quantitative

1.1. Taille dictionnaire = nombre d'entrées annoncées

1.1.1. Nombre d'entrées annoncées

1.1.1.1. Entre 80 000 et 500 000 entrées

1.2. Taille corpus = nombre de tokens et de types

1.2.1. Tokens (chaîne de caractère entre deux blancs)

1.2.1.1. Corpus trop petit pour un dictionnaire monolingue

1.2.1.1.1. Brown Corpus en anglais avec 1 000 000 de tokens

1.2.1.1.2. Limas Corpus en allemand avec 1 000 000 de tokens

1.2.2. Types ( tokens différent dans le corpus)

1.2.2.1. Corpus dépassent les dictionnaires et corpus (tokens= 100 000 000 et 1 milliard et types = 650 000 et 9 000 000)

1.2.2.1.1. BNC > OED

1.2.2.1.2. DWDS > DWB

1.2.2.1.3. DWDS-E> DWDS

1.2.2.2. Données non comparable

1.2.2.2.1. Type et nombre d'entrée

1.3. Conclusion

1.3.1. Types = entrées

1.3.2. Apparition de nouveaux termes

1.3.2.1. léxème = mot-forme se distinguant par la fléxion

1.3.2.2. mot-forme = tokens analysables en morphologie

1.3.3. Quelques problèmes

1.3.3.1. mots-composés

1.3.3.2. rareté des occurences

2. Question principale: La comparaison du nombre d'entrées des dictionnaires et de la taille des corpus

3. 2. Corpus équilibrés

3.1. Mots simples ou composés

3.1.1. Dictionnaire monolingue

3.1.1.1. Entrée non présente dans le corpus ni pour mot-forme ni pour léxème

3.1.1.2. Des acceptions qui ne sont pas attestées dans les corpus

3.1.2. Mots dans Webster mais pas dans BNC

3.1.2.1. Langage enfantin

3.1.2.2. Variantes régionales et autrichiennes

3.1.2.3. Connaissances particulières

3.1.3. Mots composés

3.1.3.1. Manque d’attestations dans le corpus

3.2. Expressions figées

3.2.1. DSWD-E

3.2.1.1. Répartition et nombre d’occurrences de certaines expressions figées

3.2.1.2. But: décrire l’accroissement du nombre d’occurrences des expressions figées pour déduire la taille minimale qu’un corpus devait avoir pour pouvoir constituer une base d’études solide sur les expressions figées.

3.2.2. Conclusion

3.2.2.1. Les corpus équilibrés sont trop petits pour pouvoir servir de base à l’élaboration d’un grand dictionnaire monolingue.

4. CHOUAGHI Sarah SDL L3 Sections 1 et 2