Geiken. Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus

Solve your problems or get new ideas with basic brainstorming

Get Started. It's Free
or sign up with your email address
Geiken. Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus by Mind Map: Geiken. Quelques problèmes observés dans l'élaboration  de dictionnaires à partir de corpus

1. Lacunes corpus

1.1. mots composés

1.1.1. transparence sémantique

1.1.1.1. absences dans dictionnaires

1.2. rareté occurence

1.2.1. Loi Zipf

1.2.1.1. rare apparition majorité types corpus

1.2.2. mots-formes faible occurence

1.2.2.1. pas base de dictionnaire

2. Comparaison quantitative

2.1. BROWN + LIMAS < dictionnaires monolingues

2.1.1. 50 000 + 110 000 types

2.2. BNC > OED

2.2.1. 650 000 types > 500 000 entrées

2.3. DWDS > DWB

2.3.1. 2,2 millions types > 297 000 entrées

2.4. DWDS-E > DWB

2.4.1. 9 millions types > 297 000 entrées

3. Corpus / dictionnaire

3.1. mots-formes

3.1.1. tokens analysables morphologiquement

3.2. lexèmes

3.2.1. designer formes regroupant mots-formes

3.2.1.1. distinction par leur flexion

4. Taille

4.1. Dictionnaires

4.1.1. nombre entrées annoncées

4.2. Corpus

4.2.1. nombre tokens

4.2.1.1. = chaine caractère entre 2 blancs

4.2.2. nombre types

4.2.2.1. = tokens différents dans corpus

5. Corpus et Dictionnaires : comparaison quantitative

6. GUILLY Julie et VIGIER Elsa - L3 SDL

7. Expressions figées

7.1. Etude accroissement nombre occurences

7.1.1. taille minimale corpus

7.2. Expérimentation

7.2.1. 46 expressions idiomatiques verbales (Duden-11)

7.2.2. DWDS-E

7.2.2.1. 100 échantillons de 10 millions tokens

7.2.2.1.1. étude fréquence chaque expression

7.2.3. Croissance apparition

7.2.3.1. union échantillons

7.2.3.2. somme des occurences

7.3. Coissance régulière

7.3.1. procédure échantillonage correcte

7.3.2. Corpus de 100 millions de signes insuffisant

7.3.3. Recherche de variantes lexicales ou syntaxiques impossible

7.4. DWDS

7.4.1. 7 sur 46 expressions apparaissent pas

7.4.1.1. taille corpus insuffisante

8. Mots composés

8.1. manque flagrant des attestations dans corpus

8.1.1. taille corpus insuffisante

9. Mots simples

9.1. Webster / BNC

9.1.1. série mots pas attestée dans BNC

9.2. WDG / DWDS

9.2.1. centaine lexèmes pas présents dans DWDS

9.2.1.1. langage enfantin

9.2.1.2. variantes régionales

9.2.1.3. domaines de connaissance particuliers

9.3. NODE / BNC

9.3.1. acceptation mots fréquents (dope)

9.3.1.1. pas attesté dans BNC

10. Corpus équilibrés

11. Acceptions