Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus

Get Started. It's Free
or sign up with your email address
Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus by Mind Map: Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus

1. Corpus équlibrés

1.1. Mots simples ou composés

1.1.1. dictionnaires contiennent entrées non présentes dans corpus

1.1.1.1. lacunes systématiques des corpus

1.1.1.1.1. mots du langage enfantin

1.1.1.1.2. variantes régionales

1.1.1.1.3. mots de domaines de connaissance particulier

1.1.1.2. acceptations dans dictionnaires non attestées dans corpus

1.1.1.2.1. mots simples

1.1.1.2.2. mots composés

1.2. Etude expressions figées

1.2.1. répartitions et nombres d'occurences d'expressions figées du DWDS-E

1.2.2. But

1.2.2.1. décrire accroissement nombre d'occurences

1.2.2.2. déduire taille minimale d'1 corpus pour cette étude

1.2.3. Méthode

1.2.3.1. 46 expressions figées courantes

1.2.3.2. échantillonage

1.2.3.2.1. 100 échantillons de 10 millions de graphies

1.2.4. Résultats

1.2.4.1. croissance régulière

1.2.4.1.1. échantillonage correct

1.2.4.2. corpus 100 millions graphies

1.2.4.2.1. trop petit

1.2.4.3. recherche variantes lexicales/ syntaxiques impossible

1.2.5. Conclusion

1.2.5.1. corpus équilibrés trop petits

1.2.5.1.1. élaboration grands dictionnaires monolingues

2. BELLANGER Camille

3. Corpus opportunistes et très grandes collections de textes

4. Les corpus : une question de taille?

5. Corpus et dictionnaires : comparaison quantitative

5.1. Comparaison

5.1.1. taille dictionnaires

5.1.1.1. nombre d'entrées annoncées

5.1.2. taille corpus

5.1.2.1. nombre de "tokens" = graphies et de "types" = formes

5.1.2.1.1. comptage informatique

5.2. Corpus

5.2.1. de "première génération"

5.2.1.1. trop petits / aux grands dictionnaires

5.2.1.1.1. 1 million de graphies/ 50 000 formes

5.2.1.1.2. 500 000 entrées

5.2.2. + récents (DWDS-E)

5.2.2.1. rapports s'inversent

5.2.2.1.1. 9 millions de formes

5.2.2.1.2. entrées du dictionnaire

5.3. Pour faciliter comparaison

5.3.1. "mot-forme"

5.3.1.1. graphies analysables morphologiquement

5.3.2. "lexème"

5.3.2.1. mots-formes distinguables par leur flexion

5.4. Pb comparaison

5.4.1. composition corpus DWDS-E / dictionnaires

5.4.1.1. mots-formes de l'allemand + d'AUTRES LANGUES

5.4.1.2. chiffres, dates

5.4.1.3. noms de marque + noms propres

5.4.1.4. mots composés

5.4.1.4.1. importance ++ composition

5.4.2. rareté des occurences

5.4.2.1. forme d'1 corpus apparaissent rarement

5.4.2.1.1. pas de prise en compte dans dictionnaires