Quelques problèmes observés dans l'élaboration de dictionnaire à partir de corpus

Kom i gang. Det er Gratis
eller tilmeld med din email adresse
Quelques problèmes observés dans l'élaboration de dictionnaire à partir de corpus af Mind Map: Quelques problèmes observés dans l'élaboration de dictionnaire à partir de corpus

1. corpus équilibré

1.1. Mots simples ou composés

1.1.1. des entrées non présentent en tant que léxème

1.1.1.1. exemple : mot enfantin, les variantes ou les mots qui nomment des prcédés

1.1.2. des acceptations dans le dictionnaire qui ne sont pas attestées dans les corpus

1.1.2.1. exemple : les mots fréquents et surtout les mots composés

1.2. Expressions figées

1.2.1. calcule des expressions idiomatiques dans plusieurs échantillons

1.2.2. montre que 100 million de TOKENS n'est pas suffisant pour servir de base empirique à cette étude

1.2.3. certaines expressions ne son pas attestées dans les dictionnaires et d'autres très peu.

1.2.4. la recherche des variantes lexicales et syntaxique est impossible

1.3. conclusion

1.3.1. les corpus équilibrés sont trop petit pour servir de base à l'élaboration d'un dictionnaire monolingue

2. laura debadts

3. corpus et dictionnaire : une comparaison quantitative

3.1. premier problème : le nombre de TOKENS et de TYPES est plus grand que le nombre d'entrées de dictionnaire

3.1.1. Exemple : DWDS-E, le nombre de type est de 30 fois plus grand que le nombre d'entrée du dictionnaire

3.2. Les TOKENS et les TYPES sont différents de la notion d'entrée => leur nombre est le résultat d'un comptage informatique

3.2.1. Deux sortes de TOKENS

3.2.1.1. mots formes, analysables morphologiquement

3.2.1.2. léxèmes, une forme regroupent les mots formes distinguable que par leur flexion

3.3. dans les corpus apparaît des mots composés comme " la porte de la salle de bain " qui ne sont pas dans les dictionnaires

3.4. dans un dictionnaire le nombre d'occurence est bien plus faible que dans les corpus

3.4.1. exemple: le nombre de type s'élevant à 532415 n'est attesté que 3 fois dans les dictionnaires