"Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus" A. Geyken

Начать. Это бесплатно
или регистрация c помощью Вашего email-адреса
"Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus" A. Geyken создатель Mind Map: "Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus"   A. Geyken

1. Comparaison quantitative entre corpus et dictionnaires

1.1. Comparaison du nombre d'entrées dans les dictionnaires et de la taille des corpus

1.1.1. Taille des dictionnaires : déterminée par le nombre d'entrées

1.1.2. Taille des corpus : déterminée par le nombre de tokens (= chaîne de caractères entre 2 blancs) et de types (tokens différents dans le corpus)

1.2. Corpus de 1ère génération (ex : Brown)

1.2.1. Pas adaptés pour constituer des dictionnaires : trop petits par rapport aux dictionnaires monolingues

1.2.2. Tendance inversée avec le BNC ou le DWDS par exemple

1.2.2.1. ils dépassent les plus grands dictionnaires de leur langue

1.3. Types vs. Entrées

1.3.1. Le nombre de types résulte d'un comptage informatique : contient des mots pas comptabilisés dans les dictionnaires

1.3.1.1. ex : noms propres, mots étrangers, mots composés...

1.3.2. Problème des mots à faibles occurences : doivent-ils apparaître dans les dictionnaires s'ils ne sont pas représentés dans les corpus ?

2. Corpus équilibrés

2.1. Mots simples ou composés

2.1.1. certaines entrées des dictionnaires ne sont pas représentées dans les corpus car elles représentent des lacunes

2.1.1.1. ex : mots du langage enfantin, variantes régionales, ...

2.1.2. certains mots composés ne sont pas recensés dans les dictionnaires à cause de leur transparence

2.2. Expressions figées

2.2.1. étude de leur répartition et de leurs occurences

2.2.1.1. description de l'accroissement du nombre d'occurences pour en déduire la taille minimale d'un corpus pouvant être une base d'études solide

2.2.1.2. DWDS-E : divisé en 100 échantillons comportant chacun 10 millions de tokens

2.2.1.2.1. résultat : fréquences des expressions idiomatiques et des figées en faisant la somme de leurs occurences -> courbe croissante (ordonnée : occurences; abscisse: échantillons)

2.2.2. Conclusion : un corpus avec 100 millions de tokens n'est pas suffisant pour étudier les expressions figées.

2.2.2.1. De plus, l'étude des variantes lexicales ou syntaxiques est impossible.

3. Lise Donadieu