Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus

Get Started. It's Free
or sign up with your email address
Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus by Mind Map: Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus

1. Adeline LAURENT

2. rôle important des corpus dans l'élaboration des dictionnaires

3. 1. Corpus et dictionnaires : une comparaison quantitative

3.1. taille des dictionnaire : nombre d'entrées

3.2. taille des corpus : nombre de lexèmes

3.3. corpus ancien vs corpus récent

3.3.1. corpus de première génération vs grand dictionnaire monolingue

3.3.1.1. première génération : Brown Corpus (anglais)

3.3.1.2. grand dictionnaire monolingue : DWB (allemand)

3.4. "tokens" ou "types" : chaînes de caractères séparés par des blancs;

3.4.1. mot-forme : "tokens" analysables morphologiquement

3.4.2. lexème : mot-forme qui ne se distingue que par leur flexion

3.5. on trouve des mots composés non intéressants d'un point de vue lexicographique dans les corpus allemands,

3.5.1. n'apparaissent pas dans les dictionnaires

3.6. on trouve des mots rares dans les corpus allemands

3.6.1. selon la loi, ils sont trop rares pour apparaître dans un dictionnaire : ils devraient apparaître plus de 10 fois dans le corpus

3.6.2. pourtant ils sont compter comme "types"

3.6.3. ce qui explique la différence quantitative de mots entre un corpus et un dictionnaire

4. 4. Les corpus : une question de taille ?

5. 2. Corpus équilibrés

5.1. mots simples ou composés

5.1.1. certaines entrées manquent

5.1.1.1. vocabulaire enfantin

5.1.1.2. variantes régionales

5.1.1.3. vocabulaire dit technique

5.1.2. certaines entrées ne sont pas dans les corpus

5.1.2.1. par exemple, l'emploi adjectival de "dope" en anglais

5.1.3. il manque des mots composés

5.1.3.1. il y a beaucoup de possibilités de compositions des mots mais peu sont utilisés dans les corpus

5.2. expressions figées

5.2.1. très nombreuses

5.2.2. de 20 à 0 apparition dans un corpus comme le BNC

5.3. trop petits pour servir de base à l'élaboration de dictionnaire monolingue

5.4. ne contiennent pas tous les mots

6. 3. Corpus opportunistes et très grandes collections de textes