Problèmes observés dans l'élaboration de dictionnaires à partir de Corpus : A. GEIKEN

Commencez. C'est gratuit
ou s'inscrire avec votre adresse courriel
Rocket clouds
Problèmes observés dans l'élaboration de dictionnaires à partir de Corpus : A. GEIKEN par Mind Map: Problèmes observés dans l'élaboration de dictionnaires à partir de Corpus : A. GEIKEN

1. Définitions

1.1. Corpus

1.1.1. Collection de données langagières pour servir d'échantillon d'emploi d'une langue

1.2. Token

1.2.1. Nombre de caractères entre deux blancs, mot-formes qui s'analysent morphologiquement

1.3. Léxème

1.3.1. Mort forme qui se distingue par la flexion

1.4. Type

1.4.1. Nombre de tokens différents

2. Taille

2.1. A partir des "tokens"

2.1.1. Corpus trop petits pour un dictionnaire monolingue

2.1.1.1. Brown corpus (ang)

2.1.1.1.1. 1 million de token

2.1.1.2. Limas corpus (all)

2.1.1.2.1. 1 million de token

2.2. A partir des "types"

2.2.1. Les corpus dépassent les dictionnaires

2.2.1.1. BNC depasse l'OED

2.2.1.2. Le DWDS dépasse le DWB

2.2.2. Problème du nombre d'occurrence

2.2.2.1. Les dictionnaires ne considèrent pas les formes avec un faible nb d'occurrence

2.2.2.1.1. Expérience : un mot doit être attestés 10x dans un corpus ( plus que la normale )

2.2.2.2. Le nb de type du corpus DWDS-E est toujours 3x plus que le dictionnaire DWB

3. Corpus équilibrés

3.1. Certains mots dans les dictionnaire ne sont pas attestés dans les corpus équilibrés

3.1.1. Ex : les mots composés

3.1.2. Ex : les expressions figées

3.2. Corpus équilibrés insuffisant pour l'élaboration d'un dictionnaire monolingue

3.3. Ex : BNC, DWDS

4. Corpus opportunistes

4.1. Ex : DWDS-E

4.2. Non équilibrés / non fiables

5. MARTRES Amélie _ L3 _ Linguistique sur corpus ( groupe 2 ) _ Dev. section 1 et 2

6. corpus indispensables ?

6.1. Très utiles pour la cosntruction de dictionnaires

6.2. Beaucoup de problèmes persistent

6.3. Besoin des fiches traditionnelles pour la création ou la mise à jour