Geyken Alexander, « Quelques problèmes observés dans l'élaboration de dictionnaires à partir de ...

Get Started. It's Free
or sign up with your email address
Geyken Alexander, « Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus », Langages, 2008 by Mind Map: Geyken Alexander, « Quelques problèmes  observés dans l'élaboration de dictionnaires à partir de corpus », Langages, 2008

1. 1. Corpus et dictionnaires : une comparaison quantitative

1.1. Taille des corpus (= nombre de tokens et de types)

1.1.1. tokens = chaîne de caractères entre deux blancs

1.1.2. types = tokens différents dans le corpus

1.1.3. Résultat d’un comptage informatique

1.1.4. Exemples de corpus

1.1.4.1. Brown Corpus (angl.)

1.1.4.1.1. 50 000 types

1.1.4.2. LIMAS Corpus (all.)

1.1.4.2.1. 110 000 types

1.1.4.3. BNC (angl.)

1.1.4.3.1. 650 000 types

1.1.4.4. DWDS (all.)

1.1.4.4.1. 2,2 millions de types

1.1.4.5. DWDS-E (DWDS étendu)

1.1.4.5.1. Caractéristiques

1.1.4.5.2. Problèmes liés

1.1.5. Lacunes systématiques des corpus

1.2. Taille des dictionnaires (= nombre d’entrées annoncées)

1.2.1. Exemples de dictionnaires

1.2.1.1. Littré (fr.)

1.2.1.1.1. 80 000 entrées

1.2.1.2. Duden-GWB (all.)

1.2.1.2.1. 200 000 entrées

1.2.1.3. DWB (all.)

1.2.1.3.1. 297 000 entrées

1.2.1.4. OED (angl.)

1.2.1.4.1. 500 000 entrées

1.2.2. lacunes lexicographiques

1.3. Constats

1.3.1. l’augmentation du nombre de tokens entraîne celle du nombre de types

1.3.2. Nombre de types presque toujours supérieurs aux entrées de dictionnaires

2. MARCUZZI Giovani L3 SDL

3. 2. Corpus équilibrés

3.1. 2.1. Mots simples ou composés

3.1.1. Grands dictionnaires monolingues

3.1.1.1. Entrées absentes des corpus

3.1.1.1.1. Désaccord avec "fiches" des lexicographes

3.1.1.1.2. Webster (dict) vs. BNC (corpus équilibré et représentatif)

3.1.1.1.3. WDG vs DWDS : 100aine d'entrées (connues d'un locuteur natif) absentes du corpus

3.1.1.2. Acceptions non attestées dans les corpus alors que mots très fréquents

3.1.1.2.1. Ex : emploi adjectival de "dope", attesté dans le NODE, n’apparaît pas dans le BNC

3.1.1.3. mots composés => grand manque d'attestations dans les corpus

3.1.1.3.1. Senellart (1996)

3.2. 2.2. Expressions figées

3.2.1. corpus équilibrés trop petits comme bases de dictionnaire monolingue.

3.2.1.1. Geyken et al. 2004

3.2.1.1.1. Etude sur la répartition et le nombre d’occurrences de certaines expressions figées dans un grand corpus, le DWDS-E

3.2.1.2. Hausser (1998 : 5)