"Problèmes observés dans l'élaboration de dictionnaires à partir de Corpus" A. GEIKEN

Just an initial demo map, so that you don't start with an empty map list ...

Get Started. It's Free
or sign up with your email address
"Problèmes observés dans l'élaboration de dictionnaires à partir de Corpus" A. GEIKEN by Mind Map: "Problèmes observés dans l'élaboration de dictionnaires à partir de Corpus" A. GEIKEN

1. Corpus équilibrés

1.1. Mots simples ou composés

1.1.1. Certaines acceptations dans dictionnaire non attestées dans corpus (même pour mots fréquents)

1.1.1.1. ex : DOPE (ang) non présent dans le NODE

1.1.2. Certaines entrées non représentées dans corpus

1.1.2.1. Ni mot-forme, ni lexème

1.1.2.2. Webster VS BNC

1.2. Expressions figées

1.2.1. Exemple du DWDS-E

1.2.1.1. Calcul répartition et nombre d'occurences

1.2.1.1.1. But > déterminer taille minimal d'un corpus

1.2.1.2. 46 expressions idiomatiques verbales (all)

1.2.1.3. Calcul croissance courbe d'apparition

1.2.1.4. presque 1 expression sur 2 n'apparaît pas (ou hapax)

1.3. Conclusion : taille insuffisante pour contenir tous les mots décrits dans dictionnaires monolingues

2. Eva BALDACHINO L3 SDL

3. Corpus > échantillon représentatif de l'usage effectif d'une langue

3.1. Pouvoir établir généralisions sur son fonctionement

4. Corpus et dictionnaires monolingues : comparaison quantitative

4.1. Taille dictionnaire

4.1.1. Nombre d'entrées annoncées

4.2. Taille corpus

4.2.1. Nombre de Tokens

4.2.1.1. = chaîne de caractères entre 2 blancs (graphies)

4.2.2. Nombre de Types

4.2.2.1. = nombre de tokens différents (formes)

4.2.3. Comptage informatique

4.3. "Mots-formes"

4.3.1. = Tokens analysables morphologiquement (comparaison dictionnaires/corpus)

4.3.2. Les lexèmes se distinguent par leur flexion

4.4. Pauvreté des corpus au niveau lexicographique ?

4.4.1. Entre 2 et 9 millions de types

4.4.2. Mots composés transaparents

4.4.3. Problème rareté occurences

4.5. Corpus trop petits incompatible avec dictionnaires monolingues

4.5.1. Lima Corpus (all) 110 000 types

4.5.1.1. Brown Corpus (ang) 50 000 types

4.6. Corpus qui dépasse dictionnaire : exemple du BNC

4.6.1. Corpus équilibré et représentatif

4.6.2. 650 000 types

4.6.3. dépasse l'OED

4.6.4. 7x plu important que le plus grand dictionnaire allemand (entrées)