Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus - Alexander GE...

Get Started. It's Free
or sign up with your email address
Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus - Alexander GEYKEN by Mind Map: Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus - Alexander GEYKEN

1. Corpus et dictionnaires: comparaison quantitative

1.1. DICTIONNAIRES

1.1.1. Taille

1.1.1.1. Nombre d'entrées annoncées

1.2. CORPUS

1.2.1. Taille

1.2.1.1. TOKENS

1.2.1.1.1. Chaînes de caractères entre 2 blancs

1.2.1.2. TYPES

1.2.1.2.1. Tokens différents dans corpus

1.2.1.3. MOTS-FORMES

1.2.1.3.1. Tokens analysables morphologiquement

1.2.1.4. LEXEMES

1.2.1.4.1. Mots-formes se distinguant par leur flexion

1.2.2. Lacunes orthographiques

1.2.2.1. Composés transparents

1.2.2.2. Rareté des occurences

1.2.2.3. Diversité de langues

1.3. Comparaison quantitative

1.3.1. Corpus (nb types)

1.3.1.1. DWDS (all)

1.3.1.1.1. 4,2 millions

1.3.1.2. DWDS-E (all)

1.3.1.2.1. 9 millions

1.3.2. Dictionnaires (nb entrées)

1.3.2.1. DWB

1.3.2.1.1. 297000

1.3.2.2. OED

1.3.2.2.1. 50000

2. Corpus équilibré

2.1. MOTS SIMPLES OU COMPLEXES

2.1.1. Webster plus riche que BNC

2.1.2. WDG plus riche que DWDS

2.1.2.1. Lexèmes non représentés dans DWDS

2.1.3. Acceptions dans dictionnaires

2.1.3.1. Mots fréquents

2.1.3.2. Mots composés (encore moins représentés)

2.2. EXPRESSIONS FIGEES

2.2.1. Expérience dans DWDS-E

2.2.1.1. 46 expressions idiomatiques

2.2.1.2. 100 échantillons de 10 millions de Tokens

2.2.2. Croissance du nombre d'occurences

2.2.2.1. On peut déduire la taille minimale pour un corpus

2.2.3. Corpus équilibrés sont trop petits

2.2.3.1. Ne sont pas utilisés comme base

3. JOANNY Anaïs - L3