1. Corpus et dictionnaires: comparaison quantitative
1.1. DICTIONNAIRES
1.1.1. Taille
1.1.1.1. Nombre d'entrées annoncées
1.2. CORPUS
1.2.1. Taille
1.2.1.1. TOKENS
1.2.1.1.1. Chaînes de caractères entre 2 blancs
1.2.1.2. TYPES
1.2.1.2.1. Tokens différents dans corpus
1.2.1.3. MOTS-FORMES
1.2.1.3.1. Tokens analysables morphologiquement
1.2.1.4. LEXEMES
1.2.1.4.1. Mots-formes se distinguant par leur flexion
1.2.2. Lacunes orthographiques
1.2.2.1. Composés transparents
1.2.2.2. Rareté des occurences
1.2.2.3. Diversité de langues
1.3. Comparaison quantitative
1.3.1. Corpus (nb types)
1.3.1.1. DWDS (all)
1.3.1.1.1. 4,2 millions
1.3.1.2. DWDS-E (all)
1.3.1.2.1. 9 millions
1.3.2. Dictionnaires (nb entrées)
1.3.2.1. DWB
1.3.2.1.1. 297000
1.3.2.2. OED
1.3.2.2.1. 50000
2. Corpus équilibré
2.1. MOTS SIMPLES OU COMPLEXES
2.1.1. Webster plus riche que BNC
2.1.2. WDG plus riche que DWDS
2.1.2.1. Lexèmes non représentés dans DWDS
2.1.3. Acceptions dans dictionnaires
2.1.3.1. Mots fréquents
2.1.3.2. Mots composés (encore moins représentés)
2.2. EXPRESSIONS FIGEES
2.2.1. Expérience dans DWDS-E
2.2.1.1. 46 expressions idiomatiques
2.2.1.2. 100 échantillons de 10 millions de Tokens
2.2.2. Croissance du nombre d'occurences
2.2.2.1. On peut déduire la taille minimale pour un corpus
2.2.3. Corpus équilibrés sont trop petits
2.2.3.1. Ne sont pas utilisés comme base