1. Définitions
1.1. Corpus
1.1.1. Collection de données langagières pour servir d'échantillon d'emploi d'une langue
1.2. Token
1.2.1. Nombre de caractères entre deux blancs, mot-formes qui s'analysent morphologiquement
1.3. Léxème
1.3.1. Mort forme qui se distingue par la flexion
1.4. Type
1.4.1. Nombre de tokens différents
2. Taille
2.1. A partir des "tokens"
2.1.1. Corpus trop petits pour un dictionnaire monolingue
2.1.1.1. Brown corpus (ang)
2.1.1.1.1. 1 million de token
2.1.1.2. Limas corpus (all)
2.1.1.2.1. 1 million de token
2.2. A partir des "types"
2.2.1. Les corpus dépassent les dictionnaires
2.2.1.1. BNC depasse l'OED
2.2.1.2. Le DWDS dépasse le DWB
2.2.2. Problème du nombre d'occurrence
2.2.2.1. Les dictionnaires ne considèrent pas les formes avec un faible nb d'occurrence
2.2.2.1.1. Expérience : un mot doit être attestés 10x dans un corpus ( plus que la normale )
2.2.2.2. Le nb de type du corpus DWDS-E est toujours 3x plus que le dictionnaire DWB
3. Corpus équilibrés
3.1. Certains mots dans les dictionnaire ne sont pas attestés dans les corpus équilibrés
3.1.1. Ex : les mots composés
3.1.2. Ex : les expressions figées