Geyken Alexander, Article : « Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus »
par Aurore Delorme
1. Dictionnaires
1.1. entrées
1.2. pas de chiffres, dates, noms de marque et noms propres
1.3. mots composés
1.3.1. pas toujours comptabilisés
2. Mots simples et mots composés
2.1. lacunes
2.1.1. mots du langage enfantin
2.1.2. variantes régionales
2.1.3. domaines de connaissances particuliers
3. BERTRAND Fanny DELORME Aurore L3 SDL Linguistique sur Corpus
4. Corpus
4.1. tokens
4.1.1. = chaines de caractères entre deux blancs
4.1.2. mot-forme
4.1.2.1. = tokens analysables morphologiquement
4.1.3. lexèmes
4.1.3.1. = mot-forme qui diffèrent par la flexion
4.2. types
4.2.1. = tokens différents dans le corpus
4.2.2. comptage informatique
4.2.2.1. données non significatives
4.3. mots composés
4.3.1. tous pris en compte
4.3.2. mais pas attestés
4.3.2.1. manque de données
5. Occurences
5.1. si forte occurrence dans le corpus
5.1.1. présent dans dictionnaire
5.2. si faible occurrence dans le corpus
5.2.1. pas présent dans dictionnaire
6. Expressions figées
6.1. union des échantillons + somme occurrences
6.1.1. croissance d'apparition
6.2. procédure d'échantillonnage correcte
6.3. si corpus < 1M tokens
6.3.1. pas suffisant pour mener une étude