Corpus DWDS
par Nina Sassi
1. Kern Corpus
1.1. 1er corpus de référence (langue allemande)
1.2. Journalisme
1.3. Texte littéraire
1.4. Littérature scientifique
1.5. Autre (culinaire)
1.6. Transcriptions langue parlée
1.7. Version électronique des journaux
2. 4 étapes
2.1. Sélection texte
2.2. Droit d'auteur
2.2.1. Comité de personnalités publiques
2.2.2. accessible public
2.2.3. mot de passe
2.2.4. anonymat
2.3. Numérisation + Annotation
2.3.1. optical character recognition = ORC
2.3.2. Transcription manuelle
2.3.3. infos codées (titres, chapitres)
2.3.4. TAGH : système analyse morphème
2.4. Echantillonnage
3. ALBERT Myriam, SASSI Nina
4. Académie des sciences Berlin Brandenburg 2000/2003
4.1. Corpus principal
4.1.1. lemmatisés + catégories grammaticales