The DWDS corpus
저자: Emma Mirmand

1. 2 phases de projets
1.1. 1ere : phase de compilation de corpus
1.2. 2ème : travail lexicographique
2. Numérisation
2.1. Logiciel OCR
2.2. 41000 URL
2.3. 40 millions de tokens numérisés
2.4. Conversion à un format structuré
3. Droits d'auteurs
3.1. Problèmes car auteurs multiples
3.2. Accord avec Surhkamp (maison d'édition)
3.2.1. utilisation de textes de 22 auteurs
3.3. 2006 : autorisation de 15 maisons d'éditions
3.3.1. textes accessibles au public sur le web
4. 2 parties
4.1. Kerncorpus
4.1.1. le corpus principal (+/- 100 millions de mots)
4.1.1.1. équilibré
4.2. Erganzungscorpus
4.2.1. le corpus étendu (+/- 900 millions de mots)
4.2.1.1. opportuniste
5. 3 motivations principales
5.1. Offrir une représentation satisfaisante du lexique du 20ème siècle
5.2. Passer d'une catégorisation alphabétique à lexicale
5.3. Avoir une meilleure représentation de la langue allemande
6. Genre représentés
6.1. Journaux
6.1.1. Choix d'articles
6.1.2. Archives
6.1.3. + de 50 journaux différents
6.2. Texte littéraire
6.2.1. Prose
6.2.2. Vers...
6.3. Texte scientifique
6.3.1. 4 œuvres choisies
6.4. Transcription de la langue parlée
6.4.1. Radio
6.4.2. Télévision
6.4.3. Conversation...
6.5. Textes de non-fictions
6.5.1. Publicité
6.5.2. Guide
6.5.3. Livre de cuisine...