The DWDS corpus
by Emma Mirmand
1. 2 parties
1.1. Kerncorpus
1.1.1. le corpus principal (+/- 100 millions de mots)
1.1.1.1. équilibré
1.2. Erganzungscorpus
1.2.1. le corpus étendu (+/- 900 millions de mots)
1.2.1.1. opportuniste
2. 2 phases de projets
2.1. 1ere : phase de compilation de corpus
2.2. 2ème : travail lexicographique
3. 3 motivations principales
3.1. Offrir une représentation satisfaisante du lexique du 20ème siècle
3.2. Passer d'une catégorisation alphabétique à lexicale
3.3. Avoir une meilleure représentation de la langue allemande
4. Genre représentés
4.1. Journaux
4.1.1. Choix d'articles
4.1.2. Archives
4.1.3. + de 50 journaux différents
4.2. Texte littéraire
4.2.1. Prose
4.2.2. Vers...
4.3. Texte scientifique
4.3.1. 4 œuvres choisies
4.4. Transcription de la langue parlée
4.4.1. Radio
4.4.2. Télévision
4.4.3. Conversation...
4.5. Textes de non-fictions
4.5.1. Publicité
4.5.2. Guide
4.5.3. Livre de cuisine...
5. Création
5.1. At the Berlin-Brandenburg Academy of Sciences (BBAW)
5.2. Entre 2000 et 2003
6. Numérisation
6.1. Logiciel OCR
6.2. 41000 URL
6.3. 40 millions de tokens numérisés
6.4. Conversion à un format structuré
7. Droits d'auteurs
7.1. Problèmes car auteurs multiples
7.2. Accord avec Surhkamp (maison d'édition)
7.2.1. utilisation de textes de 22 auteurs
7.3. 2006 : autorisation de 15 maisons d'éditions
7.3.1. textes accessibles au public sur le web