1. Académie Berlin-Brandebourg (BBAW)
1.1. DWDS
1.1.1. Conception en 2 parties
1.1.2. Composition entre 2000 et 2003
1.1.3. Représentation langage XXème siècle
1.1.4. Base de données
1.2. LIMAS corpus
1.2.1. Corpus 1ère génération (1973)
1.2.2. Après Brown Corpus (1967)
1.2.3. 500 échantillons de textes
1.2.4. Corpus équilibré MAIS trop petit pour corpus de base
2. Core Corpus (corpus de base) = KERNCORPUS
2.1. 100 millions de mots
2.1.1. Classés par ordre chronologique
2.2. Équivalent allemand de la BNC
2.3. Corpus de référence langue allemande XXème siècle
2.4. Composition en 4 étapes
2.4.1. Sélection de textes
2.4.1.1. Plusieurs sous-corpus
2.4.1.1.1. Journaux 27%
2.4.1.1.2. Littératures (théâtre, poésie) 26%
2.4.1.1.3. Sciences 22%
2.4.1.1.4. Autres fictions 20%
2.4.1.1.5. Transcription langue parlée 5%
2.4.1.2. Continuellement étendu
2.4.2. Droits d'auteurs et copyright
2.4.2.1. Collaboration entre auteurs et détenteurs copytight
2.4.2.2. Beaucoup de textes encore sous copyright
2.4.3. Numérisation
2.4.3.1. 2 possibilités
2.4.3.1.1. Reconnaissance optique de caractères (OCR)
2.4.3.1.2. Transcription manuelle
2.4.4. Échantillonnage
2.5. Annotations
2.5.1. structurelles
2.5.2. linguistiques