1. 6. Problèmes de droits d'auteur
1.1. Convaincre auteurs et maisons d'éditions de collaborer au projet
1.2. Procédure stricte
1.2.1. Utiliser échantillons et pas le texte intégral
1.2.2. Protection par mot de passe des textes protégés
1.2.3. Anonymat pour les auteurs des textes
2. 7. Numérisation
2.1. Reconnaissance Optique de Caractères
2.1.1. Economique en temps
2.1.2. Pas assez efficace, taux d'erreur trop élevé
2.1.3. 100 erreurs pour 10 000 caractères
2.2. Retranscription manuelle
2.2.1. Plus coûteuse
2.2.2. Moins d'erreurs surtout en cas de double surveillance
2.2.3. 5 erreurs pour 10 000 caractères
3. 8. Annotations structurelles
3.1. Suit la méthode TEI (text encoding initiative)
3.2. Structure le texte en 12 niveaux de division
3.3. Respect du changement de police
4. 9. étiquetage
4.1. Utilisation du TAGH
4.1.1. Permet une bonne segmentation des mots
4.1.2. Exclut efficacement les mauvaises analyses
4.2. Pas toujours efficace
4.2.1. Mots non répertoriés
4.2.2. Abréviations non-conventionnelles
4.2.3. Fautes de frappe
5. 10. Echantillonnage
5.1. Base de textes équitablement répartis sur tous le 20ème siècle
5.1.1. Proportions dans les différents genres
5.1.2. Baisse significative du nombre de textes pendant la guerre
5.2. Textes restant à numériser
5.2.1. Romans du 20ème siècle qui ne seront pas édités en version numérique
6. 11. Interrogations
6.1. Tout le monde peut avoir accès aux anciennes versions du DWDS
6.1.1. Possibilité de recherche par dates
6.1.2. Extraction des métadonnées
6.2. L'accès aux textes dans leur intégralité impossible
6.2.1. Protection des droits d'auteurs
6.2.2. Fins non commerciale du DWDS
7. 2. Nécessité d'un nouveau corpus
7.1. Aucun corpus de taille satisfaisante
7.2. 2 milliards de graphies contre 1 million dans l'ancien
7.3. Plus de sources différentes (mais trop récentes)
8. 3. Exigences de la conception d'un nouveau corpus
8.1. Base empirique pour les programmes PNL
8.2. Référence pour la conception de dictionnaire
8.3. Etude d'histoire de la langue
8.4. Acquisition du langage
8.5. Un corpus ne peut pas répondre à chaque exigence
9. 4. La conception du corpus DWDS
9.1. Le Kernkorpus
9.1.1. 1 millions de graphies
9.1.2. 5 types de textes différents
9.1.2.1. journaux
9.1.2.2. Textes littéraires
9.1.2.3. Littérature scientifique
9.1.2.4. non-fictions
9.1.2.5. Transcriptions de langue parlée
9.2. Corpus plus vaste
9.2.1. compilation de version numérique de journaux quotidiens et hebdomadaires
9.2.2. Corpus dit opportuniste
9.2.3. 9 millions de graphies
10. 5. La sélection de textes du Kernkorpus
10.1. Théâtre en prose
10.1.1. 3 oeuvres majeures du 20ème siècle
10.2. Articles de presse sur tout le 20ème siècle
10.3. Articles de l'Académie des sciences
10.3.1. Toutes disciplines confondues
10.4. Autres non-fictions
10.4.1. Livre de cuisine
10.4.2. Guide de réparation de voiture
10.4.3. Textes de loi