Corpus DWDS

Get Started. It's Free
or sign up with your email address
Corpus DWDS by Mind Map: Corpus DWDS

1. 6. Problèmes de droits d'auteur

1.1. Convaincre auteurs et maisons d'éditions de collaborer au projet

1.2. Procédure stricte

1.2.1. Utiliser échantillons et pas le texte intégral

1.2.2. Protection par mot de passe des textes protégés

1.2.3. Anonymat pour les auteurs des textes

2. 7. Numérisation

2.1. Reconnaissance Optique de Caractères

2.1.1. Economique en temps

2.1.2. Pas assez efficace, taux d'erreur trop élevé

2.1.3. 100 erreurs pour 10 000 caractères

2.2. Retranscription manuelle

2.2.1. Plus coûteuse

2.2.2. Moins d'erreurs surtout en cas de double surveillance

2.2.3. 5 erreurs pour 10 000 caractères

3. 8. Annotations structurelles

3.1. Suit la méthode TEI (text encoding initiative)

3.2. Structure le texte en 12 niveaux de division

3.3. Respect du changement de police

4. 9. étiquetage

4.1. Utilisation du TAGH

4.1.1. Permet une bonne segmentation des mots

4.1.2. Exclut efficacement les mauvaises analyses

4.2. Pas toujours efficace

4.2.1. Mots non répertoriés

4.2.2. Abréviations non-conventionnelles

4.2.3. Fautes de frappe

5. 10. Echantillonnage

5.1. Base de textes équitablement répartis sur tous le 20ème siècle

5.1.1. Proportions dans les différents genres

5.1.2. Baisse significative du nombre de textes pendant la guerre

5.2. Textes restant à numériser

5.2.1. Romans du 20ème siècle qui ne seront pas édités en version numérique

6. 11. Interrogations

6.1. Tout le monde peut avoir accès aux anciennes versions du DWDS

6.1.1. Possibilité de recherche par dates

6.1.2. Extraction des métadonnées

6.2. L'accès aux textes dans leur intégralité impossible

6.2.1. Protection des droits d'auteurs

6.2.2. Fins non commerciale du DWDS

7. 2. Nécessité d'un nouveau corpus

7.1. Aucun corpus de taille satisfaisante

7.2. 2 milliards de graphies contre 1 million dans l'ancien

7.3. Plus de sources différentes (mais trop récentes)

8. 3. Exigences de la conception d'un nouveau corpus

8.1. Base empirique pour les programmes PNL

8.2. Référence pour la conception de dictionnaire

8.3. Etude d'histoire de la langue

8.4. Acquisition du langage

8.5. Un corpus ne peut pas répondre à chaque exigence

9. 4. La conception du corpus DWDS

9.1. Le Kernkorpus

9.1.1. 1 millions de graphies

9.1.2. 5 types de textes différents

9.1.2.1. journaux

9.1.2.2. Textes littéraires

9.1.2.3. Littérature scientifique

9.1.2.4. non-fictions

9.1.2.5. Transcriptions de langue parlée

9.2. Corpus plus vaste

9.2.1. compilation de version numérique de journaux quotidiens et hebdomadaires

9.2.2. Corpus dit opportuniste

9.2.3. 9 millions de graphies

10. 5. La sélection de textes du Kernkorpus

10.1. Théâtre en prose

10.1.1. 3 oeuvres majeures du 20ème siècle

10.2. Articles de presse sur tout le 20ème siècle

10.3. Articles de l'Académie des sciences

10.3.1. Toutes disciplines confondues

10.4. Autres non-fictions

10.4.1. Livre de cuisine

10.4.2. Guide de réparation de voiture

10.4.3. Textes de loi

11. 12. Poursuite des travaux

11.1. Annotations des textes en surface (permet recherche par morceaux)

11.2. Utiliser ce corpus à des fins psychologiques et psycholinguistiques

11.3. Comparer ce corpus à d'autres nouvellement créés