Corpus DWDS

Commencez. C'est gratuit
ou s'inscrire avec votre adresse courriel
Rocket clouds
Corpus DWDS par Mind Map: Corpus DWDS

1. 2. Nécessité d'un nouveau corpus

1.1. Aucun corpus de taille satisfaisante

1.2. 2 milliards de graphies contre 1 million dans l'ancien

1.3. Plus de sources différentes (mais trop récentes)

2. 3. Exigences de la conception d'un nouveau corpus

2.1. Base empirique pour les programmes PNL

2.2. Référence pour la conception de dictionnaire

2.3. Etude d'histoire de la langue

2.4. Acquisition du langage

2.5. Un corpus ne peut pas répondre à chaque exigence

3. 4. La conception du corpus DWDS

3.1. Le Kernkorpus

3.1.1. 1 millions de graphies

3.1.2. 5 types de textes différents

3.1.2.1. journaux

3.1.2.2. Textes littéraires

3.1.2.3. Littérature scientifique

3.1.2.4. non-fictions

3.1.2.5. Transcriptions de langue parlée

3.2. Corpus plus vaste

3.2.1. compilation de version numérique de journaux quotidiens et hebdomadaires

3.2.2. Corpus dit opportuniste

3.2.3. 9 millions de graphies

4. 5. La sélection de textes du Kernkorpus

4.1. Théâtre en prose

4.1.1. 3 oeuvres majeures du 20ème siècle

4.2. Articles de presse sur tout le 20ème siècle

4.3. Articles de l'Académie des sciences

4.3.1. Toutes disciplines confondues

4.4. Autres non-fictions

4.4.1. Livre de cuisine

4.4.2. Guide de réparation de voiture

4.4.3. Textes de loi

5. 6. Problèmes de droits d'auteur

5.1. Convaincre auteurs et maisons d'éditions de collaborer au projet

5.2. Procédure stricte

5.2.1. Utiliser échantillons et pas le texte intégral

5.2.2. Protection par mot de passe des textes protégés

5.2.3. Anonymat pour les auteurs des textes

6. 7. Numérisation

6.1. Reconnaissance Optique de Caractères

6.1.1. Economique en temps

6.1.2. Pas assez efficace, taux d'erreur trop élevé

6.1.3. 100 erreurs pour 10 000 caractères

6.2. Retranscription manuelle

6.2.1. Plus coûteuse

6.2.2. Moins d'erreurs surtout en cas de double surveillance

6.2.3. 5 erreurs pour 10 000 caractères

7. 8. Annotations structurelles

7.1. Suit la méthode TEI (text encoding initiative)

7.2. Structure le texte en 12 niveaux de division

7.3. Respect du changement de police

8. 9. étiquetage

8.1. Utilisation du TAGH

8.1.1. Permet une bonne segmentation des mots

8.1.2. Exclut efficacement les mauvaises analyses

8.2. Pas toujours efficace

8.2.1. Mots non répertoriés

8.2.2. Abréviations non-conventionnelles

8.2.3. Fautes de frappe

9. 10. Echantillonnage

9.1. Base de textes équitablement répartis sur tous le 20ème siècle

9.1.1. Proportions dans les différents genres

9.1.2. Baisse significative du nombre de textes pendant la guerre

9.2. Textes restant à numériser

9.2.1. Romans du 20ème siècle qui ne seront pas édités en version numérique

10. 11. Interrogations

10.1. Tout le monde peut avoir accès aux anciennes versions du DWDS

10.1.1. Possibilité de recherche par dates

10.1.2. Extraction des métadonnées

10.2. L'accès aux textes dans leur intégralité impossible

10.2.1. Protection des droits d'auteurs

10.2.2. Fins non commerciale du DWDS

11. 12. Poursuite des travaux

11.1. Annotations des textes en surface (permet recherche par morceaux)

11.2. Utiliser ce corpus à des fins psychologiques et psycholinguistiques

11.3. Comparer ce corpus à d'autres nouvellement créés