DWDS Corpus

Get Started. It's Free
or sign up with your email address
Rocket clouds
DWDS Corpus by Mind Map: DWDS Corpus

1. Opportunistic, supplementary corpus

1.1. "Erganzungscorpus"

1.2. Corpus étendu

1.3. + de 9 Millions de textes

2. Core Corpus

2.1. Compilation du DWDS Kerncorpus

2.1.1. Numérisation

2.1.2. Problèmes de transcription

2.1.2.1. Comité

2.1.2.1.1. Relation avec maisons d'éditions

2.1.2.2. Pas de textes entiers

2.1.2.3. Protection avec mot de passe

2.1.2.4. Anonymer

2.1.3. Sélection de texte

2.1.3.1. Corpus équilibré

2.1.3.1.1. journalisme 27%

2.1.3.1.2. textes littéraires

2.1.3.1.3. littérature scientifique 22%

2.1.3.1.4. transcription discours oral

2.1.3.1.5. ouvrages généraux 20%

2.1.4. Annotations structurelles

2.1.5. Annotations linguistiques

2.1.6. Echantillonage

3. Academie des sciences de Berlin-Brandenbourg BBAW Geyken

3.1. Project DWDS

3.1.1. Motivation du projet

3.1.1.1. Représentation des lexèmes 20th

3.1.1.1.1. développement langage courant

3.1.1.1.2. Vocabulaire Republic Weimar

3.1.1.1.3. Vocabulaire 3ème Reich

3.1.1.2. Nouvelle organisation

3.1.1.2.1. catégorie lexicales

3.1.1.2.2. Construction syntaxique

3.1.1.2.3. Champ lexical

3.1.1.3. Créer une grande base de donnée

3.1.1.3.1. Diminuer main d'oeuvre

3.1.1.3.2. Filtrer les mots intéressants et leur sens

3.1.2. 2 phases

3.1.2.1. Corpus complation

3.1.2.2. lexicographic work itself

3.1.3. Entre 2000 et 2003

3.2. 1999

3.3. LIMAS Corpus 1973

3.4. IDS Mannheim

4. Interrogations

4.1. Pourquoi période de 1900 et 2000

4.1.1. Arbitraire

4.2. Pourquoi 5 genres

4.2.1. plus facile

5. Fanny BERTRAND L3 Linguistique sur Corpus

6. Spécialistes selon les genres Gens connu hors de la sphère universitaire chinois

6.1. cround sorcing Collaborat

7. Mettre a disposition les données a tout types de personne

7.1. Apprenants de la langue

8. Importance TEI

8.1. Tout le texte chaque mot a une étiquette travail des linguistes

9. Il faut que tous les textes soient dans le même format XML

10. ROC

10.1. problème de graphies

10.2. taux d'erreur 1% 100 mots incorecte tous les 10 000

10.2.1. trop long trop compliqué

10.2.1.1. solution : manuellement par des personnes sur inetrent avec l'image du texte tapé dans le traitement de tetxe taux d'erreur de frappe inférieur à 1%