The DWDS corpus

Get Started. It's Free
or sign up with your email address
Rocket clouds
The DWDS corpus by Mind Map: The DWDS corpus

1. Le corpus

1.1. L'auteur

1.1.1. Académie de Berlin-Brandebourg des sciences (BBAW)

1.2. La date

1.2.1. Entre 2000 et 2003

1.2.1.1. 2 corpus : le Kern Corpus & Ergänzungscorpus

1.3. Le contenu du corpus

1.3.1. 1 milliard de mots de texte courant dans un ordre chronologique et par genre de texte

1.3.2. Le noyau corpus : en langue allemande

1.3.3. La source: les journaux essentiellement

1.3.4. 2 types de corpus

1.3.4.1. 1. Le corpus de base

1.3.4.2. 2. Le corpus étendu

2. Les besoins & les buts visés

2.1. 3 motivations principales autour du projet

2.1.1. 1. Pas de représentation satisfaisante du lexique

2.1.2. 2. Ordre des mots plus en alphabétique mais par des catégories (lexicale, syntaxique, ...)

2.1.3. 3. Pas de corpus équilibré en allemand

2.2. Répondre aux besoins & aux motivations concernant le projet

2.2.1. Représenter la langue

2.2.2. Une base d'acquisition en allemand

2.3. Les spécifications

2.3.1. Nouvelle source: la littérature

2.3.2. Plus d'écrits et un meilleur contenu

3. "La sélection du texte" - Section 5 de l'article

3.1. A) Prose, vers & drame

3.1.1. 26 % du DWDS Kerncorpus

3.1.2. Entre 1900 et 1999

3.1.2.1. 2 livres littéraires classiques

3.1.2.2. 1 fiction

3.1.3. Oeuvres variées: poésie, théâtre, littérature

3.2. B) Les journaux

3.2.1. 27 % du DWDS Kerncorpus

3.2.2. Sélection parmi plus de 50 journaux et magazines nationaux et régionaux différents

3.2.3. Dates importantes

3.2.3.1. 1900-1933

3.2.3.1.1. échantillons pris à intervalle régulier

3.2.3.2. 1933-1945

3.2.3.2.1. Völkische Beobachter

3.2.3.3. 1945-2000

3.2.3.3.1. échantillons en provenance de Berlin

3.3. C) La science

3.3.1. 22 % du DWDS Kerncorpus

3.3.2. 100 membres de l'Académie des Sciences

3.3.2.1. 4 textes importants de leur discipline

3.3.3. Résultat

3.3.3.1. Base du corpus

3.3.3.2. en anglais

3.4. D) Autre fiction

3.4.1. 20 % du DWDS Kerncorpus

3.4.2. Sous-corpus = autres livres de la vie courante (cuisine, voyage, guide, ...)

3.4.3. Sous-corpus de la prose journalistique =l'attention a été accordée à équilibrer textes de l'Allemagne de l'Ouest avec des œuvres correspondant en Allemagne de l'Est.

3.5. E) Transcription de la langue parlée

3.5.1. Aucun discours de plus de 40 à 50 ans est disponible

3.5.2. Contraintes temporelle et budgétaire

3.5.2.1. Recueille des transcriptions de non-spontanée discours.

4. Corpus continuellement étendu. Problème pour son extension = la tâche administrative de négociation des droits d'auteur

5. But = équilibre

6. CHOUAGHI Sarah SDL L3- Groupe 2