DWDS corpus

Plan your projects and define important tasks and actions

Get Started. It's Free
or sign up with your email address
Rocket clouds
DWDS corpus by Mind Map: DWDS corpus

1. Académie Berlin-Brandebourg (BBAW)

1.1. DWDS

1.1.1. Conception en 2 parties

1.1.2. Composition entre 2000 et 2003

1.1.3. Représentation langage XXème siècle

1.1.4. Base de données

1.2. LIMAS corpus

1.2.1. Corpus 1ère génération (1973)

1.2.2. Après Brown Corpus (1967)

1.2.3. 500 échantillons de textes

1.2.4. Corpus équilibré MAIS trop petit pour corpus de base

2. Core Corpus (corpus de base) = KERNCORPUS

2.1. 100 millions de mots

2.1.1. Classés par ordre chronologique

2.2. Équivalent allemand de la BNC

2.3. Corpus de référence langue allemande XXème siècle

2.4. Composition en 4 étapes

2.4.1. Sélection de textes

2.4.1.1. Plusieurs sous-corpus

2.4.1.1.1. Journaux 27%

2.4.1.1.2. Littératures (théâtre, poésie) 26%

2.4.1.1.3. Sciences 22%

2.4.1.1.4. Autres fictions 20%

2.4.1.1.5. Transcription langue parlée 5%

2.4.1.2. Continuellement étendu

2.4.2. Droits d'auteurs et copyright

2.4.2.1. Collaboration entre auteurs et détenteurs copytight

2.4.2.2. Beaucoup de textes encore sous copyright

2.4.3. Numérisation

2.4.3.1. 2 possibilités

2.4.3.1.1. Reconnaissance optique de caractères (OCR)

2.4.3.1.2. Transcription manuelle

2.4.4. Échantillonnage

2.5. Annotations

2.5.1. structurelles

2.5.2. linguistiques

3. "Opportunistic corpus" (corpus étendu)

3.1. Ergänzungscorpus (Geyken et Klein 2004)

3.2. 900 millions de mots

3.3. Principales sources : Presse des 15 dernières années

4. Quels buts?

4.1. Représenter langue allemande du XXème siècle

4.2. Classement autre qu'alphabétique et entrées individuelles

5. JOANNY Anaïs - L3 sdl