The DWDS corpus

Commencez. C'est gratuit
ou s'inscrire avec votre adresse courriel
Rocket clouds
The DWDS corpus par Mind Map: The DWDS corpus

1. Fournir un équilibre

2. Rigolet Hélène, L3 SDL

3. Académie des Sciences de Berlin-Brandebourg

3.1. De 2000 à 2003

3.1.1. Compilation de corpus

3.1.2. Travaux lexicologiques

3.2. Corpus actuel

3.2.1. Corpus de base

3.2.2. Corpus étendu

3.2.2.1. Opportuniste

3.2.2.1.1. opportunité de récupérer des textes

3.2.2.2. Presse, quotidien

3.3. Participants

3.3.1. Plus d'une centaine

3.3.2. Des chinois ont travaillé dessus

3.3.2.1. Crowd Sourcing

4. Motivations, but, spécification

4.1. Dictionnaires rendant compte les usages de la langues allemande

4.1.1. Représente le lexique du 20ème siècle

4.2. Classement

4.2.1. Catégories lexicales

4.2.1.1. Par décades / diachroniques

4.3. Par sélection manuelle

4.3.1. Plus équilibré

4.4. Besoins

4.4.1. Pour les apprenants de la langue

4.5. Accès libre et gratuit

5. Etapes

5.1. Sélection des textes

5.1.1. Sous-corpus (voir section 5)

5.2. Droits d'auteurs

5.2.1. Comité de personnalités publiques

5.2.2. Anonymat

5.3. Numérisation

5.3.1. Reconnaissance optique des caractères (ORC)

5.3.2. Transcription manuelle

5.3.3. Titres, chapitres

5.3.3.1. Annotés en TEI

5.3.4. TAGH = système d'analyse des morphèmes

5.3.5. Graphies étiquettées

5.4. Equilibre

5.4.1. Calculé tous les 10 ans

6. Détail section 5

6.1. Procédure sélection sous-corpus

6.1.1. Prose, vers, théâtre 26%

6.1.1.1. 3 œuvres en prose

6.1.1.2. 2 œuvres littéraires

6.1.1.3. Fiction de la lumière

6.1.2. Journaux 27%

6.1.2.1. Rapports

6.1.2.2. Articles de périodiques

6.1.2.2.1. Échantillons rapports sur évènements spécifiques

6.1.3. Sciences 22%

6.1.3.1. 100 membres de l'Académie des Sciences

6.1.3.1.1. Représentent toutes les disciplines et domaines de connaissances majeures

6.1.4. Autres fictions 20%

6.1.4.1. Manuels réparation voitures

6.1.4.2. Livres cuisines

6.1.4.3. Textes de Loi

6.1.5. Transcriptions de la langue parlée

6.1.5.1. Avant

6.1.5.1.1. Conversations quotidiennes

6.1.5.1.2. Interview de télé, radio

6.1.5.1.3. Enregistrements discours dialectal

6.1.5.2. Aujourd'hui

6.1.5.2.1. Discours non spontanés

6.1.5.2.2. Avant 1945

6.1.5.2.3. Après 1945

6.1.6. Textes Autriche - Suisse

7. 1er corpus de référence pour la langue allemande

8. Équilibré ; grand

9. Lemmatisé

10. Utilisé comme source de travail

10.1. Linguistes

10.2. Historiens

10.3. Universitaires

10.4. Traducteurs

11. Alexander Geiken

12. Ce qui manque au corpus

12.1. Ce qui vient d'internet