The DWDS corpus

Commencez. C'est gratuit
ou s'inscrire avec votre adresse courriel
Rocket clouds
The DWDS corpus par Mind Map: The DWDS corpus

1. 2 parties

1.1. Kerncorpus

1.1.1. le corpus principal (+/- 100 millions de mots)

1.1.1.1. équilibré

1.2. Erganzungscorpus

1.2.1. le corpus étendu (+/- 900 millions de mots)

1.2.1.1. opportuniste

2. 2 phases de projets

2.1. 1ere : phase de compilation de corpus

2.2. 2ème : travail lexicographique

3. 3 motivations principales

3.1. Offrir une représentation satisfaisante du lexique du 20ème siècle

3.2. Passer d'une catégorisation alphabétique à lexicale

3.3. Avoir une meilleure représentation de la langue allemande

4. Genre représentés

4.1. Journaux

4.1.1. Choix d'articles

4.1.2. Archives

4.1.3. + de 50 journaux différents

4.2. Texte littéraire

4.2.1. Prose

4.2.2. Vers...

4.3. Texte scientifique

4.3.1. 4 œuvres choisies

4.4. Transcription de la langue parlée

4.4.1. Radio

4.4.2. Télévision

4.4.3. Conversation...

4.5. Textes de non-fictions

4.5.1. Publicité

4.5.2. Guide

4.5.3. Livre de cuisine...

5. Création

5.1. At the Berlin-Brandenburg Academy of Sciences (BBAW)

5.2. Entre 2000 et 2003

6. Numérisation

6.1. Logiciel OCR

6.2. 41000 URL

6.3. 40 millions de tokens numérisés

6.4. Conversion à un format structuré

7. Droits d'auteurs

7.1. Problèmes car auteurs multiples

7.2. Accord avec Surhkamp (maison d'édition)

7.2.1. utilisation de textes de 22 auteurs

7.3. 2006 : autorisation de 15 maisons d'éditions

7.3.1. textes accessibles au public sur le web