The DWDS corpus

Get Started. It's Free
or sign up with your email address
Rocket clouds
The DWDS corpus by Mind Map: The DWDS corpus

1. CATELLA Laurine - L3 SDL

2. Académie des Sciences de Berlin-Brandebourg

2.1. Alexander GEYKEN

2.2. Crée et développé entre 2000 et 2003

2.2.1. Compilation de corpus

2.2.2. Travaux lexicographiques

2.3. 2010

2.3.1. Plus de 2 milliards de types

3. Pourquoi ce corpus?

3.1. Servir de la base empirique d'un grand dictionnaire monolingue du 20ème et 21ème siècle

3.2. Aucun dictionnaire de la langue allemande offre une représentation satisfaisante du lexique du 20e siècle

3.3. Dictionnaires traditionnels compilés dans un ordre alphabétique

3.3.1. problèmes pour les mots appartenant à un seul et même champ lexical

3.4. Avant celui-ci aucun corpus satisfaisant

3.4.1. pas de corpus équilibré

3.4.2. besoin d'un corpus classé par diachronique

3.5. Pour les apprenants

3.5.1. méthode d'introspection

3.5.2. rendre compte de l'usage

4. Conditions spécifiques

4.1. Accès libre et gratuit

4.2. Devait être représentatif de la langue

4.2.1. concept problématique

4.3. Etre équilibré par rapport aux types de texte

4.4. Critère de taille

4.4.1. doit être assez grand

4.5. Doit contenir une quantité considérable de la littérature influente et importante

4.6. Tous les textes doivent être dans le même format (TEI) et être annotés

5. 5 genres représentés

5.1. Journalisme (env. 27% du corpus)

5.2. Des textes littéraires (env. 26%)

5.3. La littérature scientifique (env. 22%)

5.4. Littérature autre que la fiction (env. 20%)

5.4.1. Ex: livre de cuisine; guide de voyage; manuel d'utilisation; etc...

5.5. Transcriptions de la langue parlée (env. 5%)

6. Problèmes avec les droits d'auteurs (section 6)

6.1. tâche importante du projet

6.1.1. convaincre les auteurs et les détenteurs de droits d'auteurs

6.1.2. obtenir l'autorisation pour le travail lexicographique

6.1.3. être accessible au public en tant que ressource

6.2. Compromis trouvé

6.2.1. échantillons

6.2.2. pas de textes entiers

6.2.3. protection par mot de passe pour texte avec copyright

6.2.4. usage des textes non commercial

6.2.5. anonymat des entités nommées

6.3. Accord conclu

6.3.1. Suhrkamp

6.3.1.1. maison d'édition connue

6.3.1.2. politque restrictive pour diffuser des textes librement

6.3.1.3. permission d'utiliser les textes de 22 auteurs

6.3.2. 15 maisons d'édition

6.3.2.1. 71% des textes du corpus

6.3.3. 29% disponibles uniquement pour un usage interne

7. 2 corpus de la langue Allemande

7.1. Kern Corpus

7.1.1. corpus de base

7.1.1.1. corpus équilibré

7.2. DWDS E "Erganzungscorpus"

7.2.1. corpus étendu

7.2.1.1. corpus opportuniste

7.2.1.2. non équilibré