Le corpus DWDS

Get Started. It's Free
or sign up with your email address
Le corpus DWDS by Mind Map: Le corpus DWDS

1. Construction

1.1. à Berlin-Brandenburg

1.2. Par l'académie des sciences

1.3. Entre 2000 et 2003

2. Composition

2.1. Deux parties

2.1.1. Un corpus principal : équilibré (Kerncorpus)

2.1.1.1. 100 millions de signes

2.1.1.1.1. Mot fréquent : équivalent au BNC

2.1.2. Un corpus étendu : opportuniste (Ergänzungscorpus)

2.1.2.1. 900 millions de signes

2.1.2.1.1. Essentiellement source de presse

3. Les motivations

3.1. Offrir une représentation satisfaisante du lexique du 20e siècle / Etudier les dev. récents

3.2. Ordonner par catégorie lexicales et construction syntaxique

3.3. Filtrer des mots et des sens de mots intéressant

3.3.1. Meilleure cohérence

3.3.2. Exemple pertinent

3.3.3. Fréquence d'exemple

3.4. Servir de base d'un grand dictionnaire monolingue

3.4.1. Offrir des descriptions linguistiques subtiles

3.4.1.1. 20ème et 21ème siècles

3.5. Etre représentatif de la langue allemande

4. Les étapes

4.1. Sélection de textes

4.1.1. Pour chaque sous-corpus

4.1.1.1. Prose, vers et drame

4.1.1.1.1. Etablir une liste povisoire

4.1.1.1.2. Solliciter les membres de l'Académie des sciences ( dont 3 spécialistes des études allemande )

4.1.1.1.3. Commenter la liste

4.1.1.1.4. Suggérer des nouveaux titres

4.1.1.2. Journaux

4.1.1.2.1. Choisir des articles sur + de 50 journaux différents

4.1.1.2.2. Les archives du "Présent time"

4.1.1.3. Sciences

4.1.1.3.1. 100 membres académies de sciences choisissent 4 œuvres chacun

4.1.1.3.2. Base pour le corpus des sciences

4.1.1.4. Non romanesque

4.1.1.4.1. Manuel de réparation de voiture

4.1.1.4.2. Livre de cuisine

4.1.1.4.3. Guide

4.1.1.4.4. Ordonnance de médicament

4.1.1.4.5. Théâtre

4.1.1.4.6. Concert

4.1.1.4.7. Publicité ...

4.1.1.5. Transcription de langue parlée

4.1.1.5.1. Agé de 40 à 50 pour les plus anciennes

4.1.1.5.2. Conversation, radio, entretien, télévision

4.2. Droit d'auteur

4.2.1. Convaincre les auteurs

4.2.2. Un compromis a dû être trouvé

4.2.2.1. Procédure d'échantillon, pas le texte entier

4.2.2.2. Protection par mot de passe

4.2.2.3. Anonymisation des entités nommées

4.3. Numérisation et conversion

4.3.1. 40 millions de signes à numériser

4.3.2. Deux méthodes

4.3.2.1. Reconnaissance optique de caractère ( OCR )

4.3.2.1.1. Alternance préférée : + rentable

4.3.2.2. Transcription manuelle

4.4. Echantillonnage

4.4.1. Construire le corpus en le maintenant le maximum équilibré

5. MARTRES Amélie_ l3 SDL _ Linguistique sur corpus (G2) _