The DWDS corpus: A reference corpus for the German language of the 20th century Alexander Geyken – 2006
par Baldachino Eva
1. Défis liés au droit d'auteur
1.1. Sélection du texte indépendamment du copyright
1.2. Convaincre les auteurs de collaborer, maisons d'édition
1.3. Négociation entre auteurs et détenteurs copyright = processus long
1.4. 71% du DWDS Kerncorpus accessible en ligne
2. Buts visés
2.1. Absence de représentation satisfaisante de la langue germanique (vocabulaire 20ème siècle)
2.2. Inconvénients classement ordre alphabétique > catégories lexicales, genres syntaxiques, champs lexicaux
2.3. Dictionnaires traditionnels non représentatif de la fréquence des occurrences + peu d'exemples
3. Eva BALDACHINO L3 SDL
4. Besoin d'un nouveau corpus représentatif / équilibré langue allemande
5. Compostion
5.1. Echantillonage
5.2. Compilation
5.3. Différentes souces
5.3.1. 27% journaux
5.3.2. 26% textes littéraires
5.3.3. 22% textes scientifiques
5.3.4. 20% ouvrages documentaires
5.3.5. 5% transcription orale
5.4. Contenu équilibré + grands nombre d'écrits
5.5. Organisation chronologique (par décade)
5.6. Base de données linguistique utile pour historiens, académiciens, traducteurs, recherche en psychologie
6. Élaboration du corpus
6.1. Berlin-Brandenburg Academy of Sciences (BBAW)
6.1.1. Construit entre 2000 et 2003
6.1.2. 1er corpus pour langue allemande XXe s
6.1.3. + d'1 milliard de mots
6.2. 2 parties
6.2.1. corpus principal
6.2.1.1. "équilibré"
6.2.1.2. mots courants, comparable au BNC
6.2.2. corpus étendu
6.2.2.1. "oppotuniste"
6.2.2.2. principalement source journalistique
6.3. 1ère génération : LIMAS Corpus (1973)
6.4. 2 étapes
6.4.1. Composition du corpus
6.4.2. Travaux lexicographique
6.4.2.1. Lemmatisation
6.4.2.2. Etiquetage
6.4.2.3. Equilibrage
7. Quel avenir, quels projets?
7.1. Base de données toujours insuffisante ?
7.1.1. Projet d'élargissement