The DWDS corpus: A reference corpus for the German language of the 20th century Alexander Geyken ...

Get Started. It's Free
or sign up with your email address
The DWDS corpus: A reference corpus for the German language of the 20th century Alexander Geyken – 2006 by Mind Map: The DWDS corpus: A reference corpus for the German language of the 20th century Alexander Geyken – 2006

1. Défis liés au droit d'auteur

1.1. Sélection du texte indépendamment du copyright

1.2. Convaincre les auteurs de collaborer, maisons d'édition

1.3. Négociation entre auteurs et détenteurs copyright = processus long

1.4. 71% du DWDS Kerncorpus accessible en ligne

2. Buts visés

2.1. Absence de représentation satisfaisante de la langue germanique (vocabulaire 20ème siècle)

2.2. Inconvénients classement ordre alphabétique > catégories lexicales, genres syntaxiques, champs lexicaux

2.3. Dictionnaires traditionnels non représentatif de la fréquence des occurrences + peu d'exemples

3. Eva BALDACHINO L3 SDL

4. Besoin d'un nouveau corpus représentatif / équilibré langue allemande

5. Compostion

5.1. Echantillonage

5.2. Compilation

5.3. Différentes souces

5.3.1. 27% journaux

5.3.2. 26% textes littéraires

5.3.3. 22% textes scientifiques

5.3.4. 20% ouvrages documentaires

5.3.5. 5% transcription orale

5.4. Contenu équilibré + grands nombre d'écrits

5.5. Organisation chronologique (par décade)

5.6. Base de données linguistique utile pour historiens, académiciens, traducteurs, recherche en psychologie

6. Élaboration du corpus

6.1. Berlin-Brandenburg Academy of Sciences (BBAW)

6.1.1. Construit entre 2000 et 2003

6.1.2. 1er corpus pour langue allemande XXe s

6.1.3. + d'1 milliard de mots

6.2. 2 parties

6.2.1. corpus principal

6.2.1.1. "équilibré"

6.2.1.2. mots courants, comparable au BNC

6.2.2. corpus étendu

6.2.2.1. "oppotuniste"

6.2.2.2. principalement source journalistique

6.3. 1ère génération : LIMAS Corpus (1973)

6.4. 2 étapes

6.4.1. Composition du corpus

6.4.2. Travaux lexicographique

6.4.2.1. Lemmatisation

6.4.2.2. Etiquetage

6.4.2.3. Equilibrage

7. Quel avenir, quels projets?

7.1. Base de données toujours insuffisante ?

7.1.1. Projet d'élargissement

7.2. 6000 et + utilisateurs aujourdhui

7.3. Nouveaux moyens d’expansion et remise à jour continuelle

7.4. Comparaison DWDS Kerncorpus VS le corpus en ligne (niveau morphologique, syntaxique, lexical)