The DWDS corpus: A reference corpus for the German language of the 20th century Alexander Geyken ...

Get Started. It's Free
or sign up with your email address
The DWDS corpus: A reference corpus for the German language of the 20th century Alexander Geyken – 2006 by Mind Map: The DWDS corpus: A reference corpus for the German language of the 20th century Alexander Geyken – 2006

1. Élaboration du corpus

1.1. Berlin-Brandenburg Academy of Sciences (BBAW)

1.1.1. Construit entre 2000 et 2003

1.1.2. 1er corpus pour langue allemande XXe s

1.1.3. + d'1 milliard de mots

1.2. 2 parties

1.2.1. corpus principal

1.2.1.1. "équilibré"

1.2.1.2. mots courants, comparable au BNC

1.2.2. corpus étendu

1.2.2.1. "oppotuniste"

1.2.2.2. principalement source journalistique

1.3. 1ère génération : LIMAS Corpus (1973)

1.4. 2 étapes

1.4.1. Composition du corpus

1.4.2. Travaux lexicographique

1.4.2.1. Lemmatisation

1.4.2.2. Etiquetage

1.4.2.3. Equilibrage

2. Défis liés au droit d'auteur

2.1. Sélection du texte indépendamment du copyright

2.2. Convaincre les auteurs de collaborer, maisons d'édition

2.3. Négociation entre auteurs et détenteurs copyright = processus long

2.4. 71% du DWDS Kerncorpus accessible en ligne

3. Buts visés

3.1. Absence de représentation satisfaisante de la langue germanique (vocabulaire 20ème siècle)

3.2. Inconvénients classement ordre alphabétique > catégories lexicales, genres syntaxiques, champs lexicaux

3.3. Dictionnaires traditionnels non représentatif de la fréquence des occurrences + peu d'exemples

4. Eva BALDACHINO L3 SDL

5. Besoin d'un nouveau corpus représentatif / équilibré langue allemande

6. Compostion

6.1. Echantillonage

6.2. Compilation

6.3. Différentes souces

6.3.1. 27% journaux

6.3.2. 26% textes littéraires

6.3.3. 22% textes scientifiques

6.3.4. 20% ouvrages documentaires

6.3.5. 5% transcription orale

6.4. Contenu équilibré + grands nombre d'écrits

6.5. Organisation chronologique (par décade)

6.6. Base de données linguistique utile pour historiens, académiciens, traducteurs, recherche en psychologie

7. Quel avenir, quels projets?

7.1. Base de données toujours insuffisante ?

7.1.1. Projet d'élargissement

7.2. 6000 et + utilisateurs aujourdhui

7.3. Nouveaux moyens d’expansion et remise à jour continuelle

7.4. Comparaison DWDS Kerncorpus VS le corpus en ligne (niveau morphologique, syntaxique, lexical)