The DWDS corpus: A reference corpus for the German language of the 20th century Alexander Geyken ...

Create a To-Do list for your upcoming tasks

Lancez-Vous. C'est gratuit
ou s'inscrire avec votre adresse e-mail
The DWDS corpus: A reference corpus for the German language of the 20th century Alexander Geyken – Jan. 2006 par Mind Map: The DWDS corpus: A reference corpus for the German language of the 20th century Alexander Geyken – Jan. 2006

1. Selection de textes pour chaque sous-corpus (section 5)

1.1. Prose, vers et drame

1.1.1. 26% du DWDS Kerncorpus

1.1.2. Entre 1900 et 1999

1.1.2.1. 3 œuvres de prose choisies

1.1.2.1.1. 2 oeuvres littéraires "classiques"

1.1.2.1.2. 1 fiction légère

1.1.2.1.3. But : équilibrer

1.1.2.2. Déroulement de la selection

1.1.2.2.1. équipe de projet établi une liste provisoire

1.1.2.2.2. membres de l'Académie des sciences sollicités pour faire des commentaires sur cette liste

1.1.2.2.3. But: déterminer quels textes étaient considérés comme important et influant.

1.2. Journaux

1.2.1. 27% du DWDS Kerncorpus

1.2.2. Presse et articles choisis dans plus de 50 journaux nationaux et régionaux différents

1.2.3. Echantillons périodiques

1.2.3.1. De 1900 à 1933

1.2.3.1.1. échantillons de presse de Berlin, Francfort, Cologne (1900-1922) et Munich

1.2.3.1.2. + petits échantillons de journaux régionaux choisis

1.2.3.2. De 1933 à 1945

1.2.3.2.1. articles divers

1.2.3.3. De 1945 à 2000

1.2.3.3.1. échantillons de presse de Berlin, Francfort et Munich

1.2.3.3.2. + échantillons plus petits de journaux de la GDR (RDA)

1.2.4. Echantillons évènements spécifiques

1.2.4.1. 1900

1.2.4.1.1. Exposition universelle à Paris

1.2.4.2. 1901

1.2.4.2.1. première cérémonie de remise des prix Nobel de Valeur

1.2.4.3. 1902

1.2.4.3.1. fin de la Guerre des Boers

1.2.4.4. certains mots ou expressions inventés avec ces événements historiques

1.2.4.5. complété par les grands échantillons de "Archiv der Gegenwart" (les Archives du Présent)

1.2.4.5.1. ADG récapitule de 1931 à 2004 les évènements principaux rapportés par la presse

1.3. Science

1.3.1. 22% du DWDS Kerncorpus

1.3.2. Plus de 100 membres des Académies des sciences doivent désigner 4 oeuvres (importantes pour leurs disciplines respectives)

1.3.3. Résultats de cette enquête = base pour le corpus de science

1.3.3.1. Ex de résultat : depuis 1980 presque toutes les publications majeures de scientifiques allemands publiées en anglais

1.4. Autres littératures non-romanesques

1.4.1. 20% du DWDS Kerncorpus

1.4.2. comprend la littérature d'auto-assistance

1.4.2.1. manuels de réparation de voiture

1.4.2.2. livres de cuisine

1.4.2.3. étiquettes

1.4.2.4. textes légaux

1.4.3. + textes rarement considérés dans la lexicographie

1.4.3.1. manuel de l'utilisateur

1.4.3.2. informations de médicaments

1.4.3.3. programmes de concert

1.4.3.4. texte de publicité

1.4.4. équilibrer textes de l'Allemagne de l'Ouest et ceux d'Allemagne de l'Est.

1.5. Transcription de langues parlées

1.5.1. âgé de 40 à 50 pour les plus anciennes

1.5.2. conversations quotidiennes

1.5.2.1. conversations

1.5.2.2. radio

1.5.2.3. interviews

1.5.2.4. télévision

1.5.3. + discours non-spontané

1.5.3.1. ex: débats parlementaires allemands

1.6. Textes de l'Autriche et de la Suisse

1.6.1. insuffisamment représentés

2. Construction

2.1. aux Académies des sciences de Berlin-Brandenburg (BBAW)

2.2. entre 2000 et 2003

2.3. 2 parties

2.3.1. corpus principal

2.3.1.1. environ 100 millions de mots

2.3.1.2. =corpus équilibré

2.3.2. corpus prolongé

2.3.2.1. plus de 900 millions de mots

2.3.2.2. =corpus opportuniste

3. Motivations

3.1. Représenter lexique 20ème siècle

3.2. Classer

3.2.1. pas par ordre alphabétique

3.2.2. pas structurés dans des entrées individuelles

3.2.3. par catégories lexicales, champs lexicaux et constructions syntaxiques

3.3. Equilibrer le corpus

3.3.1. fréquence des usages

3.3.1.1. typique ou non

3.3.2. filtrer des mots intéressants et des sens de mot

3.3.3. textes diversifiés