DWDS Corpus GEYKEN 2006

Solve your problems or get new ideas with basic brainstorming

Get Started. It's Free
or sign up with your email address
Rocket clouds
DWDS Corpus GEYKEN 2006 by Mind Map: DWDS Corpus GEYKEN 2006

1. construit

1.1. Académie des Sciences à Berlin Brandenburg

1.2. entre les années 2000 et 2003

1.3. composé de + 1 milliard de mots de texte

1.4. Réalisation de 2 corpus

1.4.1. Kerncorpus

1.4.2. Ergänzungscorpus

2. Composition Corpus Actuel

2.1. corpus noyau (de base)

2.1.1. 100 million de graphies

2.1.1.1. classées par ordre chronologique et par genre de texte

2.1.1.1.1. 80000 documents

2.1.2. uniquement en allemand

2.2. corpus étendu

2.2.1. 900 million de graphies

2.2.2. opportuniste

2.2.3. source: presse

2.2.3.1. 15 dernières années

3. principales motivations

3.1. Inexistence d'un dictionnaire allemand représentant le lexique du XXème siècle

3.2. Agencement des mots par catégories lexicales

3.3. absence corpus équilibré allemand

4. organisation du corpus

4.1. choix des textes

4.1.1. prose, vers et drame

4.1.1.1. 26%

4.1.1.2. établir une liste de provisoire

4.1.1.3. membres de l'Académie des sciences commentent cette liste parmi eux il y a 3 spécialistes d'étude allemande

4.1.1.4. considération des textes les plus importants et influents

4.1.1.5. suggestion de nouveaux titres

4.1.2. journaux

4.1.2.1. 27%

4.1.2.2. sélection d'article sur + de 50 différents journaux et magazines nationaux et régionaux

4.1.3. sciences

4.1.3.1. 22%

4.1.3.2. + de 100 membres de l'Académie des sciences choisissent 4 œuvres qu'ils considèrent comme étant important dans leur discipline

4.1.3.2.1. pour chaque décennie

4.1.3.3. résultat constitue la base du corpus des sciences

4.1.4. autres non fiction

4.1.4.1. comprend

4.1.4.1.1. manuels de réparation de voiture

4.1.4.1.2. livres de cuisine

4.1.4.1.3. programmes de théâtre et de concert

4.1.4.1.4. un Guide de Voyage

4.1.4.1.5. notice d'utilisation des médicaments

4.1.4.1.6. 20%

4.1.5. transcription orale

4.1.5.1. enregistrements discours de + 40/50 ans indisponibles

4.1.5.2. conversation, télévision, radio, interview, enregistrements de discours dialectal

4.2. Droits d'auteurs

4.2.1. la plupart des textes sont protégés

4.2.1.1. mots de passe

4.2.2. anonymat

4.3. numérisation et annotation

4.3.1. 60% textes sélectionnés version électronique

4.3.2. format xml

4.3.3. transcription

4.4. Echantillonnage

5. Aurélia GALAOT L3 SDL G1