"The DWDS corpus: A reference corpus for the German language of the 20th century" Alexander Geyke...

Project Control, Project Closing, Timeline template

Get Started. It's Free
or sign up with your email address
"The DWDS corpus: A reference corpus for the German language of the 20th century" Alexander Geyken – Jan. 2006 by Mind Map: "The DWDS corpus: A reference corpus for the German language of the 20th century" Alexander Geyken – Jan. 2006

1. Mise en place du corpus

1.1. Auteur

1.1.1. Berlin-Brandenburg Academy of Sciences (BBAW)

1.2. Date / situation temporelle

1.2.1. entre 2000 et 2003

1.2.2. 2 corpus créés dans le même temps

1.2.2.1. Kern Corpus

1.2.2.2. Ergänzungscorpus

1.3. Contenu

1.3.1. 1 milliard de mots de texte courant

1.3.1.1. classés par ordre chronologique et par genre de texte

1.3.2. source : essentiellement des journaux

1.3.3. Partie 1 : corpus de base

1.3.4. Partie 2 : corpus étendu

2. Les buts visés

2.1. 3 motivations principales

2.1.1. Pas de concurrence satisfaisante

2.1.1.1. Pas assez de détails

2.1.2. Offrir un meilleur classement des mots

2.1.2.1. pas par ordre alphabétique mais par catégorie

2.1.3. Autres dictionnaires ≠ corpus équilibré de l'allemand

2.1.3.1. exemples faibles

2.1.3.2. Ne reflètent pas la fréquence

2.1.3.3. Négligence de mots importants

2.1.3.4. Manque de cohérence

2.2. Répondre à des besoins

2.2.1. Donner un matériel de référence, une base de l'acquisition de la langue

2.2.2. Offrir des descriptions linguistiques subtiles

2.2.3. Représentatif de la langue

2.3. Spécifications

2.3.1. Contenu équilibré

2.3.2. Grand nombre d'écrits

2.3.3. Source : littérature influente

3. Section n°6 : La question du copyright

3.1. Sélection de texte menée indépendamment du droit d'auteur

3.1.1. Convaincre les détenteurs de copyright à collaborer

3.1.1.1. Prepare Product Evaluation

3.1.1.2. Conduct Product Evaluation

3.1.1.3. Initiate Maintenance Process

3.2. Comité pour les négociations avec les maisons d'édition

3.3. Acquisition des droits d'auteurs sur plusieurs niveaux

3.3.1. Condition minimale : droit d'utilisation interne des données

3.3.2. Difficultés pour rendre le corpus public

3.3.2.1. impossible car grandes oeuvres

3.3.3. Compromis

3.3.3.1. interface web = ressources précieuses pour la recherche

3.3.3.2. aucun droit d'auteur ne sera violé

3.4. Mise en place de bases de négociation

3.4.1. Echantillons sélectionnés uniquement, pas de textes entiers

3.4.2. Mécanisme souple

3.4.3. Protection par mot de passe

3.4.4. Anonymisation

3.4.5. Détenteur du copyright pour les dossier électroniques : auteur et pas publicateur

3.5. Longues négociations

3.5.1. pas terminées