The DWDS Corpus : A reference corpus for the german language of the 20th century - A. Geyken

Get Started. It's Free
or sign up with your email address
Rocket clouds
The DWDS Corpus : A reference corpus for the german language of the 20th century - A. Geyken by Mind Map: The DWDS Corpus : A reference corpus for the german language of the 20th century - A. Geyken

1. Construit à l'Académie de Berlin-Brandebourg des sciences (BBAW) entre 2000 et 2003

1.1. 2 corpus de la langue allemande du XX/XXI ème siècle ont été compilés :

1.1.1. - Kern Corpus (le noyau, le corpus de base du DWDS)

1.1.1.1. contient environ 100 millions de mots courants équilibrés par ordre chronologique et par genre de texte dans environ 80 000 documents

1.1.1.1.1. 40%, environs 16 000 pages ont été numérisées

1.1.1.2. corpus équilibré

1.1.1.2.1. avec des sous-corpus (différents genres représentés)

1.1.2. - DWDS E ("Erganzungscorpus"), corpus étendu

1.1.2.1. contient 900 millions de mots de textes

1.1.2.2. corpus supplémentaire opportuniste

1.1.2.2.1. opportunité de récupérer les textes de suite (mais non équilibrés)

1.1.2.3. presse, quotidiens ...

1.2. composé de + d'1 milliard de mots de textes courants

1.2.1. constitué essentiellement de sources de presse des 15 dernières années

1.3. équivalent en taille au BNC

1.4. le projet DWDS se divise en 2 phases :

1.4.1. - compilation du corpus

1.4.2. - travail lexicographique

1.5. chef de projet : Geyken

2. The need for a new corpus

2.1. au début du projet DWDS au BBAW en 1999 => aucun corpus satisfaisant du XXème siècle de la langue allemande existait

2.2. Limas Corpus (corpus de 1ère génération - 1973) équilibré (1 millions de jetons et environs 100 000 types) => beaucoup trop petit pour constituer la base pour un grand dictionnaire monolingue

2.3. Corpus IDS contient très peu de textes de la première moitié du XXème siècle et n'est donc pas chronologiquement équilibré

2.3.1. rendre compte de l'évolution de la langue

2.3.1.1. intéressant pour les apprenants

2.3.2. rendre compte de l'usage de la langue

2.4. En raison de l'absence de grand corpus équilibré allemand, de nouvelles ressources fournies par des linguistes informaticiens ainsi que les nouvelles éditions du dictionnaire comptent sur quelques journaux disponibles

3. Corpus design requirements

3.1. but principal du corpus DWDS : servir de base empirique d'un grand dictionnaire monolingue du XX/XXIème siècle

3.1.1. accès libre et gratuit

3.1.2. tous les textes en TEI, même format de présentation, annotés

3.2. ambition : offrir des descriptions linguistiques plus subtiles au niveau sémantique et syntagmatique (éléments lexicaux) que ce qui était possible avant la disponibilité d'un tel grand nombre de données

3.3. - DWDS se veut "représentatif" de la langue allemande

3.3.1. "représentativité" => concept délicat

3.3.2. remplacé par la notion d'équilibre

3.3.3. DWDS équilibré par rapport aux types de textes

3.3.3.1. autres corpus équilibrés (trop petits avec environ 100 000 types)

3.3.3.1.1. corpus Limas

3.3.3.1.2. corpus BROWN

3.4. - DWDS Kern Corpus doit satisfaire au critère de taille

3.4.1. il doit être assez grand

3.5. - DWDS Kern Corpus doit contenir une quantité considérable de la littérature influente et importante

3.5.1. pour le XXème siècle avec de écrivains allemands majeurs représentés

3.5.1.1. exemples : Thomas Manm, Franz Kafka ...

3.6. => créer un vaste corpus équilibré contenant un nombre considérable d'écrits et les écrivains influents

3.7. selon Sinclair (1994)

3.7.1. ces propriétés caractérisent un corpus de référence (une base pour une grammaire fiable, dictionnaire, et d'autres documents de référence de la langue)

4. Design of the DWDS

4.1. DWDS Kern Corpus, 5 genres représentés : (permettent l'équilibre du corpus)

4.1.1. - 27% le journalisme

4.1.2. - 26% des textes littéraires

4.1.3. - 22% la littérature scientifique

4.1.4. - 20% non-fictions (ouvrages documentaires comme les livres de recettes, textes de lois, guides touristiques ...)

4.1.5. - 5% de transcriptions de la langue parlée

5. Compilation de DWDS Kern Corpus :

5.1. - sélection de textes

5.2. - remerciements du droit d'auteurs

5.3. - numérisation et conversion à un format structuré

5.4. - échantillonnage

6. Section 6 : Copyright issues

6.1. sélection de textes menée indépendamment de l'état de droit d'auteur

6.2. tâche importante du projet : convaincre les auteurs et les détenteurs de copyright (dans la plupart des cas par l'intermédiaire des maisons d'édition) de collaborer à l'élaboration de DWDS Kern Corpus

6.3. début du projet :

6.3.1. comité formé de personnalités publiques (Hans Magnus, Enzensberger, Wolgang Fruhwald, Gotfried ...)

6.3.1.1. informé du projet et prête autorité aux négociations avec des maisons d'édition

6.4. l'acquisition des droits d'auteur des textes protégés pour le DWDS Kern Corpus se déroule à plusieurs niveaux

6.4.1. obtenir l'autorisation d'utiliser les textes pour le travail lexicographique (pour compilation du corpus)

6.4.2. DWDS accessible au public en tant que ressource

6.5. aucune maison d'édition serait donner des droits pour les œuvres en prose entières

6.5.1. un compromis doit être trouvé pour convaincre les maisons d'édition d'accorder les droits

6.5.1.1. - la publication du Kern Corpus via une interface web : ressource précieuse pour un large spectre de recherche linguistique et lexicographique

6.5.1.2. - le projet doit veiller à ce qu'aucun droit d'auteur soit violé (la copie de textes entiers via une requête de corpus doit être évitée)

6.6. plusieurs dispositifs techniques comme base de négociations avec les éditeurs

6.6.1. selon les droits d'auteur une ou plusieurs procédures suivantes ont été appliquées :

6.6.1.1. - procédure garantissant (l'échantillonnage) que le DWDS Kern Corpus contienne des échantillons sélectionnés (pas l'ensemble du texte)

6.6.1.2. - un mécanisme souple pour afficher les résultats des requêtes avec des fenêtres contextuelles variables

6.6.1.3. - une protection par mot de passe pour les textes sous copyright

6.6.1.3.1. les utilisateurs doivent accepter d'utiliser les textes uniquement pour un usage non commercial

6.6.1.4. - anonymat des entités nommées (exemple : lettres privées ...)

6.7. les supports pour les droits électroniques de droits d'auteur son dans certains ca de l'auteur lui-même (et non de l'éditeur)

6.7.1. ce qui est souvent le cas avec les textes anciens où l'utilisation électronique d'un texte n'a pas encore une application connue

6.8. les négociations avec les éditeurs sont lentes et fastidieuses

6.9. 1ère percée pour le DWDS : accord conclu avec Suhrkamp (maison d'édition) => permission d'utiliser les textes de 22 auteurs

6.10. janvier 2006 : DWDS a obtenu l'autorisation de 15 maisons d'édition pour faire + de 71% des textes de DWDS Kern Corpus (accessibles au public via le site web DWDS)

6.10.1. 29% disponibles uniquement pour un usage interne

7. Ornella REDJDAL L3 SDL