Corpus DWDS

Get Started. It's Free
or sign up with your email address
Rocket clouds
Corpus DWDS by Mind Map: Corpus DWDS

1. Académie des Sciences de Berlin-Brandenburg (BBAW)

1.1. Projet DWDS

1.1.1. A. Geyken

1.1.2. +100 collaborateurs

1.1.3. Création entre 2000-2003

1.1.3.1. a corpus compilation phase

1.1.3.2. travail lexicographique

1.1.4. Motivations

1.1.4.1. Dictionnaire avec lexique complet

1.1.4.2. Ordre : catégories lexicales

1.1.4.3. Bases de données

1.1.5. Interface web

1.1.5.1. offrir + ressources

1.1.6. Aucun droit d'auteur violé

2. Corpus DWDS de base ("Kerncorpus")

2.1. Corpus de référence pour la langue germanique du XXe

2.2. Mots fréquents -> 100 millions

2.3. ordre : apparition chronologique

2.4. [version 0.95] -> 79 322 documents

2.4.1. 122 816 010 tokens ponctuation/dates

2.4.2. 2 224 542 types

2.4.3. Textes : Albert Einstein, Mac Weber

2.5. base empirique d'un grand dictionnaire monolingue du 20ème / 21ème

2.6. 5 genres littéraires

2.6.1. journalisme

2.6.2. textes littéraires

2.6.3. littérature scientifique

2.6.4. non-fiction

2.6.5. transcription du langage parlé

2.7. Anonymat des entités nommées

2.7.1. protection des auteurs

2.8. annotations structurelles

2.8.1. respect consignes TEI

2.8.1.1. même format de présentation

2.9. annotations linguistiques

2.9.1. analyse morphologie TAGH

3. Corpus DWDS étendu (DWDS-E) ("Ergänzungscorpus")

3.1. 900 millions de mots

3.2. regroupe 15 années de source journalistique

3.3. opportunistic supplementary corpus

3.3.1. pas équilibré

4. Digital Dictionary of the 20th/21st Century German Language (DWDS)

5. LIMAS

5.1. création en 1973

5.2. corpus de 1ère génération

5.3. fondé sur le modèle du Brown Corpus

5.4. corpus équilibré

5.5. 1 milion de tokens

5.6. 100 000 types

6. IDS

6.1. Peu de textes

6.2. pas équilibré

6.3. enregistrements langage parlé

7. Emma MERGOIL - L3 SDL - Linguistique sur corpus

8. Ressources Web (numérisation)

8.1. www.dwds.de

8.2. 41 000 URL

8.3. Quantité similiaire à BNC

8.4. 40 millions tokens numérisés

8.5. logiciel OCR (ROC)

9. Compilation DWDS Kerncorpus

9.1. sélection de texte

9.2. remerciements du droit d'auteur

9.3. la numérisation

9.4. échantillonnage.