DWDS corpus

Plan your projects and define important tasks and actions

시작하기. 무료입니다
또는 회원 가입 e메일 주소
DWDS corpus 저자: Mind Map: DWDS corpus

1. Académie Berlin-Brandebourg (BBAW)

1.1. DWDS

1.1.1. Conception en 2 parties

1.1.2. Composition entre 2000 et 2003

1.1.3. Représentation langage XXème siècle

1.1.4. Base de données

1.2. LIMAS corpus

1.2.1. Corpus 1ère génération (1973)

1.2.2. Après Brown Corpus (1967)

1.2.3. 500 échantillons de textes

1.2.4. Corpus équilibré MAIS trop petit pour corpus de base

2. Quels buts?

2.1. Représenter langue allemande du XXème siècle

2.2. Classement autre qu'alphabétique et entrées individuelles

3. Core Corpus (corpus de base) = KERNCORPUS

3.1. 100 millions de mots

3.1.1. Classés par ordre chronologique

3.2. Équivalent allemand de la BNC

3.3. Corpus de référence langue allemande XXème siècle

3.4. Composition en 4 étapes

3.4.1. Sélection de textes

3.4.1.1. Plusieurs sous-corpus

3.4.1.1.1. Journaux 27%

3.4.1.1.2. Littératures (théâtre, poésie) 26%

3.4.1.1.3. Sciences 22%

3.4.1.1.4. Autres fictions 20%

3.4.1.1.5. Transcription langue parlée 5%

3.4.1.2. Continuellement étendu

3.4.2. Droits d'auteurs et copyright

3.4.2.1. Collaboration entre auteurs et détenteurs copytight

3.4.2.2. Beaucoup de textes encore sous copyright

3.4.3. Numérisation

3.4.3.1. 2 possibilités

3.4.3.1.1. Reconnaissance optique de caractères (OCR)

3.4.3.1.2. Transcription manuelle

3.4.4. Échantillonnage

3.5. Annotations

3.5.1. structurelles

3.5.2. linguistiques

4. "Opportunistic corpus" (corpus étendu)

4.1. Ergänzungscorpus (Geyken et Klein 2004)

4.2. 900 millions de mots

4.3. Principales sources : Presse des 15 dernières années

5. JOANNY Anaïs - L3 sdl