The DWDS corpus

시작하기. 무료입니다
또는 회원 가입 e메일 주소
The DWDS corpus 저자: Mind Map: The DWDS corpus

1. 2 phases de projets

1.1. 1ere : phase de compilation de corpus

1.2. 2ème : travail lexicographique

2. Numérisation

2.1. Logiciel OCR

2.2. 41000 URL

2.3. 40 millions de tokens numérisés

2.4. Conversion à un format structuré

3. Droits d'auteurs

3.1. Problèmes car auteurs multiples

3.2. Accord avec Surhkamp (maison d'édition)

3.2.1. utilisation de textes de 22 auteurs

3.3. 2006 : autorisation de 15 maisons d'éditions

3.3.1. textes accessibles au public sur le web

4. 2 parties

4.1. Kerncorpus

4.1.1. le corpus principal (+/- 100 millions de mots)

4.1.1.1. équilibré

4.2. Erganzungscorpus

4.2.1. le corpus étendu (+/- 900 millions de mots)

4.2.1.1. opportuniste

5. 3 motivations principales

5.1. Offrir une représentation satisfaisante du lexique du 20ème siècle

5.2. Passer d'une catégorisation alphabétique à lexicale

5.3. Avoir une meilleure représentation de la langue allemande

6. Genre représentés

6.1. Journaux

6.1.1. Choix d'articles

6.1.2. Archives

6.1.3. + de 50 journaux différents

6.2. Texte littéraire

6.2.1. Prose

6.2.2. Vers...

6.3. Texte scientifique

6.3.1. 4 œuvres choisies

6.4. Transcription de la langue parlée

6.4.1. Radio

6.4.2. Télévision

6.4.3. Conversation...

6.5. Textes de non-fictions

6.5.1. Publicité

6.5.2. Guide

6.5.3. Livre de cuisine...

7. Création

7.1. At the Berlin-Brandenburg Academy of Sciences (BBAW)

7.2. Entre 2000 et 2003