DWDS - "A reference corpus for the German language of the 20th century"; Geyken (2006)

Solve your problems or get new ideas with basic brainstorming

Get Started. It's Free
or sign up with your email address
Rocket clouds
DWDS - "A reference corpus for the German language of the 20th century"; Geyken (2006) by Mind Map: DWDS - "A reference corpus for the German language of the 20th century"; Geyken (2006)

1. "The need for a new corpus"

1.1. il n'existe pas d'un corpus satisfaisant du 20eme siècle; corpus écrit focuse principalement au text de journal

1.2. on a proposé un corpus plus recemment avec une langage général d'allemand sur la base des ressources d'internet

2. DWDS

2.1. en général

2.1.1. corpus équillibré des texts d'allemand

2.1.1.1. gratuit

2.1.2. but principal: donner plus des descriptions linguistique des articles lexique de la sémantique et la syntagmique

2.1.2.1. devrais être "représentatif" de la langue allemand

2.1.3. contient des 100 million token

2.2. contient du cinq genres

2.2.1. le journalisme (presque 27%)

2.2.1.1. plus de 50 journaux national/regional (Frankfurter Zeitung, Kölner Zeitung, die Süddeutsche,..)

2.2.2. les textes littéraires (presque 26%)

2.2.2.1. Ottfried Preußler, Thomas Mann, Günter Grass,..

2.2.3. la littérature scientifique (presque 22%)

2.2.4. non-fiction (presque 20%)

2.2.4.1. "self-help literature" (livret de cuisine, guide de voyage,..)

2.2.5. transcriptions de la langue orale (presque 25%)

2.3. corpus DWDS actuellement

2.3.1. 79322 documents, 100600993 tokens, 2224542 types

2.3.2. premier corpus pour la langue allemand du 20eme siècle

3. Copyright

3.1. DWDS devrait être disponible comme ressources

3.2. invention des procédures comme de la protection de mot de passe à cause des droits d'auteur

3.2.1. pour assurer si tout le text ou seulement quelques parties sont publié et combien du contexte est affiché

4. current corpus

4.1. core corpus

4.1.1. contient plus que 100 mots, classer chronologiquement, 80000 documents

4.1.2. unique aux villes et autres parties où on parle l'allemand

4.2. extended corpus

4.2.1. plus de 900 millions mots

4.2.2. "opportunistic corpus" se compose des sources journaux des dernières 15 ans

5. TAGH

5.1. une système pour automatiquement analyser la morphologie de la forme des mots allemand

5.1.1. avec l'aide des allomorphs, des déclinaisons (inflection), de l'origine (derivation), de la composition,..

5.2. 200 000 entités, c'était composé aux base grande/corpus des journaux et des textes littéraire