Corpus DWDS

Update your tasks and set your priorities for the next week

Commencez. C'est gratuit
ou s'inscrire avec votre adresse courriel
Rocket clouds
Corpus DWDS par Mind Map: Corpus DWDS

1. IDS

1.1. 4400h enregistrements langue parlée

1.2. 2 milliards signes écrits

2. Conception DWDS Kerncorpus

2.1. Selection de textes

2.1.1. limité à 5 genres

2.1.1.1. journalisme (27%)

2.1.1.1.1. journaux nationaux + régionaux

2.1.1.1.2. magazines

2.1.1.2. textes littéraires (26%)

2.1.1.2.1. prose, vers, drame

2.1.1.3. littérature scientifique (22%)

2.1.1.4. littérature non-romanesque (20%)

2.1.1.5. transcription langue parlée (5%)

2.2. Copyright

2.2.1. Droits d'auteurs

2.2.1.1. Corpus contient seulement extraits

2.2.1.2. protection textes par mot de passe

2.2.1.3. Utilisation textes but non lucratif

2.2.1.4. Anonymisation des personnes nommées

2.2.2. 15 maisons d'édition

2.2.3. Suhkamp (maison édition)

2.2.3.1. accepte utilisation textes de 22 auteurs

2.3. Numérisation + conversion

2.3.1. 60% textes du DWDS Kerncorpus

2.3.1.1. 40 millions signes

2.3.2. 2 méthodes numérisation

2.3.2.1. Reconnaissance Optique de Caractère (OCR)

2.3.2.1.1. + rentable

2.3.2.2. transcription manuelle

2.3.2.2.1. verrouillage double

2.3.3. Pré-édition

2.3.3.1. basée sur feuilletage d'image

2.3.3.2. Etapes

2.3.3.2.1. selection document

2.3.3.2.2. controle qualité de la saisie du texte

2.3.3.2.3. majoration des parties difficiles du document

2.4. Annotations

2.4.1. Structurelle

2.4.1.1. TEI

2.4.1.1.1. (Iinitiative pour l'Encodage du Texte)

2.4.2. Linguistique

2.4.2.1. TAGH

2.4.2.1.1. analyse morphologique automatique des mots

2.5. Echantillonage

3. Opportuniste

3.1. 2 millions articles

3.1.1. 900 millions signes

3.2. articles de presse

4. Académie des sciences de Berlin-Brandenburg (BBAW)

4.1. Projet DWDS (2000-2003)

4.1.1. 2 phases principales

4.1.1.1. compilation de corpus

4.1.1.2. travail lexicographique

4.1.2. Critères corpus

4.1.2.1. équilibré

4.1.2.2. taille

4.1.2.2.1. assez grand pour servir de base

4.1.3. But

4.1.3.1. représentation conforme du lexique XXe

4.1.3.1.1. développement vocabulaire

4.1.3.2. Redéfinir organisation

4.1.3.2.1. catégories + champs lexicaux

4.1.3.2.2. construction syntaxique

4.1.3.2.3. pas alphabétique

4.1.3.3. Equilibrer corpus

4.1.3.3.1. choix + sens des mots

4.1.3.3.2. fréquence d'apparition des mots

5. LIMA (1973)

5.1. corpus équilibré de 1ere génération

5.2. basé sur modèle BROWN

6. GUILLY Julie - L3 SDL