Vollbild-Modus

DWDS Corpus

Andere

BERTRAND Fanny

Folgen

Jetzt loslegen. Gratis!

oder registrieren mit Ihrer E-Mail-Adresse

Ähnliche Mindmaps Mindmap-Gliederung

DWDS Corpus von BERTRAND Fanny Mind Map: DWDS Corpus

1. Academie des sciences de Berlin-Brandenbourg BBAW Geyken

1.1. Project DWDS

1.1.1. Motivation du projet

1.1.1.1. Représentation des lexèmes 20th

1.1.1.1.1. développement langage courant

1.1.1.1.2. Vocabulaire Republic Weimar

1.1.1.1.3. Vocabulaire 3ème Reich

1.1.1.2. Nouvelle organisation

1.1.1.2.1. catégorie lexicales

1.1.1.2.2. Construction syntaxique

1.1.1.2.3. Champ lexical

1.1.1.3. Créer une grande base de donnée

1.1.1.3.1. Diminuer main d'oeuvre

1.1.1.3.2. Filtrer les mots intéressants et leur sens

1.1.2. 2 phases

1.1.2.1. Corpus complation

1.1.2.2. lexicographic work itself

1.1.3. Entre 2000 et 2003

1.2. 1999

1.3. LIMAS Corpus 1973

1.4. IDS Mannheim

2. Interrogations

2.1. Pourquoi période de 1900 et 2000

2.1.1. Arbitraire

2.2. Pourquoi 5 genres

2.2.1. plus facile

3. Fanny BERTRAND L3 Linguistique sur Corpus

4. Spécialistes selon les genres Gens connu hors de la sphère universitaire chinois

4.1. cround sorcing Collaborat

5. Importance TEI

5.1. Tout le texte chaque mot a une étiquette travail des linguistes

6. Opportunistic, supplementary corpus

6.1. "Erganzungscorpus"

6.2. Corpus étendu

6.3. + de 9 Millions de textes

7. Core Corpus

7.1. Compilation du DWDS Kerncorpus

7.1.1. Numérisation

7.1.2. Problèmes de transcription

7.1.2.1. Comité

7.1.2.1.1. Relation avec maisons d'éditions

7.1.2.2. Pas de textes entiers

7.1.2.3. Protection avec mot de passe

7.1.2.4. Anonymer

7.1.3. Sélection de texte

7.1.3.1. Corpus équilibré

7.1.3.1.1. journalisme 27%

7.1.3.1.2. textes littéraires

7.1.3.1.3. littérature scientifique 22%

7.1.3.1.4. transcription discours oral

7.1.3.1.5. ouvrages généraux 20%

7.1.4. Annotations structurelles

7.1.5. Annotations linguistiques

7.1.6. Echantillonage

8. Mettre a disposition les données a tout types de personne

8.1. Apprenants de la langue

9. Il faut que tous les textes soient dans le même format XML

10. ROC

10.1. problème de graphies

10.2. taux d'erreur 1% 100 mots incorecte tous les 10 000

10.2.1. trop long trop compliqué

10.2.1.1. solution : manuellement par des personnes sur inetrent avec l'image du texte tapé dans le traitement de tetxe taux d'erreur de frappe inférieur à 1%

oder Registrieren