The DWDS corpus: A reference corpus for the German language of the 20th century, Alexander Geyken...

Get Started. It's Free
or sign up with your email address
The DWDS corpus: A reference corpus for the German language of the 20th century, Alexander Geyken - Section 7 : Digitization by Mind Map: The DWDS corpus: A reference corpus for the German language of the 20th century, Alexander Geyken - Section 7 : Digitization

1. 60% des textes de Kerncorpus étaient déjà sous format électonique

2. 40 % restants = 40 millions de mots à numériser

3. méthodes pour numériser des textes

3.1. OCR : "Optical Character Recognition"

3.1.1. pour création d'index de mots clés

3.1.1.1. erreurs surtout sur les noms propres, dates et évenements

3.1.1.2. peu coûteux

3.1.1.3. fiable : de 95 à 99%

3.1.2. but lexicographique

3.1.2.1. besoin de plus de précision

3.1.2.2. tous les mots ont leur importance

3.1.3. 99% -> 100 erreurs pour 10 000 lettres

3.2. transcription manuelle

3.2.1. plus coûteuse que l'OCR

3.2.2. moins de 5 erreurs pour 10 000 lettres

3.2.3. d'autant plus utile puisqu'elle sert de base à l'amélioration des outils de numérisation

3.2.4. conversion XML

3.2.5. fait par des natifs : meilleur rendement

3.2.6. pré-édition en plus de la transcription

4. pré-édition

4.1. choisir des documents

4.2. contrôler la qualité

4.2.1. certains textes sont mis de côtés pour être traiter plus tard

4.3. marquer les parties difficiles ou complexes

4.3.1. correspondances texte-photo ou problèmes de hiérarchie

5. création de fichiers au format UMTF-8 avec des notes au format XML

5.1. fichiers validés selon le genre par un "DTD"

5.1.1. transformation finale en format xml, respectant le "Text Encoding Initiative"

6. Adeline Laurent - Section 7