The DWDS corpus : Digitization (section 7)

Lancez-Vous. C'est gratuit
ou s'inscrire avec votre adresse e-mail
The DWDS corpus : Digitization (section 7) par Mind Map: The DWDS corpus : Digitization (section 7)

1. Introduction

1.1. corpus DWDS construit entre 2000 et 2003

1.2. corpus actuel = corpus de base et corpus étendu

1.3. équivalent au British National Corpus

2. Pré-édition

2.1. se fait sur base d'analyse d'images

2.2. logiciel utilisé pour opérations de base

2.3. Plusieurs étapes de pré-édition

2.3.1. - sélection de documents

2.3.1.1. problèmes avec journaux anciens par exemple

2.3.2. - contrôle qualité textes

2.3.2.1. certains ne peuvent pas être transcrits

2.3.3. - repérage des parties difficiles

2.3.3.1. pour éventuel traitement ultérieur

3. Format numérisation

3.1. La numérisation produit des fichiers en format UMTF-8 avec marques au format XML

3.2. Ces fichiers sont validés par rapport à une DTD

3.2.1. DTD varie avec genres de texte

3.3. Textes sont ensuite transformées dans le format XML final en respectant l'Initiative d'encodage de texte (TEI).

4. Sélection de texte effectuée sans tenir compte des droits d'auteur et de la disponibilité des textes en format électronique

4.1. 60% textes de Kerncorpus étaient déjà disponibles en format électronique

4.2. le reste : 40 millions de "tokens" numérisés à partir de version imprimée

5. Deux méthodes pour la numérisation

5.1. - OCR "Optical Character Recognition"

5.1.1. La + utilisée car bon rapport prix-efficacité

5.1.2. 95 à 99% de fiabilité

5.1.3. Correction seulement sur dates et événements

5.1.4. But lexicographique

5.1.4.1. tous les mots sont des mot-clés

5.1.4.2. taux d'erreur doit être très faible

5.1.5. Conversion en XML compliquée

5.1.6. 100 erreurs pour 10 000 caractères

5.2. - Transcription manuelle

5.2.1. Plus cher que la méthode OCR

5.2.2. Moins de 5 erreurs pour 10 000 caractères

5.2.3. conversion en XML presque automatique

5.2.4. pré-édition nécessaire pour réduire le processus coûteux et chronophage après numérisation.

6. Lola Saulin