La numérisation des donnée du DWDS

Laten we beginnen. Het is Gratis
of registreren met je e-mailadres
La numérisation des donnée du DWDS Door Mind Map: La numérisation des donnée du DWDS

1. Etat des données avant la création

1.1. 60% des données utilisées étaient déjà numérisées

1.1.1. Sur CD-ROM

1.1.2. Chez les éditeurs

1.2. 40% des données sont à numériser

2. Pré édition

2.1. A partir d'analise d'images

2.2. les étapes

2.2.1. sélection des documents

2.2.2. contrôle de la qualité des textes

2.2.2.1. impossibilité de transcrire certains textes

2.2.3. mise en évidence de parties difficiles

2.2.3.1. traitement ultérieur

3. création de fichiers au format UMTF-8 avec des notes au format XML

3.1. Validé contre une DTD (Document Type Definition)

3.1.1. Varie selon les types de textes

4. Vidoire Julie

5. Les techniques

5.1. Par reconnaissance de caractère optiques

5.1.1. technique préférée

5.1.2. Taux de reconnaissance acceptable : 95-99%

5.1.2.1. 99% : 100 erreurs tous les 10000 caractères

5.1.3. chaque mot = mot clé potentiel

5.1.3.1. taux d'erreur doit être trè faible

5.1.4. correction

5.1.4.1. dépend de la qualité de l'input

5.1.4.1.1. peut couter beaucoup de temps

5.2. Transcription manuelle

5.2.1. plus couteuse

5.2.2. Beaucoup moins d'erreurs

5.2.2.1. 5 tous les 10000 caractères

5.2.3. Annotation possible en même temps que la numérisation

5.2.3.1. conversion XML quasi automatique

5.2.3.1.1. sous produit de transcription manuelle

5.2.4. convertion en XML