Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus

Get Started. It's Free
or sign up with your email address
Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus by Mind Map: Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus

1. Corpus opportunistes

1.1. Non proportionnels à l'usage de tous les jours

1.2. Exemple

1.2.1. Bank of English

1.2.1.1. Collins

1.2.1.2. Université de Birmingham en 1991

1.2.1.3. textes écrits : genres différents que des transcriptions de langue orale

2. Grandes maisons d'édition

3. Hélène Rigolet, L3 SDL Section 3 et 4

4. Institutions académiques

5. A partir du Web

5.1. pas vraiment de corpus

5.1.1. sur la base du lexique présent

5.1.2. sur l'ordre des résultats de Google

6. grandes collections de textes

6.1. de plusieurs langues

7. Défaut d'"équilibre" pour les types de textes

7.1. influence la qualité des résultats lexicographiques

8. Corpus

9. évaluer les informations morphosyntaxiques dans les dictionnaires

10. Dictionnaires monolingues allemands

11. Informations différentes

11.1. dictionnaires Wahrig et WDG

11.1.1. indiquent le neutre

11.2. Duben-GWB

11.2.1. indique le masculin et le neutre

12. la quantité et la qualité

12.1. jouent dans l’évaluation des résultats

13. Fréquence d'occurence

13.1. diffère d'un corpus à un autre

14. Corpus : Question de taille ?

14.1. Pas de corpus équilibrés de taille suffisante

14.2. Lexicographes et linguistes

14.2.1. Conscients des problèmes du manque de données

14.3. Estimer taille optimale

14.3.1. nombre de types

14.3.1.1. convergent

14.3.1.1.1. à partir d'une certaine taille

14.3.2. nombre de mots-formes

14.3.2.1. convergent

14.3.2.1.1. à partir d'une certaine taille

14.4. Analyse du DWDS-E

14.4.1. formes inintéressantes

14.4.1.1. chiffres

14.4.1.2. numéros de téléphone

14.4.1.3. dates

14.4.1.4. combinaisons particulières

14.4.1.5. noms propres de personnes et lieux

14.4.1.6. noms d'entreprises

14.4.2. formes analysables

14.4.2.1. mots-formes

14.4.3. lemmatisation

14.4.3.1. TAGH

14.4.3.1.1. analyseur morphosyntaxique

14.4.3.1.2. problème

14.4.4. lexèmes

14.4.4.1. sont répartis régulièrement