Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus

Get Started. It's Free
or sign up with your email address
Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus by Mind Map: Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus

1. 4. corpus: question de taille ?

1.1. analyse morphologique (DWDS-E)

1.1.1. Mots-formes

1.1.1.1. liste de formes inintéressantes

1.1.1.1.1. liste "négative"

1.1.1.2. liste de formes analysables

1.1.1.2.1. liste "positive"

1.1.2. lemmatisation

1.1.2.1. système TAGH (Geyken & Hanneforth 2006)

1.1.2.1.1. analyseur morphologique basé sur des transducteurs à poids

1.1.2.1.2. composé d’un dictionnaire de plus de 200 000 racines lexicales

1.1.3. mots composés

1.1.3.1. problèmes pour décomposition

1.1.3.1.1. opacité

1.1.3.1.2. ambiguïté potentielle

1.1.3.2. notation TAGH: "#" pour délimiter 2 racines autonomes

1.2. approximation d'une fonction d'accroissement du vocabulaire

1.2.1. apparition de nouveaux lexèmes au fur et à mesure

1.2.2. résulte de la différence des lexèmes contenus dans les échantillons

1.2.3. lexèmes répartis très régulièrement dans chaque échantillon

1.2.4. accroissement devient plus modeste au fur et à mesure qu’on ajoute de nouveaux textes

2. Maëlle COUTY

3. 3. corpus opportuniste et très grandes collections de textes

3.1. lacunes des corpus électroniques équilibrés

3.1.1. collections de textes par maisons d'édition + institutions académiques

3.1.1.1. créations de corpus opportunistes

3.1.1.1.1. à partir de journaux électroniques

3.1.1.2. collections à partir de site web

3.2. déséquilibre des résultats lexicographiques: fréquence n'est plus un critère fiable

3.2.1. exemples

3.2.1.1. genre grammatical

3.2.1.1.1. corpus utilisés pour évaluer les informations morpho-syntaxiques contenues dans les dictionnaires

3.2.1.1.2. ex: mot blackout

3.2.1.2. archaïsme

3.2.1.2.1. souhait d'annoter ou d'éliminer les archaïsmes dans les dictionnaires

3.2.1.2.2. absence de données dans corpus ne veut pas dire absence dans la langue