Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus

Iniziamo. È gratuito!
o registrati con il tuo indirizzo email
Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus da Mind Map: Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus

1. 4. corpus: question de taille ?

1.1. analyse morphologique (DWDS-E)

1.1.1. Mots-formes

1.1.1.1. liste de formes inintéressantes

1.1.1.1.1. liste "négative"

1.1.1.2. liste de formes analysables

1.1.1.2.1. liste "positive"

1.1.2. lemmatisation

1.1.2.1. système TAGH (Geyken & Hanneforth 2006)

1.1.2.1.1. analyseur morphologique basé sur des transducteurs à poids

1.1.2.1.2. composé d’un dictionnaire de plus de 200 000 racines lexicales

1.1.3. mots composés

1.1.3.1. problèmes pour décomposition

1.1.3.1.1. opacité

1.1.3.1.2. ambiguïté potentielle

1.1.3.2. notation TAGH: "#" pour délimiter 2 racines autonomes

1.2. approximation d'une fonction d'accroissement du vocabulaire

1.2.1. apparition de nouveaux lexèmes au fur et à mesure

1.2.2. résulte de la différence des lexèmes contenus dans les échantillons

1.2.3. lexèmes répartis très régulièrement dans chaque échantillon

1.2.4. accroissement devient plus modeste au fur et à mesure qu’on ajoute de nouveaux textes

2. Maëlle COUTY

3. 3. corpus opportuniste et très grandes collections de textes

3.1. lacunes des corpus électroniques équilibrés

3.1.1. collections de textes par maisons d'édition + institutions académiques

3.1.1.1. créations de corpus opportunistes

3.1.1.1.1. à partir de journaux électroniques

3.1.1.2. collections à partir de site web

3.2. déséquilibre des résultats lexicographiques: fréquence n'est plus un critère fiable

3.2.1. exemples

3.2.1.1. genre grammatical

3.2.1.1.1. corpus utilisés pour évaluer les informations morpho-syntaxiques contenues dans les dictionnaires

3.2.1.1.2. ex: mot blackout

3.2.1.2. archaïsme

3.2.1.2.1. souhait d'annoter ou d'éliminer les archaïsmes dans les dictionnaires

3.2.1.2.2. absence de données dans corpus ne veut pas dire absence dans la langue