QUELQUES PROBLÈMES OBSERVÉS DANS L'ÉLABORATION DE DICTIONNAIRES À PARTIR DE CORPUS

Lancez-Vous. C'est gratuit
ou s'inscrire avec votre adresse e-mail
QUELQUES PROBLÈMES OBSERVÉS DANS L'ÉLABORATION DE DICTIONNAIRES À PARTIR DE CORPUS par Mind Map: QUELQUES PROBLÈMES OBSERVÉS DANS L'ÉLABORATION DE DICTIONNAIRES À PARTIR DE CORPUS

1. 1. Corpus et dictionnaires, une comparaison quantitative

1.1. Dictionnaire

1.1.1. défini par nombre d'entrées

1.2. Corpus

1.2.1. défini par nombre de "tokens" et de "types"

1.2.1.1. Chaines de caractères séparées par des blancs ("tokens")

1.2.1.2. résultat d'un comptage informatique

1.2.1.3. Chaines de caractéres différentes ("types")

1.3. Terminologie pour la comparaison dico/corpus

1.3.1. mots-formes

1.3.1.1. "tokens" analysables morphologiquement

1.3.2. léxémes

1.3.2.1. formes regroupant des mots formes

1.4. Observation

1.4.1. l'augmentation du nombre de "tokens" entraine l'augmentation du nombre de "types"

1.5. Problèmes des corpus

1.5.1. mots composés transparents

1.5.1.1. exemple : "Tür"= porte

1.5.1.1.1. exemple: Badezeimmertür = inintéressant lexicographiquement

1.5.2. rareté des occurences

1.5.2.1. plus de la moitié des occurences n'apparaissent qu'une fois

1.5.2.2. non inclus dans dictionnaires

1.5.3. Données inutilisables

1.5.3.1. mots formes d'autres langues

1.5.3.2. chiffres, dates..

1.5.3.3. noms propres

1.6. Exemples

1.6.1. Corpus Brown

1.6.1.1. 1 million de "tokens"

1.6.1.2. 50000 "types"

1.6.2. Dictionnaire Littré

1.6.2.1. 80000 entrées

1.6.2.1.1. francais

1.6.3. Corpus DWDS

1.6.3.1. corpus de référence

1.6.3.2. 2,2 millions de types

1.6.3.2.1. allemand

1.6.3.3. 7 fois plus grand que le dictionnaire monolingue allemand

1.7. Conclusion

1.7.1. les grands corpus ont des lacunes lexicographiques ce qui donne des lacunes dans les dictionnaires

2. 4. Les corpus, une question de taille

2.1. Analyse morphologique de DWDS-E

2.1.1. mots formes

2.1.1.1. ininteressantes pour lanalyse

2.1.1.2. formes analysables

2.1.2. léxémes

2.1.2.1. analysés par le systéme TAGH

2.1.2.1.1. composé d'un dictionnaire de 2000000 racines lexicales

2.1.3. Quelques données

2.1.3.1. 6 des 8,9 millions de types du corpus peuvent être analysés

2.1.3.2. dont 3,9 millions de léxémes

2.1.3.3. 1,2 millions de "types" dans liste noire"

2.1.3.4. 1,7 m non catégorisé

2.1.4. problémes au niveau de la décomposition des mots composés

2.1.4.1. car sémantiquement opaques

2.1.4.2. aménent ambiguité

2.1.4.3. exemple: Telekommunikation

2.1.4.3.1. 4 découpages possibles

2.1.4.4. problèmes liés au contexte

2.1.4.4.1. exemple: "Ministern"

2.1.4.5. probléme quand différentes racines

2.1.4.5.1. exemple: Tropenholtheke

2.1.4.6. analyse par poid minimal avec TAGH

2.1.4.6.1. Les poids : définis en fonction des combinaisons de catégories lexicales

2.2. Problèmes

2.2.1. manque de données dans les corpus

2.2.1.1. Kennedy 1998 et Rundell 1996

2.2.2. trascription du langage parlé

2.2.2.1. trop couteux

2.3. Accroissement du vocabulaire

2.3.1. Ex: mot composé "Selbst" : "soi-même"

2.3.1.1. détermination de sa courbe de croissance

2.3.1.1.1. continu de croitre malgré la grande taille du corpus

2.3.1.2. dans Duden GWB

2.3.1.2.1. 244 entrées commencent par "Selbst"

2.3.1.3. dans DWDS-E

2.3.1.3.1. 10 934 types (7 180 lexèmes)

2.3.2. Corpus DWDS-E

2.3.2.1. Division en 100 échantillon de même taille

2.3.2.1.1. léxémes répartis réguliérement

2.3.3. L’accroissement résulte de la différence des lexèmes contenus dans les échantillons

2.3.3.1. choix d'un procédé itératif

2.3.3.1.1. On procéde en créant une union de deux échantillons, puis on obtient nouvel ensemble de mots,

2.3.3.1.2. répétition du procédé 25 fois en alternanant au hasard les échantillons

2.3.4. conclusion de l'analyse

2.3.4.1. l'accroissement devient moins fort au fur et à mesure qu'on ajoute des textes

2.3.4.2. 235000 racines différentes

2.3.4.3. un nouveau léxème tous les 400 mots

2.4. Conclusion:

2.4.1. la croissance continu même pour de très grands corpus

2.4.2. Objection: prendre en compte la particularité de la composition en allemand

3. 3. Corpus opportunistes et très grandes collections de texte

4. 2. Corpus équilibrés

5. Delpirou Samanta