Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus - A. Geyken

Get Started. It's Free
or sign up with your email address
Rocket clouds
Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus - A. Geyken by Mind Map: Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus - A. Geyken

1. 2 présupposés sous-jacents à la représentativité d'un corpus

1.1. si une expression fait partie de la langue, elle doit apparaître dans le corpus

1.1.1. si l'expression n'apparait pas, elle n'existe pas ou n'est pas importante

1.2. la fréquence d'une expression dans le corpus est le reflet de sa fréquence dans la langue

2. Définition

2.1. Corpus

2.1.1. collection de données langagières sélectionnées et organisées selon des critères linguistiques (richesse du vocabulaire ou variabilité syntaxique) et extralinguistiques (ex : choix des types de textes constituant le corpus) explicites qui servent d'échantillons d'emplois déterminés d'une langue

2.1.2. problème : impossible de mesurer ou de vérifier qu'un corpus est représentatif

2.1.2.1. alors on affaiblit la contrainte de la représentativité et on la remplace par la notion d'équilibrage par rapport aux types de textes

2.1.2.1.1. exemple : British National Corpus (BNC) => les types de textes les + importants y sont représentés de manière équilibrée

3. La fréquence d'une expression dans le corpus devrait indiquer un rapport à l'usage

3.1. + expression fréquente + elle est usuelle et inversement

4. Les corpus actuels fournissent-ils une base empirique suffisante en ce qui concernent ces présupposés ?

5. Dictionnaires et corpus : comparaison quantitative

5.1. - taille des dictionnaires caractérisée par le nombre d'entrées

5.2. - taille des corpus caractérisée par le nombre de :

5.2.1. tokens = chaînes de caractères entre 2 blancs (= graphies)

5.2.2. types = les tokens différents dans le corpus (= formes)

5.2.3. tokens et types : nombres résultant d'un comptage informatique

5.3. => corpus trop petits pour pouvoir entrer en composition avec un grand dictionnaire monolingue

5.3.1. corpus Brown (anglais) 50 000 types

5.3.1.1. dictionnaire OED (anglais) 500 000 entrées

5.3.2. corpus Lima (allemand) 110 000 types

5.3.2.1. dictionnaire DWB (allemand) 297 000 entrées

5.3.3. cependant corpus BNC (anglais) 650 000 types

5.3.3.1. + grand que OED

5.3.4. cependant corpus DWDS (allemand) 2,2 millions types

5.3.4.1. 7 fois + grand que DWB

5.4. utilisation des termes : mot-forme et lexème

5.4.1. pour faciliter la comparaison entre dictionnaires et corpus

5.4.2. mot-forme = token analysable morphologiquement

5.4.3. lexème = forme regroupant des mots-formes qui ne se distinguent que par leur flexion

5.5. corpus DWDS contient

5.5.1. mots-formes, mots-formes d'autres langues, chiffres, dates, noms propres, mots composés (avec des composés transparents considérés inintéressants)

5.5.1.1. pas tous candidats à constituer une entrée d'un dictionnaire de la langue générale

5.5.1.1.1. une fois ces formes éliminées, le corpus comporte t-il encore du matériel intéressant d'un point de vue lexicographiques ?

6. Corpus équilibrés

6.1. - mots simples ou composés

6.1.1. on peut trouver dans les dictionnaires des acceptions qui ne sont pas attestées et qui n'apparaissent pas dans les corpus (même pour des mots fréquents)

6.1.1.1. exemples :

6.1.1.1.1. dictionnaire anglais Webster avec "aspheric" non attesté dans corpus BNC

6.1.1.1.2. dictionnaire allemand WDG avec "puthenne" avec ses variantes non attesté dans corpus DWDS

6.1.1.2. phénomène + flagrant avec les mots composés

6.2. - expressions figées

6.2.1. un corpus de 1 millions de tokens (BNC) pas suffisant pour pouvoir servir de base pour des études sur des expressions figées

6.2.1.1. les expressions figées très fréquentes auraient en moyenne 20 attestations

6.2.1.2. les expressions figées moyennement fréquentes ne seraient attestées que 2 à 10 fois

6.2.1.3. presque la moitié des expressions n'apparait pas (recherche des variantes lexicales ou syntaxiques impossibles)

6.3. => corpus équilibrés trop petits pour pouvoir servir de base à l'élaboration d'un grand dictionnaire monolingue

6.3.1. Hausser : "les corpus n'ont pas la taille suffisante pour contenir tous les mots décrits dans les grands dictionnaires monolingues"

6.4. exemples de corpus équilibrés :

6.4.1. BNC (anglais)

6.4.2. DWDS (allemand)

7. Corpus opportunistes et très grandes collections de textes

7.1. grandes maisons d'éditions et certaines institutions académiques constituent des grandes collections de textes

7.1.1. qui peuvent dépasser en taille de grands corpus

7.2. corpus opportunistes = corpus où les textes choisis ne sont pas proportionnels à leurs usages dans chaque langue (à partir du Web)

7.2.1. des textes pas choisis au hasard, souvent publiés dans des journaux sous forme électronique

7.2.1.1. le nombre d'entrées de dictionnaires qui n'apparaissent pas en tant que mot-forme dans un corpus diminue davantage avec des corpus encore + grands

7.3. exemples de corpus opportunistes :

7.3.1. DWDS E

7.3.2. IDS

7.3.3. Bank of English (Collins & Université de Birmingham) 1991

7.3.3.1. textes écrits, transcriptions de langue orale

7.3.3.1.1. 2006 : 524 millions de tokens et ça continue de croître

7.4. - le genre grammatical

7.4.1. corpus utilisés pour évaluer les info morphosyntaxiques contenues dans les dictionnaires

7.4.2. on ne peut ni comparer la taille, le contenu de ces collections de texte mais leur fréquence devrait donner des info quant à la distribution de genres grammaticaux des anglicismes

7.4.3. la fréquence d'occurrences d'un terme diffère d'un corpus à l'autre

7.4.3.1. exemple avec "blackout" (terme masculin?)

7.4.3.1.1. - le corpus de 2 milliards de mots (IDS) contient 54 occurrences

7.4.3.1.2. - le corpus de 1 milliard de mots (DWDS E) en contient 86

7.4.3.2. la comparaison des corpus DWDS (corpus équilibré), DWDS E et IDS montre que la quantité et la qualité des corpus jouent un rôle important dans l'évaluation de résultats

7.5. - les archaïsmes (termes obsolètes)

7.5.1. utiliser les corpus pour découvrir les archaïsmes dans les dictionnaires afin de les annoter ou des les éliminer lors de la mise à joue

8. Question de taille ?

8.1. problèmes dus au fait qu'il n'existe pas de corpus équilibrés de taille suffisante ?

8.1.1. lexicographes et linguistes conscients (Kennedy, Michael Rundell) du manque de données dans les corpus

8.2. problèmes : pratiques liés à la construction de tels corpus/ coûteux de produire suffisamment de transcriptions de langage parlé/ croissance du vocabulaire

8.3. DWDS E la forme du vocabulaire en 2 étapes :

8.3.1. - identifier les mots-formes et les lexèmes dans le corpus à l'aide d'un analyseur morphologique (ex : TAGH)

8.3.2. - employer des méthodes statistiques pour approuver une fonction de croissance

8.4. - analyse morphologique

8.4.1. analyser 9 millions de types du DWDS E divisés en 2 listes

8.4.1.1. - liste de formes inintéressantes pour analyse de vocabulaires (chiffres, numéros de téléphones, dates, combinaisons particulières, noms propres, de lieux, de marques ...)

8.4.1.2. - liste de forme analysable par une analyse morphologique (mots-formes)

8.4.2. en allemand mot composé sans introduction d'espace entre lexèmes

8.4.2.1. analyseur morphologique TAGH décompose ces lexèmes, lemmatisation des formes

8.5. - approximation d'une fonction d'accroissement du vocabulaire

8.5.1. apparition de nouveaux lexèmes au fur et à mesure qu'on progresse dans la lecture du corpus (et avec l'ajout de textes)

8.5.2. comment mesurer cette accroissement ?

8.5.2.1. démarche statistique fondée en partageant le corpus par exemple DWDS E en 100 échantillons de même taille, soit 10 millions de mots consécutifs en respectant pour chaque échantillon la répartition de l'ensemble du corpus

8.5.2.1.1. chaque échantillon compte nombre de lexèmes à l'aide du système morphologique TAGH

8.5.2.1.2. l'accroissement résulte de la différence des lexèmes contenus dans les échantillons

8.5.2.1.3. prendre l'union de 2 échantillons, on obtient un nouvel ensemble de mots qui sera de nouveau comparé au autres échantillons de mots et formera un ensemble de différences

9. REDJDAL Ornella L3 SDL