QUELQUES PROBLÈMES OBSERVÉS DANS L'ÉLABORATION DE DICTIONNAIRES À PARTIR DE CORPUS Alexander Geyken

Lancez-Vous. C'est gratuit
ou s'inscrire avec votre adresse e-mail
QUELQUES PROBLÈMES OBSERVÉS DANS L'ÉLABORATION DE DICTIONNAIRES À PARTIR DE CORPUS Alexander Geyken par Mind Map: QUELQUES PROBLÈMES OBSERVÉS DANS L'ÉLABORATION DE DICTIONNAIRES À PARTIR DE CORPUS Alexander Geyken

1. Section 3 - Corpus opportunistes et très grandes collections de textes

1.1. Grandes bases de journaux sous formes électroniques = création de corpus de taille supérieure

1.1.1. Avantage : problème de la rareté des données disparaît

1.1.2. Inconvénient : critère de fréquence devient peu fiable

1.1.2.1. Le genre grammatical

1.1.2.1.1. Blackout

1.1.2.1.2. Fréquence d'occurrences diffère

1.1.2.2. Les archaïsmes

1.1.2.2.1. but : les identifier pour les annoter voire éliminer dans les dictionnaires

1.1.2.2.2. projet LexiView

1.1.3. Exemples

1.1.3.1. Bank of English par Collins et l'Université de Birmingham (1991) : 524 millions de tokens

1.1.3.2. DWDS-E : 1 milliard de mots

1.1.3.2.1. en comparaison avec le DWDS : lacunes moindres

1.1.3.3. "Le corpus de la langue écrite" de l'Institut de la langue allemande : 2 milliards de mots

2. Section 2 - Corpus équilibrés

2.1. Phénomènes linguistiques non présents dans les grands corpus équilibrés.

2.1.1. Mots simples ou composés

2.1.1.1. allemand : une centaine d'entrées ne sont pas présentes en tant que lexème dans le corpus.

2.1.1.1.1. mots du langage enfantin

2.1.1.1.2. variantes régionales

2.1.1.1.3. mots de domaines de connaissances particuliers

2.1.1.2. présence d'acceptions dans le dictionnaire non attestées dans le corpus

2.1.1.2.1. dope avec un emploi adjectival

2.1.1.3. mots composés : manque flagrant d'attestations dans le corpus (corpus peu significatif de part sa taille)

2.1.2. Expressions figées

2.1.2.1. étude de leur répartition et de leur nombre dans le DWDS-E

2.1.2.2. choix de 46 expressions idiomatiques verbales au hasard

2.1.2.3. fragmentation du corpus en 100 échantillons avec chacun 10 millions de tokens

2.1.2.4. calcul de fréquence de chaque expression dans chacun des échantillons

2.1.2.5. obtention de la croissance d'apparition des expressions figées avec union des échantillons

2.1.2.6. Conclusion de l'étude : 7/46 des expressions n'apparaissent pas.

2.1.2.6.1. La taille du corpus est insuffisante

2.2. Comparaison Webster vs. BNC

2.2.1. Webster : dictionnaire anglais

2.2.2. BNC : British National Corpus - corpus équilibré et représentatif

2.3. Comparaison WDG vs. DWDS(-E)

2.3.1. WDG : Wörterbuch der Gegenwartssprache : dictionnaire allemand

2.3.2. DWDS : corpus équilibré + DWDS-E (étendu)