Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus

Commencez. C'est gratuit
ou s'inscrire avec votre adresse courriel
Rocket clouds
Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus par Mind Map: Quelques problèmes observés dans l'élaboration de dictionnaires à partir de corpus

1. Héloïse DENIS

2. 1: CORPUS & DICTIONNAIRES : UNE COMPARAISON QUANTITATIVE

2.1. comparaison entre

2.1.1. taille des dictionnaires

2.1.1.1. nombre d'entrées

2.1.2. taille des corpus

2.1.2.1. nombre de tokens

2.1.2.2. nombre de types

2.2. corpus de "1ère génération"

2.2.1. trop petits pour entrer en compétition avec un grand dictionnaire monolingue

2.2.1.1. mais rapports de grandeur s'inversent

2.2.1.1.1. nombre de types du BNC dépasse nombre d'entrées du OED

2.2.1.1.2. le corpus DWDS dépasse de + de 7 fois le nombre d'entrées du DWB

2.2.1.1.3. Le nombre de types du DWDS étendu est 30 fois + grand que le nombre d'entrées du DWB

2.3. Pour faciliter la comparaison

2.3.1. mot-forme

2.3.1.1. tokens analysables morphologiquement

2.3.2. lexème

2.3.2.1. mots-formes qui se distinguent par leur flexion

2.4. problèmes des corpus

2.4.1. pb des mots composés transparents

2.4.1.1. transparence sémantique donc apparaissent comme inintéressants

2.4.2. pb de la rareté des occurrences

2.4.2.1. les mots-formes qui ont un faible nb d'occurrences ne doivent pas être pris en compte dans l'élaboration du dictionnaire

2.5. Conclusion

2.5.1. Des grands corpus révèlent des lacunes lexicographiques dans les dictionnaires

3. 2: CORPUS ÉQUILIBRÉS

3.1. Mots simples ou composés

3.1.1. Dictionnaires monolingues

3.1.1.1. entrées non présentes dans les corpus

3.1.1.2. pas de concordance avec les fiches d'exples attestés par les lexicographes

3.1.2. Comparaison Webster et BNC

3.1.2.1. Série de mots présents dans le Webster

3.1.2.1.1. non attestés dans le BNC

3.1.3. Comparaison WDG et DWDS

3.1.3.1. une centaine d'entrées non présentes en tant que lexème dans le corpus

3.1.3.1.1. entrées = lacunes systématiques du corpus

3.1.4. Acceptions dans dictionnaires non attestées dans les corpus

3.1.5. Mots-composés

3.1.5.1. manque d’attestations dans le corpus

3.2. Expressions figées

3.2.1. étude

3.2.1.1. répartition & nombre d’occurrences de certaines expressions figées dans le DWDS-E

3.2.2. but

3.2.2.1. décrire accroissement du nb d’occurrences des expressions figées

3.2.2.2. taille minimale d'un corpus : base d’études solide sur les expressions figées

3.2.3. méthode

3.2.3.1. Duden-11

3.2.3.1.1. 46 expressions idiomatiques verbales au hasard

3.2.3.2. échantillonnage

3.2.3.2.1. DWDS-E fragmenté en 100 échantillons de 10 millions de tokens

3.2.4. Résultats

3.2.4.1. croissance d'apparition des expressions figées régulière

3.2.4.1.1. procédure d'échantillonnage correcte

3.2.4.2. corpus de 100 millions de tokens (BNC par exple)

3.2.4.2.1. insuffisant pour servir de base à une description lexicographique des expressions figées

3.2.4.2.2. recherche de variantes lexicales ou syntaxiques = impossible

3.2.5. Conclusion

3.2.5.1. corpus équilibrés = trop petits pour servir de base à l'élaboration d'un grand dictionnaire monolingue

4. 3: CORPUS OPPORTUNISTES ET TRÈS GRANDES COLLECTIONS DE TEXTES

5. 4: LES CORPUS : UNE QUESTION DE TAILLE ?