QUELQUES PROBLEMES OBSERVES DANS L'ELABORATION DE DICTIONNAIRE A PARTIR DE CORPUS

Lancez-Vous. C'est gratuit
ou s'inscrire avec votre adresse e-mail
QUELQUES PROBLEMES OBSERVES DANS L'ELABORATION DE DICTIONNAIRE A PARTIR DE CORPUS par Mind Map: QUELQUES PROBLEMES OBSERVES DANS L'ELABORATION DE DICTIONNAIRE A PARTIR DE CORPUS

1. 1 : Corpus et dictionnaires une comparaison quantitative:

1.1. comparaison

1.1.1. dictionnaires

1.1.1.1. taille

1.1.1.1.1. nombre entrées annoncées

1.1.2. corpus

1.1.2.1. taille

1.1.2.1.1. nombre "tokens"

1.1.2.1.2. nombre "types"

1.2. notions

1.2.1. "types"

1.2.1.1. différents d'entrées

1.2.1.2. "tokens" différents

1.2.2. "tokens"

1.2.2.1. mot-forme

1.2.2.2. analysables morphomogiquement

1.2.3. lexèmes

1.2.3.1. formes regroupant mot-forme

1.2.3.2. distinction par flexion

1.2.4. "types"/"tokens"

1.2.4.1. chaînes caractères séparées par blancs

1.2.4.1.1. résultat comptage informatique

1.3. corpus

1.3.1. 1ère génération

1.3.1.1. ex : Corpus Brown ou corpus LIMAS

1.3.1.1.1. 1 millions "tokens"

1.3.1.2. trop petits

1.3.1.2.1. entrer en compétition

1.3.1.3. nombre "types"

1.3.1.3.1. pas comparables

1.3.2. BNC

1.3.2.1. 650 000 "types"

1.3.2.1.1. plus entrées que OED

1.3.3. exemples

1.3.3.1. corpus DWDS

1.3.3.1.1. corpus référence

1.3.3.1.2. XXème siècle

1.3.3.1.3. 2.2millions "types"

1.3.3.2. corpus DWSD-E

1.3.3.2.1. textes journaux grands quotidiens, hebdomadaires nationaux

1.3.3.2.2. Académie Sciences

1.3.3.2.3. 9 millions "types"

1.3.3.2.4. mots-formes

1.3.4. corpus allemands

1.3.4.1. plus "types"

1.3.4.1.1. corpus anglais

1.3.4.2. phénomène composition

1.4. problèmes comparaions

1.4.1. noms propres

1.4.1.1. pas candidats dictionnaire

1.4.2. mots composés

1.4.2.1. transparence sémantique

1.4.2.1.1. pas dicitonnaires

1.4.3. rareté occurences

1.4.4. loi de Zipf

1.4.4.1. mots-formes

1.4.4.1.1. faible occurence

1.4.5. dictionnaire langue générale

1.4.5.1. entrées types

1.4.5.1.1. attestés + 10 fois corpus

2. Autres parties

2.1. corpus équilibrés

2.2. les corpus une question de taille?

3. 3. Corpus opportunistes et très grandes collections de textes

3.1. lacunes corpus électroniques équilibrés

3.1.1. grandes collections textes

3.1.1.1. maisons d'édition, institutions académiques,

3.1.1.2. dépassement par taille

3.1.1.2.1. BNC

3.1.1.3. corpus opportunistes

3.1.1.3.1. exemples

3.1.1.3.2. composition

3.1.1.4. à partir Web

3.1.1.4.1. plusieurs langues

3.1.1.4.2. pas réellement corpus

3.1.1.4.3. compilation

3.1.1.5. utilité

3.1.1.5.1. attestation

3.2. genre grammatical

3.2.1. corpus pour évaluation

3.2.1.1. informations morphosyntaxiques dans dictionnaires

3.2.1.1.1. informations fréquence

3.2.1.2. qualité et quantité corpus

3.2.1.2.1. rôle important

3.2.1.3. exemple

3.2.1.3.1. étude nom Blackout

3.3. archaïsmes

3.3.1. utilisations corpus

3.3.1.1. annoter

3.3.1.2. éliminer

3.3.2. attention

3.3.2.1. utiliser manque données pour dire que c'est un archaïsme

3.4. défaut d'"équilibre"=fréquence touchée=pas critère fiable