QUELQUES PROBLEMES OBSERVES DANS L'ELABORATION DE DICTIONNAIRE A PARTIR DE CORPUS

Get Started. It's Free
or sign up with your email address
Rocket clouds
QUELQUES PROBLEMES OBSERVES DANS L'ELABORATION DE DICTIONNAIRE A PARTIR DE CORPUS by Mind Map: QUELQUES PROBLEMES OBSERVES DANS L'ELABORATION DE DICTIONNAIRE A PARTIR DE CORPUS

1. 3. Corpus opportunistes et très grandes collections de textes

1.1. lacunes corpus électroniques équilibrés

1.1.1. grandes collections textes

1.1.1.1. maisons d'édition, institutions académiques,

1.1.1.2. dépassement par taille

1.1.1.2.1. BNC

1.1.1.3. corpus opportunistes

1.1.1.3.1. exemples

1.1.1.3.2. composition

1.1.1.4. à partir Web

1.1.1.4.1. plusieurs langues

1.1.1.4.2. pas réellement corpus

1.1.1.4.3. compilation

1.1.1.5. utilité

1.1.1.5.1. attestation

1.2. genre grammatical

1.2.1. corpus pour évaluation

1.2.1.1. informations morphosyntaxiques dans dictionnaires

1.2.1.1.1. informations fréquence

1.2.1.2. qualité et quantité corpus

1.2.1.2.1. rôle important

1.2.1.3. exemple

1.2.1.3.1. étude nom Blackout

1.3. archaïsmes

1.3.1. utilisations corpus

1.3.1.1. annoter

1.3.1.2. éliminer

1.3.2. attention

1.3.2.1. utiliser manque données pour dire que c'est un archaïsme

1.4. défaut d'"équilibre"=fréquence touchée=pas critère fiable

2. 1 : Corpus et dictionnaires une comparaison quantitative:

2.1. comparaison

2.1.1. dictionnaires

2.1.1.1. taille

2.1.1.1.1. nombre entrées annoncées

2.1.2. corpus

2.1.2.1. taille

2.1.2.1.1. nombre "tokens"

2.1.2.1.2. nombre "types"

2.2. notions

2.2.1. "types"

2.2.1.1. différents d'entrées

2.2.1.2. "tokens" différents

2.2.2. "tokens"

2.2.2.1. mot-forme

2.2.2.2. analysables morphomogiquement

2.2.3. lexèmes

2.2.3.1. formes regroupant mot-forme

2.2.3.2. distinction par flexion

2.2.4. "types"/"tokens"

2.2.4.1. chaînes caractères séparées par blancs

2.2.4.1.1. résultat comptage informatique

2.3. corpus

2.3.1. 1ère génération

2.3.1.1. ex : Corpus Brown ou corpus LIMAS

2.3.1.1.1. 1 millions "tokens"

2.3.1.2. trop petits

2.3.1.2.1. entrer en compétition

2.3.1.3. nombre "types"

2.3.1.3.1. pas comparables

2.3.2. BNC

2.3.2.1. 650 000 "types"

2.3.2.1.1. plus entrées que OED

2.3.3. exemples

2.3.3.1. corpus DWDS

2.3.3.1.1. corpus référence

2.3.3.1.2. XXème siècle

2.3.3.1.3. 2.2millions "types"

2.3.3.2. corpus DWSD-E

2.3.3.2.1. textes journaux grands quotidiens, hebdomadaires nationaux

2.3.3.2.2. Académie Sciences

2.3.3.2.3. 9 millions "types"

2.3.3.2.4. mots-formes

2.3.4. corpus allemands

2.3.4.1. plus "types"

2.3.4.1.1. corpus anglais

2.3.4.2. phénomène composition

2.4. problèmes comparaions

2.4.1. noms propres

2.4.1.1. pas candidats dictionnaire

2.4.2. mots composés

2.4.2.1. transparence sémantique

2.4.2.1.1. pas dicitonnaires

2.4.3. rareté occurences

2.4.4. loi de Zipf

2.4.4.1. mots-formes

2.4.4.1.1. faible occurence

2.4.5. dictionnaire langue générale

2.4.5.1. entrées types

2.4.5.1.1. attestés + 10 fois corpus

3. Autres parties

3.1. corpus équilibrés

3.2. les corpus une question de taille?