QUELQUES PROBLÈMES OBSERVÉS DANS L'ÉLABORATION DE DICTIONNAIRES À PARTIR DE CORPUS

Get Started. It's Free
or sign up with your email address
Rocket clouds
QUELQUES PROBLÈMES OBSERVÉS DANS L'ÉLABORATION DE DICTIONNAIRES À PARTIR DE CORPUS by Mind Map: QUELQUES PROBLÈMES OBSERVÉS DANS L'ÉLABORATION DE DICTIONNAIRES À PARTIR DE CORPUS

1. 4. LES CORPUS: UNE QUESTION DE TAILLE ?

2. 1. CORPUS ET DICTIONNAIRES : UNE COMPARAISON QUANTITATIVE

2.1. Nombre d'entrées

2.1.1. Annoncées

2.2. Taille des corpus

2.2.1. tokens

2.2.2. Types

2.3. Première Génération

2.3.1. Corpus Brown&Limas

2.3.1.1. 50 000/110 000 types

2.3.1.2. 1 000 000 de tokens

2.3.2. Trop petits

2.3.2.1. Pas de compétition possible

2.3.2.2. Dictionnaire monolingue

2.4. BNC

2.4.1. Rapports s'inversent

2.5. DWDS

2.5.1. Corpus référence: Allemand

2.5.2. 2,2 millions de types

2.5.2.1. 7 fois plus que le plus grand dictionnaire monolingue

2.6. Faciliter la comparaison

2.6.1. Mot-forme

2.6.1.1. tokens analysables morphologiquement

2.6.2. Lexème

2.6.2.1. Groupe mots-formes

2.6.2.1.1. Distinction: Flexion

2.7. Analyse: DWDS-E

2.7.1. Pas candidats pour être une entrée

2.7.1.1. Mots-formes autres langues, chiffres...

2.7.1.2. Noms propres

2.7.2. Problème de transparence

2.7.2.1. Nombreux mots-composés

2.7.2.2. Point de vue lexicographique: intéressant?

2.7.3. Problème de rareté des occurences

3. Besseyre Marion & Demont Mylène

4. 2.CORPUS EQUILIBRES

4.1. Mots Simples ou Composés

4.1.1. Dictionnaires monolingues

4.1.1.1. Entrées non présentes: corpus

4.1.1.2. Pas de concordances: fiches Lexicographes

4.1.2. Comparaison Webster-BNC

4.1.2.1. Série de Mots: Webster

4.1.2.1.1. Non attestés: BNC

4.1.2.2. BNC

4.1.2.2.1. équilibré

4.1.2.2.2. représentatif

4.1.3. Comparaison: Langue Allemande contemporaine

4.1.3.1. Dictionnaire: WDG

4.1.3.1.1. Liste mots-formes DWDS

4.1.3.1.2. Certains: pas lexème dans corpus

4.1.3.1.3. Ces entrées: lacunes

4.1.4. Acceptations non attestées dans corpus

4.1.4.1. Mots réquents

4.1.5. Mots-composés

4.1.5.1. Manque d'attestations

4.2. Expressions Figées

4.2.1. But :

4.2.1.1. Description: accroissement du nombre d’occurrences des expressions figées

4.2.1.2. Taille minimale Corpus: base d'études solide

4.2.2. 46 expressions idiomatiques verbales

4.2.2.1. Hasard

4.2.2.2. Duden-11

4.2.2.2.1. dictionnaire d’expressions idiomatiques

4.2.3. Méthode: déduction courbe de croissance

4.2.3.1. DWDS-E

4.2.3.1.1. Fragmentation: 100 échantillons

4.2.3.2. procédures d’échantillonnage

4.2.4. Corpus équilibrés: trops petits

4.2.4.1. Basse: élaboration d'un dictionnaire

5. 3. CORPUS OPPORTUNISTES