Create your own awesome maps

Even on the go

with our free apps for iPhone, iPad and Android

Get Started

Already have an account?
Log In

Informatisation de la documentation by Mind Map: Informatisation de la
documentation
5.0 stars - 1 reviews range from 0 to 5

Informatisation de la documentation

1947 - 1957

Contexte d'après guerre. VEILLE. Développement des sciences et techniques en documentation nécessite de nouveaux outils de recherche et entraîne, entre 1947 et 1957, un grand courant international de recherches thériques en recherche d'information et classification documentaire

Développement des sciences et techniques en documentation

Vannevar Bush, 1949

Les premiers ordinateurs

Veille stratégique (économie, politique) primordiale

Norbert Wiener, 1948

Thésaurus

Type de langage documentaire

Hélène - Louise Brownson

plusieurs y travaillent

Calvin N.Mooers

1948 : terme "descriptor"

1954 : notion "information retrieval"

TALN, 1954 et IA, 1956

"Historiquement, les premiers travaux importants dans le domaine du TALN ont porté sur la traduction automatique, avec, dès 1954, la mise au point du premier traducteur automatique (très rudimentaire). Quelques phrases russes, sélectionnées à l’avance, furent traduites automatiquement en anglais. Bien que le vocabulaire ne comptât que 250 mots et la grammaire 6 règles, cette expérience a déclenché de nombreux travaux dans ce domaine. C’est en effet l’époque où l’URSS remporte succès après succès dans la course à l’espace et où les militaires américains sont très désireux de suivre les publications techniques soviétiques, sans pour autant faire apprendre le russe à tous leurs ingénieurs."(...)"Zellig Harris publie ses travaux les plus importants de linguistique (linguistique distributionnaliste) entre 1951 et 1954. Il est suivi par N. Chomsky, qui publie en 1957 ses premiers travaux importants sur la syntaxe des langues naturelles, et sur les relations entre grammaires formelles et grammaires naturelles. Très schématiquement, la démarche de Chomsky est axée sur la volonté de formuler, à travers l’étude du langage, des hypothèses intéressantes sur la cognition. Le langage est une faculté à la fois universelle (tous les humains développent spontanément, pour peu que l’environnement s’y prête, un langage), et spécifique à l’espèce humaine (aucune espèce animal ne possède de système de communication comparable, dans sa richesse et dans sa complexitè, au langage humain). En conséquence, la mise à jour des propriétés que possèdent tous les langages humains est aussi un moyen de mettre en évidence certaines propriétés de l’appareillage cognitif universellement utilisé pour traiter le langage (la grammaire universelle). On peut également situer en 1956, à l’école d’été de Dartmouth, la naissance de l’intelligence artificielle. Posant comme conjecture que tout aspect de l’intelligence humaine peut être décrit de façon suffisamment précise pour qu’une machine le simule, les figures les plus marquantes de l’époque (John Mc Carthy, Marvin Minsky, Allan Newell, Herbert Simon) y discutent des possibilités de créer des programmes d’ordinateurs qui se comportent intelligemment, et en particulier qui soient capables d’utiliser le langage. Les élèves de Marvin Minsky, au MIT, développent divers systèmes (BASEBALL (1961), SIR (1964), STUDENT (1964), ELIZA (1966) ...) mettant en œuvre des mécanismes de traitement simples, à base de mots-clés. "François YVON dans : Une petite introduction au Traitement Automatique des Langues Naturelles (TALN), 2006 http://perso.limsi.fr/Individu/anne/coursM2R/intro.pdf

Zellig Harris (linguistique distributionnaliste) entre 1951 et 1954.

N. Chomsky, publie en 1957 ses premiers travaux importants sur la syntaxe des langues naturelles, et sur les relations entre grammaires formelles et grammaires naturelles.

#IA, 1956 école d'été de Dartmouth, John Mc Carthy, Marvin Minsky, Allan Newell, Herbert Simon

Décennie 60

Automatisation IR. Bibliométrie

Les systèmes documentaires, créés dans de très nombreux domaines scientifiques (chimie, médecine, énergie atomique, aéronautique…), font de plus en plus usage de la machine.

Le nombre d’articles publiés dans les revues de documentation passe de 300- 400 en 1960, à 700-800 dès 1961, et exactement 2157 en 1966 (Fondin)

Scientométrie

"La scientométrie est la science de la mesure et l'analyse de la science. Elle est souvent en partie liée avec la bibliométrie et peut être considérée à la fois comme une réduction et une extension de celle-ci. Réduction puisqu’elle n’applique les techniques bibliométriques qu’au champ des études de la science et de la technologie, en comptabilisant les publications scientifiques. Extension puisqu’elle n’analyse pas seulement les publications mais également des financements, ressources "Wikipedia umaines, brevets, etc.

Derek John Solla

Eugène Garfield, 1963, Index de citations (Citation indexes for science: a new dimension in documentation through association of ideas). #hypertexte

Prémices Intelligence artificielle #IA

Les élèves de Marvin Minsky, au MIT, développent divers systèmes (BASEBALL (1961), SIR (1964), STUDENT (1964), ELIZA (1966) ...) mettant en œuvre des mécanismes de traitement simples, à base de mots-clés. Leurs résultats, en particulier le comportement assez spectaculaire d’ELIZA, qui simule un dialogue entre un psychiatre et son patient, relancent les recherches sur la compréhension automatique du langage. La plupart de ces systèmes ne fonctionnent toutefois que dans des contextes de communica- tion extrêmement restreints, et, s’ils utilisent quelques formes grammaticales prédéfinies dans le traitement des phrases, se passent pratiquement de syntaxe et totalement de sémantique ou de pragmatique (tous ces concepts sont définis à la partie 0.2). Des réflexions importantes sur la représentation des connaissances voient aussi le jour, principalement à l’initiative de Ross Quillian, qui préconise l’utilisation de réseaux sémantiques pour représenter le sens des mots et des phrases en explicitant les relations des divers concepts entre eux grâce à des liens qui indiquent le sens des relations." François YVON dans : Une petite introduction au Traitement Automatique des Langues Naturelles (TALN), 2006 http://perso.limsi.fr/Individu/anne/coursM2R/intro.pdf

Élèves de Martin Minsky, au MIT (Massachusetts Institute of Technology)

Hypertexte

1960, Douglas Engelbart développe le premier véritable Hypertexte en utilisant l'informatique.

Invention du terme par Ted Nelson, 1965, dans le cadre de son projet de bibliothèque XANADU et de partages de données informatiques

1964, Paul Baran

Createur de la transmission par paquets + développe l'idée d'une architecture en réseaux informatiques distribués

ARPANET, 1969

#hypertexte #internet

Décennie 80

Dans les systèmes documentaires, les interfaces transforment la question en une équation de recherche qui va fouiller les fichiers inverses, après avoir consulté une base de connaissances constituée la plupart du temps d'un thésaurus. Elles affichent des documents et peuvent tirer parti du contenu de ceux qui sont jugés pertinents par l'utilisateur pour reformuler la question, comme le font DIALECT et SPIRIT. Elles exploitent donc la structure et le contenu habituels des banques de données. IOTA de Chiaramella et Defude modélise l'utilisateur, de même que IR-NLI II de Brajnik, Guida et Tasso. I3R de Croft et Thomson, prévoit sept systèmes experts. Pour les interfaces des bases de données relationnelles, on pense, entre autres, à TELI (Ballard, 1987) et à FIDO (Eugenio, 1987) et aux interfaces de la firme ERLI (Clemencin, 1988) et de Herman, Sabah et Vilnat (1988) pour l'interrogation des Pages jaunes en France. Elles peuvent avoir à générer une réponse en langue naturelle. Il en est de même des systèmes qui résument un ensemble d'informations textuelles sous forme d'une réponse synthétique (…)

Traitement langage naturel et systèmes à base de connaissance. Linguistique

Essor des techniques du traitement du langage naturel et des systèmes à base de connaissances : > questions en langage naturel > reconnaissance des racines, fonction de lemmatisation > repérage des syntagmes (mots composés) > reformulation automatique des concepts.

questions en langage naturel

reconnaissance des racines, fonction de lemmatisation

reformulation automatique des concepts

Apple, 1987 : logiciel Hypercard

#hypertexte

WWW, 1989

Invention du Word Wilde Web, système d'hypertexte public fonctionnant par le réseau Internet.

Tim Burners Lee #hypertexte

1957

Année charnière

Hans Peter Luhn

Considéré comme l'un des pères de l'informatique documentaire. Informaticien allemand qui a travaillé pour la société IBM.Hans Peter Luhn a déposé plus de 80 brevets

Formule de Luhn

Algorithme d'indexation de Luhn, indexation permutée, indexation automatique

méthode de concordance index KWIC (Key words in context)

résumé automatique

diffusion sélective de l'information

Noam Chomsky

Syntaxe langues naturelles

Décennie 70

1971, Michael HART, gutenberg program, livre numérique

Techniques automatiques RI (information retrieval). Mathématiques

Développement des techniques automatiques : Logiciels de traitements de texte, Ordinateurs => problématiques : - Indexation - recherche L'indexation et la recherche ont très rapidement évolué d'une modélisation booléenne de la recherche (un terme représente ou ne représente pas le document dans le cas de l'indexation, un document répond ou ne répond pas à la question).

indexation

recherche

modélisation booléenne

Modèle vectoriel

méthode algébrique de représentation d'un document visant à rendre compte de sémantique. = représentation mathématique du contenu d'un document, selon une approche algébrique

Gérard Salton, développement du SMART Information Retrieval System qu'il initia à l'Université Harvard

Modèle probabiliste de pertinence, 1976

Ex d'application actuelle : la méthode de pondération Okapi BM25

Robertson et Jones

#IA et TALN

"Terry Winograd, en réalisant en 1972 SHRDLU, le premier logiciel capable de dialoguer en anglais avec un robot, dans le cadre d’un micro-monde (quelques blocs de couleurs et de formes variées, posés sur une table), montre que les diverses sources de connaissances (à propos de la structure des phrases, de leur sens et de ce qu’elles désignent dans le monde) doivent et peuvent interagir avec les modules d’analyse et de raisonnement. Les années 70 voient ensuite le développement d’approches surtout sémantiques (Roger Schank, Yorick Wilks, ...), le rôle de la syntaxe étant pratiquement omis ou, tout du moins considéré comme secondaire. L’importance du contexte et le rôle essentiel d’une bonne connaissance du domaine traité pour comprendre un texte est ainsi mis en avant. On ne se limite plus au seul sens objectif et on remarque que la signification subjective dépend très étroitement d’informations implicites qui font partie des connaissances générales communes aux interlocuteurs. M. Minsky tente alors d’élaborer un cadre général de représentation des connaissances, les frames, alors que R. Schank s’efforce d’identifier clairement les diverses connaissances nécessaires dans un système interprétant le langage naturel. Les recherches ont alors cessé de se limiter à l’interprétation de phrases seules pour aborder le traitement d’unités plus importantes comme les récits et les dialogues. Parallèlement, les modèles syntaxiques connaissent en informatique des développement et des raffinements continus, et des algorithmes de plus en plus performants sont proposés pour analyser les grammaires les plus simples (grammaires régulières et algébriques). Depuis Chomsky, ces formalismes grammaticaux sont toutefois considérés comme trop simples pour modéliser correctement les phénomènes observés dans les langues naturelles. Ces développements des gramaires formelles sont donc largement sous-estimés, jusqu’à ce qu’au milieu des années 70, divers travaux théoriques, en particulier ceux de Ronald Kaplan et de Martin Kay, réhabilitent ces formalismes dans le cadre du traitement de la morphologie et de la phonologie des langues naturelles. Ces années voient également une recrudescence des travaux en syntaxe des langues naturelles, et à l’émergence de nouveaux formalismes de description grammaticale, qui étendent de manière informatiquement gérable les grammaires algébriques. Ce sont tout d’abord les réseaux de transition augmentés (abbréviation anglaise ATN), puis les grammaires d’unification, que nous étudierons plus en détail pendant les cours de syntaxe. Bien évidemment, et quelle que soit leur élégance, les propositions issues de l’intelligence artificielle jusqu’au début des années 80 ne permettent pas d’échapper à l’obligation d’affronter la complexité de la tâche de description préalable des connaissances sur la langue et sur le monde. C’est pourquoi une partie importante des travaux actuels vise à analyser et à formaliser des mécanismes d’acquisition automatique des connaissances, qui permettent d’extraire directement de lexiques ou de corpus de documents, des règles de grammaire, ou encore des connaissances sémantiques." François YVON dans : Une petite introduction au Traitement Automatique des Langues Naturelles (TALN), 2006 http://perso.limsi.fr/Individu/anne/coursM2R/intro.pdf

Terry Winograd, 1972

développement d’approches surtout sémantiques (Roger Schank, Yorick Wilks...)

Martin Minsky, les "frames"

75' :Ronan Caplan, Martin Kay : reprennent travaux formalismes gramaticaux désuets depuis chomsky

Extraction automatique

1975, début de Microsoft

Objectif 1 ordinateur par bureau

WorldCat, 1971

création par OCLC, fondé en 1967

FRANCE : SIC et RI

1974 : le bulletin signalétique 101 du CNRS...

1975 : 71e section, Meyrat, Barthes, Escarpit

1976 : revue Documentaliste...

ENSB > ENSSIB

Décennie 90

Informatique grand public

HTML Hypertext Markup Langage

L’Hypertext Markup Language, généralement abrégé HTML, est le format de données conçu pour représenter les pages web. C’est un langage de balisage permettant d’écrire de l’hypertexte, d’où son nom. HTML permet également de structurer sémantiquement et de mettre en forme le contenu des pages, d’inclure des ressources multimédias dont des images, des formulaires de saisie, et des programmes informatiques. Il permet de créer des documents interopérables avec des équipements très variés de manière conforme aux exigences de l’accessibilité du web. Il est souvent utilisé conjointement avec des langages de programmation (JavaScript) et des formats de présentation (feuilles de style en cascade). HTML est initialement dérivé du Standard Generalized Markup Language (SGML).https://fr.m.wikipedia.org/wiki/Hypertext_Markup_Language Le 31/01/2016

1989-1992 origines

1993: Apports de NCSA Mosaic, Insertion < Img> et saisie de données par internautes=> ecommerce

1994 : Apports de Netscape Navigator

Navigateurs

Mosaïc, 1993

Netscape, 1994

Universalis en CD-Rom, 1995

Le passage sur CD-Rom en 1995 permet d'avoir une recherche sur 200.000 liens crées par l'équipe rédactionnelle, ainsi que le texte intégral et la bibliographie.

200 000 liens

1995, Ward Cunningham : WIKI

1995, lancement Amazon

1996

40 à 60 millions d'internautes dans le monde

Google, 1998

Larry Page et Sergueï Brin

CCFr (1997-2000)

Décennie 2000

Redocumentarisation

Protocole OAI-PMH, 2001

OAI-PMH (Open Archives Initiatives – Protocolf for Metadata Harvesting)

Version définitive 2002

Laurence Lessig, 2001 créatives commons

2001, HAL : Archives ouvertes sciences de l'information et de la société

Créé en 2001 par le CNRS, Hyper articles en ligne (ou HAL) est une archive ouverte permettant aux chercheurs de déposer leurs articles et manuscrits dans une base à accès ouvert développée par le Centre pour la communication scientifique directe (CCSD) du CNRS. L'accès aux données est libre, mais pas nécessairement leur utilisation ou réutilisation.

2001, Wikipédia

encyclopédie collaborative

Projet d'encyclopédie universelle, multilingue (291 langues mi-2015), sous licence CC-BY-SA 3.0, créée par Jimmy Wales et Larry Sanger. En 2016, wikipédia c'est ...

Nouveaux modes d'accès aux écrits scientifiques en ligne

2004, Google scholar, Google books.

2005, Technorati, tracking sur blogs, Amazon et tags, Google Base, Yahoo achète Flickr puis del.icio.us

2005, Persée.fr (ministère de l'Éducation nationale, de l'Enseignement supérieur et de la Recherche )

2005, Cairn.info

Monde en réseaux

Blogs

Réseaux sociaux, Facebook Mark Zuckerberg, Création, 2004, Ouverture au monde, 2006, Applications tierces, 2007, Arrivée France, 2007, 2008, Le like, 2009 (2e fonctionnalité interactive après le poke, Twitter, Création 2006, Lancement France

J.M Salaün

O. Le Deuff : Folksonomies, les usagers indexent le Web, 2006

O. Ertzsheid, ” L’homme est un document comme les autres : du World Wide Web au World Life Web ”.2009, ERTZSCHEID, Olivier. Culture documentaire et folksonomie : l’indexation à l’heure industrielle et collaborative. Documentaliste-Sciences de l’information, 2010, vol. 47, n° 1, pp. 45-47

Archives à l'heure du numérique

Web sémantique, ontologiesi (depuis Tim Burner Lee 2001) 2001

Rose Dieng Kuntz #IA, Explication simple du Web semantique (web de données)

Fin XIXe et Première moitié du XXe siecle

Melvil Dewey, 1876, classification décimale

Naissance des langages documentaires

Paul Otlet et Henri La Fontaine, 1905, CDU et RBU

Paul Otlet est connu pour ses travaux en matière de bibliographie. Souhaitant établir un réseau et une coopération internationale entre les bibliothèques et les bibliothécaires, il crée, avec Henri La Fontaine, en 1895 l’Office international de bibliographie et met en place un « répertoire bibliographique universel » (RBU), rassemblant tous les ouvrages publiés dans le monde, quels que soient le sujet et l'époque. Cet Office vise également à faire reconnaître l'information comme discipline scientifique. Pour faciliter l'accès du « plus grand nombre » à l'information, il crée en 1905 le système de « classification décimale universelle » (CDU), ainsi que le standard de 125 x 75 mm des fiches bibliographiques, toujours en vigueur dans lesbibliothèques du monde entier. Il travaille aussi, avec La Fontaine, à l'établissement d'une Bibliographica sociologica, qui vise à répertorier l'ensemble des « faits » et des « écrits » concernant la société. En 1895, celle-ci comprend 400 000 notices. Dès 1909, conscient des transformations du livre et de la nécessité d'inclure tous les supports dans une recherche bibliographique, il publie La Fonction et les transformations du livre. https://fr.m.wikipedia.org/wiki/Paul_Otlet

1895 office interntional de bibliographie > RBU> 1910 Mondaneum Bruxelles > 1998 Mons

1933, Ranganathan, classification à facettes

En 1933, Ranganathan invente la classification à facettes appelée aussi Colon classification (qui entraîne plus tard, Cf Jean Aitchison, la création du thésaurus à facettes, thesaurofacettes ou Thesaurofacet).Wikipedia : https://fr.m.wikipedia.org/wiki/Histoire_du_thésaurus

Paul Otlet, 1934, Traité de la documentation, le livre sur le livre

Trouver des procédés nouveaux distincts de la bibliotéconomie

1936, la machine universelle de Turing #infographie #IA

Suzanne Briet

1934-51 salle des catalogues

1951, qu'est-ce que la documentation ?

1935 , IIB devient l’Institut International de Documentation

Objectif = réunir dans un fichier mondial les notices des ouvrages parus depuis la naissance de l’imprimerie

1943, Norbert Viener - Cybernétique

1943 : Parution du texte fondateur de la cybernétique, écrit en collaboration avec le physiologiste Arturo Rosenblueth et l’ingénieur Julian Bigelow : « Behaviour, Purpose and Teleology ».

Histoire de l'informatique

HG Wells, 1936 "Wrld Brain" #wikipedia

Grâce Hopper, notion de logiciel (compilateur)

Décennie 2010

Aaron Swartz, 2011 (suicide 2013)

"le militant américain pour la liberté de l’Internet Aaron Swartz fut inculpé pour avoir téléchargé et mis à disposition gratuitement un grand nombre d’articles depuis JSTOR. Il se suicide le 11 janvier 2013. En cas de condamnation, il encourait une peine d’emprisonnement pouvant atteindre 35 ans et une amende s’élevant jusqu’à 1 million de dollars." Wikipedia

Dans JDN en 2011 : Curation = "forme de e-documentaliste 2.0"

Appliqué à l'Internet, la curation consiste à collectionner, agencer et partager les contenus les plus intéressants (textes, images, vidéos, etc.) autour d'un même thème. Une forme de e-documentaliste 2.0.Dans JDN

Brigitte Simonnot, 2012

en 2012 “L’accès à l’information en ligne : moteurs, dispositifs et médiations” collection Systèmes d'information et organisations documentaires chez Lavoisier.

Data.bnf

Encyclopedie Universalis

2012 fin edition papier, 2014, dépôt de bilan Universalis

15ans de Wikipedia

180 000 documents inédits (NY public library)

Les réseaux sociaux

Facebook, 2011, les contenus deviennent hiérarchisés, 2012, Timeline, 2013, social graph, Les chiffres 2015, France

Twitter, Les chiffres 2015, Usagers, 2013, lancement VINE (40 millions d'usagers fin 2015)

2010, Instagram

2011, Snapchat Evan Spiegel

Les navigateurs en 2015

Google Chrome

Mozilla Firefox

Internet Explorer

Apple Safari

Opera

Microsoft edge

moteurs de recherche et solutions créatrices de nouvelles informations

Google, Mise à jour panda, pingouin, pigeon, Utilisé par plus de 9 internau tes sur 10 en France

Les alternatives

Framasoft degooglisons internet

Loi numérique, janvier 2016

L'étudiant : ce que le #PJLNumerique apporte à l'enseignement superieur et a la recherche

O. Ertzsheid. affordance.info : De la responsabilité du scientifique. Et du développeur.

INIST/CNRS : La place du libre access dans la loi

Conseil national du numerique, CNN se réjouit