
1. la recherche d'intérêts similaires parmi les utilisateurs du Web est de découvrir des
2. fouille de données et fouille du web
2.1. Caractéristiques des données Web
2.1.1. La taille énorme
2.1.2. L’hétérogénéité
2.1.3. La distribution
2.1.4. La non structuration
2.1.5. La dynamicité
2.2. Data Mining
2.2.1. Le DM est un processus non trivial d’extraction, à partir de gros ensembles de données
2.2.1.1. l’information valide
2.2.1.2. compréhensible
2.2.1.3. préalablement inconnue et potentiellement utile pour l’utilisateur
2.3. Web mining
2.3.1. La fouille du Web est l'application de techniques de la fouille de données pour découvrir des modèles à partir du Web. Selon les objectifs d'analyse, le Web Mining pourrait être classé entrois catégories
2.3.2. Les catégories du Web mining
2.3.2.1. contenu
2.3.2.1.1. text
2.3.2.1.2. image
2.3.2.1.3. audio
2.3.2.1.4. video
2.3.2.1.5. enregistrements
2.3.2.2. structure
2.3.2.2.1. Lien hypertexts
2.3.2.2.2. Structure des documents
2.3.2.3. usage
2.3.2.3.1. Logs
2.4. Tâches du Data Mining
2.4.1. Supervised learning
2.4.1.1. La classification
2.4.1.2. L’estimation (regression)
2.4.1.3. Extraction des règles d’association
2.4.2. unsupervised learning
2.4.2.1. La Segment (clustering)
2.4.2.1.1. le partitionnement d’un ensemble d’entités en un ensemble de sousgroupe ou «clusters » plus homogènes.
2.4.2.2. Les motifs séquentiels
2.4.2.2.1. le temps qui sépare les événements entre eux et qui donne un aspect séquentiel aux informations contenues dans la base de données
2.5. Les étapes d’application de data minig
2.5.1. Compréhension du domaine d’application
2.5.2. Préparation des données
2.5.2.1. Recueil de données
2.5.2.2. Nettoyage
2.5.2.3. Intégration
2.5.2.4. Sélection
2.5.2.5. Transformation
2.5.3. Fouille de données
2.5.3.1. Définition des taches
2.5.3.2. Choix des algorithmes
2.5.3.3. Fouille
2.5.4. Analyse des résultats
2.5.4.1. Présentation et interprétation des Formes extraites
2.5.4.2. Évaluation et validation
2.5.5. Exploitation des résultats
3. connaissances à partir du profil de l'utilisateur
4. modèlisation des données web
4.1. la matrice
4.2. le graphe orienté et non orienté
5. similarite
5.1. la similarité des attributs
5.1.1. indépendamment de la topologie du réseau
5.2. la similitude structurelle
5.2.1. calculée en se basant sur de la topologie du réseau
5.2.1.1. la distance entre deux nœuds
5.2.1.2. les chemins locaux
5.2.1.3. le nombre de voisins que deux nœuds ont en commun
5.3. Exemples de Similarité
5.3.1. L’indice de Jaccard (1901)
5.3.2. L’indice de cosinus (Salton & McGill, 1983)
6. communauté web
6.1. Une communauté web est un ensemble de pages web qui fournissent des ressources sur un sujet spécifique. Intuitivement, une communauté est simplement un groupe d'entités (par exemple, des personnes ou des organisations)
6.2. pourquoi on s’intéresse par la découverte de ces communautés
6.2.1. Les communautés fournissent des ressources d'information précieuses et actualisées à un utilisateur
6.2.2. comprendre l'évolution du Web
6.2.3. Les communautés permettent de cibler la publicité à un niveau très précis
6.3. Méthodes pour la détection de communauté
6.3.1. partitionnement de graphes
6.3.2. Les algorithmes de classification hiérarchique
6.3.3. Les méthodes basées sur l'optimisation
6.3.4. Autre méthodes comme LPA RW
6.3.4.1. The label propagation algorithm LPA
6.3.4.1.1. 1. Initialize the unique label for each node in the network.
6.3.4.1.2. 2. Arrange the nodes of the network in random order.
6.3.4.1.3. 3. For each node x ∈X, iteratively update the node label so that each node takes the label that is carried by the largest number of its adjacent nodes.
6.3.4.1.4. 4. If the label of each node is the same as that of most of its neighboring nodes, then the nodes with the same label are placed in the same community, and the algorithm ends; otherwise, go to step(2)
7. réseaux sociaux
7.1. La composante principale du Web 2.0 est constituée de communautés Web et de services hébergés
7.2. décentralisation de l’autorité et de libertéde partage et d’autogestion
7.3. Analyse des réseaux sociaux (SNA)
7.3.1. Le Web peut être considéré comme une société
7.3.2. chaque page peut être considérée comme un acteur social
7.3.3. chaque lien hypertexte comme une relation
7.3.4. mis en œuvre de SNA
7.3.4.1. la visualisation (sociogrammes)
7.3.4.2. l'analyse mathématique (théorie des graphes).
7.4. Certaines notions
7.4.1. Taille
7.4.2. La densité
7.4.3. communauté
7.4.4. La centralité
8. contenu web
8.1. modèle d’espace vectoriel
8.1.1. La représentation booléenne
8.1.2. La fréquence des termes noté tf t,d
8.1.3. La Fréquence relative:Nombre d’occurrences/Nombre de mots
8.2. Schéma de pondération des fréquences des termes
8.2.1. Pondération tf_idf t,d = tf t,d × idf t donner plus de poids aux termes rares
8.2.1.1. idf t = log(N/dft)
8.2.1.2. df t : la fréquence des documents
8.3. recherche d’information et évaluation des performances
8.3.1. recherche d information
8.3.1.1. La plupart des systèmes de RI calculent un score numérique sur la façon dont chaque objet de la base de données correspond à la requête, et classent les objets en fonction de cette valeur
8.3.1.2. recherche Web
8.3.1.2.1. Parsing: Analyse syntaxique
8.3.1.2.2. Indexing
8.3.1.2.3. Searching and Ranking
8.3.2. evaluation des performances
8.3.2.1. F-measure
8.3.2.1.1. F= 2 · precision · recall / precision + recall
8.4. Prétraitement du texte et des pages Web
8.4.1. Tokenisation
8.4.2. Normalisation
8.4.3. Suppression de stopword
8.4.4. Stemming
8.4.5. Suppression des balises HTML
8.4.6. identification des blocs de contenu principaux
9. structure web
9.1. algorithmes Pagerank
9.1.1. 1- la sélection des pages contenant les mots-clés de la requête.
9.1.2. 2- Le classement, par ordre décroissant, des pages concernées selon leur valeur de PageRank
9.1.2.1. r = P*(A'*(r./d)) +(1-P)/n
9.1.2.1.1. r est un vecteur de scores de PageRank.
9.1.2.1.2. P est un facteur d'amortissement scalaire
9.1.2.1.3. d est un vecteur contenant le degré extérieur
9.1.2.1.4. n est le nombre de nœuds du graphe.
9.2. Hits (Hypertext Induced Topic Search).
9.2.1. HITS est un algorithme de classement dépendant de la requête de recherche.
9.2.1.1. Une autorité :est une page avec de nombreux liens entrants.
9.2.1.2. Un hub : est une page comportant de nombreux liens sortants.
9.3. découverte de communauté web
9.4. modélisation par les graphes
9.5. classification par information des liens
9.6. Prestige
9.6.1. est une relation récursive, cad elle dépend de l'autorité (ou prestige) des citations (liens entrants).
10. usage web
10.1. Objectif :
10.1.1. analyser les modèles de comportement et les profils des utilisateurs interagissant avec un site Web, afin de comprendre et de mieux répondre aux besoins des applications Web
10.2. Processus du web usage mining
10.2.1. 1. Input stage: les fichiers journaux Web bruts sont récupérés ainsi que des informations d'enregistrement (le cas échéant) et des informations concernant la topologie du site.
10.2.2. 2. Preprocessing stage: Les tâches de prétraitement les plus courantes sont
10.2.2.1. (1) le nettoyage et lefiltrage des données
10.2.2.2. (2) le de-spidering
10.2.2.3. (3) l'identification de l'utilisateur
10.2.2.4. (4) l'identification de la session
10.2.2.5. (5) l'achèvement du chemin.
10.2.3. 3. Pattern discovery stage: Ces méthodes comprennent
10.2.3.1. (1) l'analyse statistique standard
10.2.3.2. (2) les algorithmes de clustering
10.2.3.3. (3) les règles d'association
10.2.3.4. (4) les algorithmes de classification
10.2.3.5. (5) les patterns séquentiel
10.2.4. 4. Pattern analysis stage: Les analystes humains examinent les résultats de l'étape de découverte de motifs et en extraient les motifs les plus intéressants, utiles et exploitables.
10.3. Recueil de données
10.3.1. les fichiers log
10.3.2. les données issues des procédures d’inscription
10.3.3. es données sur la structure et le contenu des sites
10.4. Analyse du Flux de Clics « Clickstream »
10.4.1. Un clickstream est la séquence agrégée de visites de pages
10.4.2. Toutes les hits
10.4.3. Les données du parcours de navigation
10.5. modélisation d’intérêts de l’internaute par clustering
10.5.1. Le clustering de sites Web est l'une des techniques les plus utilisées dans le contexte de l'exploration du Web
10.5.2. la recherche d'intérêts similaires parmi les utilisateurs du Web est de découvrir des connaissances à partir du profil de l'utilisateur