Data Science

Les concepts de base de la data science

시작하기. 무료입니다
또는 회원 가입 e메일 주소
Data Science 저자: Mind Map: Data Science

1. Données

1.1. Composition

1.1.1. donnée atomique

1.1.2. macro donnée

1.2. Homogénéité

1.2.1. Homogène

1.2.2. Hétérogène

1.3. Métadonnées

1.3.1. Propriétés de présentation

1.3.1.1. format

1.3.1.1.1. nombres

1.3.1.1.2. dates

1.3.1.1.3. valeurs monétaires

1.3.1.1.4. expression régulière

1.3.1.2. internationalisation

1.3.1.2.1. Langue

1.3.1.2.2. Localisation

1.3.2. Propriétés physiques

1.3.2.1. Domaine

1.3.2.2. Variabilité

1.3.2.2.1. variable quantitative

1.3.2.2.2. variable catégorielle

1.3.2.3. Type

1.3.2.3.1. Bits/octets

1.3.2.3.2. entiers

1.3.2.3.3. décimaux

1.3.2.3.4. textes

1.3.2.3.5. dates

1.3.2.3.6. images

1.3.2.3.7. vidéo

1.3.2.3.8. son

1.3.3. Propriétés structurelles

1.3.3.1. granularité

1.3.3.1.1. Data profiling

1.3.3.1.2. Granularité de haut niveau

1.3.3.1.3. Granularité de bas niveau

1.3.3.2. structure

1.3.3.2.1. données structurées

1.3.3.2.2. données semi-structurées

1.3.3.2.3. données non structurées

1.3.3.3. mesure

1.3.3.3.1. moyenne

1.3.3.3.2. médiane

1.3.3.3.3. mode

1.3.3.3.4. écart-type

1.3.3.3.5. variance

1.3.3.3.6. quantille

1.3.3.3.7. quartille

1.3.3.3.8. écart interquartile

1.3.3.3.9. étendue

1.3.3.3.10. fréquence de distribution d'une valeur

1.3.3.3.11. intervalles de classes

1.3.3.4. distributions

1.3.3.4.1. représentation

1.3.3.4.2. discrètes

1.3.3.4.3. continues

1.3.4. Propriétés fonctionnelles

1.3.4.1. définition

1.3.4.2. contexte

1.3.4.3. sensibilité

1.3.4.3.1. données personnelles

1.3.4.3.2. PCI DSS

1.3.4.3.3. Autres

1.3.4.3.4. Mesure

1.3.4.4. Appartenance

1.3.4.5. tracabilité

1.4. Usage

1.4.1. Données chaudes

1.4.2. données d'intention

1.4.3. données froides

1.4.4. données tièdes

1.4.5. données mortes

1.4.6. dark data

2. fichiers

2.1. CSV

2.2. XML

2.2.1. XSD

2.2.2. Parser

2.2.2.1. DOM

2.2.2.2. SAX

2.3. JSON

2.4. parquet

3. BDD

3.1. familles

3.1.1. hiérarchiques

3.1.2. SGBD-R

3.1.2.1. SQL

3.1.2.1.1. Jointures

3.1.2.1.2. transactions

3.1.3. orientées graphes

3.1.4. orientées objet

3.1.5. vectorielles

3.1.5.1. Architecture RAG

3.1.5.2. caractéristiques clés

3.1.5.2.1. représentation vectorielle

3.1.5.2.2. scalabilité

3.1.5.2.3. interopérabilité

3.1.5.2.4. flexibilité

3.1.5.2.5. similiratité/proximité

3.1.5.2.6. personnalisation

3.1.6. DBaaS

3.1.6.1. Avantages

3.1.6.1.1. installation/maintenance

3.1.6.1.2. flexibilité

3.1.6.1.3. monitoring

3.1.6.1.4. sécurité

3.1.6.1.5. reporting

3.1.6.2. Inconvénients

3.1.6.2.1. stockage externe

3.1.6.2.2. RGPD

3.1.6.2.3. indisponibilité

3.1.6.3. Fournisseurs

3.1.6.3.1. Editeurs de solutions de BDD

3.1.6.3.2. Grandes plateformes Cloud

3.1.6.3.3. Acteurs du Cloud

3.1.6.3.4. Sociétés de services

3.1.7. NoSQL

3.1.7.1. clé-valeur

3.1.7.1.1. AWS Dynamo

3.1.7.1.2. Azure Cosmos DB

3.1.7.2. document

3.1.7.2.1. Mongo DB

3.1.7.2.2. Firestore

3.1.7.3. colonne

3.1.7.3.1. Apache Cassandra

3.1.7.3.2. Apache HBase

3.1.7.4. graphe

3.1.7.4.1. Neo4J

3.2. modélisation

3.2.1. Meurise

3.2.1.1. MCD

3.2.1.2. MLD

3.2.1.3. MPD

3.2.2. Type

3.2.2.1. relationnels

3.2.2.1.1. formes normales

3.2.2.1.2. clés

3.2.2.2. UML

3.2.2.3. MEA

3.2.2.4. MOO

3.2.2.5. IDEF

3.2.2.6. MODA

3.2.2.7. dimensionnel

3.3. CIT

3.4. Indexation

3.4.1. fonctionnement

3.4.2. types d'index

3.4.2.1. Bitmap

3.4.2.2. Table de hachage

4. SQL

4.1. MLD

4.1.1. CRUD

4.1.2. Jointures

4.2. DDL

4.3. DCL

4.4. Transactions

4.4.1. résultat

4.4.1.1. COMMIT

4.4.1.2. ROLLBACK

4.4.2. caractéristiques

4.4.2.1. mode d'accès

4.4.2.1.1. READ ONLY

4.4.2.1.2. READ WRITE

4.4.2.2. niveau d'isolation

4.4.2.2.1. READ UNCOMMITED

4.4.2.2.2. READ COMMITED

4.4.2.2.3. REPEATABLE READ

4.4.2.2.4. SERIALIZABLE

4.4.3. ACID

4.4.3.1. Atomicité

4.4.3.2. Cohérence

4.4.3.3. Isolation

4.4.3.4. Durabilité

5. systèmes

5.1. OLTP

5.2. OLAP

5.3. Distribué

5.3.1. CAP

5.3.1.1. Cohérence

5.3.1.2. Disponibilité

5.3.1.3. Tolérence au morcellement

5.3.2. architecture

5.3.2.1. maître-esclave

5.3.2.1.1. HDFS

5.3.2.2. sans maître

6. Big Data

6.1. 3V

6.1.1. Volume

6.1.2. Variété

6.1.3. Vélocité

6.2. 7V

6.2.1. Vitesse

6.2.2. Valeur

6.2.3. Véracité

6.2.4. Visualisation

6.3. hadoop

6.3.1. HDFS

6.3.1.1. NameNode

6.3.1.2. DataNode

6.3.1.2.1. défauts

6.3.2. MapReduce

6.3.2.1. fonctionnement

6.3.2.1.1. map

6.3.2.1.2. reduce

6.3.2.2. Inconvénients

6.3.2.2.1. Verbeux

6.3.2.2.2. Latence

6.3.2.2.3. flux

6.3.2.2.4. cloud

6.3.2.2.5. conteneurisation

6.3.2.2.6. scalabilité

6.3.2.2.7. tâches complexes

6.3.2.2.8. format de données

6.3.3. YARN

6.3.3.1. séparation des couches

6.3.3.2. multi-tenant

6.3.3.3. scalabilité horizontale

6.3.3.4. flexibilité

6.3.3.5. tolérance aux pannes

6.3.3.6. allocution dynamique des ressources

6.3.3.7. centralisation

6.3.3.8. Application Master

6.3.3.9. Node manager

6.3.4. bdd

6.3.4.1. Hive

6.3.4.1.1. HiveQL

6.3.4.2. HBase

6.3.4.3. Sqoop

6.3.4.4. Cassandra

6.3.4.4.1. CQL

6.3.4.5. MongoDB

6.3.5. Programmation

6.3.5.1. Pig

6.3.5.1.1. Pig Latin

6.3.5.2. Spark

6.3.5.2.1. Spark Core

6.3.5.2.2. Spark Streaming

6.3.5.2.3. Spark SQL

6.3.5.2.4. Spark GraphX

6.3.5.2.5. Spark MLib

6.3.6. flux

6.3.6.1. kafka

6.3.6.2. storm

6.3.6.3. flume

6.3.6.4. flink

6.3.6.5. spark streaming

6.3.7. gestion de cluster

6.3.7.1. ZooKeeper

6.3.7.2. Tez

6.3.7.3. Zeppelin

6.3.7.4. Oozie

6.3.7.5. Mesos

7. cache

7.1. tampon

7.1.1. Avantages

7.1.1.1. Amélioration des performances

7.1.1.2. Charge système

7.1.1.3. Economie de ressources

7.1.1.4. Adaptabilité

7.1.1.5. Coût énergitique

7.1.2. Contraintes

7.1.2.1. Espace

7.1.2.2. Cohérences des données

7.1.2.3. Complexité de mise en oeuvre

7.1.2.4. Coût

7.1.2.5. Invalidation

7.2. mécanismes

7.2.1. Cache-Aside

7.2.2. Write-Through

7.2.3. Write-Behind Cache

7.2.4. Read-Through

7.2.5. LRU

7.2.6. TTL

7.2.7. Two-Level

8. B-tree

9. MDS

9.1. TDS

9.2. objectifs

9.2.1. rapidité

9.2.2. scalabilité

9.2.3. accessibilité

9.3. briques d'un MDS

9.3.1. Ingénierie de la donnée

9.3.1.1. ETL/ELT

9.3.1.2. gestion des flux de donnéees en temps réel

9.3.2. Stockage

9.3.3. Analytique

9.3.4. Transformation de données

9.3.4.1. Apache Airflow

9.3.4.2. DBT

9.3.5. Intégration d'API et de services

9.3.6. Versionning des données

9.3.7. Collaboration et gestion des accès

9.3.8. Gouvernance et catalogage des données

9.3.9. Automatisation

9.4. Acteurs

9.4.1. Cloud

9.4.1.1. Microsoft

9.4.1.1.1. Azure Synapse

9.4.1.2. Google

9.4.1.2.1. BigQuery

9.4.1.3. Amazon

9.4.1.3.1. Redshift

9.4.2. Spécifiques

9.4.2.1. DataBricks

9.4.2.2. Snowflake

10. Intégration de données

10.1. Architecture

10.1.1. peer to peer

10.1.1.1. spaghetti-ware

10.1.2. Architecture centralisée

10.1.2.1. concentrateur

10.1.2.2. avantages par services complémentaires

10.1.2.2.1. système de contrôle de dqualité de données

10.1.2.2.2. tracabilité de bout en bout

10.1.2.2.3. analyse complète des données

10.1.2.2.4. services d'alertes automatiques

10.1.2.2.5. cache et persistance des échanges

10.1.3. comparaison P2P/centralisée

10.2. Modèle d'intégration de données

10.2.1. Diffusion

10.2.2. Migration

10.2.3. Synchronisation

10.2.4. Agrégation

10.2.5. Corrélation

10.3. Transmission

10.3.1. Simplex

10.3.2. Duplex

10.3.2.1. Demi-Duplex

10.3.2.2. Total-Duplex

10.4. Connexion

10.4.1. Synchrone

10.4.2. Asynchrone

10.5. Transit

10.5.1. Batch Processing

10.5.2. Real Time

10.5.3. Streaming

10.5.3.1. kafka

10.6. Fonctionnement

10.6.1. Etapes

10.6.1.1. connexion

10.6.1.2. agrégation

10.6.1.3. analyse et corrélation

10.6.1.4. routage

10.6.2. montée en charge et tolérance aux pannes

10.6.2.1. architecture distribuée et évolutive

10.6.2.1.1. déploiement sur plusieurs serveurs

10.6.2.1.2. composants stateless

10.6.2.1.3. mise en cache et buffer

10.6.2.2. gestion de la haute disponibilité et failover

10.6.2.2.1. redondance des composants critiques

10.6.2.2.2. basculement automatique (failover)

10.6.2.3. monitoring et alerting

10.6.2.4. équilibrage de charge et routage intelligent

10.6.2.4.1. équilibrage de charge (loadbalancer)

10.6.2.4.2. répartiteur de charge

10.6.2.4.3. failover

10.6.2.5. tests de charge et simulation de pannes

10.6.2.5.1. identifier les limites de l'infrastructure

10.6.2.5.2. évaluer la résilience de la solution

10.6.2.5.3. évaluer la rapidité du failover

10.6.2.5.4. évaluer l'efficacité de la répartition de charge

10.6.3. connecteurs

10.6.3.1. ODBC

10.6.3.2. JDBC

10.7. Solutions

10.7.1. ETL

10.7.1.1. Connecteurs

10.7.1.1.1. CDC

10.7.1.1.2. chargement multimode

10.7.1.1.3. Delta

10.7.1.2. Flux

10.7.1.2.1. mapping

10.7.1.3. Caractéristiques

10.7.1.3.1. Non intrusivité

10.7.1.3.2. Evolutivité

10.7.1.3.3. Exploitabilité/robustesse

10.7.1.3.4. Facilité de mise en oeuvre

10.7.1.3.5. Performances

10.7.1.4. Solutions

10.7.1.4.1. Informatica

10.7.1.4.2. IBM Datastage

10.7.1.4.3. Talend

10.7.2. ELT

10.7.3. Data Gateways

10.7.3.1. avantages

10.7.3.1.1. rapidité de mises en oeuvre

10.7.3.1.2. réduction des coûts de développement et de maintenance

10.7.3.1.3. performances

10.7.3.1.4. ré-utilisabilité

10.7.3.1.5. non intrusivité

10.7.3.2. EII

10.7.3.3. solutions

10.7.3.3.1. Denodo

10.7.3.3.2. DataCurrent

10.7.3.3.3. Tibco

10.7.3.3.4. Oracle Data Service Integrator

10.7.3.3.5. JBoss Data Virtualization

10.8. Pipelines

10.8.1. Composants

10.8.1.1. Collecte

10.8.1.2. Nettoyage

10.8.1.3. Transformation

10.8.1.4. Persistance

10.8.1.5. Transfert

10.8.1.6. Surveillance et maintenance

10.8.2. Différences ETL/pipeline

10.8.3. Solutions

10.8.3.1. Apache Airflow

10.8.3.2. Apache Nifi

10.8.3.3. Apache Kafka

10.8.3.4. Talend (Qlik)

10.8.3.5. Informatica

10.8.3.6. Databricks

10.8.3.7. Prefect

10.8.3.8. Azure Data Factory

10.8.3.9. Google Cloud DataFlow

10.8.3.10. AWS Glue

10.9. Bus

10.9.1. bus de message

10.9.2. queue

10.9.3. publication-souscription

10.9.4. solutions

10.9.4.1. ActiveMQ

10.9.4.2. RabbitMQ

10.9.4.3. Kafka

10.10. Orchestration

10.10.1. Avantages

10.10.1.1. Automatisation

10.10.1.2. Gestion des dépendances

10.10.1.3. Reprise sur erreur

10.10.1.4. Planification

10.10.1.5. Surveillance temps réél flux

10.10.2. Airflow

10.10.2.1. Orchestration de workflow

10.10.2.2. Planification

10.10.2.3. Gestion de dépendances

10.10.2.3.1. DAG

10.10.2.4. Monitoring et logging

10.10.2.5. Reprise sur erreur

10.10.2.6. Sécurité

10.10.2.6.1. RBAC

10.10.2.7. Python

11. EDA

11.1. Préparation de données

11.1.1. Importation/acquistion de données

11.1.2. Découverte

11.1.3. Nettoyage des données

11.1.4. Enrichissement

11.1.5. Publication

11.2. Analyse technique

11.2.1. Data profiling

11.2.1.1. métadonnées

11.2.1.2. No-code

11.2.1.2.1. Informatica, Talend, SAS DataFlux

11.2.1.3. Python

11.2.1.3.1. ydata_profiling

11.2.2. Analyses

11.2.2.1. Analyses basiques

11.2.2.2. Corrélation entre colonnes

11.2.2.2.1. corrélation de Pearson

11.2.2.2.2. corrélation de Spearman

11.2.2.2.3. Tau de Kendall

11.2.2.2.4. Rho de Spearman

11.2.2.3. Liens entre tables

11.2.2.3.1. jointures

11.3. Data Mining

11.3.1. Utilisations

11.3.1.1. Identification de structure de données complexes

11.3.1.1.1. Modèles prédictifs à partir de données existantes

11.3.1.2. Classification par catégorie

11.3.1.3. Identification d'anomalie dans les données

11.3.2. Techniques

11.3.2.1. Classification

11.3.2.1.1. Arbre de décision

11.3.2.1.2. k-NN

11.3.2.1.3. réseaux de neurones

11.3.2.1.4. SVM

11.3.2.2. Regression

11.3.2.2.1. régression linéaire (univariée/multivariée)

11.3.2.2.2. régression logistique

11.3.2.2.3. arbres de régression

11.3.2.3. Clustering

11.3.2.3.1. k-means

11.3.2.3.2. hierarchical clustering

11.3.2.3.3. DBSCAN

11.3.2.4. Association

11.3.2.4.1. Algorithme Apriori

11.3.2.5. Analyse de séquence

11.3.2.5.1. modèles de Markov cachés

11.3.2.5.2. règles de séquence

11.3.2.6. Détection d'anomalies

11.3.2.6.1. forêt aléatoire

11.3.2.6.2. SVM

11.3.2.6.3. Distance

11.3.2.7. Réduction de la dimentionnalité

11.3.2.7.1. PCA

11.3.2.7.2. Sélection de variables

11.3.2.8. Text Mining

11.3.2.8.1. Analyse de sentiments

11.3.2.8.2. Extraction d'entités

11.3.2.8.3. Classification de documents

11.3.2.9. Web Mining

11.3.2.9.1. extraction de données web

11.3.2.9.2. Analyse de la structure web

11.3.2.9.3. Exploration de l'utilisation des données web

11.3.2.10. Ensemble Learning

11.3.2.10.1. bagging

11.3.2.10.2. boosting

11.4. Analyse fonctionnelle

11.4.1. Visualisation de données

11.4.1.1. Visualiser

11.4.1.1.1. Types de mémoires du cerveau humain

11.4.1.1.2. objectif visualisation

11.4.1.2. Principes de la Gestalt

11.4.1.2.1. continuité

11.4.1.2.2. fermeture

11.4.1.2.3. similarité

11.4.1.2.4. proximité

11.4.1.2.5. symétrie

11.4.1.2.6. principe d'objet-fond

11.4.1.3. Primitives graphiques

11.4.1.3.1. position

11.4.1.3.2. longueur

11.4.1.3.3. angle et pente

11.4.1.3.4. surface

11.4.1.3.5. forme

11.4.1.3.6. couleur

11.4.1.4. Représentations graphiques

11.4.1.4.1. Texte simple

11.4.1.4.2. Tableaux

11.4.1.4.3. Nuage de points

11.4.1.4.4. Courbes

11.4.1.4.5. Graphes de surface

11.4.1.4.6. Diagrammes à barres

11.4.1.4.7. Histogrammes

11.4.1.4.8. Cartes de chaleur

11.4.1.4.9. Boîtes à moustaches

11.4.1.4.10. Cartes

11.4.1.5. Utilisation DataViz

11.4.1.5.1. Objectifs

11.4.1.5.2. Principes

11.4.1.5.3. Analyses

11.5. Qualité de données

11.5.1. Objectifs

11.5.1.1. Détecter les informations manquantes

11.5.1.2. Identifier les problèmes de conformité

11.5.1.2.1. Format incorrect

11.5.1.2.2. Problème d'encodage

11.5.1.2.3. Dates

11.5.1.3. Eviter les incohérences

11.5.1.3.1. Inversion de valeurs

11.5.1.3.2. Mauvais calcul

11.5.1.4. Garantir la pertinence des données

11.5.1.4.1. Obsolescence

11.5.1.4.2. Statut invalide

11.5.1.4.3. Données erronées

11.5.1.5. Assurer l'unicité

11.5.1.5.1. Doublons

11.5.1.6. Maintenir l'intégrité des données

11.5.1.6.1. Tables de références

11.5.2. Critères

11.5.2.1. Complétude

11.5.2.1.1. Champs vides

11.5.2.1.2. Valeurs par défaut

11.5.2.2. Conformité

11.5.2.2.1. Format

11.5.2.3. Cohérence

11.5.2.3.1. Données disparates et non cohérentes

11.5.2.4. Exactitude

11.5.2.4.1. Données incorrectes ou périmées

11.5.2.5. Duplication

11.5.2.5.1. Données dupliquées ou redondantes

11.5.2.6. Intégration

11.5.2.6.1. Données partielles ou dissociées

11.5.3. Etapes

11.5.3.1. Profilage de données

11.5.3.2. Découpage

11.5.3.2.1. Parsing

11.5.3.3. Premières corrections

11.5.3.4. Standardisation

11.5.3.5. Rapprochement

11.5.3.5.1. Nettoyage horizontal

11.5.3.6. Consolidation

11.5.3.6.1. Golden Record

11.5.3.7. Enrichissement

11.5.4. Indicateurs

11.5.4.1. phase de profilage de données

11.5.4.1.1. compréhension structurelle

11.5.4.2. phase d'analyse fonctionnelle

11.5.4.2.1. compréhension fonctionnelle

11.5.4.3. phase de création d'indicateurs de qualités de données

11.5.4.3.1. suivi global de la qualité

11.5.5. Règles

11.5.5.1. Outils BRMS

11.5.5.1.1. Identifier des règles fonctionnelles

11.5.5.1.2. Définir graphiquement les détails des règles

11.5.5.1.3. Créer des relations entre les différents processus

11.5.5.2. Gestion des règles

11.5.5.2.1. Définition

11.5.5.2.2. Conditions

11.5.5.2.3. Résultats

11.5.5.3. Types de règles

11.5.5.3.1. combinatoires linéaires (formules)

11.5.5.3.2. ensemblistes

11.5.5.3.3. standardisation

11.5.5.4. Dédoublonnage

11.5.5.4.1. Déduplication

11.5.5.4.2. Fuzzy matching

12. Cycle de vie

12.1. Ontologie

12.1.1. Taxonomie

12.1.1.1. Policy

12.1.2. Hiérarchies

12.1.2.1. Hierarchie principale

12.1.2.2. Hierarchie secondaire

12.2. Data Lineage

12.2.1. Couches

12.2.1.1. Informations physiques

12.2.1.2. Glossaire métier et sémantique

12.2.2. Analyse d'impact

12.2.2.1. Identification des risques

12.2.2.2. Optimisation des ressources

12.2.2.3. Prévision des conséquences

12.2.2.4. Accélération de la mise en oeuvre

12.2.2.5. Conformité réglementaire

12.2.3. Catalogue de données

12.2.3.1. vue à 360 degrés de la données

12.3. Sécuriser la donnée

12.3.1. RGPD

12.3.1.1. Anonymisation

12.3.1.1.1. Masquage

12.3.1.2. Pseudonymisation

12.3.1.2.1. Cryptographie

12.4. Gouvernance

12.4.1. concepts

12.4.1.1. sensibilité

12.4.1.2. définition

12.4.1.3. qualité

12.4.1.3.1. complète

12.4.1.3.2. cohérente

12.4.1.3.3. conforme

12.4.1.3.4. pertinente

12.4.1.3.5. unique

12.4.1.3.6. intègre

12.4.1.4. auditabilité

12.4.1.5. traçabilité

12.4.1.6. appartenance

12.4.2. exigences

12.4.2.1. exactitude et intégrité des informations

12.4.2.2. exhaustivité

12.4.2.3. actualisation

12.4.2.4. traçabilité

12.4.2.5. conformité

12.4.2.6. appartenance

12.4.3. Outils

12.4.3.1. gestion des métadonnées

12.4.3.2. gestion des glossaires métiers

12.4.3.3. supervision

12.4.3.4. linéage

12.4.3.5. sécurité des données

12.5. Observabilité

12.5.1. avantages

12.5.1.1. amélioration de la qualité des données

12.5.1.2. réduction des risques

12.5.1.3. amélioration prise de décision

12.5.2. piliers

12.5.2.1. fraîcheur

12.5.2.2. fiabilité

12.5.2.3. représentativité

12.5.2.4. auditabilité

12.5.2.5. linéage

12.5.3. outils

12.5.3.1. dynatrace

12.5.3.2. datadog

12.5.3.3. new relic

12.5.3.4. sifflet

12.5.3.5. orkestra

12.5.3.6. splunk

12.5.3.7. sumo logic

12.5.3.8. appsdynamics

12.6. Dataops

12.6.1. concepts

12.6.1.1. intégration des données

12.6.1.2. automatisation des tâches répétitives

12.6.1.3. collaboration entre équipes

12.6.2. avantages

12.6.2.1. améliorer la qualité des données

12.6.2.2. améliorer la disponibilité des données

12.6.2.3. améliorer l'accessibilité des données

12.6.3. agilité

12.6.3.1. les besoins métier évoluent constamment

12.6.3.2. cycle de développement rapide

12.6.3.3. réaction rapide aux problèmes et erreurs

12.6.3.4. gestion des priorités

12.6.3.5. collaboration

12.6.3.6. s'adapter à de nouvelles technologies

12.6.3.7. optimisation continue des performances

13. Données en tant que produit

13.1. Open Data

13.1.1. data.gouv.fr

13.2. DaaS

13.3. Data Fabric

13.3.1. étapes

13.3.1.1. acquérir des données

13.3.1.2. intégrer des données

13.3.1.3. gouverner les données

13.3.1.4. diffuser des données

13.3.2. couches d'architectures

13.3.2.1. gestion des données

13.3.2.2. ingestion des données

13.3.2.3. intégration des données

13.3.2.4. orchestration des données

13.3.2.5. découverte des données

13.3.2.6. diffusion

13.3.3. éditeurs

13.3.3.1. Talend

13.3.3.2. Informatica

13.3.3.3. IBM

13.3.3.4. Oracle

13.3.3.5. Denodo

13.4. Data Mesh

13.4.1. piliers

13.4.1.1. création et gestion d'un domaine de données

13.4.1.2. principe de Data as a Product

13.4.1.3. self-service

13.4.1.4. gouvernance fédérée

13.4.2. principes

13.4.2.1. architecture/gestion des données/domaines sont décentralisées

13.4.2.2. stratégie gestion du domaine à l'appréciation du gestionnaire

13.4.2.3. propriété du domaine = propriété des données

13.4.2.4. interopérabilité = normalisation à l'echelle du maillage

13.4.2.5. pas de structure unique => règles propres au domaine

13.4.2.6. consommateurs possibles en dehors du domaine => données traitées comme si elles étaient publiques

14. IA

14.1. Types d'IA

14.1.1. étroite

14.1.2. forte

14.1.3. ASI

14.2. Utilisation

14.2.1. Prise de décisions

14.2.2. Vision par ordinateur

14.2.2.1. Classification d'objets

14.2.2.2. détection d'objet ou reconnaissance de forme

14.2.2.3. reconnaissance faciale

14.2.2.4. OCR

14.2.2.5. IDP

14.2.2.6. segmentation d'image

14.2.2.6.1. ségmentation sémantique

14.2.2.6.2. ségmentation par instance

14.2.2.7. reconstruction d'image

14.2.2.8. localisation d'objet

14.2.3. NLP

14.2.3.1. NLU

14.2.3.2. NLG

14.2.3.3. techniques

14.2.3.3.1. stop words

14.2.3.3.2. tokenisation

14.2.3.3.3. sac de mots

14.2.3.3.4. stemming

14.2.3.3.5. lemmatisation

14.2.3.4. applications

14.2.3.4.1. recherche d'information et moteur de recherche

14.2.3.4.2. résumé

14.2.3.4.3. traduction

14.2.3.4.4. agent conversationnels

14.2.3.4.5. extraction d'informations

14.2.3.4.6. catégrorisation de texte et classification

14.2.3.4.7. analyse de l'opinion

14.2.3.4.8. réponse automatique aux emails

14.2.3.4.9. génération de contenu

14.2.3.4.10. détéction de fraude

14.2.3.4.11. assistance à la rédaction

14.3. ML

14.3.1. Expérience

14.3.1.1. Étapes

14.3.1.1.1. Apprentissage

14.3.1.1.2. Prédiction

14.3.1.2. Features

14.3.1.3. Labels

14.3.2. Approches

14.3.2.1. Déterministe

14.3.2.2. Probabiliste

14.3.3. Type d’apprentissage

14.3.3.1. Supervisé

14.3.3.2. Non supervisé

14.3.3.3. Par renforcement

14.3.4. Modèle

14.3.5. Projet

14.3.5.1. Définition des objectifs

14.3.5.1.1. Algorithmes de ML

14.3.5.2. Accès et analyse des données

14.3.5.3. Préparation des données

14.3.5.3.1. Feature Engineering

14.3.5.4. Découpage du jeu de données

14.3.5.4.1. Over-Fitting

14.3.5.4.2. Under-Fitting

14.3.5.4.3. Jeux de données

14.3.5.5. Entraînement

14.3.5.5.1. Phases

14.3.5.5.2. Algorithmes machine learning

14.3.5.6. Évaluation et scoring

14.3.5.7. Déploiement

14.3.6. Biais

14.3.7. Variance

14.4. Réseaux de neurones

14.5. Explainable AI

14.6. GenAI

15. analyse de sentiments

16. Solutions

16.1. Data Warehouse

16.2. Data Lake

16.3. Lake House

16.4. MDM

16.5. Data Hub

16.6. EDI