
1. Données
1.1. Composition
1.1.1. donnée atomique
1.1.2. macro donnée
1.2. Homogénéité
1.2.1. Homogène
1.2.2. Hétérogène
1.3. Métadonnées
1.3.1. Propriétés de présentation
1.3.1.1. format
1.3.1.1.1. nombres
1.3.1.1.2. dates
1.3.1.1.3. valeurs monétaires
1.3.1.1.4. expression régulière
1.3.1.2. internationalisation
1.3.1.2.1. Langue
1.3.1.2.2. Localisation
1.3.2. Propriétés physiques
1.3.2.1. Domaine
1.3.2.2. Variabilité
1.3.2.2.1. variable quantitative
1.3.2.2.2. variable catégorielle
1.3.2.3. Type
1.3.2.3.1. Bits/octets
1.3.2.3.2. entiers
1.3.2.3.3. décimaux
1.3.2.3.4. textes
1.3.2.3.5. dates
1.3.2.3.6. images
1.3.2.3.7. vidéo
1.3.2.3.8. son
1.3.3. Propriétés structurelles
1.3.3.1. granularité
1.3.3.1.1. Data profiling
1.3.3.1.2. Granularité de haut niveau
1.3.3.1.3. Granularité de bas niveau
1.3.3.2. structure
1.3.3.2.1. données structurées
1.3.3.2.2. données semi-structurées
1.3.3.2.3. données non structurées
1.3.3.3. mesure
1.3.3.3.1. moyenne
1.3.3.3.2. médiane
1.3.3.3.3. mode
1.3.3.3.4. écart-type
1.3.3.3.5. variance
1.3.3.3.6. quantille
1.3.3.3.7. quartille
1.3.3.3.8. écart interquartile
1.3.3.3.9. étendue
1.3.3.3.10. fréquence de distribution d'une valeur
1.3.3.3.11. intervalles de classes
1.3.3.4. distributions
1.3.3.4.1. représentation
1.3.3.4.2. discrètes
1.3.3.4.3. continues
1.3.4. Propriétés fonctionnelles
1.3.4.1. définition
1.3.4.2. contexte
1.3.4.3. sensibilité
1.3.4.3.1. données personnelles
1.3.4.3.2. PCI DSS
1.3.4.3.3. Autres
1.3.4.3.4. Mesure
1.3.4.4. Appartenance
1.3.4.5. tracabilité
1.4. Usage
1.4.1. Données chaudes
1.4.2. données d'intention
1.4.3. données froides
1.4.4. données tièdes
1.4.5. données mortes
1.4.6. dark data
2. fichiers
2.1. CSV
2.2. XML
2.2.1. XSD
2.2.2. Parser
2.2.2.1. DOM
2.2.2.2. SAX
2.3. JSON
2.4. parquet
3. BDD
3.1. familles
3.1.1. hiérarchiques
3.1.2. SGBD-R
3.1.2.1. SQL
3.1.2.1.1. Jointures
3.1.2.1.2. transactions
3.1.3. orientées graphes
3.1.4. orientées objet
3.1.5. vectorielles
3.1.5.1. Architecture RAG
3.1.5.2. caractéristiques clés
3.1.5.2.1. représentation vectorielle
3.1.5.2.2. scalabilité
3.1.5.2.3. interopérabilité
3.1.5.2.4. flexibilité
3.1.5.2.5. similiratité/proximité
3.1.5.2.6. personnalisation
3.1.6. DBaaS
3.1.6.1. Avantages
3.1.6.1.1. installation/maintenance
3.1.6.1.2. flexibilité
3.1.6.1.3. monitoring
3.1.6.1.4. sécurité
3.1.6.1.5. reporting
3.1.6.2. Inconvénients
3.1.6.2.1. stockage externe
3.1.6.2.2. RGPD
3.1.6.2.3. indisponibilité
3.1.6.3. Fournisseurs
3.1.6.3.1. Editeurs de solutions de BDD
3.1.6.3.2. Grandes plateformes Cloud
3.1.6.3.3. Acteurs du Cloud
3.1.6.3.4. Sociétés de services
3.1.7. NoSQL
3.1.7.1. clé-valeur
3.1.7.1.1. AWS Dynamo
3.1.7.1.2. Azure Cosmos DB
3.1.7.2. document
3.1.7.2.1. Mongo DB
3.1.7.2.2. Firestore
3.1.7.3. colonne
3.1.7.3.1. Apache Cassandra
3.1.7.3.2. Apache HBase
3.1.7.4. graphe
3.1.7.4.1. Neo4J
3.2. modélisation
3.2.1. Meurise
3.2.1.1. MCD
3.2.1.2. MLD
3.2.1.3. MPD
3.2.2. Type
3.2.2.1. relationnels
3.2.2.1.1. formes normales
3.2.2.1.2. clés
3.2.2.2. UML
3.2.2.3. MEA
3.2.2.4. MOO
3.2.2.5. IDEF
3.2.2.6. MODA
3.2.2.7. dimensionnel
3.3. CIT
3.4. Indexation
3.4.1. fonctionnement
3.4.2. types d'index
3.4.2.1. Bitmap
3.4.2.2. Table de hachage
4. SQL
4.1. MLD
4.1.1. CRUD
4.1.2. Jointures
4.2. DDL
4.3. DCL
4.4. Transactions
4.4.1. résultat
4.4.1.1. COMMIT
4.4.1.2. ROLLBACK
4.4.2. caractéristiques
4.4.2.1. mode d'accès
4.4.2.1.1. READ ONLY
4.4.2.1.2. READ WRITE
4.4.2.2. niveau d'isolation
4.4.2.2.1. READ UNCOMMITED
4.4.2.2.2. READ COMMITED
4.4.2.2.3. REPEATABLE READ
4.4.2.2.4. SERIALIZABLE
4.4.3. ACID
4.4.3.1. Atomicité
4.4.3.2. Cohérence
4.4.3.3. Isolation
4.4.3.4. Durabilité
5. systèmes
5.1. OLTP
5.2. OLAP
5.3. Distribué
5.3.1. CAP
5.3.1.1. Cohérence
5.3.1.2. Disponibilité
5.3.1.3. Tolérence au morcellement
5.3.2. architecture
5.3.2.1. maître-esclave
5.3.2.1.1. HDFS
5.3.2.2. sans maître
6. Big Data
6.1. 3V
6.1.1. Volume
6.1.2. Variété
6.1.3. Vélocité
6.2. 7V
6.2.1. Vitesse
6.2.2. Valeur
6.2.3. Véracité
6.2.4. Visualisation
6.3. hadoop
6.3.1. HDFS
6.3.1.1. NameNode
6.3.1.2. DataNode
6.3.1.2.1. défauts
6.3.2. MapReduce
6.3.2.1. fonctionnement
6.3.2.1.1. map
6.3.2.1.2. reduce
6.3.2.2. Inconvénients
6.3.2.2.1. Verbeux
6.3.2.2.2. Latence
6.3.2.2.3. flux
6.3.2.2.4. cloud
6.3.2.2.5. conteneurisation
6.3.2.2.6. scalabilité
6.3.2.2.7. tâches complexes
6.3.2.2.8. format de données
6.3.3. YARN
6.3.3.1. séparation des couches
6.3.3.2. multi-tenant
6.3.3.3. scalabilité horizontale
6.3.3.4. flexibilité
6.3.3.5. tolérance aux pannes
6.3.3.6. allocution dynamique des ressources
6.3.3.7. centralisation
6.3.3.8. Application Master
6.3.3.9. Node manager
6.3.4. bdd
6.3.4.1. Hive
6.3.4.1.1. HiveQL
6.3.4.2. HBase
6.3.4.3. Sqoop
6.3.4.4. Cassandra
6.3.4.4.1. CQL
6.3.4.5. MongoDB
6.3.5. Programmation
6.3.5.1. Pig
6.3.5.1.1. Pig Latin
6.3.5.2. Spark
6.3.5.2.1. Spark Core
6.3.5.2.2. Spark Streaming
6.3.5.2.3. Spark SQL
6.3.5.2.4. Spark GraphX
6.3.5.2.5. Spark MLib
6.3.6. flux
6.3.6.1. kafka
6.3.6.2. storm
6.3.6.3. flume
6.3.6.4. flink
6.3.6.5. spark streaming
6.3.7. gestion de cluster
6.3.7.1. ZooKeeper
6.3.7.2. Tez
6.3.7.3. Zeppelin
6.3.7.4. Oozie
6.3.7.5. Mesos
7. cache
7.1. tampon
7.1.1. Avantages
7.1.1.1. Amélioration des performances
7.1.1.2. Charge système
7.1.1.3. Economie de ressources
7.1.1.4. Adaptabilité
7.1.1.5. Coût énergitique
7.1.2. Contraintes
7.1.2.1. Espace
7.1.2.2. Cohérences des données
7.1.2.3. Complexité de mise en oeuvre
7.1.2.4. Coût
7.1.2.5. Invalidation
7.2. mécanismes
7.2.1. Cache-Aside
7.2.2. Write-Through
7.2.3. Write-Behind Cache
7.2.4. Read-Through
7.2.5. LRU
7.2.6. TTL
7.2.7. Two-Level
8. B-tree
9. MDS
9.1. TDS
9.2. objectifs
9.2.1. rapidité
9.2.2. scalabilité
9.2.3. accessibilité
9.3. briques d'un MDS
9.3.1. Ingénierie de la donnée
9.3.1.1. ETL/ELT
9.3.1.2. gestion des flux de donnéees en temps réel
9.3.2. Stockage
9.3.3. Analytique
9.3.4. Transformation de données
9.3.4.1. Apache Airflow
9.3.4.2. DBT
9.3.5. Intégration d'API et de services
9.3.6. Versionning des données
9.3.7. Collaboration et gestion des accès
9.3.8. Gouvernance et catalogage des données
9.3.9. Automatisation
9.4. Acteurs
9.4.1. Cloud
9.4.1.1. Microsoft
9.4.1.1.1. Azure Synapse
9.4.1.2. Google
9.4.1.2.1. BigQuery
9.4.1.3. Amazon
9.4.1.3.1. Redshift
9.4.2. Spécifiques
9.4.2.1. DataBricks
9.4.2.2. Snowflake
10. Intégration de données
10.1. Architecture
10.1.1. peer to peer
10.1.1.1. spaghetti-ware
10.1.2. Architecture centralisée
10.1.2.1. concentrateur
10.1.2.2. avantages par services complémentaires
10.1.2.2.1. système de contrôle de dqualité de données
10.1.2.2.2. tracabilité de bout en bout
10.1.2.2.3. analyse complète des données
10.1.2.2.4. services d'alertes automatiques
10.1.2.2.5. cache et persistance des échanges
10.1.3. comparaison P2P/centralisée
10.2. Modèle d'intégration de données
10.2.1. Diffusion
10.2.2. Migration
10.2.3. Synchronisation
10.2.4. Agrégation
10.2.5. Corrélation
10.3. Transmission
10.3.1. Simplex
10.3.2. Duplex
10.3.2.1. Demi-Duplex
10.3.2.2. Total-Duplex
10.4. Connexion
10.4.1. Synchrone
10.4.2. Asynchrone
10.5. Transit
10.5.1. Batch Processing
10.5.2. Real Time
10.5.3. Streaming
10.5.3.1. kafka
10.6. Fonctionnement
10.6.1. Etapes
10.6.1.1. connexion
10.6.1.2. agrégation
10.6.1.3. analyse et corrélation
10.6.1.4. routage
10.6.2. montée en charge et tolérance aux pannes
10.6.2.1. architecture distribuée et évolutive
10.6.2.1.1. déploiement sur plusieurs serveurs
10.6.2.1.2. composants stateless
10.6.2.1.3. mise en cache et buffer
10.6.2.2. gestion de la haute disponibilité et failover
10.6.2.2.1. redondance des composants critiques
10.6.2.2.2. basculement automatique (failover)
10.6.2.3. monitoring et alerting
10.6.2.4. équilibrage de charge et routage intelligent
10.6.2.4.1. équilibrage de charge (loadbalancer)
10.6.2.4.2. répartiteur de charge
10.6.2.4.3. failover
10.6.2.5. tests de charge et simulation de pannes
10.6.2.5.1. identifier les limites de l'infrastructure
10.6.2.5.2. évaluer la résilience de la solution
10.6.2.5.3. évaluer la rapidité du failover
10.6.2.5.4. évaluer l'efficacité de la répartition de charge
10.6.3. connecteurs
10.6.3.1. ODBC
10.6.3.2. JDBC
10.7. Solutions
10.7.1. ETL
10.7.1.1. Connecteurs
10.7.1.1.1. CDC
10.7.1.1.2. chargement multimode
10.7.1.1.3. Delta
10.7.1.2. Flux
10.7.1.2.1. mapping
10.7.1.3. Caractéristiques
10.7.1.3.1. Non intrusivité
10.7.1.3.2. Evolutivité
10.7.1.3.3. Exploitabilité/robustesse
10.7.1.3.4. Facilité de mise en oeuvre
10.7.1.3.5. Performances
10.7.1.4. Solutions
10.7.1.4.1. Informatica
10.7.1.4.2. IBM Datastage
10.7.1.4.3. Talend
10.7.2. ELT
10.7.3. Data Gateways
10.7.3.1. avantages
10.7.3.1.1. rapidité de mises en oeuvre
10.7.3.1.2. réduction des coûts de développement et de maintenance
10.7.3.1.3. performances
10.7.3.1.4. ré-utilisabilité
10.7.3.1.5. non intrusivité
10.7.3.2. EII
10.7.3.3. solutions
10.7.3.3.1. Denodo
10.7.3.3.2. DataCurrent
10.7.3.3.3. Tibco
10.7.3.3.4. Oracle Data Service Integrator
10.7.3.3.5. JBoss Data Virtualization
10.8. Pipelines
10.8.1. Composants
10.8.1.1. Collecte
10.8.1.2. Nettoyage
10.8.1.3. Transformation
10.8.1.4. Persistance
10.8.1.5. Transfert
10.8.1.6. Surveillance et maintenance
10.8.2. Différences ETL/pipeline
10.8.3. Solutions
10.8.3.1. Apache Airflow
10.8.3.2. Apache Nifi
10.8.3.3. Apache Kafka
10.8.3.4. Talend (Qlik)
10.8.3.5. Informatica
10.8.3.6. Databricks
10.8.3.7. Prefect
10.8.3.8. Azure Data Factory
10.8.3.9. Google Cloud DataFlow
10.8.3.10. AWS Glue
10.9. Bus
10.9.1. bus de message
10.9.2. queue
10.9.3. publication-souscription
10.9.4. solutions
10.9.4.1. ActiveMQ
10.9.4.2. RabbitMQ
10.9.4.3. Kafka
10.10. Orchestration
10.10.1. Avantages
10.10.1.1. Automatisation
10.10.1.2. Gestion des dépendances
10.10.1.3. Reprise sur erreur
10.10.1.4. Planification
10.10.1.5. Surveillance temps réél flux
10.10.2. Airflow
10.10.2.1. Orchestration de workflow
10.10.2.2. Planification
10.10.2.3. Gestion de dépendances
10.10.2.3.1. DAG
10.10.2.4. Monitoring et logging
10.10.2.5. Reprise sur erreur
10.10.2.6. Sécurité
10.10.2.6.1. RBAC
10.10.2.7. Python
11. EDA
11.1. Préparation de données
11.1.1. Importation/acquistion de données
11.1.2. Découverte
11.1.3. Nettoyage des données
11.1.4. Enrichissement
11.1.5. Publication
11.2. Analyse technique
11.2.1. Data profiling
11.2.1.1. métadonnées
11.2.1.2. No-code
11.2.1.2.1. Informatica, Talend, SAS DataFlux
11.2.1.3. Python
11.2.1.3.1. ydata_profiling
11.2.2. Analyses
11.2.2.1. Analyses basiques
11.2.2.2. Corrélation entre colonnes
11.2.2.2.1. corrélation de Pearson
11.2.2.2.2. corrélation de Spearman
11.2.2.2.3. Tau de Kendall
11.2.2.2.4. Rho de Spearman
11.2.2.3. Liens entre tables
11.2.2.3.1. jointures
11.3. Data Mining
11.3.1. Utilisations
11.3.1.1. Identification de structure de données complexes
11.3.1.1.1. Modèles prédictifs à partir de données existantes
11.3.1.2. Classification par catégorie
11.3.1.3. Identification d'anomalie dans les données
11.3.2. Techniques
11.3.2.1. Classification
11.3.2.1.1. Arbre de décision
11.3.2.1.2. k-NN
11.3.2.1.3. réseaux de neurones
11.3.2.1.4. SVM
11.3.2.2. Regression
11.3.2.2.1. régression linéaire (univariée/multivariée)
11.3.2.2.2. régression logistique
11.3.2.2.3. arbres de régression
11.3.2.3. Clustering
11.3.2.3.1. k-means
11.3.2.3.2. hierarchical clustering
11.3.2.3.3. DBSCAN
11.3.2.4. Association
11.3.2.4.1. Algorithme Apriori
11.3.2.5. Analyse de séquence
11.3.2.5.1. modèles de Markov cachés
11.3.2.5.2. règles de séquence
11.3.2.6. Détection d'anomalies
11.3.2.6.1. forêt aléatoire
11.3.2.6.2. SVM
11.3.2.6.3. Distance
11.3.2.7. Réduction de la dimentionnalité
11.3.2.7.1. PCA
11.3.2.7.2. Sélection de variables
11.3.2.8. Text Mining
11.3.2.8.1. Analyse de sentiments
11.3.2.8.2. Extraction d'entités
11.3.2.8.3. Classification de documents
11.3.2.9. Web Mining
11.3.2.9.1. extraction de données web
11.3.2.9.2. Analyse de la structure web
11.3.2.9.3. Exploration de l'utilisation des données web
11.3.2.10. Ensemble Learning
11.3.2.10.1. bagging
11.3.2.10.2. boosting
11.4. Analyse fonctionnelle
11.4.1. Visualisation de données
11.4.1.1. Visualiser
11.4.1.1.1. Types de mémoires du cerveau humain
11.4.1.1.2. objectif visualisation
11.4.1.2. Principes de la Gestalt
11.4.1.2.1. continuité
11.4.1.2.2. fermeture
11.4.1.2.3. similarité
11.4.1.2.4. proximité
11.4.1.2.5. symétrie
11.4.1.2.6. principe d'objet-fond
11.4.1.3. Primitives graphiques
11.4.1.3.1. position
11.4.1.3.2. longueur
11.4.1.3.3. angle et pente
11.4.1.3.4. surface
11.4.1.3.5. forme
11.4.1.3.6. couleur
11.4.1.4. Représentations graphiques
11.4.1.4.1. Texte simple
11.4.1.4.2. Tableaux
11.4.1.4.3. Nuage de points
11.4.1.4.4. Courbes
11.4.1.4.5. Graphes de surface
11.4.1.4.6. Diagrammes à barres
11.4.1.4.7. Histogrammes
11.4.1.4.8. Cartes de chaleur
11.4.1.4.9. Boîtes à moustaches
11.4.1.4.10. Cartes
11.4.1.5. Utilisation DataViz
11.4.1.5.1. Objectifs
11.4.1.5.2. Principes
11.4.1.5.3. Analyses
11.5. Qualité de données
11.5.1. Objectifs
11.5.1.1. Détecter les informations manquantes
11.5.1.2. Identifier les problèmes de conformité
11.5.1.2.1. Format incorrect
11.5.1.2.2. Problème d'encodage
11.5.1.2.3. Dates
11.5.1.3. Eviter les incohérences
11.5.1.3.1. Inversion de valeurs
11.5.1.3.2. Mauvais calcul
11.5.1.4. Garantir la pertinence des données
11.5.1.4.1. Obsolescence
11.5.1.4.2. Statut invalide
11.5.1.4.3. Données erronées
11.5.1.5. Assurer l'unicité
11.5.1.5.1. Doublons
11.5.1.6. Maintenir l'intégrité des données
11.5.1.6.1. Tables de références
11.5.2. Critères
11.5.2.1. Complétude
11.5.2.1.1. Champs vides
11.5.2.1.2. Valeurs par défaut
11.5.2.2. Conformité
11.5.2.2.1. Format
11.5.2.3. Cohérence
11.5.2.3.1. Données disparates et non cohérentes
11.5.2.4. Exactitude
11.5.2.4.1. Données incorrectes ou périmées
11.5.2.5. Duplication
11.5.2.5.1. Données dupliquées ou redondantes
11.5.2.6. Intégration
11.5.2.6.1. Données partielles ou dissociées
11.5.3. Etapes
11.5.3.1. Profilage de données
11.5.3.2. Découpage
11.5.3.2.1. Parsing
11.5.3.3. Premières corrections
11.5.3.4. Standardisation
11.5.3.5. Rapprochement
11.5.3.5.1. Nettoyage horizontal
11.5.3.6. Consolidation
11.5.3.6.1. Golden Record
11.5.3.7. Enrichissement
11.5.4. Indicateurs
11.5.4.1. phase de profilage de données
11.5.4.1.1. compréhension structurelle
11.5.4.2. phase d'analyse fonctionnelle
11.5.4.2.1. compréhension fonctionnelle
11.5.4.3. phase de création d'indicateurs de qualités de données
11.5.4.3.1. suivi global de la qualité
11.5.5. Règles
11.5.5.1. Outils BRMS
11.5.5.1.1. Identifier des règles fonctionnelles
11.5.5.1.2. Définir graphiquement les détails des règles
11.5.5.1.3. Créer des relations entre les différents processus
11.5.5.2. Gestion des règles
11.5.5.2.1. Définition
11.5.5.2.2. Conditions
11.5.5.2.3. Résultats
11.5.5.3. Types de règles
11.5.5.3.1. combinatoires linéaires (formules)
11.5.5.3.2. ensemblistes
11.5.5.3.3. standardisation
11.5.5.4. Dédoublonnage
11.5.5.4.1. Déduplication
11.5.5.4.2. Fuzzy matching
12. Cycle de vie
12.1. Ontologie
12.1.1. Taxonomie
12.1.1.1. Policy
12.1.2. Hiérarchies
12.1.2.1. Hierarchie principale
12.1.2.2. Hierarchie secondaire
12.2. Data Lineage
12.2.1. Couches
12.2.1.1. Informations physiques
12.2.1.2. Glossaire métier et sémantique
12.2.2. Analyse d'impact
12.2.2.1. Identification des risques
12.2.2.2. Optimisation des ressources
12.2.2.3. Prévision des conséquences
12.2.2.4. Accélération de la mise en oeuvre
12.2.2.5. Conformité réglementaire
12.2.3. Catalogue de données
12.2.3.1. vue à 360 degrés de la données
12.3. Sécuriser la donnée
12.3.1. RGPD
12.3.1.1. Anonymisation
12.3.1.1.1. Masquage
12.3.1.2. Pseudonymisation
12.3.1.2.1. Cryptographie
12.4. Gouvernance
12.4.1. concepts
12.4.1.1. sensibilité
12.4.1.2. définition
12.4.1.3. qualité
12.4.1.3.1. complète
12.4.1.3.2. cohérente
12.4.1.3.3. conforme
12.4.1.3.4. pertinente
12.4.1.3.5. unique
12.4.1.3.6. intègre
12.4.1.4. auditabilité
12.4.1.5. traçabilité
12.4.1.6. appartenance
12.4.2. exigences
12.4.2.1. exactitude et intégrité des informations
12.4.2.2. exhaustivité
12.4.2.3. actualisation
12.4.2.4. traçabilité
12.4.2.5. conformité
12.4.2.6. appartenance
12.4.3. Outils
12.4.3.1. gestion des métadonnées
12.4.3.2. gestion des glossaires métiers
12.4.3.3. supervision
12.4.3.4. linéage
12.4.3.5. sécurité des données
12.5. Observabilité
12.5.1. avantages
12.5.1.1. amélioration de la qualité des données
12.5.1.2. réduction des risques
12.5.1.3. amélioration prise de décision
12.5.2. piliers
12.5.2.1. fraîcheur
12.5.2.2. fiabilité
12.5.2.3. représentativité
12.5.2.4. auditabilité
12.5.2.5. linéage
12.5.3. outils
12.5.3.1. dynatrace
12.5.3.2. datadog
12.5.3.3. new relic
12.5.3.4. sifflet
12.5.3.5. orkestra
12.5.3.6. splunk
12.5.3.7. sumo logic
12.5.3.8. appsdynamics
12.6. Dataops
12.6.1. concepts
12.6.1.1. intégration des données
12.6.1.2. automatisation des tâches répétitives
12.6.1.3. collaboration entre équipes
12.6.2. avantages
12.6.2.1. améliorer la qualité des données
12.6.2.2. améliorer la disponibilité des données
12.6.2.3. améliorer l'accessibilité des données
12.6.3. agilité
12.6.3.1. les besoins métier évoluent constamment
12.6.3.2. cycle de développement rapide
12.6.3.3. réaction rapide aux problèmes et erreurs
12.6.3.4. gestion des priorités
12.6.3.5. collaboration
12.6.3.6. s'adapter à de nouvelles technologies
12.6.3.7. optimisation continue des performances
13. Données en tant que produit
13.1. Open Data
13.1.1. data.gouv.fr
13.2. DaaS
13.3. Data Fabric
13.3.1. étapes
13.3.1.1. acquérir des données
13.3.1.2. intégrer des données
13.3.1.3. gouverner les données
13.3.1.4. diffuser des données
13.3.2. couches d'architectures
13.3.2.1. gestion des données
13.3.2.2. ingestion des données
13.3.2.3. intégration des données
13.3.2.4. orchestration des données
13.3.2.5. découverte des données
13.3.2.6. diffusion
13.3.3. éditeurs
13.3.3.1. Talend
13.3.3.2. Informatica
13.3.3.3. IBM
13.3.3.4. Oracle
13.3.3.5. Denodo
13.4. Data Mesh
13.4.1. piliers
13.4.1.1. création et gestion d'un domaine de données
13.4.1.2. principe de Data as a Product
13.4.1.3. self-service
13.4.1.4. gouvernance fédérée
13.4.2. principes
13.4.2.1. architecture/gestion des données/domaines sont décentralisées
13.4.2.2. stratégie gestion du domaine à l'appréciation du gestionnaire
13.4.2.3. propriété du domaine = propriété des données
13.4.2.4. interopérabilité = normalisation à l'echelle du maillage
13.4.2.5. pas de structure unique => règles propres au domaine
13.4.2.6. consommateurs possibles en dehors du domaine => données traitées comme si elles étaient publiques
14. IA
14.1. Types d'IA
14.1.1. étroite
14.1.2. forte
14.1.3. ASI
14.2. Utilisation
14.2.1. Prise de décisions
14.2.2. Vision par ordinateur
14.2.2.1. Classification d'objets
14.2.2.2. détection d'objet ou reconnaissance de forme
14.2.2.3. reconnaissance faciale
14.2.2.4. OCR
14.2.2.5. IDP
14.2.2.6. segmentation d'image
14.2.2.6.1. ségmentation sémantique
14.2.2.6.2. ségmentation par instance
14.2.2.7. reconstruction d'image
14.2.2.8. localisation d'objet
14.2.3. NLP
14.2.3.1. NLU
14.2.3.2. NLG
14.2.3.3. techniques
14.2.3.3.1. stop words
14.2.3.3.2. tokenisation
14.2.3.3.3. sac de mots
14.2.3.3.4. stemming
14.2.3.3.5. lemmatisation
14.2.3.4. applications
14.2.3.4.1. recherche d'information et moteur de recherche
14.2.3.4.2. résumé
14.2.3.4.3. traduction
14.2.3.4.4. agent conversationnels
14.2.3.4.5. extraction d'informations
14.2.3.4.6. catégrorisation de texte et classification
14.2.3.4.7. analyse de l'opinion
14.2.3.4.8. réponse automatique aux emails
14.2.3.4.9. génération de contenu
14.2.3.4.10. détéction de fraude
14.2.3.4.11. assistance à la rédaction
14.3. ML
14.3.1. Expérience
14.3.1.1. Étapes
14.3.1.1.1. Apprentissage
14.3.1.1.2. Prédiction
14.3.1.2. Features
14.3.1.3. Labels
14.3.2. Approches
14.3.2.1. Déterministe
14.3.2.2. Probabiliste
14.3.3. Type d’apprentissage
14.3.3.1. Supervisé
14.3.3.2. Non supervisé
14.3.3.3. Par renforcement
14.3.4. Modèle
14.3.5. Projet
14.3.5.1. Définition des objectifs
14.3.5.1.1. Algorithmes de ML
14.3.5.2. Accès et analyse des données
14.3.5.3. Préparation des données
14.3.5.3.1. Feature Engineering
14.3.5.4. Découpage du jeu de données
14.3.5.4.1. Over-Fitting
14.3.5.4.2. Under-Fitting
14.3.5.4.3. Jeux de données
14.3.5.5. Entraînement
14.3.5.5.1. Phases
14.3.5.5.2. Algorithmes machine learning
14.3.5.6. Évaluation et scoring
14.3.5.7. Déploiement
14.3.6. Biais
14.3.7. Variance