![Mind Map: Data Science](https://www.mindmeister.com/image/xlarge/3532340422/mind-map-data-science.png)
1. Données
1.1. Composition
1.1.1. donnée atomique
1.1.2. macro donnée
1.2. Homogénéité
1.2.1. Homogène
1.2.2. Hétérogène
1.3. Métadonnées
1.3.1. Propriétés de présentation
1.3.1.1. format
1.3.1.1.1. nombres
1.3.1.1.2. dates
1.3.1.1.3. valeurs monétaires
1.3.1.1.4. expression régulière
1.3.1.2. internationalisation
1.3.1.2.1. Langue
1.3.1.2.2. Localisation
1.3.2. Propriétés physiques
1.3.2.1. Domaine
1.3.2.2. Variabilité
1.3.2.2.1. variable quantitative
1.3.2.2.2. variable catégorielle
1.3.2.3. Type
1.3.2.3.1. Bits/octets
1.3.2.3.2. entiers
1.3.2.3.3. décimaux
1.3.2.3.4. textes
1.3.2.3.5. dates
1.3.2.3.6. images
1.3.2.3.7. vidéo
1.3.2.3.8. son
1.3.3. Propriétés structurelles
1.3.3.1. granularité
1.3.3.1.1. Data profiling
1.3.3.1.2. Granularité de haut niveau
1.3.3.1.3. Granularité de bas niveau
1.3.3.2. structure
1.3.3.2.1. données structurées
1.3.3.2.2. données semi-structurées
1.3.3.2.3. données non structurées
1.3.3.3. mesure
1.3.3.3.1. moyenne
1.3.3.3.2. médiane
1.3.3.3.3. mode
1.3.3.3.4. écart-type
1.3.3.3.5. variance
1.3.3.3.6. quantille
1.3.3.3.7. quartille
1.3.3.3.8. écart interquartile
1.3.3.3.9. étendue
1.3.3.3.10. fréquence de distribution d'une valeur
1.3.3.3.11. intervalles de classes
1.3.3.4. distributions
1.3.3.4.1. représentation
1.3.3.4.2. discrètes
1.3.3.4.3. continues
1.3.4. Propriétés fonctionnelles
1.3.4.1. définition
1.3.4.2. contexte
1.3.4.3. sensibilité
1.3.4.3.1. données personnelles
1.3.4.3.2. PCI DSS
1.3.4.3.3. Autres
1.3.4.3.4. Mesure
1.3.4.4. Appartenance
1.3.4.5. tracabilité
1.4. Usage
1.4.1. Données chaudes
1.4.2. données d'intention
1.4.3. données froides
1.4.4. données tièdes
1.4.5. données mortes
1.4.6. dark data
2. fichiers
2.1. CSV
2.2. XML
2.2.1. XSD
2.2.2. Parser
2.2.2.1. DOM
2.2.2.2. SAX
2.3. JSON
2.4. parquet
3. BDD
3.1. familles
3.1.1. hiérarchiques
3.1.2. SGBD-R
3.1.2.1. SQL
3.1.2.1.1. Jointures
3.1.2.1.2. transactions
3.1.3. orientées graphes
3.1.4. orientées objet
3.1.5. vectorielles
3.1.5.1. Architecture RAG
3.1.5.2. caractéristiques clés
3.1.5.2.1. représentation vectorielle
3.1.5.2.2. scalabilité
3.1.5.2.3. interopérabilité
3.1.5.2.4. flexibilité
3.1.5.2.5. similiratité/proximité
3.1.5.2.6. personnalisation
3.1.6. DBaaS
3.1.7. NoSQL
3.1.7.1. clé-valeur
3.1.7.1.1. AWS Dynamo
3.1.7.1.2. Azure Cosmos DB
3.1.7.2. document
3.1.7.2.1. Mongo DB
3.1.7.2.2. Firestore
3.1.7.3. colonne
3.1.7.3.1. Apache Cassandra
3.1.7.3.2. Apache HBase
3.1.7.4. graphe
3.1.7.4.1. Neo4J
3.2. modélisation
3.2.1. Meurise
3.2.1.1. MCD
3.2.1.2. MLD
3.2.1.3. MPD
3.2.2. Type
3.2.2.1. relationnels
3.2.2.1.1. formes normales
3.2.2.1.2. clés
3.2.2.2. UML
3.2.2.3. MEA
3.2.2.4. MOO
3.2.2.5. IDEF
3.2.2.6. MODA
3.2.2.7. dimensionnel
3.3. CIT
3.4. Indexation
3.4.1. fonctionnement
3.4.2. types d'index
3.4.2.1. B-tree
3.4.2.2. Bitmap
3.4.2.3. Table de hachage
4. SQL
4.1. MLD
4.1.1. CRUD
4.1.2. Jointures
4.2. DDL
4.3. DCL
4.4. Transactions
4.4.1. résultat
4.4.1.1. COMMIT
4.4.1.2. ROLLBACK
4.4.2. caractéristiques
4.4.2.1. mode d'accès
4.4.2.1.1. READ ONLY
4.4.2.1.2. READ WRITE
4.4.2.2. niveau d'isolation
4.4.2.2.1. READ UNCOMMITED
4.4.2.2.2. READ COMMITED
4.4.2.2.3. REPEATABLE READ
4.4.2.2.4. SERIALIZABLE
4.4.3. ACID
4.4.3.1. Atomicité
4.4.3.2. Cohérence
4.4.3.3. Isolation
4.4.3.4. Durabilité
5. systèmes
5.1. OLTP
5.2. OLAP
5.3. Distribué
5.3.1. CAP
5.3.1.1. Cohérence
5.3.1.2. Disponibilité
5.3.1.3. Tolérence au morcellement
5.3.2. architecture
5.3.2.1. maître-esclave
5.3.2.1.1. HDFS
5.3.2.2. sans maître
6. Big Data
6.1. 3V
6.1.1. Volume
6.1.2. Variété
6.1.3. Vélocité
6.2. 7V
6.2.1. Vitesse
6.2.2. Valeur
6.2.3. Véracité
6.2.4. Visualisation
6.3. hadoop
6.3.1. HDFS
6.3.1.1. NameNode
6.3.1.2. DataNode
6.3.1.2.1. défauts
6.3.2. MapReduce
6.3.2.1. fonctionnement
6.3.2.1.1. map
6.3.2.1.2. reduce
6.3.2.2. Inconvénients
6.3.2.2.1. Verbeux
6.3.2.2.2. Latence
6.3.2.2.3. flux
6.3.2.2.4. cloud
6.3.2.2.5. conteneurisation
6.3.2.2.6. scalabilité
6.3.2.2.7. tâches complexes
6.3.2.2.8. format de données
6.3.3. YARN
6.3.3.1. séparation des couches
6.3.3.2. multi-tenant
6.3.3.3. scalabilité horizontale
6.3.3.4. flexibilité
6.3.3.5. tolérance aux pannes
6.3.3.6. allocution dynamique des ressources
6.3.3.7. centralisation
6.3.3.8. Application Master
6.3.3.9. Node manager
6.3.4. bdd
6.3.4.1. Hive
6.3.4.1.1. HiveQL
6.3.4.2. HBase
6.3.4.3. Sqoop
6.3.4.4. Cassandra
6.3.4.4.1. CQL
6.3.4.5. MongoDB
6.3.5. Programmation
6.3.5.1. Pig
6.3.5.1.1. Pig Latin
6.3.5.2. Spark
6.3.5.2.1. Spark Core
6.3.5.2.2. Spark Streaming
6.3.5.2.3. Spark SQL
6.3.5.2.4. Spark GraphX
6.3.5.2.5. Spark MLib
6.3.6. flux
6.3.6.1. kafka
6.3.6.2. storm
6.3.6.3. flume
6.3.6.4. flink
6.3.6.5. spark streaming
6.3.7. gestion de cluster
6.3.7.1. ZooKeeper
6.3.7.2. Tez
6.3.7.3. Zeppelin
6.3.7.4. Oozie
6.3.7.5. Mesos
7. cache
7.1. tampon
7.1.1. Avantages
7.1.1.1. Performances
7.1.1.2. Charge système
7.1.1.3. Economie de ressources
7.1.1.4. Adaptabilité
7.1.1.5. Coût énergitique
7.1.2. Contraintes
7.1.2.1. Espace
7.1.2.2. Cohérences des données
7.1.2.3. Complexité de mise en oeuvre
7.1.2.4. Coût
7.1.2.5. Invalidation
7.2. mécanismes
7.2.1. Cache-Aside
7.2.2. Write-Through
7.2.3. Write-Behind Cache
7.2.4. Read-Through
7.2.5. LRU
7.2.6. TTL
7.2.7. Two-Level
8. MDS
9. Intégration de données
9.1. Propriétés
9.2. Architecture
9.2.1. peer to peer
9.2.2. Architecture centralisée
9.3. Modèle d'intégration de données
9.3.1. Diffusion
9.3.2. Migration
9.3.3. Synchronisation
9.3.4. Agrégation
9.3.5. Corrélation
9.4. Transmission
9.4.1. Simplex
9.4.2. Duplex
9.4.3. Demi-Duplex
9.4.4. Total-Duplex
9.5. Connexion
9.5.1. Synchrone
9.5.2. Asynchrone
9.6. Transit
9.6.1. Batch Processing
9.6.2. Real Time
9.6.3. Streaming
9.7. Fonctionnement
9.7.1. Etapes
9.7.2. montée en charge
9.7.3. tolérance aux pannes
9.7.4. connecteurs
9.7.4.1. ODBC
9.7.4.2. JDBC
9.8. Solutions
9.8.1. ETL
9.8.1.1. Connecteurs
9.8.1.2. Flux
9.8.1.3. Caractéristiques
9.8.2. ELT
9.8.3. Visualisation
9.9. Pipelines
9.9.1. Composants
9.9.2. Solutions
9.10. Bus
9.10.1. bus de message
9.10.2. point à point
9.10.3. publication-souscription
9.11. Orchestration
10. EDA
10.1. Préparation de données
10.2. Analyse technique
10.3. Data Mining
10.4. Visualisation de données
10.5. Analyse fonctionnelle
10.6. Qualité de données
11. Cycle de vie
11.1. fondements
11.2. gouvernance
11.3. dataops
11.4. observabilité
12. Données en tant que produit
12.1. Open Data
12.2. DaaS
12.3. Data Fabric
12.4. Data Mesh
13. IA
13.1. ML
13.2. IA et ML
13.3. Types d'IA
13.4. Utilisation
13.4.1. Décisions
13.4.2. Vision par ordinateur
13.4.3. NLP