Data Science

Les concepts de base de la data science

Lancez-Vous. C'est gratuit
ou s'inscrire avec votre adresse e-mail
Data Science par Mind Map: Data Science

1. Données

1.1. Composition

1.1.1. donnée atomique

1.1.2. macro donnée

1.2. Homogénéité

1.2.1. Homogène

1.2.2. Hétérogène

1.3. Métadonnées

1.3.1. Propriétés de présentation

1.3.1.1. format

1.3.1.1.1. nombres

1.3.1.1.2. dates

1.3.1.1.3. valeurs monétaires

1.3.1.1.4. expression régulière

1.3.1.2. internationalisation

1.3.1.2.1. Langue

1.3.1.2.2. Localisation

1.3.2. Propriétés physiques

1.3.2.1. Domaine

1.3.2.2. Variabilité

1.3.2.2.1. variable quantitative

1.3.2.2.2. variable catégorielle

1.3.2.3. Type

1.3.2.3.1. Bits/octets

1.3.2.3.2. entiers

1.3.2.3.3. décimaux

1.3.2.3.4. textes

1.3.2.3.5. dates

1.3.2.3.6. images

1.3.2.3.7. vidéo

1.3.2.3.8. son

1.3.3. Propriétés structurelles

1.3.3.1. granularité

1.3.3.1.1. Data profiling

1.3.3.1.2. Granularité de haut niveau

1.3.3.1.3. Granularité de bas niveau

1.3.3.2. structure

1.3.3.2.1. données structurées

1.3.3.2.2. données semi-structurées

1.3.3.2.3. données non structurées

1.3.3.3. mesure

1.3.3.3.1. moyenne

1.3.3.3.2. médiane

1.3.3.3.3. mode

1.3.3.3.4. écart-type

1.3.3.3.5. variance

1.3.3.3.6. quantille

1.3.3.3.7. quartille

1.3.3.3.8. écart interquartile

1.3.3.3.9. étendue

1.3.3.3.10. fréquence de distribution d'une valeur

1.3.3.3.11. intervalles de classes

1.3.3.4. distributions

1.3.3.4.1. représentation

1.3.3.4.2. discrètes

1.3.3.4.3. continues

1.3.4. Propriétés fonctionnelles

1.3.4.1. définition

1.3.4.2. contexte

1.3.4.3. sensibilité

1.3.4.3.1. données personnelles

1.3.4.3.2. PCI DSS

1.3.4.3.3. Autres

1.3.4.3.4. Mesure

1.3.4.4. Appartenance

1.3.4.5. tracabilité

1.4. Usage

1.4.1. Données chaudes

1.4.2. données d'intention

1.4.3. données froides

1.4.4. données tièdes

1.4.5. données mortes

1.4.6. dark data

2. fichiers

2.1. CSV

2.2. XML

2.2.1. XSD

2.2.2. Parser

2.2.2.1. DOM

2.2.2.2. SAX

2.3. JSON

2.4. parquet

3. BDD

3.1. familles

3.1.1. hiérarchiques

3.1.2. SGBD-R

3.1.2.1. SQL

3.1.2.1.1. Jointures

3.1.2.1.2. transactions

3.1.3. orientées graphes

3.1.4. orientées objet

3.1.5. vectorielles

3.1.5.1. Architecture RAG

3.1.5.2. caractéristiques clés

3.1.5.2.1. représentation vectorielle

3.1.5.2.2. scalabilité

3.1.5.2.3. interopérabilité

3.1.5.2.4. flexibilité

3.1.5.2.5. similiratité/proximité

3.1.5.2.6. personnalisation

3.1.6. DBaaS

3.1.7. NoSQL

3.1.7.1. clé-valeur

3.1.7.1.1. AWS Dynamo

3.1.7.1.2. Azure Cosmos DB

3.1.7.2. document

3.1.7.2.1. Mongo DB

3.1.7.2.2. Firestore

3.1.7.3. colonne

3.1.7.3.1. Apache Cassandra

3.1.7.3.2. Apache HBase

3.1.7.4. graphe

3.1.7.4.1. Neo4J

3.2. modélisation

3.2.1. Meurise

3.2.1.1. MCD

3.2.1.2. MLD

3.2.1.3. MPD

3.2.2. Type

3.2.2.1. relationnels

3.2.2.1.1. formes normales

3.2.2.1.2. clés

3.2.2.2. UML

3.2.2.3. MEA

3.2.2.4. MOO

3.2.2.5. IDEF

3.2.2.6. MODA

3.2.2.7. dimensionnel

3.3. CIT

3.4. Indexation

3.4.1. fonctionnement

3.4.2. types d'index

3.4.2.1. B-tree

3.4.2.2. Bitmap

3.4.2.3. Table de hachage

4. SQL

4.1. MLD

4.1.1. CRUD

4.1.2. Jointures

4.2. DDL

4.3. DCL

4.4. Transactions

4.4.1. résultat

4.4.1.1. COMMIT

4.4.1.2. ROLLBACK

4.4.2. caractéristiques

4.4.2.1. mode d'accès

4.4.2.1.1. READ ONLY

4.4.2.1.2. READ WRITE

4.4.2.2. niveau d'isolation

4.4.2.2.1. READ UNCOMMITED

4.4.2.2.2. READ COMMITED

4.4.2.2.3. REPEATABLE READ

4.4.2.2.4. SERIALIZABLE

4.4.3. ACID

4.4.3.1. Atomicité

4.4.3.2. Cohérence

4.4.3.3. Isolation

4.4.3.4. Durabilité

5. systèmes

5.1. OLTP

5.2. OLAP

5.3. Distribué

5.3.1. CAP

5.3.1.1. Cohérence

5.3.1.2. Disponibilité

5.3.1.3. Tolérence au morcellement

5.3.2. architecture

5.3.2.1. maître-esclave

5.3.2.1.1. HDFS

5.3.2.2. sans maître

6. Big Data

6.1. 3V

6.1.1. Volume

6.1.2. Variété

6.1.3. Vélocité

6.2. 7V

6.2.1. Vitesse

6.2.2. Valeur

6.2.3. Véracité

6.2.4. Visualisation

6.3. hadoop

6.3.1. HDFS

6.3.1.1. NameNode

6.3.1.2. DataNode

6.3.1.2.1. défauts

6.3.2. MapReduce

6.3.2.1. fonctionnement

6.3.2.1.1. map

6.3.2.1.2. reduce

6.3.2.2. Inconvénients

6.3.2.2.1. Verbeux

6.3.2.2.2. Latence

6.3.2.2.3. flux

6.3.2.2.4. cloud

6.3.2.2.5. conteneurisation

6.3.2.2.6. scalabilité

6.3.2.2.7. tâches complexes

6.3.2.2.8. format de données

6.3.3. YARN

6.3.3.1. séparation des couches

6.3.3.2. multi-tenant

6.3.3.3. scalabilité horizontale

6.3.3.4. flexibilité

6.3.3.5. tolérance aux pannes

6.3.3.6. allocution dynamique des ressources

6.3.3.7. centralisation

6.3.3.8. Application Master

6.3.3.9. Node manager

6.3.4. bdd

6.3.4.1. Hive

6.3.4.1.1. HiveQL

6.3.4.2. HBase

6.3.4.3. Sqoop

6.3.4.4. Cassandra

6.3.4.4.1. CQL

6.3.4.5. MongoDB

6.3.5. Programmation

6.3.5.1. Pig

6.3.5.1.1. Pig Latin

6.3.5.2. Spark

6.3.5.2.1. Spark Core

6.3.5.2.2. Spark Streaming

6.3.5.2.3. Spark SQL

6.3.5.2.4. Spark GraphX

6.3.5.2.5. Spark MLib

6.3.6. flux

6.3.6.1. kafka

6.3.6.2. storm

6.3.6.3. flume

6.3.6.4. flink

6.3.6.5. spark streaming

6.3.7. gestion de cluster

6.3.7.1. ZooKeeper

6.3.7.2. Tez

6.3.7.3. Zeppelin

6.3.7.4. Oozie

6.3.7.5. Mesos

7. cache

7.1. tampon

7.1.1. Avantages

7.1.1.1. Performances

7.1.1.2. Charge système

7.1.1.3. Economie de ressources

7.1.1.4. Adaptabilité

7.1.1.5. Coût énergitique

7.1.2. Contraintes

7.1.2.1. Espace

7.1.2.2. Cohérences des données

7.1.2.3. Complexité de mise en oeuvre

7.1.2.4. Coût

7.1.2.5. Invalidation

7.2. mécanismes

7.2.1. Cache-Aside

7.2.2. Write-Through

7.2.3. Write-Behind Cache

7.2.4. Read-Through

7.2.5. LRU

7.2.6. TTL

7.2.7. Two-Level

8. MDS

9. Intégration de données

9.1. Propriétés

9.2. Architecture

9.2.1. peer to peer

9.2.2. Architecture centralisée

9.3. Modèle d'intégration de données

9.3.1. Diffusion

9.3.2. Migration

9.3.3. Synchronisation

9.3.4. Agrégation

9.3.5. Corrélation

9.4. Transmission

9.4.1. Simplex

9.4.2. Duplex

9.4.3. Demi-Duplex

9.4.4. Total-Duplex

9.5. Connexion

9.5.1. Synchrone

9.5.2. Asynchrone

9.6. Transit

9.6.1. Batch Processing

9.6.2. Real Time

9.6.3. Streaming

9.7. Fonctionnement

9.7.1. Etapes

9.7.2. montée en charge

9.7.3. tolérance aux pannes

9.7.4. connecteurs

9.7.4.1. ODBC

9.7.4.2. JDBC

9.8. Solutions

9.8.1. ETL

9.8.1.1. Connecteurs

9.8.1.2. Flux

9.8.1.3. Caractéristiques

9.8.2. ELT

9.8.3. Visualisation

9.9. Pipelines

9.9.1. Composants

9.9.2. Solutions

9.10. Bus

9.10.1. bus de message

9.10.2. point à point

9.10.3. publication-souscription

9.11. Orchestration

10. EDA

10.1. Préparation de données

10.2. Analyse technique

10.3. Data Mining

10.4. Visualisation de données

10.5. Analyse fonctionnelle

10.6. Qualité de données

11. Cycle de vie

11.1. fondements

11.2. gouvernance

11.3. dataops

11.4. observabilité

12. Données en tant que produit

12.1. Open Data

12.2. DaaS

12.3. Data Fabric

12.4. Data Mesh

13. IA

13.1. ML

13.2. IA et ML

13.3. Types d'IA

13.4. Utilisation

13.4.1. Décisions

13.4.2. Vision par ordinateur

13.4.3. NLP

13.5. Réseaux de neurones

13.6. Explainable AI

14. Solutions

14.1. Data Warehouse

14.2. Data Lake

14.3. Lake House

14.4. MDM

14.5. Data Hub

14.6. EDI