Ciencia de Datos

Get Started. It's Free
or sign up with your email address
Ciencia de Datos by Mind Map: Ciencia de Datos

1. Hadoop MR

1.1. Procesamiento distribuido de grandes datos. Conjuntos a través de grupos de computadoras

1.2. MapReduce

1.3. Alta disponibilidad, tolerancia a fallos.

1.4. Bueno para el procesamiento por lotes

1.5. High latency

1.6. No usa bien la memoria

1.7. Los algotitmos iterativos utilizan una gran cantidad de IO.

1.8. API primitiva y clave / valor IO

1.9. Conceptos básicos como joins requieren mucho código

1.10. El resultado es una gran cantidad de archivos

1.11. parte Hadoop

1.12. INPUT/OUTPUT: HDFS, HBase

2. Kafka

2.1. Sistema de mensajería distribuida de publicación-suscripción.

2.2. Alto rendimiento

2.3. Mensajería escalable persistente para carga de datos en paralelo a Hadoop

2.4. Compresión para el rendimiento, reflejo de HA (High Availability) y escalabilidad

2.5. Usado generalmente para clickstream ( informe detallado de cómo cada usuario se mueve por una página web)

2.6. Salida de extracción

2.7. Utilice Kafka si necesita un sistema de mensajería empresarial altamente confiable y escalable para conectar muchos sistemas múltiples, uno de los cuales es Hadoop.

3. Motor de Ejecución

3.1. Spark (Apache)

3.1.1. Corre a través de YARN o como independiente

3.1.2. Puede trabajar con HDFS, HBase, Cassandra, Hive data

3.1.3. Proceso de datos general parecido a MR + streaming, consultas interactivas, machine learning etc.

3.1.4. RDD con caché

3.1.5. Independiente, basado en YARN. Basado en mesos, lado a lado en la implementación existente de Hadoop

3.1.6. Bueno para el algoritmo iterativo, iterativo procesamiento y aprendizaje automático

3.1.7. API completa y shell interativo

3.1.8. Muchas acciones y transformaciones para RDD

3.1.9. Sintaxis simple

3.1.10. Compatible con datos Hadoop existentes

3.1.11. Entrada/Salida: HDFS, HBase, FS. cualqeuir fuente con formato de entrada Hadoop

4. Frameworks

4.1. Tez

4.1.1. Parte de Hadoop

4.1.2. Marco para construir basado en YARN aplicaciones por lotes / interactivas de alto rendimiento

4.1.3. Hive y Pig se basaron en él

4.1.4. Provee API

4.1.5. Por encima de YARN

4.2. YARN

4.2.1. Parte Hadoop

4.2.2. Administrador de recursos

4.2.3. Security

4.3. ZooKeeper

4.3.1. Coordinación de clusters

4.3.2. Usado por Storm, Hadoop, HBase, Elastic Search etc.

4.3.3. Mensajería grupal y registros compartidos. con un mecanismo de eventos similar.

5. Machine Learning

5.1. MLib

5.1.1. La Implementación de Spark en algunos algoritmos de Machine Learning común y utilidades, incluyendo clasificación, regresión, agrupación, filtrado colaborativo y reducción de dimensionalidad.

5.1.2. Contribución inicial de AMPLab, UC Berkeley, salió con Spark desde la versión 0.8

5.1.3. Parte Spark

5.2. Mahout

5.2.1. Encima de Hadoop

5.2.2. Utilizando MR

5.2.3. Parte de Lucenet

6. Introducción al evento

6.1. Flume

6.1.1. El caso de uso principal es ingerir datos en Hadoop

6.1.2. Sistema Distribuido

6.1.3. Recopilación de datos de muchas fuentes.

6.1.4. Principalmente procesamiento de registros

6.1.5. Salida forzada

6.1.6. Muchos colectores prediseñados

6.1.7. SALIDA: Escribe a HDFS, HBase, Cassandra etc

6.1.8. ENTRADA: puede usar Kafka

6.1.9. Utilice Flume si tiene fuentes de datos no relacionales, como bitácoras de los archivos que desea transmitir a Hadoop.

7. Herramientas

7.1. Planificador

7.1.1. Oozie (Apache)

7.1.1.1. Programa trabajos de Hadoop

7.1.1.2. Combina múltiples trabajos secuencialmente en la unidad de trabajo

7.1.1.3. Integrado con la pila Hadoop

7.1.1.4. Soporta trabajos para MR, Cerdo, Colmena y Aplicación del sistema Sqoop +, Java, shell

7.2. Panel

7.2.1. Hue (Cloudera)

7.2.1.1. UI para Hadoop y satelites (HDFS, MR, Hive, Oozie, Pig, Impala, Solr etc.)

7.2.1.2. Webpanel

7.2.1.3. Carga los archivos a HDFS, envia a Hive queries etc.

7.3. Análisis de datos

7.3.1. Pig (Apache)

7.3.1.1. Lenguaje de script de alto nivel

7.3.1.2. Puede invocar de código en Java, Ruby etc.

7.3.1.3. Puede obtener datos de archivos, streams u otras fuentes.

7.3.1.4. Salida a HDFS

7.3.1.5. Scripts Pig trasladados a series de trabajo de MR

7.4. Transferencia de datos

7.4.1. Sqoop (Apache)

7.4.1.1. Transferencia de datos masivos entre Apache Hadoop y almacenes de datos estructurados tales como bases de datos relacionales

7.4.1.2. Replicación bidireccional de ambas Instantáneas (snapshots) y actualizaciones incrementales.

7.4.1.3. Importación entre repositorios de datos externos, HDSF, Hive, HBase etc.

7.4.1.4. Trabaja con bases de datos relacionales como: Teradata, Netezza, Oracle, MySQL, Postgres, and HSQLDB

7.5. Visualización de datos

7.5.1. Tableau

7.5.1.1. Entrada: Pude accesar datos en Hadoop via Hive, Impala, Spark SQL, Drill, Presto o cualquier ODBC en Hortonworks, Cloudera, DataStax, MapR

7.5.1.2. Salida: reportes, UI web, UI client

7.5.1.3. Clustered. Cercano a la escalabilidad lineal

7.5.1.4. Puede accesar a bases de datos

7.5.1.5. Puede explorar y visualizar datos

7.5.1.6. SQL

7.6. Seguridad

7.6.1. Knox (Apache)

7.6.1.1. Proporciona un solo punto para autentificar y acceso a servicios en Hadoop cluster

7.7. Analítica de Gráficos

7.7.1. GraphX

7.7.1.1. parte Spark

7.7.1.2. API para gráficas Gráfica-paralela en computación