BIGDATA

Solve your problems or get new ideas with basic brainstorming

Get Started. It's Free
or sign up with your email address
Rocket clouds
BIGDATA by Mind Map: BIGDATA

1. Framework

1.1. Hadoop

1.1.1. MapReduce

1.1.1.1. Maper

1.1.1.2. Reducer

1.1.1.3. Name Node

1.1.1.3.1. Job Tracker

1.1.1.4. Secondary Node

1.1.1.5. Data Node

1.1.1.5.1. Task Tracker

1.1.2. HDFS

1.2. YARN

1.2.1. HDFS를 이용한 분산처리환경을 지원

1.2.1.1. Hadoop 1.0에선 맵퍼들은 돌고 리듀서들은 놀고 있는 상황들이 발생. 맵퍼와 리듀서의 갯수를 정해서 돌리면 시스템 자원이 남는 경우가 많았다.

1.2.1.2. YARN은 YARN위에서 MapReducer를 동작하게 하여 Resoure Manager가 노드들의 상태를 지켜보면서 작업들을 할당하여 전체적인 사용량을 올림

1.2.2. Job이 발생하면 ResoureManager에게 넘김

1.2.3. Resource Manager

1.2.3.1. Cluster의 자원 관리 및 스케쥴링을 담당

1.2.3.2. Job이 발생하면 NodeManager를 랜덤하게 골라 Application Manager 를 실행

1.2.3.3. Node Manager들에게 TASK를 요청

1.2.4. Node Manager

1.2.4.1. Claster 내 서버마다 하나씩 실행

1.2.4.2. Node 내의 자원을 관리, Resource Manager에게 상황을 보고

1.2.4.3. 여러개의 Yarn Container를 관리

1.2.4.3.1. Container 은 하나의 JVM

1.2.4.3.2. 요청된 메모리(JavaHeap)에 의해 Container의 갯수가 결정

1.2.5. Application Manager

1.2.5.1. Job 마다 1개씩 생성

1.2.5.2. Job이 발생하면 ResourceManager에게 필요한 Container을 요청

1.3. Atlas

1.4. Sqoop

1.5. Knox

1.6. Flume

1.7. Accumulo

1.8. Apache Kafka

1.8.1. 대용량 분산 큐 솔루션

1.9. Tez

1.10. Ranger

1.11. Ambari

1.12. Slider

1.13. Spark

1.14. Falcon

1.15. Zookeeper

1.16. Oozie

1.17. Logstash

1.18. Kibana

1.19. Pig

1.20. SQL on Hadoop

1.20.1. Hive

1.20.2. Apache Tajo

1.20.3. Presto

1.20.4. Cloudera IMPALA

1.20.5. Apache DRILL

1.20.6. HAWQ

1.21. Apache Twill

1.21.1. YARN상에서 애플리케이션 마스터의 개발(빌드,디버깅, 실행)을 쉽게 해준다.

1.21.2. WEAVE 에서 이름이 Twill로 변경됨

1.21.3. http://twill.incubator.apache.org/

2. Business

2.1. AWS

2.2. Toast

2.3. Cloudera

2.4. IBM

2.5. Hortonworks

2.6. Intel

2.7. MapR Technologies

2.8. Microsoft

2.9. Pivotal Software

2.10. Teradata

3. Docker?

4. Realtime Processing

4.1. CEP (Complex Event Processing)

4.1.1. Data Stream Query Base

4.1.1.1. Esper

4.1.1.2. STREAM

4.1.1.3. Oracle Event Process 11g

4.1.1.3.1. STREAM을 기반으로 BEA에 의해 개발, Oracle에서 인수

4.1.2. Production Rule Base

4.1.2.1. Drools

4.1.2.1.1. Jboss Rules

4.1.3. Composition Operator Base

4.1.3.1. SASE+

4.1.3.1.1. Research Project at University of Massachusetts Amherst

4.2. Apache Storm

4.2.1. 실시간 스트림 데이터 처리 시스템

5. Machine Learning

5.1. Mahout

6. Visualization

6.1. Tableau

6.2. R

7. Heroku?

8. Database

8.1. NoSQL

8.1.1. MongoDB

8.1.2. CouchDB

8.1.3. Redis

8.2. Graph Databases

8.2.1. OrientDB

8.3. RDBMS

8.3.1. MariaDB

8.3.2. MySQL

8.3.3. Oracle

8.3.4. PostgreSQL

9. Cassandra

9.1. HBase