Data Analysis

hadoop이란?

jianna6 2014. 10. 9. 10:36

hadoop


대용량의 데이터를 분산처리해줄 수 있는 자바 기반의 오픈소스 프레임워크

크게 HDFS(분산파일시스템)과 MapReduce(분산처리시스템)으로 구성된다.


HDFS

http://static.googleusercontent.com/media/research.google.com/ko//archive/gfs-sosp2003.pdf


HDFS

secondaryNameNode : 주기적으로 네임노드의 파일시스템 이밎 파일을 갱신하는 역활

Data node : HDFS에 데이터를 입력하면 입력 데이터는 32MB의 블록으로 

Name node


MapReduce

https://www.usenix.org/legacy/publications/library/proceedings/osdi04/tech/full_papers/dean/dean_html/


MapReduce

JobTracker : 하둡 클러스터에 등록된 전체 job의 스케줄링을 관리하고 모니터링한다.

JobTracker : 사용자가 설정한 mapreduce프로그램을 실행하며, 하둡의 데이터노드에서 실행되는 데몬이다.