-
hadoop이란?Data Analysis 2014. 10. 9. 10:36
hadoop
대용량의 데이터를 분산처리해줄 수 있는 자바 기반의 오픈소스 프레임워크
크게 HDFS(분산파일시스템)과 MapReduce(분산처리시스템)으로 구성된다.
HDFS
http://static.googleusercontent.com/media/research.google.com/ko//archive/gfs-sosp2003.pdf
HDFS
secondaryNameNode : 주기적으로 네임노드의 파일시스템 이밎 파일을 갱신하는 역활
Data node : HDFS에 데이터를 입력하면 입력 데이터는 32MB의 블록으로
Name node
MapReduce
https://www.usenix.org/legacy/publications/library/proceedings/osdi04/tech/full_papers/dean/dean_html/
MapReduce
JobTracker : 하둡 클러스터에 등록된 전체 job의 스케줄링을 관리하고 모니터링한다.
JobTracker : 사용자가 설정한 mapreduce프로그램을 실행하며, 하둡의 데이터노드에서 실행되는 데몬이다.
'Data Analysis' 카테고리의 다른 글
hive , mysql 설치 및 연동 (0) 2014.11.26 B310-W2 (0) 2014.11.25 mapper, reducer (0) 2014.11.11 BGP raw data 분석위한 url (0) 2014.10.30 AWS (0) 2014.10.30