ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • hadoop이란?
    Data Analysis 2014. 10. 9. 10:36

    hadoop


    대용량의 데이터를 분산처리해줄 수 있는 자바 기반의 오픈소스 프레임워크

    크게 HDFS(분산파일시스템)과 MapReduce(분산처리시스템)으로 구성된다.


    HDFS

    http://static.googleusercontent.com/media/research.google.com/ko//archive/gfs-sosp2003.pdf


    HDFS

    secondaryNameNode : 주기적으로 네임노드의 파일시스템 이밎 파일을 갱신하는 역활

    Data node : HDFS에 데이터를 입력하면 입력 데이터는 32MB의 블록으로 

    Name node


    MapReduce

    https://www.usenix.org/legacy/publications/library/proceedings/osdi04/tech/full_papers/dean/dean_html/


    MapReduce

    JobTracker : 하둡 클러스터에 등록된 전체 job의 스케줄링을 관리하고 모니터링한다.

    JobTracker : 사용자가 설정한 mapreduce프로그램을 실행하며, 하둡의 데이터노드에서 실행되는 데몬이다.


    'Data Analysis' 카테고리의 다른 글

    hive , mysql 설치 및 연동  (0) 2014.11.26
    B310-W2  (0) 2014.11.25
    mapper, reducer  (0) 2014.11.11
    BGP raw data 분석위한 url  (0) 2014.10.30
    AWS  (0) 2014.10.30
Designed by Tistory.