본문 바로가기

HDFS2

하둡 데몬(namenode, datanode)의 기동과정과 메커니즘 이해 2010년 무렵 하둡을 처음 접한 뒤로 개발자로서의 내 삶은 많은 변화가 있었다. 내 머릿 속에 개념으로만 존재하던 분산 컴퓨팅이 일상의 개발환경이 된 것이 그 첫번째 일 것이다. 하둡과 함께 내 삶의 현장에서 일어났던 그리고 겪고 있는 이야기들을 기록하고자 한다. 사내에서 교육을 위해 정리한 자료 중 하둡의 주요 데몬들이 기동하는 과정에 서로 커뮤니케이션하는 내용을 다음과 같이 정리해봤다. 몇몇 책에서도 설명이 되어 있지만 데몬들이 기록하는 로그를 면밀하게 살펴가면서 내가 이해한 대로 그려본 것이다. 하둡은 여러 개의 브랜치가 있는데 최근에는 크게 1.x, 2.x 그리고 아직 공식 릴리즈는 없지만 로드맵 상에 3.x가 발표되어 있다. 이 글에서 언급하는 하둡은 2.x 브랜치로 2.0.0 버전이다. [그.. 2015. 9. 14.
flume-ng를 윈도에서 구동하려면 0. 들어가는 말 빅데이터(Big Data) 분야 중에 흔하게 접할 수 있는 것 하나가 많은 수의 서버에서 생산되는 로그들을 실시간으로 수집하여 분산 파일 시스템에 저장하고, 이를 MapReduce를 이용하여 분석하는 일련의 프로세스이다. MapReduce는 어느 분야에서든 공통적으로 쓰이는 것이라 딱히 새로울 것이 없다. 오늘 주목하여 살펴보려는 것은 로그를 수집하는 부분이다. 사실 로그 수집 및 분석에 대해선 Splunk라는 상용 솔루션이 이미 한 자리를 차지하고 있다. 하지만 상용 솔루션이 대부분 그렇듯, 또 최신의 기술을 반영한 제품이 늘 그렇듯 고가의 가격이 부담스러운 장벽이 된다. 아울러 솔루션의 범용성이란 말이 모든 것을 다 해줄 것처럼 보이지만 때론 각자의 특별한 필요는 채워줄 수 없는 문.. 2013. 5. 19.