본문 바로가기

hadoop3

하둡 데몬(namenode, datanode)의 기동과정과 메커니즘 이해 2010년 무렵 하둡을 처음 접한 뒤로 개발자로서의 내 삶은 많은 변화가 있었다. 내 머릿 속에 개념으로만 존재하던 분산 컴퓨팅이 일상의 개발환경이 된 것이 그 첫번째 일 것이다. 하둡과 함께 내 삶의 현장에서 일어났던 그리고 겪고 있는 이야기들을 기록하고자 한다. 사내에서 교육을 위해 정리한 자료 중 하둡의 주요 데몬들이 기동하는 과정에 서로 커뮤니케이션하는 내용을 다음과 같이 정리해봤다. 몇몇 책에서도 설명이 되어 있지만 데몬들이 기록하는 로그를 면밀하게 살펴가면서 내가 이해한 대로 그려본 것이다. 하둡은 여러 개의 브랜치가 있는데 최근에는 크게 1.x, 2.x 그리고 아직 공식 릴리즈는 없지만 로드맵 상에 3.x가 발표되어 있다. 이 글에서 언급하는 하둡은 2.x 브랜치로 2.0.0 버전이다. [그.. 2015. 9. 14.
flume-ng를 윈도에서 구동하려면 0. 들어가는 말 빅데이터(Big Data) 분야 중에 흔하게 접할 수 있는 것 하나가 많은 수의 서버에서 생산되는 로그들을 실시간으로 수집하여 분산 파일 시스템에 저장하고, 이를 MapReduce를 이용하여 분석하는 일련의 프로세스이다. MapReduce는 어느 분야에서든 공통적으로 쓰이는 것이라 딱히 새로울 것이 없다. 오늘 주목하여 살펴보려는 것은 로그를 수집하는 부분이다. 사실 로그 수집 및 분석에 대해선 Splunk라는 상용 솔루션이 이미 한 자리를 차지하고 있다. 하지만 상용 솔루션이 대부분 그렇듯, 또 최신의 기술을 반영한 제품이 늘 그렇듯 고가의 가격이 부담스러운 장벽이 된다. 아울러 솔루션의 범용성이란 말이 모든 것을 다 해줄 것처럼 보이지만 때론 각자의 특별한 필요는 채워줄 수 없는 문.. 2013. 5. 19.
이클립스에서 메이븐을 이용한 하둡 프로젝트 생성하기 0. 들어가는 말 몇 년 사이에 빅데이터에 대한 관심이 급증하였고 실제로 많은 기업들이 이미 관련 솔루션이나 제품들을 내놓고 있다. 이런 분위기에 힘입어 하둡에 관심을 갖는 개발자들도 많아진 것 같다. 하둡 개발자들을 독려하는 책들도 속속 출간되고 있는데 이 책들을 읽고나서 아쉬운 점이 몇 가지 있었다. 우선 이번 글에서는 그 첫 번째로 개발환경에 대한 것을 먼저 얘기하려고 한다. 필자는 하둡을 다음과 같이 정의한다. 자바로 개발되었으나 다양한 언어로 접근할 수 있는 분산 파일시스템과 분산 컴퓨팅에 특화된 가상운영체제 하둡은 thrift라는 기술을 이용해서 C나 Python과 같은 언어로도 클라이언트 프로그램을 개발할 수 있다. 하지만 대부분 개발자들은 자바로 접근하려 할 것이다. 자바로 만들어진 많은 .. 2012. 12. 30.