성안당, ‘빅데이터 전문가의 하둡 관리’ 출간

속도·신뢰성·비용절감으로 각광받는 ‘하둡’ 관리자의 필독서

데이터 양이 많은 페이스북과 같은 기업에서 서버의 트래픽이 몰리지 않고 사용자가 빠른 피드백을 받도록 하려면 데이터를 분산해서 효율적으로 처리해야 한다.

코끼리 모양의 아이콘으로 연상되는 아파치 하둡(Hadoop: High-Availability Distributed Object-Oriented Platform)은 1996년 6월 미국 델라웨어에서 설립된 아파치 HTTP 서버를 포함한 아파치 오픈소스 소프트웨어 프로젝트를 지원하는 아파치 소프트웨어 재단(ASF)에서 개발해 아파치 하둡으로도 불린다.

빅데이터 시대에 속도와 신뢰성이 답보되면서 비용도 저렴한 삼박자의 효율적인 솔루션으로 각광받는 하둡은 2003, 205년에 발표된 구글 분산 파일 시스템(GFS)과 맵리듀스((MapReduce)를 구현한 것으로 대량의 자료를 처리할 수 있는 대형 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크를 말한다.

하둡은 빅데이터를 다루는 다양한 기업에서 도입하고 있는데 익스피디아, 호텔스닷컴, 테슬라, KT 등이 하둡을 여러 분야에 도입해 하둡 기반 플랫폼도 구축하고 있다.

‘Expert HADOOP Administration’ 원서 저자로 하둡 관리자로서의 기술적인 배경과 집필 경험이 풍부한 샘 R. 알라파티(Sam R. Alapati)는 하둡에 대한 큰 그림을 볼 수 있도록 해준다. 하둡 생태계의 하둡 컴포넌트들인 아브로, 플룸, HBase, HCatalog, 하이브, 휴, 카프카, 머하웃, 우지, 피그, 스쿱, 스톰, 테즈 등은 하나하나가 책 한 권으로도 나와 있을 만큼 큰 주제지만 이 책에서는 이런 솔루션들을 빠짐없이 소개하고 언급한다.

저자는 하둡 생태계에서 크게 얀과 하둡 분산 파일 시스템(HDFS)을 배치하면서 하둡으로 배치, 인터랙티브, 실시간 데이터 접근을 위해서는 스크립트로는 피그, SQL로는 하이브, 스파크, 자바 스칼라로는 캐스케이딩, 스트림으로는 스파크 스트리밍, 인메모리로는 스파크, 검색으로는 솔라(Solr), NoSQL로는 HBase와 어큐뮬로, 머신러닝으로는 스파크 MR과 스파크 R 등을 사용한다며 하둡의 핵심 컴포넌트와 툴을 한눈에 보여준다. 또 하둡을 관리하기 위해 알아야 하는 것, 하둡 1과 2의 차이점을 다룸으로써 하둡 3 시대에도 대비할 수 있도록 하며, 하둡 관리의 핵심 영역까지 소개한다.

역자 안진섭씨는 역시 빅데이터와 관련된 기업인 SAP 코리아에서 데이터베이스 엔진을 개발하면서 하둡에 대한 경험도 풍부한 프로그래머로서 이 책을 상세하고 이해할 수 있는 수준까지 번역하고자 애썼다.

이 책은 크게 5부 21장으로 구성됐다. 1부에서는 하둡의 아키텍처와 하둡 클러스터를, 2부에서는 하둡 애플리케이션 프레임워크, 3부에서는 하둡 데이터 관리 및 보호, 고가용성, 4부에서는 데이터 이동, 리소스 할당, 잡 스케줄링, 보안, 5부에서는 모니터링, 최적화, 문제 해결 등을 다룬다. 빅데이터와 머신러닝의 시대, 꼭 필요한 전문가인 하둡 관리자가 되기 위해 반드시 읽어야 할 책으로 추천할 만하다.

강석오 기자 다른기사 보기