“하둡 2.0으로 빅데이터 2.0 시대 개막”

하둡, 엔터프라이즈 확산 과제 … SQL 적용 확대 ‘속속’

빅데이터는 모바일, 클라우드 등과 함께 3세대 IT 플랫폼 시대로의 전환을 불러일으키는 원동력이다. 모집 집단이 클수록 신뢰성을 향상시키는 여론조사처럼 보다 많은 데이터를 분석함으로써 분석 결과의 정확성을 높여 새로운 가치를 창출한다는 것이 빅데이터의 핵심이다.

빅데이터가 대두하게 된 배경은 기술적 진화에 있다. 인메모리 기술로 더욱 신속한 분석이 가능하게 됐으며, 하둡과 같은 개방형 기술의 등장으로 더 많은 데이터를 비용효율적으로 저장할 수 있게 됨으로써 분석 대상인 데이터를 기존 정형 데이터에 국한되던 분석 영역을 반정형, 비정형 데이터까지 확대시킬 수 있는 환경이 마련된 것이다.

특히 하둡은 빅데이터의 표준 플랫폼으로 인식되고 있다. 구글의 분산파일 시스템 구조에 대응하는 하둡은 값싼 하드웨어로 대용량 데이터를 저장하고, 활용할 수 있게 해 대용량 데이터 처리에 대한 비용적 부담을 없앤다. 과거 대용량 데이터 처리에 요구되던 비용의 극히 일부분으로도 대용량 데이터를 수용하게 됨으로써 더 많은 데이터를 수집, 분석하는 빅데이터 시대를 개막시켰다.

물론 하둡이 곧바로 주류로 자리매김한 것은 아니다. 하둡은 생소한 분야였으며, 기존 엔터프라이즈 데이터 분석 담당자는 하둡 사용을 까다로워했다. 맵리듀스라는 생소한 함수를 이용해야 했기 때문이다. 이러한 어려움을 해소, 엔터프라이즈 중심으로 나아가기 위해 지난해 10월 하둡 2.0이 공식 선보였다. 하둡 2.0은 내부에 직접적으로 애플리케이션을 구현할 수 있게 해 기업 애플리케이션 플랫폼으로써 기능할 수 있게 했으며, 스냅샷, NFSv3 파일시스템 지원 등 확장성도 높아졌다.

무엇보다 프로세싱 엔진과 애플리케이션에 하드웨어 리소스를 효율적으로 분배하는 리소스 관리 엔진인 얀(YARN : Yet Another Resource Negotiator)의 추가가 획기적이다. 얀으로 엔터프라이즈 적용을 위해 필수적인 안정성을 강화할 수 있을 뿐 아니라 이중화 구성을 지원함으로써 가용성 부분도 만족시킨다.

특히 얀은 다양한 데이터 처리 엔진을 연결할 수 있게 해 맵리듀스의 제약을 탈피하게 한다. 얀 아키텍처 적용으로 하둡에서 데이터 처리를 담당하는 프로세싱 엔진을 맵리듀스 외에도 다양하게 쓸 수 있어 익숙한 SQL로 하둡 데이터를 처리하는 SQL 온 하둡(SQL on Hadoop)이 한층 가속화될 수 있는 길을 확대했다.

빅데이터 시장 잠잠
하둡 2.0이 발표되면서 빅데이터의 확산은 한층 기대를 받았다. 특히 빅데이터가 주목받은 이후 수년간 논의가 진행되면서 시범적용이 이뤄지고 있어 2014년에는 본격 확산이 한층 기대됐다. SK텔레콤, KT, 다음커뮤니케이션 등을 비롯해 서울시, 건강보험심사평가원, 국립재난안전연구원 등 일반기업과 공공분야에서 발굴된 빅데이터 성공사례를 기초로 본격적인 확산이 기대된 것이다.

빅데이터의 대표적 성공사례로 꼽히는 것은 서울시가 운행하고 있는 심야전용 시내버스다. 서울시는 KT와 함께 30억건의 통화량 데이터를 분석해 강남과 홍대, 동대문, 신림, 종로 등을 심야 유동인구가 집중되는 곳을 파악, 최적의 노선을 산출함으로써 시민의 교통불편을 해소했는데, 이는 빅데이터의 실질적 효과를 체감하게 하는 성과라고 말할 수 있다. 서울시 심야전용 시내버스는 2013년 안전행정부가 주최한 지방행정정보화 연찬회에서 대통령상을 수상하는 등 빅데이터를 기반으로 더 높은 생활편의를 가져온 사례로 손꼽힌다.

SK텔레콤과 KT 등도 빅데이터 활용에 적극적으로 나서 사용자를 데이터를 분석해 서비스 품질을 높이고, 새로운 가치를 창출한 사례로 들 수 있다. KT의 경우, 통화 기록, 데이터 사용 기록 로그 등에 빅데이터 기술을 적용해 500억원 이상의 비용절감과 장애대응 시간 50% 단축을 이뤄냈다고 알려진다. GS홈쇼핑도 고객행동 분석에 빅데이터 분석 기술을 적용해 고객의 요구변화를 신속하게 파악, 매출증대 및 고객 만족도 향상의 기반으로 삼고 있다.

이러한 성과에 국내 빅데이터 시장의 고속 성장은 기대를 받았다. 정부 역시 빅데이터에 힘을 더하고 있는 것도 호재로, 빅데이터의 성장 가능성을 한층 밝게 했다. 정부는 빅데이터 마스터플랜을 마련해 4개 영역 12개 세부과제 아래 정부와 민간이 총 5000억원을 투입, 빅데이터 기반을 조성하고, 빅데이터를 통한 신성장동력 창출에 나설 계획을 밝힌 바 있다.

그렇지만 2014년 빅데이터 시장 성장은 기대와 달리 본격적인 확산을 이뤄내지 못하고 있는 모습이다. 국내 경기의 침체 등이 주요 원인으로 빅데이터라는 화두는 수많은 이야기 거리를 만들어 내고 있지만, 실질적인 수요로는 연결되지 못했다. 금융, 유통을 비롯해 제조, 온라인 쇼핑 등에서 빅데이터 수요가 증가하고 있지만, 대형 레퍼런스를 확보되지 않으면서 기대만큼의 고속 성장을 이뤄내지 못했다고 평가된다.

빅데이터 역량 확대 ‘필요’
기대에 미치지 못하는 빅데이터 시장 성장은 국내 기업의 빅데이터 역량 부족에 기인한다고 평가된다. 대한상공회의소가 지난 7월 국내 기업 500개사를 대상으로 빅데이터 활용 현황을 조사한 결과, 응답 기업의 81.6%가 빅데이터를 ‘활용하지 않고 있다’고 답했으며, ‘빅데이터를 활용한다’는 기업은 7.5%에 그쳤다. ‘향후 활용 계획이 있다’는 답도 10.9%에 불과했다.

이는 역량과 경험 부족이 주요 요인으로 분석된다. 빅데이터를 활용하지 않는 이유로는 ‘데이터 분석역량 및 경험부족’이 19.6%로 가장 많은 응답을 받았으며, ‘시스템 구축비 등 예산부족(19.4%)’ ‘정보보호 및 안정성에 대한 우려(17.5%)’ ‘빅데이터에 준비되지 않은 기업문화(15.9%)’ ‘투자대비 수익 불투명(15.1%)’ ‘적합한 데이터 관리 솔루션 부재(12.5%)’ 등이 뒤를 이었다.

그렇지만 빅데이터는 피할 수 없는 흐름으로 성장 가능성은 여전히 높다. 빅데이터를 기반으로 미래 예측의 정확도를 증가시킴으로써 위험을 회피하는 동시에 성장의 기회를 잡을 수 있을 것으로 기대되기 때문이다. 나아가 모든 기기에 연결성을 부여, 새로운 가치를 창출하는 사물인터넷(IoT)은 빅데이터 분석이 결합될 때 새로운 가치 창출이 가능한 분야다. 즉 빅데이터의 성장성은 여전히 높다고 말할 수 있다.

호튼웍스, 맵알 등 하둡 기반 글로벌 빅데이터 플랫폼 기업이 2013년 말 연이어 국내 시장에 진입한 까닭도 국내 시장에서의 빅데이터 성장 가능성에 주목했기 때문이다. 특히 우리나라는 인터넷과 스마트폰 보급률이 높은 지역으로, 수많은 사용자가 다양한 데이터를 생성하고 있어 빅데이터의 잠재력을 발산할 수 있는 최적의 지역으로 꼽힌다.

김점배 맵알코리아 지사장은 “IT 기기 활용률이 높은 우리나라는 전세계적으로 상징성을 지닐 수 있다”며 “맵알은 가장 앞선 빅데이터 엔터프라이즈 하둡 플랫폼과 함께 국내 빅데이터 시장을 선도할 것으로 확신한다”고 밝히기도 했다.

강형준 한국호튼웍스 지사장은 “호튼웍스가 아태지역 공략의 첫 출발지로 한국을 선택한 것은 신기술을 받아들이는 트렌드세터로 한국시장의 가능성을 높게 봤기 때문”이라며 “하둡유저그룹을 활성화 등을 통해 빅데이터 역량 향상에 주력해 사용자와 기업, 그리고 호트웍스의 동반 성장을 이뤄낼 것”이라고 언급했다.

SQL 온 하둡 ‘주목’
빅데이터를 위한 기술이 성숙되고 있다는 점도 빅데이터 시장의 향후 가능성에 대한 기대를 높이는 요소다. 보다 진보된 기능의 아파치 하둡 2.0의 공식 릴리즈되고, SQL 온 하둡(SQL on Hadoop)과 같이 편의성과 안정성을 높이는 기술이 등장, 성숙도를 높아지면서 확산의 기반이 조성되고 있는 것이다.

권영길 그루터 사장은 “지금까지 국내 빅데이터가 불충분한 이해에서 혼란을 겪었다면 이제는 여러 사례로 빅데이터 이해도가 높아짐과 동시에 빅데이터는 하둡 2.0, 아파치 타조 등 관련 기술의 개발과 생태계 활성화가 이뤄지면서 본격적인 확산이 개시될 것”이라는 기대를 전하기도 했다.

특히 하둡 2.0과 함께 SQL 온 하둡의 진화가 주목되고 있다. SQL 온 하둡은 데이터 처리와 관련된 표준 언어라고 할 수 있는 SQL을 적용함으로써 낯설음이라는 하둡의 단점을 최소화할 수 있어 엔터프라이즈로 빅데이터를 확산시킬 수 있는 기술로 평가된다. 하둡 2.0이 다양한 데이터 처리 프로세싱 엔진을 쓸 수 있도록 하고 있지만, 맵리듀스의 불편 해소를 위해 SQL 온 하둡은 하둡 2.0 발표 이전부터 높은 관심을 끌어 왔다.

SQL 온 하둡은 그 이름처럼 하둡 환경의 데이터를 SQL 방식으로 들여다볼 수 있게 한다. 단순한 질의 기능뿐 아니라 완전한 데이터 정의 기능과 조작 기능을 갖추고, 대화식 사용을 지원함으로써 익숙한 SQL의 편의성을 하둡에서 활용하도록 하자는 것이 바로 SQL 온 하둡의 개념으로, 비정형, 반정형 데이터가 저장되는 하둡 외에 데이터베이스의 정형 데이터까지 포괄할 때 SQL이라는 공통의 언어로 비정형, 반정형 데이터와 정형 데이터를 구분하지 않고 통합 활용할 수 있는 장점이 있다.

클라우데라의 ‘임팔라’, 호튼웍스의 ‘스팅거’, 맵알 ‘드릴’ 등이 SQL 온 하둡을 표방하고 있는 솔루션이며, 국내 개발자가 제안하고, 그루터가 적극적으로 대응하고 있는 ‘타조’도 SQL 온 하둡을 구현하는 기술로 주목된다.

특히 주목되는 것은 타조다. 타조는 지난 3월 아파치재단의 톱레벨 프로젝트로 승격됐으며, SK텔레콤이 데이터분석 플랫폼으로 타조를 도입해 활용함으로써 실질적인 대형 레퍼런스를 확보, 한층 눈길을 끌고 있다. 타조 기반 기술을 강화하고 있는 그루터는 타조 기반의 하둡 어플라이언스 출시 계획도 갖고 있는 것으로 알려진다.

그루터에 따르면, SK텔레콤에서 타조는 표준 ANSI SQL 언어를 사용, 100ms의 쿼리 처리 시간을 보였으며, 그루터가 진행한 쿼리 처리 벤치마크 테스트에서도 타조는 샘플 데이터를 330초만에 처리해 827초가 걸렸던 하이브에 비해 한층 신속한 분석 역량을 과시했다.

최근에는 UC버클리대학교에서 개발한 ‘스파크’에 대한 관심도 높아지고 있다. 지난 3월 타조와 함께 아파치재단 톱레벨 프로젝트가 된 스파크는 데이터 분석에 인메모리 기술을 적극 활용해 속도를 향상시킬 수 있으며, SQL을 사용할 수 있는 ‘샤크’와 연동함으로써 속도 향상은 물론 편리성의 이점까지 얻을 수 있다.

스파크는 글로벌 하둡 전문기업으로 꼽히는 클라우데라, 맵알 등의 전폭적 지지를 받고 있다는 점에서 주목을 더한다. 클라우데라는 5월 발표한 클라우데라하둡배포판(CDH) 5.1 버전에 스파크를 포함시켰으며, 맵알 또한 4월말 맵알 배포판을 스파크에 최적화했다고 발표하는 등 관심을 받고 있다.

DW에서도 ‘SQL 온 하둡’
글로벌 데이터웨어하우스(DW) 진영에서도 SQL 온 하둡은 주목의 대상이다. EMC 피보탈 ‘호크’에 이어 IBM과 오라클은 SQL 온 하둡을 구현하는 ‘빅SQL’, ‘빅데이터SQL’을 발표했으며, 테라데이타도 SQL 온 하둡 전문기업인 하답트(Hadapt)를 인수하면서 SQL 온 하둡 기술력 가속화에 나섰다. 마이크로소프트도 2013년 초 ‘마이크로소프트 SQL 서버 2012 PDW’에서 SQL 온 하둡을 구현하는 폴리베이스(PolyBase) 기능을 탑재해 하둡과의 직접적인 연결에 나서는 등 DW 진영에서도 SQL 온 하둡이 화두가 되고 있다.

DW 진영은 당초 하둡을 직접 활용하기 보다 커넥터 개념으로 하둡을 연결, 하둡의 데이터를 DW로 옮겨 분석하는 방식을 주로 취했다. 테라데이타는 SQL을 기반으로 빅데이터를 분석할 수 있는 SQL-H 기술을 탑재한 ‘테라데이터 애스터’로 하둡 데이터를 분석하도록 했으며, ‘빅데이터 어플라이언스’를 선보이고 있는 오라클도 커넥터 방식으로 하둡과의 연결성을 제공했다. 하지만 EMC가 하둡 내에서 직접적으로 SQL을 활용하는 호크를 ‘피보탈HD’에 적용한 이후 커넥터 방식의 연결보다 SQL 온 하둡 기술을 통해 보다 직접적으로 하둡 분석을 수행하는 방식이 대세로 떠오르고 있는 것이다.

EMC 호크는 하둡에서 SQL을 활용해 고급통계, 분석함수를 사용할 수 있게 함으로써 하둡 환경에서 맵리듀스의 복잡한 개발 과정을 제거해 고급 하둡 개발자가 없이도 빅데이터 분석을 가능하게 한다. 특히 호크는 명령어 수행이 끝나기 전 다른 명령어의 수행을 시작하는 다이나믹 파이프라이닝과 보다 적은 리소스에서 효율적으로 쿼리를 실행하는 쿼리 옵티마이저 등이 장점으로 하둡 환경에서 쿼리와 데이터 분석 속도를 최대 600배까지 향상시킨다.

한국EMC는 “기존 빅데이터 이슈에서 오픈소스 하둡을 자체적으로 활용하려는 시도가 있었지만, 이를 위한 개발과정을 생각하면 이는 시간과 비용 모두에서 비효율성이 크다”며 “EMC는 정형, 비정형 데이터를 통합 분석할 수 있는 플랫폼에 SQL 온 하둡 기술을 더해 비용, 성능, 효율성 측면에서 이점을 제공한다”고 강조했다.

EMC는 또한 분석 성능 향상을 위해 젬파이어와 SQL파이어도 선보였다. EMC가 보유한 계층형 데이터 처리 기술을 활용하는 젬파이어와 SQL파이어는 자주 사용되는 데이터는 메모리단에 올려 보다 분석 성능을 향상시킨다.

오라클 빅데이터SQL은 하둡이나 NoSQL 데이터베이스에 저장된 데이터를 오라클SQL로 조회, 분석하게 해주는 솔루션이다. SQL쿼리 언어로 하둡 데이터를 조회할 수 있어 편리하며, 기존의 커넥터 접근이나 하이브 방식보다 한층 향상된 성능을 제공할 수 있다. 오라클 빅데이터SQL은 오라클 빅데이터 어플라이언스에서 기능하는 소프트웨어로, 현재는 오라클DB 12c 버전을 탑재한 엑사데이터에서 이용가능하며, 향후 다양한 엔지니어드시스템으로 확대될 계획이다.

오라클은 하둡 로컬데이터에 쿼리를 적용하는 ‘하둡 스마트 스캔’ 기술을 탑재시켜, 성능을 한층 향상시킨 점을 차별화 요소로 꼽았다. 스토리지에서의 데이터 스캐닝으로 결과값을 빠르게 받을 수 있게 한다는 것이다.

하둡을 DW에 연결하는 어댑터 방식을 고수했던 테라데이타가 SQL 온 하둡 전문기업인 하답트를 인수한 것도 눈에 띈다. 테라데이타는 테라데이타 애스터를 통한 연결 방식이 보다 효율적임을 지속적으로 강조해왔다.

허먼 위머 테라데이타 인터내셔널 총괄 사장은 올해 초 방한한 자리에서 “애스터를 기반의 하둡 연계로 정형·반정형·비정형을 아우를 수 있을 뿐 아니라 더욱 신속한 분석결과 도출이 가능하다”면서 테라데이타 애스터가 지닌 경쟁우위를 강조한 바 있다.

하답트는 포스트그레SQL을 하둡에서 직접 활용하게 함으로써 SQL 온 하둡에 대응했던 전문기업으로, 하답트 인수가 테라데이타의 전략적 변화가 주목된다. 일단 테라데이타는 하답트 인수와 관련 테라데이타의 통합 데이터 아키텍처(UDA)를 더욱 향상시킬 수 있는 기술력 확보에 방점을 두면서 포트폴리오를 확대에도 의미를 부였다.

SQL 온 하둡 역시 엔터프라이즈 시장에서 아직은 미미한 상황이다. SK텔레콤의 타조 도입을 제외하면, 글로벌 시장을 시각을 확대해도 파괴력 높은 대형 레퍼런스가 눈에 띄지 않는 것이다.

하지만 하둡 전문 벤더뿐 아니라 EMC, IBM, 오라클 등 대형 글로벌 기업까지 참여하고 있고, 빅데이터 분석을 위한 시범적용은 꾸준히 이뤄지고 있다. SQL 온 하둡은 시장의 다크호스로 여전한 주목의 대상이다. 나아가 SQL 온 하둡의 미온적 움직임은 기대와 달리 지지부진한 빅데이터 시장을 보여주는 것으로, SQL 온 하둡의 성장은 빅데이터의 성장까지 이끌 수 있어 주의깊게 살펴볼 기술임은 분명하다.

오현식 기자 다른기사 보기