데이터 경제 활성화, ‘빅데이터 플랫폼’ 시장 키운다 (1)

데이터 기반 비즈니스 수요 확대…수집부터 시각화까지 통합 플랫폼으로 한 번에

[데이터넷] 데이터 3법 시행을 앞두고 데이터 활용에 대한 기대감이 높아지면서 데이터 수집·저장·분석을 담당하는 빅데이터 플랫폼에 대한 수요도 확대될 것으로 예상된다. 특히 빅데이터는 인공지능(AI), 머신러닝(ML), 클라우드 등 4차 산업 핵심 기술들과 결부되며 기업 비즈니스에 다양한 영향력을 줄 수 있을 것으로 전망되면서, 그 성장세가 한층 가속화될 전망이다. 현재 국내 빅데이터 플랫폼 시장을 살펴봤다.

4차 산업혁명 시대를 이끌어 갈 핵심 기술로 여겨지는 빅데이터 개념이 국내에 도입된 지 10여 년 가까이 지났지만, 아직까지 시장이 크게 성장했다고 보는 이들은 많지 않은 것이 사실이다. 그도 그럴 것이 빅데이터를 한다는 기업 대부분이 일단 모으고 보자는 식으로 데이터를 수집해 저장하는 부분에만 초점을 맞췄었기 때문이다.

이후 쌓인 데이터를 분석하려 해도 쿼리나 집계 등 분석에 가장 기초가 되는 부분이 너무 오래 걸려 업무 생산성도 떨어졌으며, 그로 인해 빅데이터의 궁극적인 목적인 통찰력(Insight)을 얻는 것도 쉽지 않았다. 법제도 역시 자유로운 데이터 활용을 제한하는 경우가 많아 데이터 기반 비즈니스는 쉽게 꿈꾸기 힘든 환경이었다.

그러나 아마존, 구글, 페이스북 등 소위 데이터 기업들이 급성장하면서 산업 트렌드를 변화시킴에 따라 국내에서도 다시 한 번 데이터 활용에 대한 열기가 지펴지기 시작했다. 이에 정부도 인공지능(AI)과 데이터가 가져올 변화에 주목해 데이터·AI경제 활성화 정책을 추진하고, 시장 활성화를 가로막던 법제도도 고치는 등 분주하게 움직이고 있다. 특히, 지난 1월 데이터 3법 개정안의 국회 통과로 개인정보도 데이터로 활용할 수 있는 근거가 마련되면서 빅데이터 시장이 다시금 활기를 찾을 수 있을 것으로 기대감이 높아지고 있다.

빅데이터 위한 데이터 플랫폼 필요

현재 미국 증권가에서 세계 5대 기술 기업으로 FAANG(페이스북, 아마존, 애플, 넷플릭스, 구글)을 손꼽는다. 시가 총액이 3조7000억 달러에 달하는 이들 기업의 공통점은 ‘데이터’를 사용해 비즈니스를 혁신했다는 점이다. 이는 기업의 비즈니스 중심이 소비자 기술에서 데이터로 이동하고 있음을 보여주는 결과다.

실제로 금융권은 금융범죄를 예방하고 고객 이탈을 줄이기 위해 데이터를 활용한다. 자동차 산업도 자율주행 차량을 개발하기 위해 AI뿐 아니라 데이터에 막대한 투자를 하고 있다. 제조업에서는 신제품 출시 기간을 단축하는데 데이터 분석을 활용한다. 그리고 요즘 정부와 기업들이 디지털 트랜스포메이션을 외치며 디지털 친화적인 기업 문화로 탈바꿈하지만, 이 또한 데이터 중심의 업무 변화를 의미한다.

그러나 현실에서 기업들은 데이터를 이용하는데 어려움을 겪고 있다. 분석할 데이터가 어디에 있는지 조차도 파악되지 않는 곳이 많다. 특히 전통기업에게 데이터 활용은 부담으로 작용한다. 조직 구성원이 갖고 있는 데이터를 파헤쳐 조직이 요구하는 통찰력을 추출하기가 쉽지 않기 때문이다. 조직이 데이터로부터 막대한 가치를 창출하려면 데이터에 대한 이해와 분석이 필요하며, 이를 통한 활용법을 알아야 한다. 즉 데이터 중심적인 조직으로 거듭나기 위해서는 새로운 데이터 플랫폼이 필요하다.

기업은 이를 위해 가장 귀중한 데이터 자산을 넘겨야 한다. 이러한 데이터들은 구조화돼 있지 않으므로 흥미로운 데이터를 신속하게 식별하는 과정이 필요하다. 이 과정에서 때로는 비즈니스 생산성을 제한하고 비용을 증가시키는 부담스러운 통제가 발생할 수 있다.

그러나 기업은 어떤 상황에서도 데이터를 안전하게 보호하고 데이터에 액세스할 수 있는 사용자를 위한 정책을 시행할 수 있어야 하며, 기업은 시간이 지남에 따라 액세스를 추적해 사용자들의 행동이 허용되는지 확인하고 데이터가 언제 어떻게 사용됐는지에 대한 질문에 답변할 수 있어야 한다.

데이터 수집부터 분석까지 한 번에

빅데이터를 위한 데이터 플랫폼은 다양하다. 어떤 기업은 데이터 수집과 저장에 특화된 솔루션을 제공하기도 하고, 또 다른 기업은 분석된 결과를 시각화해서 보여주는 것에 특화된 기술력을 보유하고 있기도 하다.

그러나 최근 업계에서는 다양한 데이터 소스에서 수집한 데이터를 처리, 분석해 필요한 정보를 추출하고, 이를 기반으로 원하는 정보 서비스를 제공하는 데 필요한 IT 환경을 빅데이터 플랫폼이라 정의하고 있다.

뿐만 아니라 확장성 있는 대용량 처리 능력, 이기종 데이터 수집 및 통합 처리 능력, 빠른 데이터 접근 및 처리 능력, 대량의 데이터를 저장 관리할 수 있는 능력, 대량의 이기종 데이터를 원하는 수준으로 분석할 수 있는 능력 등을 갖춰야 하는 것으로 보고 있다.

엣지(Edge)부터 AI까지 광범위한 분석 기능을 제공하는 엔터프라이즈 데이터에 대한 새로운 접근 방식으로, 구축, 관리, 사용이 용이한 통합 데이터 플랫폼이며, IT 임직원들이 요구하는 세분화된 보안과 거버넌스 정책을 통해 하이브리드와 멀티 클라우드 환경 전반에 걸쳐 강력하면서 쉽고 간편한 셀프 서비스 분석 기능을 제공하는 것도 덕목으로 여겨진다.

그로 인해 빅데이터 플랫폼은 점차 통합 플랫폼으로 변해가고 있는 추세다. 글로벌 기업들이 빠르게 움직이고 있으며, 자사가 부족한 역량을 확장하면서 통합 플랫폼으로 확대해나가고 있다.

실제로 클라우데라의 경우 초기에는 데이터 웨어하우스(DW) 분야에 주력하다가 이후에는 AI·ML 역량 확보에 나서고 있으며, 엘라스틱도 검색에서 시작해 시각화 기능을 강화하는 사례 등이 대표적이라고 할 수 있다.

시장조사기관 QY리서치(QYResearch)는 전 세계 빅데이터 플랫폼 시장은 2018년 411억4724만 달러에서 연평균 11.22%씩 성장해 2025년에는 866억1407억 달러에 이를 것으로 내다봤다.

시장 변화 따라 진화

현재와 같은 빅데이터 환경 이전에도 데이터 분석을 위한 시도는 지속적으로 이어져왔다. 그 시초는 2000년대로 거슬러 올라간다. 당시 닷컴(.com) 열풍이 불면서 웹 기반 애플리케이션 서비스들이 늘어났으며, WAS와 DBMS로 구성되는 업무 시스템들이 등장하기 시작했다. 이때만 해도 DBMS가 데이터를 저장하는 곳이라 여겨졌을 정도다. 그러나 DBMS는 데이터를 저장해 현재 상태 정보만 보여주는 역할이었고, 이후에도 계속 같은 방식으로 발전해왔기에 과거 시점 정보를 분석하기에는 적합하지 못하다는 평가였다.

이어 구축된 것은 운영 데이터 스토어(ODS)다. 배치 기반 작업이 일어나기에 과거 실적 정보를 주기적으로 관리하고, 여기서 수집된 데이터를 엔터프라이즈 데이터 웨어하우스(EDW)에 적재(ETL) 기반으로 전송해 마트를 형성하거나 분석했다.

이처럼 그동안 데이터 분석이 과거 데이터에 집중하는 형태였다면 2010년대 들어 모바일이 등장하면서 다시 한 번 변화를 맞게 됐다. 이에 대응하기 위한 것이 서비스 지향 아키텍처(SOA)로, 서비스에 기반해 시스템을 나누자는 콘셉트였지만 큰 성과를 거두지는 못했다. 결과적으로 데이터 분석용 시스템은 오라클이나 테라데이타와 같은 어플라이언스 장비가 지속 활용됐는데, 데이터가 늘어날수록 비용도 함께 증가한다는 문제점을 안고 있었다.

더욱이 오라클과 같은 DB는 데이터를 단일 파일 시스템에 저장하는 구조인데, 데이터가 많아질수록 디스크에서 원하는 데이터를 찾는 속도가 떨어졌다. 이를 극복하기 위해 빅데이터 플랫폼이 등장했다. 빅데이터 플랫폼은 데이터를 저가의 범용 하드웨어에 분산 저장시킴으로써 데이터가 늘어나도 그 처리를 빠르게 하자는 이른바 대규모 병렬 처리(MPP) 아키텍처를 내세우고 있다.

효과적인 데이터 레이크 구축 필요

이제 세계에서 가장 가치 있는 자원은 더 이상 원유(Oil)가 아니라 데이터라는데 이견이 없을 것이다. 무엇보다 원유는 한 번 사용하면 없어지지만, 데이터 자원은 한 번뿐만 아니라 여러 번 사용해도 계속 가치가 존재하는 것이 특징이다.

그렇기에 기업 및 기관들은 데이터를 수집하고 저장한 뒤 분석하려 한다. 기존에는 정형 데이터만 수집했지만, 고객 패턴을 분석하기 위해서는 액세스 로그를 분석해야 하며, 특정 행위에 대한 분석을 하려면 카테고리 정보도 추출해야 한다. 여기에 센서 데이터에서 생성되는 실시간 데이터도 수집되고 있다.

이들은 모두 비정형 데이터에 해당한다. 과거에는 모두 버려졌던 데이터였지만, 이제는 정형 데이터보다 비정형 데이터의 중요성이 더욱 커지고 있다. 대고객 서비스를 제공하는 기업들은 로그 데이터를 토대로 실제 고객들의 행동이나 성향을 분석할 수 있고, 제조·설비 기업들은 센서 데이터를 활용해 예지정비를 할 수 있기 때문이다.

이렇듯 빅데이터 분석을 위해 정형 데이터뿐만 아니라 비정형 데이터까지 수집하고 분석하는 것에 대한 수요가 높아지고 있지만, 빠르게 증가하는 데이터를 저장하고 처리하기에는 RDB와 같은 기존 방식으로 불가능하다. 이에 데이터 종류와 모델에 상관없이 모든 유형의 데이터를 저장하고 분석할 수 있는 방안으로 데이터 레이크(Data Lake) 개념이 확대되고 있다. 데이터 레이크는 마치 물들이 호수로 모이듯이 하나의 중앙 저장소에 모든 소스로부터 오는 데이터가 저장되기에 누락될 일이 없다.

또한 별도의 스키마 정의 없이 다양한 수집 도구를 활용해 신속하게 데이터를 저장할 수 있으며, 저장공간과 분석을 위한 컴퓨팅 리소스를 분리해 확장성을 높인다. 데이터를 사용하는 시점에 원하는 형태로 정의함으로써 활용도를 높이고 관리 어려움을 줄일 수 있다.

데이터 분석에 있어 중요한 것은 충분한 양의 데이터를 모으는 것과 이를 분석하기 좋게 가공하는 과정이다. 데이터 레이크는 이를 한 번에 지원함으로써 빅데이터 분석 환경을 갖추기 위한 핵심 플랫폼으로 떠오르고 있다. 이미 아마존웹서비스(AWS)를 비롯한 클라우드 서비스 사업자들도 데이터 레이크 구축을 통한 빅데이터 분석 환경을 제공하고 있다.

데이터 레이크는 이전부터 전통적으로 사용되던 데이터 웨어하우스(DW)와도 구별된다. DW는 주로 정형 데이터인 온라인 트랜잭션 시스템, 그리고 그와 연관된 정보시스템의 데이터를 용도에 맞게 분류해 가공하고 분석하는 역할을 하기 때문이다.

국내외 기술 차이 좁혀져

빅데이터 업계에서는 국내와 글로벌 간 기술적인 차이가 과거와 달리 크게 줄어든 것으로 보고 있다. 전반적으로 빅데이터 플랫폼은 다양한 데이터를 수집하고 처리한다는 세계 흐름에 발맞춰 가고 있으며, 시스템 구축과 관련된 부분은 글로벌 시장을 뛰어넘었다고 여기는 시각도 존재한다. 저장소 개념도 하둡이 됐든 NoSQL이 됐든 상관없이 시스템 구축이 이뤄지면서 빠른 분석의 자동화 추세를 따라가고 있다.

하지만 해외에서는 소셜 데이터 분석을 위해 하둡이 생겨났지만, 국내에서는 소셜 데이터 수집을 위해 시스템을 구축했다. 즉 목적이 엄염히 달랐다.

또, 해외에서는 소셜 데이터 전체가 공개되기 때문에 유의미한 데이터를 수집하고 분석하는 것이 가능했지만, 국내 소셜 데이터는 대부분 친구만 볼 수 있는 형태기 때문에 기업 입장에서는 의미 없는 일반적인 데이터만 수집할 수밖에 없었다.

빅데이터 플랫폼을 바라보는 고객들의 인식도 차이가 있다. 일반적으로 국내에서는 신규 프로젝트를 진행할 시 5년 치를 한꺼번에 진행하는 경향이 있다. 당장 필요하지 않은 것에도 투자하고, 오히려 중요한 부분에 투자를 등한시하는 경향도 있다.

이와 반대로 해외에서는 1년 치 혹은 3년 치만 투자해 바로 사용 가능한 시스템 구축에 몰두한다. 그리고 매년 운영팀에서 예산을 받아 추가 증설이 이뤄진다. 이는 해외에서 ROI를 민감하게 받아들이기 때문이다.

솔루션적인 부분에도 차이는 존재한다. 국내 기업들의 솔루션은 고객 기업에 맞춘 최적화가 강점이며, 외산 솔루션들은 전 과정에 대한 자동화나 시스템화가 강점이다. 이는 단지 도입 고객에 따른 차이로 보이며, 그것으로 인해 장단점이 있다고 논하기에는 어렵다.

“빅데이터 플랫폼 구축, 개별 과제별 경험 축적이 중요”

최근 기업들이 비즈니스 모델을 혁신하고, 과거로부터 새롭게 비즈니스를 개선해나가는 과정이 빠르게 일어나고 있다. 그렇기에 플랫폼을 준비하는 것에 너무 많은 시간을 할애하지 않고 과제 중심으로 최대한 긍정적인 결과를 낼 수 있도록 빅데이터 구성 요소를 활용하면, 플랫폼 도입 시기도 앞당기고 비즈니스 효과도 빠르게 확인할 수 있다.

어떤 업무를 시작하기 위해 너무 많은 시간을 들이는 것은 빠르게 변화하는 비즈니스 환경에서 속도적인 우위를 점하기 어렵다. 10개 과제를 다 처리할 요량으로 빅데이터 플랫폼을 구현하기보다 개별적으로 접근하는 것이 좋은 방법이다.

빅데이터 플랫폼을 우선적으로 도입하는 것보다 일단 업무를 운영할 수 있는 환경을 만들어 비즈니스 효과를 본 다음, 그 경험에 기반한 데이터 레이크 전략을 추진해야 실패할 확률을 크게 낮출 수 있다. 이후 다른 사항들을 고려한 아키텍처 전략을 수립해야 한다.

윤현기 기자 다른기사 보기