[2020 ICT 분야별 전망] 빅데이터

빅데이터 분석, 더 쉽고 편리해져
효율적인 데이터 수집·저장 위한 데이터 레이크 등장…셀프서비스 분석 도구 확산

[데이터넷] 빅데이터 분석을 위해 정형 데이터뿐만 아니라 비정형 데이터까지 수집하고 분석하는 것에 대한 수요가 높아지고 있지만, 빠르게 증가하는 데이터를 저장하고 처리하기에는 기존 방식으로 불가능하다. 이에 데이터 종류와 모델에 상관없이 모든 유형의 데이터를 저장하고 분석할 수 있는 방안으로 데이터 레이크(Data Lake) 개념이 확대되고 있으며, 전문가가 아니어도 누구나 데이터 분석을 할 수 있는 ‘시티즌 데이터 사이언티스트’와 ‘셀프 서비스 분석’ 개념 역시 확산되고 있다.

최근 생성되는 데이터는 이미지, 영상, 소셜 네트워크 서비스(SNS)에서 오가는 대화들처럼 복잡하고 용량도 클 뿐만 아니라 구조화돼 있지 않아 빠른 검색이나 분석이 쉽지 않은 비정형 데이터들이 다수를 차지하고 있다.

문제는 데이터가 생산되는 속도가 너무 빠르고 그 양 또한 방대하다는 데 있다. 시장조사기관 IDC에 따르면 2018년 전 세계 데이터양이 33제타바이트(ZB)에서 2025년에 175ZB까지 늘어날 것으로 전망된다. 이를 64GB의 저장용량을 가진 스마트폰에 나눠담으려면 2조6000억대가 필요하며, 이 스마트폰들을 나열하면 지구를 500바퀴나 돌 수 있을 정도다. 이 중에서 비정형 데이터가 차지하는 비중은 80% 이상일 것으로 추정된다.

특히 빅데이터 분석의 중요성이 확대되면서 이러한 비정형 데이터까지 수집해 분석하려는 수요는 점차 높아지고 있다. 실제로 제조 분야 생산 라인에서 설치된 다양한 센서에서 수집되는 데이터들은 사물인터넷(IoT) 기술과 연계돼 IoT 데이터로 변모함으로써 설비 예지정비나 불량률 분석 등에 활용되고 있다. 그 외에도 비정형 데이터를 활용해서 소비자 성향 분석, 건물·교량 관리 등 다양한 활동들이 이뤄지고 있다.

맞춤형 정보 적시 제공

현재 빅데이터를 가장 활발하게 활용하고 있는 대표적인 분야가 디지털 마케팅이다. 디지털 마케팅은 ‘원하는 사람에게, 맞춤 콘텐츠를, 적시에 제공한다’는 디지털 시대 정보 유통 법칙과 그 맥을 같이하면서 타기팅 정확도를 더욱 높이는 방향으로 발전하고 있다.

이를 위해 디지털 마케팅 업계는 빅데이터 기술을 고도화하는 추세이며, 데이터 수집, 분석, 타기팅 등에 강점이 있는 글로벌 전문 플랫폼사와의 전략적 제휴에도 적극적으로 나서고 있다. 특히 데이터 관리 전문 솔루션을 구축해 디지털 마케팅 인프라를 강화해나가고 있다.

디지털 마케팅은 몇 해 전 등장한 ‘애드테크(AD Tech)’로 더욱 정교해지면서 발전하고 있다. 글로벌 마케팅 시장에서 대세로 떠오른 애드테크는 광고에 빅데이터, 머신러닝 등 IT 기술이 결합돼 마케팅 목적과 타깃 소비자에게 최적화된 광고 집행을 가능케 하는 방식이다. 구글, 페이스북 등도 이미 자사 플랫폼에 애드테크를 적용한 맞춤형 광고를 진행하고 있다.

빅데이터 수집 및 분석, 타깃 세분화, 매체 선정, 광고 집행, 광고효과 분석 등 디지털 광고 전반에 걸친 일련의 과정이 애드테크 생태계를 이룬다. 디지털 시장이 지속적으로 성장하면서 업계 전문가들은 애드테크 시장의 성장을 긍정적으로 전망하고 있으며, 디지털 마케팅 시장의 양적 성장뿐 아니라 질적 성장을 이끌 것으로 기대하고 있다. 이를 주목해 국내도 디지털 미디어렙사, 종합광고대행사 등에서 애드테크를 본격 도입, 강화해 나가고 있다.

최근 국내 디지털 광고업계에서는 애드테크 기반의 ‘프로그래매틱 광고’가 시도되고 있는 추세다. 프로그래매틱 광고는 특정 프로그램을 통해 사용자의 관심사, 선호도 등에 관한 빅데이터를 분석하고, 타깃 사용자가 필요로 하는 광고를 집행하는 것을 말한다. 타기팅된 광고를 적시에 띄워 광고주 입장에서는 광고 도달률을 높일 수 있고, 소비자는 유용한 정보를 얻을 수 있는 장점이 있다.

데이터 레이크로 대용량 데이터 관리

디지털 마케팅에서 주로 활용되는 소셜 분석 등과 같은 비정형 데이터 분석이 그동안 전반적인 흐름 위주였다면, 이제는 정형 데이터 분석과 같이 좀 더 기업 비즈니스에 밀착된 정보를 도출할 수 있는 방향으로 발전하고 있다. 단지 추세가 어떠하다는 것만 알려주기보다는 직접 활용 가능한 방향으로 초점이 맞춰지고 있다.

실제 한 비정형 데이터 분석 기업은 연간 35억건의 데이터를 처리하고 있다. 이는 월 3억건, 하루 1000만건의 데이터를 처리하는 수준이며, 이를 위한 스토리지도 대략 20테라바이트(TB)를 활용하고 있다. 무엇보다 이 회사가 보유한 데이터 대부분이 텍스트 기반이며, 음성 데이터나 영상 데이터를 다룰 경우 필요한 스토리지양은 최소 100배 이상 불어나게 돼 일반적인 스토리지로는 이처럼 늘어나는 데이터를 감당하기 어렵다.

이에 빅데이터 분석을 위한 대량 데이터 저장 방안으로 데이터 레이크가 주목받고 있다. 다양한 데이터 종류를 마치 물들이 호수로 모이듯이 한 곳에 저장할 수 있기 때문이다. 하나의 중앙 저장소에 모든 소스로부터 오는 데이터가 저장되기에 누락될 일이 없다.

별도의 스키마 정의 없이 다양한 수집 도구를 활용해 신속하게 데이터를 저장할 수 있으며, 저장 공간과 분석을 위한 컴퓨팅 리소스를 분리해 확장성을 높인다. 데이터를 사용하는 시점에 원하는 형태로 정의함으로써 활용도를 높이고 관리 어려움을 줄일 수 있다.

데이터 분석에 있어 중요한 것은 충분한 양의 데이터를 모으는 것과 이를 분석하기 좋게 가공하는 과정이다. 데이터 레이크는 이를 한 번에 지원함으로써 빅데이터 분석 환경을 갖추기 위한 핵심 플랫폼으로 떠오르고 있다. 이미 아마존웹서비스(AWS)를 비롯한 클라우드 서비스 사업자들도 데이터 레이크 구축을 통한 빅데이터 분석 환경을 제공하고 있다.

데이터 레이크는 이전부터 전통적으로 사용되던 데이터 웨어하우스(DW)와도 구별된다. DW는 주로 정형 데이터인 온라인 트랜잭션 시스템, 그리고 그와 연관된 정보시스템의 데이터를 용도에 맞게 분류해 가공하고 분석하는 역할을 하기 때문이다.

그러나 최근에는 분석해야 할 데이터의 소스가 소셜 미디어, 비디오, 오디오, 텍스트 등으로 광범위해지고 기하급수적으로 급증하고 있는 추세여서, 기존의 DW 기술로는 적절한 데이터 수집, 집계, 및 분석이 거의 불가능한 시대가 됐다. 이에 데이터 레이크라는 개념이 생겼으며, 정형/비정형, 데이터 소스, 데이터 모델 등에 관련 없이 모든 유형의 데이터를 저장하고 분석할 수 있는 단일 데이터 저장소 및 분석 환경 플랫폼이라는 의미로 사용되고 있다. 따라서 기존의 DW와 데이터 레이크는 서로 반대되는 개념이라기보다 상호 보완적으로 작동하는 분석정보 시스템의 형태로 발전하고 있다.

셀프서비스 분석 확대

그동안 데이터 분석은 데이터 전문가 또는 IT 부서의 역할이었다. 현업에서 데이터 분석이 필요할 경우, 이들에게 의뢰해서 결과 리포트를 공유 받는 것이 고작이었다. 기업 데이터베이스(DB)에 저장된 데이터들을 다루려면 복잡한 SQL 쿼리 등을 알아야만 했으며, 분석을 위한 데이터를 준비하는 과정도 오래 걸렸기에 현업들이 맡기에는 부담이 컸다.

그러나 빅데이터 개념이 등장하고, 분석해야 할 대상도 영상, 음성 등 정형 데이터가 아닌 비정형 데이터들까지 확대되면서 데이터 분석 트렌드도 변하기 시작했다. 전통적인 통계 분석 솔루션들이 아닌 오픈소스를 비롯해 다양한 분석 솔루션과 기법들이 등장하면서 기존 데이터 분석 전문가들이 경험해보지 못한 환경들이 만들어지고 있다.

반대로 정형 데이터 분석 경험이 부족하지만, 비정형 데이터 분석을 전문적으로 다루는 사람들도 등장하고 있다. 한 마디로 데이터 분석 분야는 이질적인 환경들이 합쳐지면서 복잡해지고 있는 실정이다.

이에 데이터 분석 업계도 점차 움직임이 분주해지고 있다. 점차 방대해지는 데이터를 빠르고 신속하게 분석하면서도, 전통적인 정형 데이터 환경과 새롭게 떠오르는 비정형 데이터 분석 환경을 아우를 수 있어야 했기 때문이다. 뿐만 아니라 그 수가 많지 않은 데이터 분석 전문가나 IT 부서의 부담 역시 줄여줄 수 있어야 했다.

그 대안으로 등장하기 시작한 것이 ‘시티즌 데이터 사이언티스트’ 개념이다. 한정된 데이터 분석 전문가나 IT부서에서 점차 늘어나고 있는 기업 내 데이터 분석 요구를 모두 지원할 수 없게 되다 보니, 현업에서 스스로 데이터를 탐색하고 분석해 활용할 수 있도록 하자는 취지다. 이에 전문 분석 과정을 몰라도 시각화 등을 토대로 쉽게 데이터를 탐색하고 분석해서 활용할 수 있는 솔루션들이 등장하기 시작했다.

쉬운 사용성과 시각화가 강점

비록 현업에서의 데이터 분석 니즈가 증가했다고 하지만, 데이터 분석 전문가나 IT부서처럼 전문적으로 데이터를 다룰 수 있는 능력은 부족하다. 이들은 자신이 맡고 있는 업무 처리를 위해 데이터와 분석 결과가 필요한 것뿐이지, 데이터 분석 업무를 맡은 것은 아니기 때문이다.

이들을 위해 등장한 것이 ‘셀프 서비스 분석’ 솔루션이다. 데이터 분석 전문가나 IT부서에서 전해줬던 대시보드 등을 직접 제작하고, 이를 토대로 얻은 인사이트를 공유할 수 있도록 하고 있다. 초기와 달리 최근에는 빅데이터 소스들에 대한 지원도 강화되고 있으며, 사용자 인터페이스(UI)에 많은 초점이 맞춰져 시각화 기능 역시 강화되고 있는 추세다.

이 같은 현상이 비단 최근에 등장한 것만은 아니다. 이미 1990년대 말부터 DW(Data Warehouse) 솔루션들이 등장하면서 좀 더 쉽게 데이터를 다룰 수 있도록 했으며, BI(Business Intelligence) 솔루션들도 대시보드 등을 통해 쉽게 데이터 분석 결과를 볼 수 있도록 한 바 있다. 여기에 OLAP(On-Line Analytical Processing) 기능도 포함되면서 전사 BI 솔루션 시장이 활황을 맞기도 했다. 이후 CRM 솔루션의 열풍과 함께 시각화만을 전문으로 하는 솔루션들도 등장하면서 ‘셀프 서비스 분석’을 지향하는 솔루션들이 점차 확산됐다.

오픈소스·인공지능 등 최신 IT 트렌드 접목

그동안 데이터 분석은 통계학과 전공자들이 SAS 솔루션을 토대로 RDB 기반의 정형화된 데이터를 분석하는 것이 주류였다. RDB 기반의 데이터에서는 이들이 강점을 보였으나, 빅데이터가 등장한 이후 비정형 데이터에 대한 분석은 기존 방식으로 할 수 없다는 한계가 있었다.

그 대안으로 R과 같은 새로운 분석 솔루션들이 등장했다. 특히 R은 데이터 분석과 시각화에 강점을 보이면서 오랫동안 데이터 분석을 주도해 왔던 SAS 위주의 분석 시장에 도전하면서 점차 영향력을 넓혀나가고 있다. 오픈소스 기반의 넓은 패키지와 활발한 커뮤니티 역시 장점이다.

알파고 이후 붐을 탄 인공지능도 데이터 분석에 접목되고 있다. 다양한 알고리즘이 개발돼 활용되고 있으며, 도출된 결과들 중에서 비즈니스 의사결정에 가장 적합한 것을 추천하는 등의 중요한 역할을 하고 있다. 이에 데이터 분석과 의사결정 최적화까지 제공하는 기업과 솔루션도 등장하고 있다.

오픈소스, 인공지능 등 새로운 IT 트렌드가 접목되면서 데이터 분석의 허들도 차츰 낮아지고 있다. 통계 분석은 통계학의 복잡한 식을 전제로 하고 있기에 배우기도 쉽지 않으며, 분석하고 해석하는 것 역시 만만치 않았다. 이에 통계를 배우다가도 포기하는 이가 부지기수였다. 그러니 머신 러닝과 같은 인공지능이 접목된 이후 간단한 명령어만으로도 직관적인 색인(Index)이 제공되며, 통계학에서 필요로 하던 각종 검증이나 유의 수준 등을 일일이 확인하지 않아도 되게 됐다. 분석 데이터 역시 정형과 비정형으로 구분할 필요가 없으며, 알고리즘도 인터넷에서 필요한 것들을 찾아볼 수 있다.

데이터 신뢰성·정합성 중요

현업에서 데이터 분석을 다룰 수 있게 되면서 데이터 신뢰성과 정합성 확보 문제 역시 중요하게 떠오르게 됐다. 현업이 직접 데이터를 분석하고 도출한 결과를 사업에 반영할 수 있게 되면서 결과에 대한 책임도 함께 져야 했기 때문이다. 다루는 데이터를 신뢰하지 못할 경우 아무리 솔루션이라 하더라도 사용하기가 쉽지 않다. 특히 데이터 분석 전문가나 IT 부서에서 선별해 제공한 데이터가 아니라면 더욱 그렇다.

이에 셀프서비스 분석이 곧 ‘혼자서 모든 것을 할 수 있다(Self Enabled)’를 의미하지는 않는다. 셀프로 한다는 것은 구조를 알고 움직인다는 것을 의미하는데, 단순히 툴만 제공된다고 해서 모든 과정들이 생략되는 것은 아니다. 데이터를 모으고, 분석을 위한 데이터를 준비하고, 어떻게 인사이트를 얻을 것인지 등의 절차도 중요하다. 또한 각 단계별로 외부 도움이 필요한 경우도 많다.

셀프서비스 분석을 이야기할 때는 툴만 생각하기보다 전체적인 그림을 볼 수 있어야 한다. 종종 전통적인 DW나 BI를 무시하는 경우도 발생하는데, 실은 DW나 BI 등이 데이터의 기본적인 형태다. 그 안에 데이터가 모이고 정렬이 돼야 현업에서도 쉽게 활용할 수 있다.

업계에서는 데이터를 수집해 조합하고 얻는 분석 준비 과정이 전체 프로젝트의 7~80%에 달한다고 평한다. 특히 회사 규모가 크면 클수록 다양한 정보들이 여러 시스템에서 수집되기 때문에 더 많은 시간이 걸린다. 하둡이 등장하면서 데이터 수집을 위한 공간적인 문제는 해결됐다 하지만, 아직도 많은 기업들이 분석의 앞부분에 놓여있는 이 같은 고민들을 하지 못하고 있다.

정부 차원 빅데이터 사업 확산

우리나라 정부도 데이터 경제 활성화를 목표로 빅데이터에 투자를 단행한다. 지난해 정부는 데이터 경제 활성화를 지원하고자 ‘빅데이터 플랫폼 및 네트워크 구축’ 사업을 통해 수요 기반의 활용 가치가 높은 양질의 데이터를 생산·구축하는 빅데이터 센터 100개소를 개소하고, 이를 분야별로 연계하는 빅데이터 플랫폼을 구축해 개방·공유 체계를 마련한다는 계획을 밝혔다.

빅데이터 플랫폼은 금융·환경·교통·헬스케어 등 총 10개 분야를 구축, 공공과 민간이 협업해 빅데이터 센터 등에서 수집된 데이터를 분석·유통하고, 혁신 서비스를 발굴·확산하는 등 데이터 기반의 가치 창출 생태계 조성에 앞장서게 된다.

과기정통부는 분야별 플랫폼 10개소와 이와 연계된 기관별 센터 100개소를 구축하는데 3년간 총 1516억원을 투입할 계획이며, 지난해에는 총 2차례에 걸쳐 640억원 규모로 사업을 추진했다. 선정된 과제는 7개 주요 산업 분야와 3개 기타 분야 등 최종 10개 과제이다.

또한 과기정통부는 4차 산업혁명의 핵심동인인 데이터·네트워크·인공지능(D·N·A) 기반 강화를 위해 현 정보통신정책실을 개편, 인공지능기반정책관을 신설하고 네트워크 관련 정책을 총괄 조정하는 전담기구를 설치했다. 이는 디지털 혁신의 원동력인 AI·빅데이터 등 신기술 분야 정책 수립, 네트워크 고도화 및 안전관리 강화를 통해 국민편의를 제고하기 위한 방안이다.

특히, 정보통신정책실에 ‘인공지능기반정책관’을 신설, AI·빅데이터 및 혁신인재 양성 분야 정책 기능을 대폭 강화시켰다. 인공지능기반정책관에서는 산업 혁신과 사회 혁신의 기반이 되는 데이터·AI 간 융합을 통한 혁신 서비스, 블록체인 등 플랫폼 기술 개발 지원 및 혁신과 성장을 이끄는 인재양성 업무에 주력해 ‘민간을 조력하는 정부’의 역할을 충실히 수행할 수 있을 것으로 기대된다.

윤현기 기자 다른기사 보기