데이터 경제 활성화, ‘빅데이터 플랫폼’ 시장 키운다 (2)
상태바
데이터 경제 활성화, ‘빅데이터 플랫폼’ 시장 키운다 (2)
  • 윤현기 기자
  • 승인 2020.04.19 09:00
  • 댓글 0
이 기사를 공유합니다

클라우드 기반 플랫폼 성장…기업용 데이터 시장 확대에 큰 기대

[데이터넷] 이제 데이터는 과거에는 상상할 수 없었던 속도와 양으로 생성되고 있다. 또한, 이미지, 동영상, 텍스트 등 이전에 모으지 않던 다양한 비정형 데이터들도 수집하게 되면서 과거와는 다른 방식으로 빅데이터 플랫폼을 생각해야 한다.

데이터 분석 기술도 늘어나고 있다. 한때는 하둡 기반 빅데이터 플랫폼이 대세였던 적도 있었고, 검색 엔진 기반 플랫폼이 중요하게 여겨지기도 했지만 현재는 애플리케이션 종류에 따라 다양한 서비스를 쉽게 데이터에 연결해야 한다는 수요도 많다.

데이터 소비자들도 달라졌다. 현업에서 데이터를 사용하는 소비자층이 한층 넓어졌으며, 이전에 BI 툴만 사용하던 것에서 벗어나 검색 엔진 또는 ML 등을 원하기도 한다.

그로 인해 빅데이터 플랫폼은 과거 CRM과 같이 하나의 유행 혹은 마케팅 용어로 치부되던 것에서 벗어나 모든 기업들이 재고해야 하는 시스템으로 위상이 달라졌다. 또, 이처럼 다양한 요구사항에 부응할 수 있는 시스템을 구축하고자 전통적인 온프레미스 대신 클라우드를 이용하려는 수요도 늘고 있으며, 클라우드 사업자들도 시장영향력을 넓힐 좋은 기회로 바라보고 있다.

아마존웹서비스(AWS)는 중앙 집중식 클라우드 스토리지 ‘아마존 S3’를 기반으로 다양한 스키마와 구조의 데이터를 대상으로 수집, 저장, 변환, 분석 파이프라인을 구축하고, 단일 뷰로 접근하는 차세대 데이터 플랫폼을 제공하고 있다. 기업들이 처해 있는 데이터 사일로(Silo) 현상을 극복하게 해줌으로써 단일 데이터 레이크 구성을 돕는다.

S3를 사용해 광범위한 공통 데이터 세트로 데이터 분석 도구를 가져올 수 있는 다중 테넌트 환경을 구축함으로써 데이터 거버넌스를 제공하며, S3를 소스로 전통적인 BI 서비스, 새로운 AI/ML 서비스, 서버리스 형태의 애드혹(Ad-Hoc) 분석 등 다양한 분석 서비스를 제공한다.

분석을 위한 스토리지와 컴퓨팅이 분리돼 비용과 데이터 처리 워크플로우 최적화도 가능하며, 실시간, 배치, IoT 등 다양한 수집 도구를 활용하는 한편, 별도의 스키마 정의가 없어도 빠른 데이터 수집이 가능하다.

이렇게 완성된 AWS 데이터 레이크는 데이터 수집부터 저장, 분석 및 추론, 보안에 이르기까지 단일 플랫폼에서 빅데이터 활용을 위한 통합 기능을 제공한다.

전 세계 프랜차이즈 매장을 운영하고 있는 맥도날드는 AWS 데이터 레이크를 활용해 데이터 통합 및 신뢰할 수 있는 데이터 플랫폼을 운영할 수 있게 됐으며, 셀프 서비스 데이터 액세스 제공 모델을 통해 주나 월 단위가 아닌 시/일 기준으로 분석 시간을 크게 단축하게 됐다. 이를 토대로 비즈니스 통찰력과 성장 속도 역시 향상시켰다.

데이터 옵스 관점 중시

데이터 분석과 관리 방식에 새로운 툴과 기술이 등장했지만 데이터 민첩성 부족은 수년간 문제가 됐다. 그리고 이 문제는 많은 기업들에게 트랜스포메이션을 기반으로 혁신 가속화를 지원하는 분석과 AI·ML 구현에 가장 큰 걸림돌이 되고 있다. 새로운 데이터 운영 관리 솔루션이 필요해진 것이다.

데이터 운영은 아직 불확실하고 광범위한 개념이지만, 그 용어와 개념은 관련 시장의 문화까지 포함하는 영역으로 점차 확장될 전망이다. 이는 앞으로 데이터 운영에 더욱 예의주시가 필요한 이유다.

‘데이터옵스(DataOps)’는 조직 전체의 데이터 관리자와 소비자 간 데이터 플로우 커뮤니케이션 통합 및 자동화 향상에 중점을 둔 협업적 데이터 관리 규칙으로 등장했다. 효과적인 데이터옵스를 구현하기 위해서는 데이터 관리 인프라, 메타데이터 기반의 주도적인 데이터 관리 툴, 정책 기반 자동화가 중요하다.

데이터옵스는 많은 기업에게 새로운 접근 방식이다. 첫 단계는 대부분 분석과 머신러닝을 위한 데이터 파이프라인 강화로 시작한다. 데이터 탐지, 통합, 전송 자동화, 가속화는 가공되지 않은 데이터를 실행 가능한 통찰력으로 전환하는 데 필요한 시간을 단축시키는 핵심이다.

효성인포메이션시스템은 데이터옵스 전략을 구현할 올바른 데이터 플랫폼으로 ‘펜타호(Pentaho)’를 시장에 소개하고 있다. 데이터 소스를 추출·변환·적재하는 ‘펜타호 데이터 인티그레이션(PDI)’과 고급분석 및 시각화를 지원하는 ‘펜타호 비즈니스 애널리틱스(PBA)’로 구성돼 있으며, 정형/비정형 데이터의 수집·변환·적재·분석·시각화·머신러닝 과정까지 단일 플랫폼에서 처리가 가능하다는 것이 강점이다.

펜타호는 DW 및 데이터 레이크와 같은 기존 도구를 AI·ML 등의 새로운 기술과 결합시켜 데이터 통합 및 파이프라인 기능을 강화해왔기에 기업이 데이터에서 인사이트를 도출할 때 방해되는 요소를 제거하고 데이터 관리 방식을 현대화할 수 있도록 지원하며, 기업의 데이터 활용의 민첩성을 높이고 성공적인 데이터 운영을 위한 데이터옵스 환경을 지원한다.

펜타호는 최근 국내 대형 게임회사에 많이 도입됐다. 조직 특성상 기술과 환경 변화에 대응이 빨라 신기술 도입이 용이하며, 펜타호의 플러그인 지원 기능 등 반정형 데이터나 게임 로그 데이터의 대용량 처리를 위해서 활용되고 있다.

제조 분야 스마트 팩토리 분야로도 레퍼런스를 확대하고 있다. 작년에는 국내 대형 제조업체에서 펜타호를 활용하여 예지정비 프로젝트를 성공리에 수행했다. 설비 데이터를 수집, 분석하여 제품 생산의 전반적인 품질을 향상함은 물론, 분석한 데이터를 기반으로 각 공정 단계의 주요 영향인자를 도축하고 제품 불량, 고장 예측, 관리범위 이탈 문제 등을 사전에 조치할 수 있다.

빠른 데이터 처리 분석 지원

미국 대형 통신사 스프린트(SPRINT)는 매일 거의 30억 건의 기록을 수집하며 실시간으로 50테라바이트(TB)를 저장하고 있다. 온·오프라인 매장 관리와 매장 운영 애플리케이션, 그리고 수천 개의 서버에서 실행되는 수백 개의 API로부터 실시간 데이터를 집계하고 있으며, 200개의 대시보드는 로그, 데이터베이스, 이메일, syslog, 테스트 메시지, 그리고 내부와 공급업체 애플리케이션 API로부터 매일 30억 개의 이벤트를 표시한다.

이는 스프린트가 엘라스틱의 빅데이터 플랫폼을 도입했기에 가능했던 일이다. 빅데이터 플랫폼으로서 엘라스틱은 초고속 DB를 기반으로 초당 수백/수천만 건의 대용량 데이터를 실시간으로 수집, 분석하고, 초당 수천/수만쿼리까지 처리해 시각화까지 가능한 플랫폼이다.

과거 엘라스틱서치(Elasticsearch)와 키바나(Kibana)로 구성돼 ELK로 알려진 ‘엘라스틱 스택(Elastic Stack)’은 보통의 NoSQL의 제품과 다르게 단순 DB만 제공하는 것이 아닌, 수집영역(BEATS & Logstash), 저장영역(엘라스틱서치DB), 시각화(키바나)를 하나의 스택으로 통합해 대용량 실시간 데이터 수집에서부터 분석을 위한 시각화까지 전체를 커버하는 것이 차별점이다.

더불어 기업은 이러한 강력한 단일 스택 기반에서 데이터 검색 솔루션, 인프라에서부터 애플리케이션까지의 데이터 통합 모니터링 솔루션, 그리고 단말 보안(엔드포인트/EDR) 및 통합보안관리(SIEM) 등의 보안솔루션까지 모두 유연하게 구현할 수 있다.

국내에서도 KB국민카드를 비롯한 다양한 금융사에서 엘라스틱을 빅데이터 플랫폼 내 초고속 DB 목적으로 도입해 활용하고 있으며 카카오뱅크, 카카오페이 등 테크 기반의 회사들도 적극적으로 도입해 활용 중이다. 빅데이터 기반 분석 데이터를 서비스로 제공하고 있는 업체인 빌트온(Builton)은 온라인 이커머스 빅데이터의 효율적인 분석을 위해 엘라스틱 솔루션을 도입했다. 빌트온은 빠르게 성장하고 있는 전자 상거래 산업을 위한 비즈니스 전략을 세우기 위해 온라인 상 소비자 구매 행동 패턴을 분석하고 이를 시각화하고자 했다.

올바른 비즈니스 결정을 내릴 수 있도록 거대한 데이터를 기반으로 한 데이터 분석이 필요했지만 당시 빌트온은 수집한 데이터양에 비해 하드웨어 용량이 턱없이 부족했다. 뿐만 아니라 빌트온이 사용했던 RDBMS는 데이터가 증가할수록 분석할 때 많은 시간이 소요되기 때문에 원하는 데이터를 즉시 집계하고 처리하는데 어려움을 겪었다.

이를 해결하기 위해 빌트온은 엘라스틱 스택을 활용했다. 기존 빌트온 툴의 검색 및 분석 응답 시간이 3분이었던 반면 엘라스틱서치는 60배 빠른 단 3초의 응답시간이 소요됐으며, 일일 처리량은 30GB에서 500GB로 증가해 고객에게 즉각적인 분석결과를 전달할 수 있게 됐다. 게다가 엘라스틱이 지원하는 키바나(Kibana)의 시각화 도구로 모니터링을 보다 쉽게 처리할 수 있게 됐다.

다양한 인프라 넘나드는 데이터 수집·분석 지원

클라우데라는 하둡 전문 기업이라는 이미지에서 벗어나 클라우드 비롯한 다양한 IT 환경에 최적화된 데이터 분석 플랫폼 기업으로 변신을 추진하고 있다. 단순히 하둡 구축만이 아니라 기업이 어떤 환경에서 어떤 데이터를 분석하더라도 스토리지와 컴퓨팅이 분리된 가장 비용 효율적인 방식으로 데이터 분석을 할 수 있도록 지원한다는 방침이다.

현재 기업 내 데이터는 정형 데이터뿐만 아니라 비정형 데이터로도 언제 어디서나 이동할 수 있게 됐으며, 기업 온프레미스 데이터센터 외에도 엣지, 클라우드에 이르기까지 다양하게 존재한다. 그러나 이는 기업이 데이터를 수집하고 분석하는데 커다란 장애물로 존재한다. 클라우데라는 엔터프라이즈 데이터 클라우드인 ‘클라우데라 데이터 플랫폼(CDP)’을 통해 빅데이터 플랫폼 운영자들이 겪고 있는 어려움을 해소한다는 입장이다.

호튼웍스와 인수 합병 후 클라우데라 플랫폼과 호튼웍스 플랫폼의 장점만을 결합시켜 출시한 CDP는 멀티 클라우드 환경에서 데이터센터에 이르기까지 동일한 빅데이터 플랫폼 경험을 제공하는 것을 목표로 하고 있다.

CDP를 통해 기업은 온프레미스에서 퍼블릭과 하이브리드 클라우드에 이르기까지 어디서든 공통의 보안, 거버넌스, 메타데이터를 통해 데이터를 쉽게 관리할 수 있다. 새로운 클라우드 기반 서비스는 비즈니스 분석가, 데이터 과학자, IT 및 개발자에게 설계적으로 안전한 셀프 서비스 액세스를 제공한다.

특히 클라우데라는 클라우데라 데이터 웨어하우스, 클라우데라 머신러닝, 클라우데라 데이터 허브 등 다양한 클라우드 서비스를 AWS 클라우드에서 제공하며 과금 또한 CPU, GPU, RAM 등 다양한 옵션에 따라 시간당으로 책정된다.

오래전부터 빅데이터 사업을 해온 만큼 해외뿐만 아니라 국내에서도 다양한 고객사를 보유하고 있다. 국내 대기업 중에는 LG유플러스, KB국민은행, 삼성화재, 카카오뱅크 등이 클라우데라 제품을 사용하고 있다. 4차 산업혁명 시대 방대한 고객 데이터를 빠르게 분석해 마케팅에 적용하는 것이 핵심 경쟁력이 되기 때문이다.

LG유플러스는 PB에 이르는 방대한 데이터에서 인사이트를 도출하고, 고객층의 특징을 고려한 통신 서비스를 제공하고 있으며, 삼성화재는 혁신적인 클라우데라 데이터 플랫폼을 도입해 업무 효율성과 고객 만족도를 동시에 개선했다.

KB국민은행은 고객경험을 이해하고 활용해 고객의 마음을 사로잡고 최적의 금융 상품과 서비스를 제공하는 것이 미래 금융 산업의 핵심 경쟁력이라는 판단에 따라 내·외부 데이터, 기존·신규 데이터, 정형·비정형 데이터에 대한 데이터 수집, 정제, 분석, 활용에 걸쳐서 가장 중요한 데이터 전략을 수립하고 있다.

“빅데이터, 명확한 목적 갖고 접근하라”
조성현 클라우데라 솔루션 엔지니어링 매니저
조성현 클라우데라 솔루션 엔지니어링 매니저

그동안 국내 빅데이터 플랫폼 시장은 마케팅적인 측면이 강했다. 그렇기에 실제로 거품도 존재했던 것이 사실이다. 과거에는 시장 유행을 따라 무턱대고 도입하는 곳들도 있었지만, 실패한 고객도 쉽게 찾아볼 수 있었다. 시스템 구축이 제대로 됐다 하더라도 그 활용법을 찾지 못해 결과적으로 사용하지 못하게 된 고객도 존재한다.

빅데이터 플랫폼을 도입하려면 명확한 목적이 있어야 한다. 데이터에 대한 명확한 이해도가 있고, 어떻게 활용할지 계획이 세워진다면 빅데이터 플랫폼 종류에 대해 너무 집착하지 않아도 된다.

우선적으로 필요한 것은 데이터 레이크를 구축하는 것이다. 곳곳에 흩어진 데이터를 통합적으로 볼 수 있는 방안이 필요하다. 그리고 그 위에 다양한 활용사례를 만들어 나갈 수 있다.

빅데이터 플랫폼을 도입할 시 A부터 Z까지 다 알아야 할 필요는 없다. 그리고 기업이 직접 모든 것을 오픈소스로 구축해야만 하는 이유도 없다. 처음에는 단순하게 접근하는 것이 필요하다. 기업이 궁극적으로 원하는 것은 수집하고 저장된 데이터를 분석하고 이를 시각화해 보는 것이다. 그 과정에 필요한 컴포넌트들은 이미 표준처럼 정해져있으며, 실제 고객들이 사용하기에 최적화된 것들도 존재한다.

국산 솔루션 시장 확대

빅데이터 플랫폼을 활용한 다양한 사례가 등장하면서 조금씩 늘어나고 있다. 비록 국내 빅데이터 플랫폼 시장은 아직 초기이지만, 외산 솔루션들이 주도하는 가운데 국내 솔루션들도 새롭게 시장에 등장하며 성장하고 있다.

마크베이스는 기업에서 주로 사용되는 RDB가 아닌 IoT 데이터들을 모아 실시간 분석·처리할 수 있도록 지원하는 시계열 DBMS ‘마크베이스(Machbase)’를 시장에 공급하고 있다. 마크베이스는 트랜잭션 등 RDB의 주요 기능이 지원되지 않는 대신, 데이터를 다량 축적하는데 초점이 맞춰져 있다. 대용량의 데이터를 수용해야 하기 때문에 RDB처럼 메모리를 이용하지 않고 디스크를 사용하며, 한 번 입력된 데이터는 업데이트되지 않기 때문에 데이터 처리 결과가 변조될 가능성도 막았다. 최근 마크베이스는 데이터 압축·백업 성능을 한층 개선한 ‘마크베이스 v6.0’을 출시하고, 산업용 IoT 시장 공략에 박차를 가하고 있다.

이디엄에서 사명을 바꾼 로그프레소는 자사 빅데이터 플랫폼 ‘로그프레소’를 활용해 다양한 산업군을 공략하고 있다. 로그프레소는 빅데이터 분석에 필요한 수집, 저장, 분석, 시각화 전체 과정을 지원하며, 통합로그 관리, 인프라 장애 예측, 제조 공정 분석, 서비스 품질 모니터링, 통합보안관제 등 다양한 목적으로 활용되고 있다. 회사는 범용 빅데이터 플랫폼 ‘로그프레소 엔터프라이즈’를 비롯해 통합로그분석 솔루션 ‘로그프레소 스탠다드’와 정보보호 통합플랫폼 ‘로그프레소 소나’를 선보이며 100개 이상의 고객사에 빅데이터 기반의 정보보호, 이상거래탐지, 스마트팩토리, 실시간 마케팅, IoT 분석 플랫폼을 구축해왔다.

로그프레소의 고객사인 KB국민은행은 로그프레소 기반의 정보보호 통합 플랫폼을 구축해 점점 고도화되는 사이버 위협에 대응할 수 있는 유연성을 확보했다. 또한, 경영진부터 업무 담당자까지 일관된 데이터 뷰와 통합된 보안 정책 현황을 파악하고, 침해사고에 대한 적시 대응과 사전/사후 정보보호 통제를 강화할 수 있었다.

많은 데이터를 보유한 대기업들의 시장 진출도 눈에 띈다. SK텔레콤은 자사 빅데이터 플랫폼 ‘메타트론’을 앞세워 글로벌 빅데이터 시장에 도전하는 한편, 국내 중소기업들과 협력해 설비관리 분야에도 솔루션을 공급하고 있다.

KT는 빅데이터 분석 엔진을 활용해 지능형 통합 에너지 플랫폼을 출시하고, 최근 세계 대유행으로 번진 코로나19 확산 예측 공동 연구에도 참여하고 있다. 또, 자회사인 KT넥스알은 빅데이터 솔루션 ‘넥스알 엔터프라이즈’를 선보였다.

기업용 데이터 시장 확대 기대

관련 업계에서는 데이터 3법의 국회 통과에 따라 빅데이터 시장이 한층 확대될 것으로 전망하고, 늘어나는 수요 잡기에 몰두하고 있다. 그동안 빅데이터 기반 서비스 형태가 대부분 배치성 전날 데이터를 기반으로 하고 있었다면 이제는 차량 공유 서비스인 우버(Uber)나 주변 맛집 추천 서비스인 옐프(YELP)와 같이 현재 본인이 위치한 공간에서 다양하고 개인별로 차별화된 실시간성 데이터 위주의 서비스도 확대될 것으로 예상하고 있다.

뿐만 아니라 분석 단계에서 AI·ML과 연계해 실시간으로 의사결정 지원 등의 가치를 창출할 수 있는 기술 역량이 빅데이터 플랫폼 시장에서 중요성 성공 요인으로 작용할 전망이다.

추가로 데이터 수집과 분석 등의 수요가 발생함에 따라 데이터 보안 이슈도 함께 대두될 것으로 여기고 있다. 이에 대비해 각 벤더들은 강화된 보안 정책과 거버넌스 제공을 토대로 보안성은 높이면서도 한층 정교한 수준의 빅데이터 분석 서비스 제공을 준비하고 있다.

시장조사기관 가트너는 2020년까지 서로 연결된 기기의 수가 전 세계적으로 232억 개에 달할 것이라고 예상했다. 제조업 장비부터 당뇨병 환자가 착용한 모니터에 이르기까지 이 기기들에서 생성될 데이터의 양은 엄청나다. 방대한 데이터를 어떻게 활용하고 발전시키느냐에 따라 이전에 발견하지 못한 수많은 가치가 창출된다. 단 하나의 호텔도 소유하지 않은 에어비앤비가 호텔 산업에 영향을 미치듯 업계의 미래도 머지않아 오늘날의 비즈니스 환경과는 전혀 다른 모습으로 변화할 수 있다.

데이터 분석을 통한 비즈니스 혁신은 이제 기업에게 있어 선택이 아닌 생존 문제다. 이제 각 기업·기관은 데이터를 중심으로 데이터를 해석하고 예측하는 경영체제를 마련해야 할 때다. 고무적인 것은 사회 전반에 걸쳐 데이터 관심이 어느 때와 달리 높아졌다는 점이다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.