[2020 결산/데이터 분석] “데이터 기반 비즈니스, ‘통합 데이터 플랫폼’ 띄운다”
상태바
[2020 결산/데이터 분석] “데이터 기반 비즈니스, ‘통합 데이터 플랫폼’ 띄운다”
  • 윤현기 기자
  • 승인 2020.12.20 10:00
  • 댓글 0
이 기사를 공유합니다

다양한 기능 접목하며 데이터 수집부터 분석까지 한 번에 … 데이터 기반 의사결정 지원

[데이터넷] 현재 미국 증권가에서 세계 5대 기술 기업으로 FAANG(페이스북, 아마존, 애플, 넷플릭스, 구글)을 손꼽는다. 시가 총액이 수조 달러에 달하는 이들 기업의 공통점은 ‘데이터’를 사용해 비즈니스를 혁신했다는 점이다. 이는 기업의 비즈니스 중심이 소비자 기술에서 데이터로 이동하고 있음을 보여주는 결과다.

실제로 금융권은 금융범죄를 예방하고 고객 이탈을 줄이기 위해 데이터를 활용한다. 자동차 산업도 자율주행 차량을 개발하기 위해 인공지능(AI)뿐만 아니라 데이터에 막대한 투자를 하고 있다. 제조업에서는 신제품 출시 기간을 단축하는데 데이터 분석을 활용한다. 그리고 요즘 정부와 기업들이 디지털 트랜스포메이션을 외치며 디지털 친화적인 기업 문화로 탈바꿈하지만, 이 또한 데이터 중심의 업무 변화를 의미한다.

그러나 기업들은 데이터를 이용하는데 어려움을 겪고 있다. 분석할 데이터가 어디에 있는지 조차도 파악되지 않는 곳이 많다. 그렇기에 데이터 활용은 부담으로 작용한다. 조직 구성원이 갖고 있는 데이터를 파헤쳐 조직이 요구하는 통찰력을 추출하기가 쉽지 않기 때문이다. 

다양한 기능 통합하는 데이터 플랫폼
조직이 데이터로부터 막대한 가치를 창출하려면 데이터에 대한 이해와 분석이 필요하며, 이를 통한 활용법을 알아야 한다. 즉 데이터 중심적인 조직으로 거듭나기 위해서는 새로운 데이터 플랫폼이 필요하다.

데이터 분석을 위한 솔루션은 다양하다. 어떤 기업은 데이터 수집과 저장에 특화된 솔루션을 제공하기도 하고, 또 다른 기업은 분석된 결과를 시각화해서 보여주는 것에 특화된 기술력을 보유하고 있기도 하다. 

최근 업계에서는 다양한 데이터 소스에서 수집한 데이터를 처리, 분석해 필요한 정보를 추출하고, 이를 기반으로 원하는 정보 서비스를 제공하는 데 필요한 IT 환경을 빅데이터 플랫폼, 혹은 통합 데이터 플랫폼으로 정의한다. 여기에는 확장성 있는 대용량 처리 능력, 이기종 데이터 수집 및 통합 처리 능력, 빠른 데이터 접근 및 처리 능력, 대량의 데이터를 저장 관리할 수 있는 능력, 대량의 이기종 데이터를 원하는 수준으로 분석할 수 있는 능력도 요구된다. 

뿐만 아니라 엣지(Edge)부터 AI까지 광범위한 분석 기능을 제공하는 엔터프라이즈 데이터에 대한 새로운 접근 방식으로, 구축, 관리, 사용이 용이한 통합 데이터 플랫폼이며, IT 임직원들이 요구하는 세분화된 보안과 거버넌스 정책을 통해 하이브리드와 멀티 클라우드 환경 전반에 걸쳐 강력하면서 쉽고 간편한 셀프 서비스 분석 기능을 제공하는 것도 덕목으로 여겨진다. 
그로 인해 빅데이터 플랫폼은 점차 통합 플랫폼으로 변해가고 있는 추세다. 글로벌 기업들이 빠르게 움직이고 있으며, 자사가 부족한 역량을 확장하면서 통합 플랫폼으로 확대해나가고 있다. 

데이터 수집부터 분석까지 한 번에
과거에는 모두 버려졌던 비정형 데이터가 이제는 정형 데이터보다 중요성이 더욱 커졌다. 대고객 서비스를 제공하는 기업들은 로그 데이터를 토대로 실제 고객들의 행동이나 성향을 분석할 수 있고, 제조·설비 기업들은 센서 데이터를 활용해 예지정비를 할 수 있기 때문이다. 

이렇듯 데이터 분석을 위해 정형 데이터뿐만 아니라 비정형 데이터까지 수집하고 분석하는 것에 대한 수요가 높아지고 있지만, 빠르게 증가하는 데이터를 저장하고 처리하기에는 관계형 DBMS와 같은 전통적인 방식으로 불가능하다. 이에 데이터 종류와 모델에 상관없이 모든 유형의 데이터를 저장하고 분석할 수 있는 방안으로 데이터 레이크(Data Lake) 개념이 확대되고 있다. 

데이터 레이크는 마치 물들이 호수로 모이듯이 하나의 중앙 저장소에 모든 소스로부터 오는 데이터가 저장되기에 누락될 일이 없다. 별도의 스키마 정의 없이 다양한 수집 도구를 활용해 신속하게 데이터를 저장할 수 있으며, 저장 공간과 분석을 위한 컴퓨팅 리소스를 분리해 확장성을 높였다. 데이터를 사용하는 시점에 원하는 형태로 정의함으로써 활용도를 높이고 관리 어려움을 줄일 수 있다.

데이터 분석에 있어 중요한 것은 충분한 양의 데이터를 모으는 것과 이를 분석하기 좋게 가공하는 과정이다. 데이터 레이크는 이를 한 번에 지원함으로써 빅데이터 분석 환경을 갖추기 위한 핵심 플랫폼으로 떠오르고 있다. 이미 아마존웹서비스(AWS)를 비롯한 클라우드 서비스 사업자들도 데이터 레이크 구축을 통한 빅데이터 분석 환경을 제공하고 있다. 

데이터 레이크는 이전부터 전통적으로 사용되던 데이터 웨어하우스(DW)와도 구별된다. DW는 주로 정형 데이터인 온라인 트랜잭션 시스템, 그리고 그와 연관된 정보시스템의 데이터를 용도에 맞게 분류해 가공하고 분석하는 역할을 하기 때문이다. 

클라우드 기반 플랫폼 성장
이제 데이터는 과거에는 상상할 수 없었던 속도와 양으로 생성되고 있다. 이미지, 동영상, 텍스트 등 이전에 모으지 않던 다양한 비정형 데이터들도 수집하게 되면서 과거와는 다른 방식으로 데이터 플랫폼을 생각해야 한다. 

데이터 분석 기술도 늘어나고 있다. 한때는 하둡 기반 빅데이터 플랫폼이 대세였던 적도 있었고, 검색 엔진 기반 플랫폼이 중요하게 여겨지기도 했지만 현재는 애플리케이션 종류에 따라 다양한 서비스를 쉽게 데이터에 연결해야 한다는 수요도 많다. 

데이터 소비자들도 달라졌다. 현업에서 데이터를 사용하는 소비자층이 한층 넓어졌으며, 이전에 비즈니스 인텔리전스(BI) 툴만 사용하던 것에서 벗어나 검색 엔진 또는 머신러닝(ML) 등을 원하기도 한다. 

그로 인해 데이터 플랫폼은 과거 고객관계관리(CRM)과 같이 하나의 유행 혹은 마케팅 용어로 치부되던 것에서 벗어나 모든 기업들이 재고해야 하는 시스템으로 위상이 달라졌다. 또, 이처럼 다양한 요구사항에 부응할 수 있는 시스템을 구축하고자 전통적인 온프레미스 대신 클라우드를 이용하려는 수요도 늘고 있으며, 클라우드 사업자들도 시장 영향력을 넓힐 좋은 기회로 바라보고 있다. 

아마존웹서비스(AWS)는 중앙 집중식 클라우드 스토리지 ‘아마존 S3’를 기반으로 다양한 스키마와 구조의 데이터를 대상으로 수집, 저장, 변환, 분석 파이프라인을 구축하고, 단일 뷰로 접근하는 차세대 데이터 플랫폼을 제공하고 있다. 기업들이 처해 있는 데이터 사일로 현상을 극복하게 해줌으로써 단일 데이터 레이크 구성을 돕는다. 

S3를 사용해 광범위한 공통 데이터 세트로 데이터 분석 도구를 가져올 수 있는 다중 테넌트 환경을 구축함으로써 데이터 거버넌스를 제공하며, S3를 소스로 전통적인 BI 서비스, 새로운 AI/ML 서비스, 서버리스 형태의 애드혹(Ad-Hoc) 분석 등 다양한 분석 서비스를 제공한다. 

분석을 위한 스토리지와 컴퓨팅이 분리돼 비용과 데이터 처리 워크플로우 최적화도 가능하며, 실시간, 배치, IoT 등 다양한 수집 도구를 활용하는 한편, 별도의 스키마 정의가 없어도 빠른 데이터 수집이 가능하다. 

데이터 옵스 관점 중시
데이터 분석과 관리 방식에 새로운 툴과 기술이 등장했지만 데이터 민첩성 부족은 수년간 문제가 됐다. 그리고 이 문제는 많은 기업들에게 트랜스포메이션을 기반으로 혁신 가속화를 지원하는 분석과 AI·ML 구현에 가장 큰 걸림돌이 되고 있다. 새로운 데이터 운영 관리 솔루션이 필요해진 것이다.

데이터 운영은 아직 불확실하고 광범위한 개념이지만, 그 용어와 개념은 관련 시장의 문화까지 포함하는 영역으로 점차 확장될 전망이다. 이는 앞으로 데이터 운영에 더욱 예의주시가 필요한 이유다.

‘데이터옵스(DataOps)’는 조직 전체의 데이터 관리자와 소비자 간 데이터 플로우 커뮤니케이션 통합 및 자동화 향상에 중점을 둔 협업적 데이터 관리 규칙으로 등장했다. 효과적인 데이터옵스를 구현하기 위해서는 데이터 관리 인프라, 메타데이터 기반의 주도적인 데이터 관리 툴, 정책 기반 자동화가 중요하다.

데이터옵스는 많은 기업에게 새로운 접근 방식이다. 첫 단계는 대부분 분석과 머신러닝을 위한 데이터 파이프라인 강화로 시작한다. 데이터 탐지, 통합, 전송 자동화, 가속화는 가공되지 않은 데이터를 실행 가능한 통찰력으로 전환하는 데 필요한 시간을 단축시키는 핵심이다.

효성인포메이션시스템은 데이터옵스 전략을 구현할 올바른 데이터 플랫폼으로 ‘펜타호(Pentaho)’를 시장에 소개하고 있다. 데이터 소스를 추출·변환·적재하는 ‘펜타호 데이터 인티그레이션(PDI)’과 고급분석 및 시각화를 지원하는 ‘펜타호 비즈니스 애널리틱스(PBA)’로 구성돼 있으며, 정형/비정형 데이터의 수집·변환·적재·분석·시각화·머신러닝 과정까지 단일 플랫폼에서 처리가 가능하다는 것이 강점이다. 

펜타호는 DW 및 데이터 레이크와 같은 기존 도구를 AI·ML 등의 새로운 기술과 결합시켜 데이터 통합 및 파이프라인 기능을 강화해왔기에 기업이 데이터에서 인사이트를 도출할 때 방해되는 요소를 제거하고 데이터 관리 방식을 현대화할 수 있도록 지원하며, 기업의 데이터 활용의 민첩성을 높이고 성공적인 데이터 운영을 위한 데이터옵스 환경을 지원한다.

다양한 인프라 넘나드는 데이터 수집·분석 지원
하둡 전문 기업이라는 이미지에서 벗어나 클라우드 비롯한 다양한 IT 환경에 최적화된 데이터 분석 플랫폼 기업으로 변신을 추진하고 있는 클라우데라는 기업이 어떤 환경에서 어떤 데이터를 분석하더라도 스토리지와 컴퓨팅이 분리된 가장 비용 효율적인 방식으로 데이터 분석을 할 수 있도록 지원한다.

기업 내 데이터는 정형 데이터뿐만 아니라 비정형 데이터로도 언제 어디서나 이동할 수 있게 됐으며, 기업 온프레미스 데이터센터 외에도 엣지, 클라우드에 이르기까지 다양하게 존재한다. 그러나 이는 기업이 데이터를 수집하고 분석하는데 커다란 장애물로 존재한다. 클라우데라는 엔터프라이즈 데이터 클라우드인 ‘클라우데라 데이터 플랫폼(CDP)’을 통해 빅데이터 플랫폼 운영자들이 겪고 있는 어려움을 해소한다는 입장이다. 

호튼웍스와 인수 합병 후 클라우데라 플랫폼과 호튼웍스 플랫폼의 장점만을 결합시켜 출시한 CDP는 멀티 클라우드 환경에서 데이터센터에 이르기까지 동일한 빅데이터 플랫폼 경험을 제공하는 것을 목표로 하고 있다. CDP를 통해 기업은 온프레미스에서 퍼블릭과 하이브리드 클라우드에 이르기까지 어디서든 공통의 보안, 거버넌스, 메타데이터를 통해 데이터를 쉽게 관리할 수 있다. 새로운 클라우드 기반 서비스는 비즈니스 분석가, 데이터 과학자, IT 및 개발자에게 설계적으로 안전한 셀프 서비스 액세스를 제공한다. 

특히 클라우데라는 클라우데라 데이터 웨어하우스, 클라우데라 머신러닝, 클라우데라 데이터 허브 등 다양한 클라우드 서비스를 AWS 클라우드에서 제공하며 과금 또한 CPU, GPU, RAM 등 다양한 옵션에 따라 시간당으로 책정된다. 

고객 이해도 높이기에 주력
기업이 데이터 분석의 필요성을 알고 있다 하더라도 이를 수행하는 것은 쉬운 일이 아니다. 보유하고 있는 데이터가 어떤 것들인지 명확하게 파악하지 못했다는 이유도 있지만, 파악했다 하더라도 해당 데이터를 활용해 어떤 비즈니스를 할 수 있을지 결정을 내리기 어렵기 때문이다. 또, 추진하고 있는 비즈니스의 효과를 높이기 위해 추가적인 데이터의 필요성을 느껴도 어떤 데이터를 필요로 하는지 찾아내는 것도 만만치 않은 일이다.

트레저데이터는 데이터 수집과 저장, 분석 등 각 단계별로 초점이 맞춰진 기존 제품들과 달리 클라우드상에서 데이터 분석을 위해 필요한 모든 과정을 원스톱으로 제공하는 올인원 플랫폼을 제공함으로써 보다 기업들이 보다 쉽게 데이터 분석을 할 수 있다는 점을 내세운다.

트레저데이터의 주력 솔루션인 ‘고객 데이터 플랫폼(CDP: Customer Data Platform)’은 기업이 비즈니스 목표 달성을 위해 필요한 고객에 대한 이해도를 높일 수 있게 해준다는 것이 여타 데이터 플랫폼과의 가장 큰 차별점이다. 

기업이 보유하고 있던 고객의 기존 프로필에 고객의 실시간 행동 데이터까지 통합함으로써 고객을 개인 단위로 파악할 수 있게 되고, 이를 토대로 개인화된 마케팅 전략도 실행할 수 있어 매출 증대는 물론 마케팅 비용 최적화와 이탈 고객도 막을 수 있도록 한다.

최근 트레저데이터는 마케터에게 고객 행동과 마케팅 효과에 대한 청사진을 제공하는 새로운 고객 분석 기능인 ‘트레저 인사이트’도 새롭게 공개했다. 손쉽게 커스터마이징 가능한 트레저 인사이트는 즉시 사용 가능한 대시보드 템플릿을 제공해 통합 고객 뷰, 세그먼트 특성, 머신러닝 기반의 고객생애가치 및 이탈 예측, 기여 속성 분석 등에 바로 활용할 수 있으며, 이로 인해 마케팅 팀은 변화하는 고객 행동을 빠르게 이해하고 통찰을 얻어 신속하게 실행함으로써 고객 충성도와 수익을 높일 수 있다.

국산 솔루션 시장 확대
빅데이터 플랫폼을 활용한 다양한 사례가 등장하면서 조금씩 늘어나고 있다. 비록 국내 빅데이터 플랫폼 시장은 아직 초기지만, 외산 솔루션들이 주도하는 가운데 국내 솔루션들도 새롭게 시장에 등장하며 성장하고 있다. 

이디엄에서 사명을 바꾼 로그프레소는 자사 빅데이터 플랫폼 ‘로그프레소’를 활용해 다양한 산업군을 공략하고 있다. 로그프레소는 빅데이터 분석에 필요한 수집, 저장, 분석, 시각화 전체 과정을 지원하며, 통합로그 관리, 인프라 장애 예측, 제조 공정 분석, 서비스 품질 모니터링, 통합보안관제 등 다양한 목적으로 활용되고 있다. 

모비젠은 데이터 수집부터 분석, 시각화까지의 프로세스를 일원화하는 클라우드 기반 데이터 분석 플랫폼 ‘아이리스(IRIS) SaaS’를 선보였다. 클라우드 기반으로 제공되기에 별도의 프로그램 설치 없이 이용 가능하며, 언제 어디서나 손쉽게 데이터에 접근할 수 있다는 것도 강점이다. 뿐만 아니라 분석 파이프라인 프레임워크에 의한 시스템 엔지니어와 데이터 분석가 사이의 사일로를 제거해 분석과 실험에 집중할 수 있는 분석 환경 구축을 돕는다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.