복잡하고 어려운 데이터 분석, 클라우드가 최적 (1)

온프레미스 대비 편리성 높고 관리 효율성 뛰어나

[데이터넷] 산업 전반에 디지털 전환이 가속화됨에 따라 데이터양이 급증했고, 코로나19 여파로 비대면 산업 등 기존 오프라인 활동이 온라인으로 대체되면서 생산되는 데이터양이 빠르게 증가하고 있다. 또 기존 기업이 관리하던 정형 데이터 외 반정형, 비정형 데이터 등 데이터 종류 역시 늘어나고 있다. 이처럼 대량으로 생산되면서 향후 증가 속도를 예측하기도 어려운 다양한 형식의 데이터를 처리하기 위해 ‘클라우드’가 부상하고 있다. <편집자>

코로나19 팬데믹으로 인해 비대면 서비스와 인공지능(AI)에 대한 관심이 늘어나면서 빅데이터와 이를 활용한 데이터 분석이 그 어느 때보다 빠르게 발전하고 있다. 이와 더불어 ‘디지털 혁신’은 이제 업종과 조직의 규모를 떠나 모두 반드시 가야 하는 길이 됐다.

기업, 정부 등 가릴 것 없이 모든 조직은 보다 더 민첩하게 움직여야 하고, 나날이 높아지는 사용자의 눈높이와도 맞춰야 한다. 그러나 실행에 옮길 때 조직 간 차이를 만드는 요소가 있다면 바로 데이터다.

실제로 비정형 데이터는 사물인터넷(IoT) 등 다양한 곳에 활용될 수 있지만 말 그대로 ‘정형화’돼 있지 않기 때문에 분류해 저장하기 어렵다. 또 이를 분석해 새로운 인사이트를 얻어내는 것은 더욱 어려운 문제며, 기존 클라우드 서비스만으로는 쉽지 않은 것이 사실이다. 하지만 비정형 데이터가 가진 무한한 가능성 때문에 데이터 시장은 항상 이를 충분히 활용하기 위한 방법을 강구하고 있다.

그렇다면 데이터가 중요한 이유는 무엇일까? 공급 측면에서 바로 답을 찾을 수 있다. 데이터의 중요성뿐만 아니라 양에 대한 인식도 달라졌다. 데이터 증가를 주도하는 것은 IoT, 엣지 컴퓨팅 등 새로운 위치에서 데이터를 생성하는 요소다. 이들 요소는 현재 엔터프라이즈 컴퓨팅 영역에서 중요한 미래 투자 영역으로 주목받고 있다.

동시에 공공 영역의 방대한 데이터 개방과 민간 영역에서 기업이 예전보다 고객, 제품, 시장 데이터를 더 많이 수집하는 현상도 데이터 증가를 가속하고 있다.

이처럼 데이터 공급 증가 속에서 정부가 데이터 경제를 새로운 국가경쟁력으로 바라보면서 규제를 완화하는 움직임까지 이어지고 있는 것이 최근의 시장 동향이다. 모든 산업에 걸쳐 데이터 산업을 활성화할 수 있는 제도적 기반이 갖춰지면서 산업계는 그 어떤 때보다 활발히 대규모 데이터 분석, 인텔리전스 확보, AI 기술 사용 등에 관심을 보이고 있다.

분석 데이터 양·종류 급증
이제 데이터 분석 시장은 IoT, AI 및 머신러닝(ML)과 같은 신기술의 발전과 이미지, 동영상의 실시간 스트리밍을 통해 많은 데이터 사용이 요구되는 소셜 미디어의 유행 등 다양한 산업의 발달에 힘입어 그 분석 대상이 확대되고 있다. 테이블 형식의 구조화된 데이터인 정형 데이터뿐만 아니라 반정형, 비정형 데이터 등 데이터 분석 요건이 다양해졌으며, 데이터 생성 속도 또한 과거와 비교할 수 없이 빨라져 대량의 데이터에 대한 실시간 분석 사례 또한 크게 증가했다.

그에 따라 데이터 분석의 트렌드는 다양한 정형, 비정형 데이터를 규모에 관계없이 저장할 수 있는 중앙 집중형 저장소인 데이터 레이크(Data Lake)를 구축해 데이터를 한 곳으로 모은 후 분석하는 형태로 변화했다. 그러나 데이터를 변환해 한 곳에 모으는 작업에는 많은 노력이 요구되기 때문에, 이러한 어려움을 해결하기 위한 수단이 필요하다. 데이터 레이크는 이제 단순히 데이터를 저장하는 스토리지 이상으로, 다양한 데이터베이스, 분석 도구 및 ML 도구들과 메타데이터를 통해 상호작용하고 있다. 이를 위해서는 데이터 레이크에 연결된 테이블과 칼럼에 대한 접근 권한관리가 필수적이다.

또 데이터 레이크를 중심으로 데이터 웨어하우스(DW)와 같은 자신이 사용하는 서비스의 데이터를 이동할 필요 없이 즉시 통합하여 빠르게 분석할 수 있는 환경이 요구되고 있다. 거버넌스 정책을 통해 데이터를 복제하거나 추가적인 파이프라인을 구축하지 않고도 데이터 공유를 가능하게 하자는 것이다. 이는 여러 곳에 분산된 데이터를 통합해 즉시 분석할 수 있게 하는 개념으로, 데이터의 위치와 관계없이 신속한 분석을 가능하게 하는 현대적 데이터 아키텍처다.

데이터 레이크 운영에서 중요한 또 다른 추세가 있다. 기업이 수집하는 데이터는 역동적이며, 데이터 레이크에 유기적으로 연결된 시스템들은 계속해서 새로운 데이터를 추가하거나 삭제한다. 그렇기 때문에 데이터 쿼리 결과의 일관성과 최신성을 보장하기 위해서는 시스템 내에서의 충돌이나 에러를 방지하기 위한 부가적인 노력이 필요하다.

이전에는 배치처리 형태의 데이터 파이프라인들을 정교하게 구성해 이를 관리했지만, 데이터 기반의 혁신은 실시간 처리를 필요로 하는 만큼 이는 데이터 레이크에 트랜잭션 기능이 요구되고 있다.

현대적 데이터 아키텍처는 모든 규모의 분석에서 하나의 솔루션만을 제공하거나, 단순히 데이터 레이크를 데이터 웨어하우스에 통합하는 것이 아니라, 데이터 레이크, 데이터 웨어하우스 및 분석 대상인 데이터에 적합한 목적별 스토어(서비스)를 통합함으로써 통합 거버넌스와 간편한 데이터 이동을 지원하고, 빠르고 간편하게 데이터를 분석한다.

빠르고 유연한 분석 환경 구축
다양한 데이터 분석 니즈를 만족시키고 폭발적으로 증가하는 데이터를 저장하고 처리하기 위해 이미 많은 데이터 분석 환경이 클라우드 환경으로 확장됐다. 온프레미스에서는 폭발적으로 증가하는 데이터를 저장하기 위한 스토리지나, 이를 분석하기 위한 대량의 컴퓨팅 리소스를 유연하고 효율적으로 구축하기 쉽지 않다. 필요한 IT 자원이 투입되기까지 오랜 시간이 소요되고, 트래픽 폭증과 같이 예상치 못한 상황으로 인해 대량의 IT 리소스가 필요하거나 자원을 일시적으로 사용한 후 방치돼 불필요한 지출로 이어지는 경우도 많다.

클라우드 환경에서는 IT 자원이 준비돼 있어 사용자가 원하는 시기에 바로 활용할 수 있으며, 비즈니스 변화에 따라 필요한 IT 자원을 필요한 만큼 즉시 확장하고, 필요하지 않을 경우 해제해 비용 지출을 효율적으로 관리할 수 있다.

분석에 필요한 컴퓨팅 자원 또한 변화하는 데이터와 분석 요건에 맞춰 스토리지, 컴퓨팅, 분석 요건에 맞는 서비스를 선택해 원하는 분석을 수행할 수 있다. 온프레미스와 달리 IT 자원이 도입되기까지 기다리지 않아도 되며, 상황에 맞는 분석 서비스까지 선택해 바로 사용할 수 있다. 더 이상 IT 자원이나 사용하고자 하는 솔루션의 도입으로 시간이 지체되지 않기에 즉각적으로 대량의 데이터를 손쉽고 빠르게 종단 간(End-to-End) 분석해 데이터 밸류를 만들어 낼 수 있는 것이다.

이러한 클라우드의 민첩성과 유연성은 폭발적으로 증가하는 데이터에 대한 처리와 빠르게 변화하는 비즈니스 상황에 민첩하게 대응 가능하도록 해 온프레미스와 비교할 수 없는 장점을 제공한다.

유연성·적시성·효율성 뛰어나
온프레미스 대비 클라우드 데이터 분석 환경의 강점은 유연성, 적시성, 효율성의 3가지가 꼽힌다.

우선 대상 데이터의 규모, 대상 데이터 처리의 컴퓨팅 규모, 대상 데이터 분석 기술 및 기법은 데이터 분석의 문제 정의 방법과 시점에 따라서 지속적으로 변할 수 있다. 클라우드 데이터 분석 환경은 대상 데이터의 특성과 대상 데이터 분석 기술의 변화에 유연하게 대응할 수 있다.

데이터 처리·AI 분야는 급격한 기술 발전과 변화가 공존하는 분야인 만큼 데이터 분석 및 AI 개발에 대한 분석 환경과 컴퓨팅 규모는 급변하는 추세다. 정적인 컴퓨팅 환경에 특정 기술을 중심으로 사전 구축된 온프레미스의 데이트 분석 환경으로는 급격한 발전과 혁신이 이뤄지는 데이터 분석 및 AI에 유연하게 대응할 수 없다. 지속적으로 변경되는 AI의 컴퓨팅 워크로드와 기술, 기반 인프라의 가변성을 온프레미스로 대응하는 것에는 한계가 있다. 즉 데이터 플랫폼·AI의 급변하는 환경에 유연하게 대응하고 그 대응 속도를 즉시성(Just-In-Time)으로 대응하기 위해서는 클라우드가 효과적이다.

클라우드는 데이터 플랫폼 및 인공지능 서비스를 사전에 준비하고 사용자가 필요할 경우 바로 프로비저닝하기에 사용자는 인프라 관리 및 대응 기술 프로비저닝에 대한 사전 준비와 관리, 그리고 기술 운영에 소요되는 노력을 최소화할 수 있다. 결과적으로 급변하는 데이터 분석·AI를 유연하게 대응해 즉시 반영할 수 있도록 유지하기 위해서는 클라우드를 인프라 위에 데이터 분석·AI 환경을 구성하는 것이 기업 입장에서 유리하다.

또 클라우드 인프라 기반 데이터 분석·AI 환경은 데이터 엔지니어 및 데이터 과학자가 본연의 업무에 집중할 수 있도록 부수적인 운영 환경 관리 노력을 최소화할 수 있도록 지원한다. 클라우드 인프라 기반 데이터 분석·AI 환경을 유지함으로써 데이터 엔지니어와 데이터 과학자는 본연의 담당 업무에 더 집중할 수 있다.

클라우드 환경이 온프레미스와 비교해 취약한 점은 운영 비용 증가일 수 있다. 그러나 같은 컴퓨팅 워크로드의 사용 비용을 비교하면 온프레미스 비용이 클라우드 인프라 비용보다 더 크다. 이 부분은 사용하지 않는 클라우드 자원을 효과적으로 관리함으로써 극복할 수 있다.

온프레미스의 데이터 분석 환경은 정적인 컴퓨팅 인프라로 구성된다. 따라서 지속적으로 고정비용이 발생하는 규모이고, 미사용 자원의 발생 비용을 줄이는 것에는 한계가 있다.

반대로 클라우드는 미사용 자원에 대한 비용 통제가 가능하다. 클라우드 자원에 대한 모니터링과 자동화된 관리체계를 통해서 효과적인 자원 통제와 미사용 자원에 대한 자원 관리를 할 수 있어 클라우드 발생 비용을 절약할 수 있다.

검증된 데이터·클라우드 역량 강점
시장조사기관들에 의하면 클라우드 시장 성장에 따라 클라우드 데이터 분석 시장 역시 연평균 24.3%의 성장률로 빠르게 성장하면서 2026년에는 726억 달러 규모에 달할 전망이다. 우리나라라고 예외는 아니다. 이미 IoT 등 산업 영역에서의 데이터 활용 확대와 더불어 금융 마이데이터 등이 본격 시행되면서 데이터 분석에 대한 수요가 한층 확대되고 있다.

그로 인해 데이터 분석 시장에서는 DW를 비롯해 오래전부터 활동해온 업체들과 클라우드 서비스 사업자(CSP 및 MSP), 클라우드 네이티브 기반 플랫폼 기업들까지 가세하면서 경쟁이 한층 거세질 것이라는 관측이 나오고 있다.

오라클은 오라클 클라우드에서 데이터 메시(Data Mesh)와 분석 샌드박스(Sandbox)를 지원하는 데이터 레이크 하우스를 구축하는 전체 서비스를 제공하며 시장 공략에 박차를 가하고 있다.

[표] 오라클 클라우드가 제공하는 데이터 레이크 하우스 구성 서비스

서비스 역할	서비스명	설명
데이터 레이크	OCI Object Storage	정형, 비정형, 반정형 데이터 저장소
RDW 데이터베이스	Autonomous Database, Exa CS, MDS Heatwave	실시간 DW를 위한 정형 데이터 저장소
배치 데이터 파이프라인	OCI Data Integration	대용량 데이터 처리 파이프라인을 구성하는 ETL 서비스
데이터 스트리밍	OCI Streaming	실시간 스트리밍 데이터 파이프라인 구성 서비스
대용량 데이터 처리 엔진	OCI Big Data	관리형 하둡 서비스
대용량 데이터 처리 엔진	OCI Data Flow	서버리스 스팍 클러스터 서비스
데이터 가상화	OCI Cloud SQL	다양한 데이터(Oracle, Hive, Kafka, NoSQL, S3, Blob)를 SQL로 처리하는 데이터 가상화 서비스
머신러닝 개발 환경	OCI Data Science	전문 데이터 과학자를 위한 인공지능 개발 환경
인공지능 API	OCI AI Service	사전 학습된 인공지능 모델을 API로 제공하는 서비스: 비전, NLP, 포케스팅, 이상탐지, 음성인식
데이터 시각화	Oracle Analytic Cloud	데이터 시각화 및 셀프 BI
데이터 거버닝	OCI Data Catalog	데이터 메타 정보 관리 및 거버닝 서비스

오라클 클라우드는 금융권에서 주로 사용하는 엑사데이터, 오라클RAC, MySQL을 완벽하게 지원하는 오라클 DB 클라우드 서비스와 MySQL 서비스를 제공한다. 현재 오라클은 엑사데이터와 오라클RAC를 완벽하게 지원하는 유일한 클라우드 사업자이며, DW로 확장 가능한 MySQL 서비스를 제공하는 유일한 클라우드 사업자이기도 하다.

오라클 클라우드는 기업이 주로 사용하는 엑사데이터, 오라클 데이터베이스, MySQL을 완벽하게 지원하는 서비스를 제공하는 동시에, 데이터를 처리하는 데이터 플랫폼은 완전 개방형 오픈소스를 기반으로 한 서비스를 제공한다. 따라서 기존에 사용하는 기술 체계를 클라우드에서 그래도 사용 가능하며, 이러한 오픈소스 기술은 오라클 클라우드 인프라스트럭처(OCI)에 완전 통합해 배포 및 관리에 유용한 환경을 제공한다.

기업의 온프레미스와 완벽히 동일한 데이터베이스(Homogenous Database) 서비스를 지원하는 동시에 완전 개방형 오픈소스로 데이터 플랫폼 서비스를 제공하기에 기존에 기업이 사용하는 데이터 플랫폼 관리 체계를 오라클 클라우드에서 그대로 운용할 수 있다.

클라우드 지원 확대로 경쟁 우위 ‘자신’
테라데이타는 클라우드 데이터 분석 시장 공략을 위해 DW 어플라이언스 위주의 사업에서 소프트웨어 판매, 클라우드 서비스 등으로 비즈니스 모델을 다각화했을 뿐만 아니라 아마존웹서비스(AWS), 마이크로소프트 애저(MS Azure), 구글 클라우드 등 주요 클라우드 서비스에서 이용이 가능하도록 준비를 마쳤다.

또 ▲360도 고객 데이터 뷰를 구현하는 CDP(Customer Data Platform) ▲데이터 사이언티스트의 AI·ML 프로젝트 PoC 지원 등 테라데이타 플랫폼의 활용 영역을 넓혔으며, 마이데이터 지원 사업으로 내년엔 모인 고객 데이터를 실제 분석까지 할 수 있도록 지원하는 플랫폼으로 발전시킨다는 계획이다.

그 외에도 빅데이터 및 클라우드 수요 증가에 맞춰 모던 데이터 레이크, 멀티·하이브리드 클라우드 부문 비즈니스도 지속적으로 강화한다는 방침이다.

DW·DB뿐 아니라 비즈니스 사례/IP 분야 40여 년의 경쟁력 있는 사업 경력과 차별화된 기술력을 지닌 테라데이타는 한국 시장에서 ▲엔터프라이즈급 니즈 충족 ▲비즈니스 사례/IP 확보 ▲커넥티드 멀티 클라우드 ▲커넥티드 데이터 분야 성장을 가속화한다는 전략이다.

국내에서 엔터프라이즈급 분석 플랫폼에 대한 수요는 주로 메타버스, IoT 스트리밍 데이터, 마이데이터 분야에서 창출될 것으로 예상하고 있으며, 이들 영역에서 기업이 실시간 운영 인텔리전스를 확보하고 서비스를 다양화시키며 인사이트를 실질적인 비즈니스 성과로 전환하도록 돕겠다는 포부다.

한층 가속되는 경쟁 속에서도 테라데이타는 오랜 업력으로 인해 축적된 기술력과 다양한 사례를 바탕으로 치열해진 시장 경쟁에서 우위를 차지할 수 있다는 입장이다. 그 근거로 테라데이타가 제공하는 ‘다이내믹 워크로드 관리 기능’을 든다.

최근 새롭게 등장해 성장하고 있는 클라우드 네이티브 서비스 기반의 기업들과 달리 테라데이타는 오래전 컴퓨팅 리소스가 그리 넉넉하지 않은 시기부터 시스템이 안정적으로 운영될 수 있도록 하기 위해 워크로드 관리 기능을 지속 개발해왔으며, 이는 주어진 컴퓨팅 리소스 환경을 워크로드가 넘어서지 않게끔 배분하고 관리하는데 최적화돼 있기에 시스템 확장 위주로 설계된 클라우드 네이티브 서비스 대비 TCO 절감 및 유지 차원에서 앞선 능력을 보인다는 것.

또 온프레미스와 클라우드, 하둡과 타 DW 시스템 등도 하나의 시스템처럼 연결해 사용할 수 있는 데이터 패브릭 기능을 제공해 점차 복잡해져 가는 IT 환경에서의 사일로(Silo) 현상을 방지하며, 데이터 사이언티스트를 위한 파일럿·운영 시스템의 단일화 및 BYOM(Bring Your Own Model) 지원도 테라데이타만의 강점으로 내세운다.

윤현기 기자 다른기사 보기