재생 가능한 자원 ‘비정형 데이터’, 비즈니스에 활용하기

배성호 퓨어스토리지코리아 지사장, 사일로식 아키텍처 탈피한 비정형 데이터 활용 방안 강조

[데이터넷] 많은 업계 전문가들이 데이터를 현대 시대의 금광이나 석유로 비유하고 있다. 하지만 데이터는 항상 우리 주변에 존재하며 재생 가능하기 때문에 소비되는 자원이라기보다 오히려 ‘태양열 에너지’에 더 가깝다고 볼 수 있다.

IDC에 따르면 2018년에서 2023년까지 전 세계 스토리지 용량의 설치 베이스는 두 배로 늘어나고, 2023년에는 11.7제타바이트(ZB)에 이를 것으로 전망하고 있다. 이 많은 데이터는 도대체 어디서 만들어지는 것일까?

오늘날 기업들은 고객 정보에서부터 사물인터넷(IoT)에서 수집돼 빠르게 증가하는 센서와 기기의 데이터까지 가히 어마어마한 양의 데이터를 모으고 있다. 하지만 CRM 데이터베이스, 스프레드시트와 같은 포맷을 제외하고는 이미지, 검색 데이터, 영상, 센서 데이터 등과 같은 비정형 데이터들의 대부분은 검색도 어렵고 분석은 더욱 까다롭다.

업계 전문가들에 따르면 비정형 데이터가 전체 디지털 데이터의 80~90%를 차지한다고 보고 있다. 게다가 비정형 데이터는 데이터 레이크(Data Lake), 데이터 웨어하우스(Data Warehouse), SAN(Storage Area Network)과 다양한 시스템을 비롯해 복잡한 인프라 및 수많은 사일로 속에 존재하고 있기 때문에 대체 어떻게 활용해야할지 대부분 엄두를 내고 있지 못하는 실정이다.

정리되지 않은 데이터 이해하려면

사일로는 본래의 목적과는 달리, 비생산적인 결과를 초래하고 있다. 사일로로 인해 로우 데이터(Raw Data)에 분석 툴을 적용하거나 인사이트를 얻기 위해 전사적으로 정보를 모으기가 매우 어려워졌기 때문이다.

하지만 자연어 처리와 이미지 인식 개발을 위해 머신러닝에 많은 투자가 이루어지면서, 과거 ‘콜드 데이터(Cold Data)’로 여겨지던 데이터가 이제는 기업이 민첩해지고 더욱 데이터 주도적으로 변화하는데 있어 중요한 역할을 하고 있다. 분석 기술이 발전하면서 문제에 대한 답을 이끌어내고, 과거에는 상상하지 못했던 방식으로 트렌드를 포착해 미래를 예측하고 있다.

하지만 현대적인 데이터 경험을 제공하기 위해서는 우선 기존에 구축돼 있는 스토리지를 살펴볼 필요가 있다. 정확한 분석을 위해서는 AI 알고리즘을 지속적으로 학습시켜야 하는데, 이 때 레거시 스토리지 시스템 및 미디어를 손상시킬 수 있을 정도의 강도, 속도 및 볼륨이 요구된다. 점점 더 많은 기업들이 스토리지에서 컴퓨트를 분리하고, 컴퓨트에서 애플리케이션을 분리하며 모든 것을 서비스형으로 제공하는 클라우드-퍼스트 전략을 수립하는 과정에서 이러한 과제는 더욱 복잡해지고 있다.

이러한 상황을 염두에 뒀을 때 성공적인 스토리지 인프라는 사일로와 사일로를 연결하고, 복잡성이나 타협 없이 성능, 민첩성, 간소성에 대한 니즈를 충족할 수 있어야 한다. 뿐만 아니라, 확장성이 뛰어나고 병렬 처리가 가능해야 한다.

퓨어스토리지의 데이터 허브 아키텍처는 데이터 웨어하우스(DW), 데이터 레이크, 스트리밍 애널리틱스, AI 클러스터를 비롯한 주요 네 개의 사일로 간에 데이터를 공유하기 위해 설계된 데이터 중심 아키텍처다. 각 사일로의 강점을 하나의 통합된 플랫폼 위에서 엮을 수 있으며, 더 나은 통찰력을 얻기 위해 필요한 데이터를 공유하고 애플리케이션 간 막혀 있는 장애물을 제거할 수 있다. 매우 심플하고 탄력적이라 필요에 따라 애플리케이션 자원을 스핀 업(Spin Up) 및 스핀 다운(Spin Down)할 수 있다.

퓨어스토리지가 제공하는 플래시블레이드(FlashBlade)와 같은 현대적인 비정형 데이터를 위한 데이터 허브는 데이터 집약적인 모든 애플리케이션을 통합할 수 있도록 철저히 설계됐다.

데이터 허브 통한 비정형 데이터 단순화

실제 현업에서 데이터 허브를 사용하고 있는 사례를 살펴보자. 대만의 창겅 메모리얼 병원(Chang Gung Memorial Hospital)의 연구진들은 플래시블레이드와 엔비디아(NVIDIA) DGX-1을 함께 사용하여 현미경으로 본 18종의 혈구를 99%의 정확성으로 분석하고 분류할 수 있는 딥러닝 모델의 학습을 성공적으로 수행했다. 이로써 진단의 정확성을 개선하고 검사 퀄리티를 향상했으며, 의료진의 과도한 업무량을 감소시키게 됐다.

또한, 정유 업계에 매장된 석유와 가스에 대한 탐사 데이터를 제공하는 호주 기업 서처 사이즈믹(Searcher Seismic)은 현대적인 데이터 허브를 성공적으로 구축해 높은 수준의 지하 지질학 탐사 데이터를 제공하고 있다. 서처 사이즈믹은 서비스형 데이터 시스템을 구축해, 하둡 기반의 데이터 레이크와 페타바이트(PB) 분량의 데이터를 빠르게 활용하고 오류를 줄이고자 했다.

서처 사이즈믹은 처음, 클라우드에 플래시 스토리지를 직접 연결해 사용하려 했으나 비용이 너무 크고 속도가 원하는 만큼 나오지 않아 고민하다 데이터 허브를 구축했다. 그 결과 탄성파 탐사 자료의 수집 속도를 20~30배 향상함으로써, 탐사 데이터를 고객에게 전달하는 시간을 줄여 인사이트를 도출하는데 소요되는 시간을 단축하고, 기업 가치를 향상시켰다. 향후 지질파 탐지 선박 위에서 바로 데이터를 위성에 송출해 배 위에서 바로 탄화수소를 탐사할 수 있다면 산업 구도가 완전히 바뀔 것으로 보고 있다.

이처럼 비정형 데이터는 활용 가능 여부에 따라 기업의 경쟁력을 엄청나게 높여줄 수 있는 게임 체인저의 잠재력을 가진 자원이다. 현대적인 데이터 허브 아키텍처를 갖춘다는 것은 곧 직원들이 실시간으로 비즈니스의 속도에 맞춰 인사이트를 얻을 수 있고, 불필요한 복잡성 없이 클라우드의 확장성과 심플한 운영을 누릴 수 있다는 것이다. 고객들에게 더 빠르고 더 정확한 지원, 중단 없는 운영, 적정한 스케일의 맞춤형 경험을 제공할 수 있다.

질병을 극복하기 위한 진단 툴 개발, 더욱 안전하고 스마트한 자율 주행 기술 설계 등 여러 분야에 적용할 수 있다. 빠르게 변화하는 현대 사회에서 비즈니스 민첩성을 높이고 분석을 기반으로 비즈니스 결정을 하고자 하는 조직들에게 과거에는 접근이 어려웠던 수많은 데이터 세트들을 활용하는 일이 더욱 중요해지고 있다.

이미 다가온 5G 시대에는 저장하고 분석해야 할 데이터가 더더욱 넘쳐날 것이다. 이제 기업들은 사일로식 데이터 아키텍처를 벗어나 비정형 데이터를 어떻게 활용하고 비즈니스 혁신을 도모할 것인가 고민해야 할 때다.

데이터넷 다른기사 보기