“비정형 데이터 분석·관리, ‘데이터 레이크’로 해결” (1)

데이터 종류·크기 상관없이 저장·분석 용이…AI 연계 통합 분석 지원도

[데이터넷] 빅데이터 분석을 위해 정형 데이터뿐만 아니라 비정형 데이터까지 수잡하고 분석하는 것에 대한 수요가 높아지고 있지만, 빠르게 증가하는 데이터를 저장하고 처리하기에는 기존 방식으로 불가능하다. 이에 데이터 종류와 모델에 상관없이 모든 유형의 데이터를 저장하고 분석할 수 있는 방안으로 데이터 레이크(Data Lake) 개념이 확대되고 있으며, 클라우드 사업자뿐만 아니라 스토리지 벤더들도 데이터 레이크 구성을 지원하는 솔루션들을 출시하고 있다. <편집자>

최근 생성되는 데이터는 이미지, 영상, 소셜 네트워크 서비스(SNS)에서 오가는 대화들처럼 복잡하고 용량도 클 뿐만 아니라 구조화돼 있지 않아 빠른 검색이나 분석이 쉽지 않은 비정형 데이터들이 다수를 차지하고 있다.

문제는 데이터가 생산되는 속도가 너무 빠르고 그 양 또한 방대하다는 데 있다. 시장조사기관 IDC에 따르면 지난해 전 세계 데이터양은 33제타바이트(ZB)였으며, 2025년에는 175ZB까지 늘어날 것으로 전망된다. 이를 64GB의 저장용량을 가진 스마트폰에 나눠담으려면 2조6000억대가 필요하며, 이 스마트폰들을 나열하면 지구를 500바퀴나 돌 수 있을 정도다. 이 중에서 비정형 데이터가 차지하는 비중은 80% 이상일 것으로 추정된다.

특히 빅데이터 분석의 중요성이 확대되면서 이러한 비정형 데이터까지 수집해 분석하려는 수요는 점차 높아지고 있다. 실제로 제조 분야 생산라인에서 설치된 다양한 센서에서 수집되는 데이터들은 사물인터넷(IoT) 기술과 연계돼 IoT 데이터로 변모함으로써 설비 예지정비나 불량률 분석 등에 활용되고 있다. 그 외에도 비정형 데이터를 활용해서 소비자 성향 분석, 건물·교량 관리 등 다양한 활동들이 이뤄지고 있다.

소비자 감성 분석 가능

비정형 데이터는 정형 데이터처럼 구조화돼 있지 않기 때문에 분석을 위해서는 추가적인 가공 과정이 필요하다. 즉, 저장된 데이터를 불러올 때마다 구조화 과정을 거쳐야 하며, 이때 기본적으로 데이터양이 늘어나게 된다. 문서(텍스트)만 하더라도 적게는 1.5배에서 많게는 4~5배 정도 늘어난다는 것이 업계 관계자들의 설명이다. 이는 기업에게 하여금 스토리지 부담을 느낄 수밖에 없도록 한다.

그렇다고 해서 비정형 데이터 분석을 하지 않을 수도 없다. 그 이유는 앞서 언급됐듯이 기존 정형 데이터만으로 얻을 수 없었던 다양한 인사이트를 확보할 수 있기 때문이다.

온라인 미디어 분석서비스 ‘펄스케이’를 제공하고 있는 코난테크놀로지는 비정형 데이터 위주의 소셜 분석에 인공지능 기술을 접목시켜 소비자의 감성을 분석하는 서비스를 출시했다. 기존 감성분석이 최대 60~70%의 정확도를 제공했다면, 펄스케이는 그보다 더 높은 80~85%의 정확도를 자랑한다. 그 결과 소비자와 직접적인 접점을 보유한 B2C 기업들에서 서비스 분석 이용률이 높은 편이다.

펄스케이 서비스를 통해 확인할 수 있는 것은 소비자들이 특정 대상에 대해 갖는 감정이다. 어떤 브랜드 혹은 제품에 대해 소셜 분석을 진행했을 때 소비자들이 그 대상에 보인 감정이 긍정적인지 부정적인지 등을 파악할 수 있다. 이를 통해 기업들은 전반적인 소비자 성향을 모니터링 할 수 있으며, PR 활동 계획이나 시장 대응 전략을 수립하는데 도움을 받을 수 있다.

2019년 7월 현재 이슈가 되고 있는 일본 제품 불매 운동 역시 소셜 분석을 통해 확인할 수 있다. 유니클로, 무인양품 등 불매 운동 리스트에 올라가 있는 기업 브랜드는 예상할 수 있듯이 상당히 부정적인 것으로 나왔다. 이들은 일본의 경제제재에 이슈와 함께 폭발적으로 언급양이 증가했으며, 그 추세는 쉽게 가라앉지 않을 것으로 확인됐다. 만약 해당 기업 브랜드와 관련된 부정적인 키워드가 새롭게 등장하면 부정 이미지는 더더욱 오래 갈 수밖에 없다는 결론이다.

이문기 코난테크놀로지 데이터사이언스 사업부장은 “소셜 데이터를 활용한 소비자 감정 분석을 통해 기업에서는 이슈가 되는 키워드가 무엇인지 파악하고, 그와 관련된 이슈에 직접 기업명이나 제품군이 언급되는 것을 예의주시하며 대응 방안을 마련할 수 있다”고 강조했다.

데이터 레이크로 대용량 데이터 관리

소셜 분석이 이전에는 분석 결과가 전반적인 흐름 위주였다면, 이제는 정형 데이터 분석과 같이 좀 더 기업 비즈니스에 밀착된 정보를 도출할 수 있는 방향으로 발전하고 있다. 단지 추세가 어떠하다는 것만 알려주기보다는 직접 활용 가능한 방향으로 포커싱이 되고 있는 것이다.

코난테크놀로지가 이 정도로 데이터 분석 결과를 낼 수 있었던 것은 다량의 소셜 데이터를 수집하고 분석했기에 가능했다. 회사 측은 연간 처리 데이터가 최소 35억 건으로, 이는 월 3억 건, 하루 1000만 건의 데이터를 처리하는 수준이라고 설명했다. 보유하고 있는 데이터는 이보다 더 많으며, 이들을 위한 스토리지도 대략 20테라바이트(TB)에 달한다.

그러나 주목할 것은 코난테크놀로지가 보유한 데이터 대부분이 텍스트이며, 음성 데이터나 영상 데이터를 다룰 경우 필요한 스토리지양은 최소 100배 이상 불어나게 된다는 점이다. 일반적인 스토리지로는 이처럼 늘어나는 데이터를 감당하기 어렵다.

이에 빅데이터 분석을 위한 대량 데이터 저장 방안으로 데이터 레이크가 주목받고 있다. 다양한 데이터 종류를 마치 물들이 호수로 모이듯이 한 곳에 저장할 수 있기 때문이다. 하나의 중앙 저장소에 모든 소스로부터 오는 데이터가 저장되기에 누락될 일이 없다.

또한 별도의 스키마 정의 없이 다양한 수집 도구를 활용해 신속하게 데이터를 저장할 수 있으며, 저장 공간과 분석을 위한 컴퓨팅 리소스를 분리해 확장성을 높인다. 아울러 데이터를 사용하는 시점에 원하는 형태로 정의함으로써 활용도를 높이고 관리 어려움을 줄일 수 있다.

데이터 분석에 있어 중요한 것은 충분한 양의 데이터를 모으는 것과 이를 분석하기 좋게 가공하는 과정이다. 데이터 레이크는 이를 한 번에 지원함으로써 빅데이터 분석 환경을 갖추기 위한 핵심 플랫폼으로 떠오르고 있다. 이미 아마존웹서비스(AWS)를 비롯한 클라우드 서비스 사업자들도 데이터 레이크 구축을 통한 빅데이터 분석 환경을 제공하고 있다.

데이터 레이크는 이전부터 전통적으로 사용되던 데이터 웨어하우스(DW)와도 구별된다. DW는 주로 정형 데이터인 온라인 트랜잭션 시스템, 그리고 그와 연관된 정보시스템의 데이터를 용도에 맞게 분류해 가공하고 분석하는 역할을 하기 때문이다.

그러나 최근에는 분석해야 할 데이터의 소스가 소셜 미디어, 비디오, 오디오, 텍스트 등으로 광범위해지고 기하급수적으로 급증하고 있는 추세여서, 기존의 DW 기술로는 적절한 데이터 수집, 집계, 및 분석이 거의 불가능한 시대가 됐다. 이에 데이터 레이크라는 개념이 생겼으며, 정형, 비정형, 데이터 소스, 데이터 모델 등에 관련 없이 모든 유형의 데이터를 저장하고 분석할 수 있는 단일 데이터 저장소 및 분석 환경 플랫폼이라는 의미로 사용되고 있다. 따라서 기존의 DW와 데이터 레이크는 서로 반대되는 개념이라기보다 상호 보완적으로 작동하는 분석정보 시스템의 형태로 발전하고 있다.

클라우데라, 엔터프라이즈 데이터 플랫폼 사업 확대

하둡 전문기업 클라우데라(Cloudera)가 멀티 클라우드 환경에 최적화된 데이터 분석 플랫폼 사업자로서의 입지 다지기에 나선다. 하둡 구축만이 아니라 기업이 어떤 환경에서 어떤 데이터를 분석하더라도 스토리지와 컴퓨팅이 분리된 가장 비용 효율적인 방식으로 데이터 분석을 할 수 있도록 지원한다는 방침이다.

호튼웍스(Hortonworks) 인수합병을 마무리 지은 클라우데라는 호튼웍스의 스트리밍 데이터 분석을 위한 플랫폼인 ‘호튼웍스 데이터 플로우(HDF: Hortonworks DataFlow)’를 ‘클라우데라 데이터 플로우(CDF: Cloudera DataFlow)’로 새롭게 출시하며 기업 데이터 분석 지원에 나섰다. CDF는 확장 가능한 실시간 스트리밍 데이터 플랫폼으로 데이터를 수집, 분류, 분석한 후 고객에게 주요 인사이트를 제공해 즉시 실천 가능한 인텔리전스를 얻도록 지원한다.

기업이 온프레미스 데이터센터부터 클라우드에 이르기까지 광범위하게 퍼져 있는 데이터들을 분석하려면 현대적인 아키텍처를 필요로 한다. 데이터가 어디에 저장돼 있든지 보안을 강구하면서도 액세스를 할 수 있으려면 엣지(Edge)부터 인공지능(AI)까지 통합된 스위트를 필요로 한다. 클라우데라 데이터 플로우는 기업의 이 같은 니즈를 충족시켜주는 제품이라는 것이 회사 측의 설명이다.

또한 클라우데라는 데이터 모델링을 돕는 모듈인 ‘클라우데라 데이터 사이언스 워크벤치(Cloudera Data Science Workbench)’도 출시, 기업이 데이터 분석 여정에 있어 필요한 모든 과정을 처음부터 끝까지 제공하겠다는 목표를 실현해 나가고 있다.

이를 토대로 클라우데라는 ‘클라우데라 데이터 플랫폼(Cloudera Data Platform)’을 출시, 기업 멀티 클라우드 환경에서의 데이터 분석을 돕겠다는 입장이다.

이처럼 데이터 저장 위치에 상관없이 데이터 분석을 제공할 수 있는 것은 스토리지와 컴퓨팅이 완전히 분리되기 때문이며, 이는 ‘클라우데라 SDX’ 프레임워크가 제공하는 ‘공유 데이터 경험’이 있었기에 가능하다. 이로써 기업은 프라이빗 클라우드 환경에서 필요한 컴포넌트를 골라 사용할 수 있다.

데이터 중심 아키텍처 설계

분석 솔루션 사업자와 클라우드 서비스 사업자들이 손쉬운 빅데이터 분석 환경 구축을 강조하며 데이터 레이크 구성을 지원함에 따라 기존 IT 인프라 업체들도 데이터 레이크 지원을 위한 솔루션들을 출시하며 시장 대열에 합류했다. 데이터 분석 솔루션과의 연계성을 높이는가 하면, 대규모 비정형 데이터를 수용할 수 있는 플랫폼을 제공하며 빅데이터 분석 환경 지원에 나서고 있다.

퓨어스토리지는 점차 증가하는 기업들의 데이터 분석 수요에 대응하고자 ‘데이터 허브(Data Hub)’ 아키텍처를 선보였다. 기업들의 데이터 사일로(Silo) 현상을 극복하고, 좀 더 원활하게 데이터에 접근할 수 있도록 돕겠다는 입장이다.

퓨어스토리지에 의하면 대부분의 기업들은 데이터를 저장하는 용도의 데이터 레이크, 분석을 위한 DW, 스트리밍 분석, 인공지능(AI) 클러스터 등 4개 이상의 사일로된 요소에 데이터를 저장 및 관리하고 있다.

1세대 데이터 분석 방식인 데이터 웨어하우스는 데이터의 분석업무를 위해 샘플링된 데이터를 분석하는 방식이며, 2세대 데이터 분석 방식인 데이터 레이크는 데이터의 전수 분석을 위해 데이터를 수집하고 분석하는 방식이다. 데이터 전수 분석을 도입한 이후, 데이터의 실시간 분석 시간 단축 및 IO 분산 처리를 위하여 개발된 방식이 3세대 데이터 스트리밍 방식이며, 이제 기업은 AI 클러스터를 통해 실시간 성능, 빠른 처리 속도 까지 가능한 4세대 데이터 플랫폼을 지향하고 있다.

이같이 각 요소에 흩어져 있는 솔루션을 통합, 활용하는 것은 결코 쉬운 일이 아니다. 퓨어스토리지의 ‘데이터 허브’는 DW, 데이터 레이크, 스트리밍 분석 및 AI 클러스터의 강점을 단일한 플랫폼에 통합한다. 데이터 허브는 파일 및 오브젝트 스토리지를 위한 높은 데이터 처리량, 진정한 스케일 아웃 아키텍처, 다차원적 성능 및 대용량 병렬 처리 등의 특징을 갖고 있어 기업의 데이터 중심 인프라 설계에 도움을 줄 수 있다.

AI 연계한 통합 분석 플랫폼 지원

퓨어스토리지의 데이터 허브는 퓨어스토리지의 플래시블레이드(FlashBlade)를 기반으로 구축됐다. 진화된 파일 및 오브젝트 스토리지인 플래시블레이드는 백업 어플라이언스 및 데이터 레이크를 포함한 복잡한 데이터 사일로를 통합하도록 설계돼 혁신적인 분석 및 인사이트 도출을 가속화한다.

플래시블레이드는 방대한 병렬 아키텍처를 기반으로 설계돼 멀티 페타바이트(PB) 용량의 규모로까지의 스케일 아웃 확장을 통해 레거시 시스템의 스케일 업 기반 IO 처리 대비 병목현상을 제거하고, 전례 없는 성능 및 단순함을 제공한다. 이를 통해 성능 저하 없이 많은 DGX 서버들에 데이터를 공급해 서버 활용도를 높일 수 있다.

또한 레거시 인프라의 사일로들을 통합하고, 비정형 데이터를 포함한 모든 데이터를 높은 성능으로 처리해 AI 인프라의 데이터 허브 역할을 수행함으로써 데이터 과학자들이 인프라가 아닌 데이터 및 AI 작업에만 집중하도록 한다.

빅데이터 분석 및 AI·딥러닝 개발을 위한 기업의 인프라는 간단한 확장 및 무중단 업그레이드를 통해 딥러닝 및 GPU의 원활한 구동에 필요한 다양한 데이터를 지속적으로 제공하며 데이터 수집, 변환, 훈련 및 검증에 이르는 AI 데이터 파이프라인 가속화를 지원하는 높은 성능을 제공해야 한다. 그러나 지금까지 레거시 인프라는 플래시와 컨트롤러의 직렬 연결 방식에 기반해 병목현상이 불가피하며, 확장 프로세스가 복잡해 필요한 성능을 제때 안정적으로 제공하지 못했다는 것이 퓨어스토리지 측의 설명이다.

이에 퓨어스토리지는 모든 규모의 AI 도입을 지원하는 통합 솔루션 에이리(AIRI)를 출시했다. 에이리는 퓨어스토리지 플래시블레이드의 방대한 병렬 올플래시 성능으로 엔비디아(NVIDIA) DGX-1 시스템의 성능을 확장시켜준다.

에이리는 데이터 과학자들이 다양한 규모의 핵심적인 훈련 워크로드를 구동시키는데 유용한 솔루션이자 데이터에서 인사이트를 도출하는 시간을 몇 주에서 몇 시간으로 절감시켜 주며, 기업들의 모든 AI 요구사항을 충족시켜줄 수 있는 통합 인프라다.

2018년 3월 출시 이후, 에이리는 헬스케어, 금융 서비스, 자동차, 테크, 고등교육 및 연구 등 전 세계 다양한 산업에서 널리 구축되며 기업들의 AI 및 딥러닝 기반 혁신을 주도해오고 있다. 딥러닝을 이용한 자율주행 분야의 선두 기업 제누이티(Zenuity)는 엔비디아 DGX-1 및 플래시블레이드 기반의 AI 인프라스트럭처를 구축함으로써 방대한 양의 데이터 처리 및 모델 반복 훈련에 최적화된 데이터 플랫폼을 구축해 안전한 자율주행을 보장하는 소프트웨어를 개발하고, 이를 위한 모델 훈련 시간을 감소시켰다.

윤현기 기자 다른기사 보기