데이터 관리 패러다임 바꾼 ‘데이터 레이크’ (1)
상태바
데이터 관리 패러다임 바꾼 ‘데이터 레이크’ (1)
  • 윤현기 기자
  • 승인 2021.08.15 11:00
  • 댓글 0
이 기사를 공유합니다

빅데이터 분석 수요 증가 따라 데이터 레이크 활용성 확대

[데이터넷] 빅데이터 분석을 위해 정형 데이터뿐만 아니라 비정형 데이터까지 수집하고 분석하는 것에 대한 수요가 높아지고 있지만, 빠르게 증가하는 데이터를 저장하고 처리하기에는 기존 방식으로 불가능하다. 이에 데이터 종류와 모델에 상관없이 모든 유형의 데이터를 저장하고 분석할 수 있는 방안으로 데이터 레이크(Data Lake) 개념이 확대되고 있으며, 클라우드 사업자뿐만 아니라 스토리지 벤더들도 데이터 레이크 구성을 지원하는 솔루션들을 출시하고 있다. <편집자>

데이터 레이크는 다양한 로우 데이터(raw data) 집합을 저장하는 데이터 리포지토리(repository)다. 데이터 레이크를 사용하면 정제되지 않은 데이터를 볼 수 있다. 데이터를 위한 총체적이고 큰 규모의 리포지토리를 원하는 기업이 일반적으로 활용하는 데이터 관리 전략이다.

로우 데이터는 아직 특정 목적을 위해 처리되지 않은 데이터다. 데이터 레이크의 데이터는 쿼리될 때까지 정의되지 않는다. 데이터 사이언티스트는 고급 분석 툴이나 예측 모델링을 활용해 필요할 때 로우 데이터에 액세스할 수 있다.

데이터 레이크를 사용하면 데이터를 다른 시스템으로 옮길 필요 없이 사용자만의 방식으로 데이터에 액세스하고 탐색할 수 있다. 데이터 레이크에서 얻은 통찰력과 결과는 다른 플랫폼 또는 데이터 리포지토리에서 정기적으로 가져오는 보고서와는 다르게 비정기적으로 발생한다. 그러나 사용자는 필요한 경우 스키마(schema)와 자동화를 적용해 보고서를 복제할 수 있다.

빅데이터 분석 수요 증가

과거 데이터 레이크는 새로운 데이터와 인사이트를 제공하지 못하는 단순 정보 집합체로 치부되며 비즈니스 인텔리전스와 분석 등에만 사용됐다. 하지만 빅데이터 기반의 데이터 분석과 머신러닝에 대한 관심도가 높아지면서 트렌드에 변화가 일어났다. 해당 작업을 수행하려면 새로운 데이터와 정보, 그리고 모델을 내부 소스 및 운영 시스템으로 흐르게 하는 데이터 레이크 피드백 루프를 생성해야 하기 때문이다.

빅데이터 시대의 도래는 데이터 레이크의 중요성이 다시 부각된 주된 이유이기도 하다. 자주 사용되던 데이터 웨어하우스(DW)는 목적을 가지고 정형화된 데이터를 사용하기 때문에 리포트 업무에 유리한 데이터 모델이지만, 빅데이터 기술에 필요한 비정형 데이터를 대량으로 수집 및 활용하기에는 비용과 시간적 측면에서 부적합하기 때문이다.

반면 데이터 레이크는 아직 가공되지 않은 데이터를 저장하기 때문에 보다 효율적으로 다양한 관점에서 분석을 진행할 수 있다.

조성현 클라우데라 상무는 “기술이 부족했던 당시에는 정보를 정리하지 않고 쌓기만 하는 데이터 레이크의 방식이 비효율적이라고 여겨졌다. 하지만 클라우드 기술이 발전하고 적은 비용으로 대량의 데이터를 온전히 보관할 수 있게 되면서 더 폭넓은 분석이 가능해졌다”며 “예를 들어 클라우데라 데이터 플랫폼(CDP)을 이용하면 여러 클라우드에 분산된 기업 내부와 외부 데이터를 종합하고 데이터 레이크 생성과 분석, 그리고 머신러닝 서비스를 빠르게 제공받을 수 있다. 즉 데이터 레이크에 저장된 정보는 접근성이 떨어진다는 부정적 인식에서 탈피하게 된 것”이라고 설명했다.

데이터 레이크 중요성 커져

데이터는 보호, 처리, 이해 및 실행 가능한 경우에만 가치가 있다. 빅데이터 활용의 목표는 비즈니스를 개선하는데 사용할 수 있는 실시간 정보를 제공하는 것이다. 실시간 정보 처리는 일관되고 원활한 방식으로 고객에게 가치를 제공하려는 기업의 주요 목표 중 하나이며 엣지 컴퓨팅의 주요 기능 중 하나다. 빅데이터의 통찰력을 통해 기업은 비용을 절감하고 효율적으로 운영하며 수익을 늘리고 새로운 고객에게 다가갈 방법을 찾을 수 있다.

데이터 레이크는 데이터를 위한 총체적이고 큰 규모의 리포지토리를 원하는 기업에서 점점 더 보편화되고 있다. 또 데이터베이스보다 낮은 비용에 활용할 수 있다.

데이터 레이크를 사용하면 데이터에 대한 정제되지 않은 보기를 유지할 수 있음으로 데이터 분석가가 DW와 같은 기존 데이터 저장소를 벗어나 데이터 정제와 분석 기술을 활용할 수 있다. 데이터 분석가가 새로운 데이터 분석 방법을 찾기 위해서 데이터 레이크가 필요하다.

데이터 레이크의 등장은 2010년 중반 전후 하둡의 보편화와 깊은 연관이 있다. 과거에도 기업의 모든 프로세스에서는 엄청난 양의 데이터가 발생했다. 다만 비용, 성능 등의 이유로 실제 업무에 활용되는 비즈니스 데이터는 극히 일부였으며, 대부분의 활용되지 않는 ‘다크 데이터’는 버려졌으나 하둡의 출현으로 대용량의 데이터를 비용 효율적으로 저장할 수 있게 됐다.

김희배 한국테라데이타 지사장은 “2010년 중반 이후, 스마트폰의 대중화, 각종 플랫폼 기업의 출현 그리고 이들과 경쟁하는 전통적 기업의 디지털 전환과 맞물려 전례 없는 규모의 데이터가 생성되고 있다”며 “이러한 시장 환경에서 기업 활동의 효율성과 시장 대응력을 강화하기 위해 데이터 분석은 핵심이 됐으며, 이를 위한 인프라인 데이터 레이크를 포함한 데이터 분석계의 중요성이 날로 커지고 있다”고 말했다.

빠른 저장 속도·유연한 활용 ‘강점’

DW는 기업 내 여러 부서의 정형화된 내·외부 데이터의 집합이다. 이곳에 저장되는 데이터는 사전에 정의한 스키마를 기준으로 가공된다. 데이터 구조상 데이터를 통합하고 분석하는 데는 적합하지만 형태가 고정돼 있어 유연성이 부족한 것이 단점이다. 그래서 비즈니스 전문가들은 이를 주로 정기 리포트나 BI, 그리고 데이터 시각화를 위해 사용한다.

또 데이터 마트(DM)는 데이터 웨어하우스의 한 개념으로 요약 데이터만을 다루는 작은 용량의 집합이다. DW와는 달리 DM은 상대적으로 짧은 수명을 가졌으며 하나의 프로젝트에만 국한된 데이터를 담고 있다. 즉 DW와 DM은 정형화된 데이터만을 다룬다는 점에서 빅데이터 시대의 요구를 충족하기에는 한계가 있다.

이에 반해 데이터 레이크는 웹서비스 로그나 센서 데이터, 소셜 네트워크 활동, 텍스트나 이미지 같은 비정형·반정형화된 데이터도 함께 지원한다. 예전에는 비용이 많이 든다는 이유로 외면당했지만 클라우드 서비스 등으로 저장 공간이 확보되면서 대규모 데이터를 분석하는데 많이 사용되고 있다.

DW가 정보를 입력하기 위해 데이터 소스를 분석하고 비즈니스를 이해하는데 많은 시간을 소요하는 것에 반해 데이터 레이크는 데이터를 원본대로 저장하기 때문에 저장 속도가 빠르고 나중에 다른 용도로 유연하게 데이터를 사용하는 것도 가능하다.

최근에는 데이터 레이크 역시 스키마를 가지고 정보를 분석하는 등 DW 개념과 통합해 ‘데이터 레이크 하우스’의 형태로 재구성되고 있는 추세다. 대용량 데이터를 적은 비용으로 누릴 수 있는 클라우드 네이티브 아키텍처를 적용해 데이터 레이크에서도 데이터 웨어하우스의 속도로 정보에 접근 가능하게 한 것이다.

비교적 저렴한 유지비

종종 혼동되지만 데이터 레이크와 DW는 동일하지 않고 서로 다른 용도로 사용된다. 둘 다 빅데이터를 위한 데이터 스토리지 저장소이지만, 그 외 공통점은 없다. 많은 기업이 DW와 데이터 레이크를 모두 사용해 구체적인 요구사항과 목표를 충족하고 있다.

DW는 보고를 위해 설계된 구조화된 데이터 모델을 제공한다. 이것은 데이터 레이크와 데이터 웨어하우스의 주요 차이점이다. 데이터 레이크는 현재 정의된 목적 없이 구조화되지 않은 로우 데이터를 저장한다.

데이터를 DW에 넣으려면 먼저 처리해야 한다. 어떤 데이터가 데이터 웨어하우스에 포함되거나 포함되지 않을지에 관한 결정이 내려지며, 이를 ‘쓰기 스키마(Schema on write)’라고 한다.

데이터를 DW에 저장하기 전에 정제하는 프로세스는 시간이 오래 걸리고 어려울 수 있으며, 때로는 몇 개월 또는 몇 년이 걸리기도 하므로 데이터를 바로 수집할 수 없다. 데이터 레이크를 사용하면 데이터 수집을 즉시 시작하고 향후에 데이터를 어떻게 처리해야 할지 파악할 수 있다.

DW는 구조상 정기적인 보고를 위해 필요한 데이터가 무엇인지 미리 알고 있는 비즈니스 분석가 및 기타 비즈니스 사용자가 더 자주 사용한다. 데이터 레이크는 데이터를 사용해 연구를 수행하고 있기 때문에 데이터 사이언티스트와 분석가가 더 자주 사용하는데, 데이터가 유용하게 사용되려면 보다 고급 필터와 분석을 데이터에 적용해야 한다.

데이터 레이크와 DW는 일반적으로 서로 다른 하드웨어를 스토리지로 사용한다. 데이터 웨어하우스는 대부분 비용이 많이 들며, 데이터 레이크는 대부분 범용 하드웨어를 사용하기 때문에 큰 규모에도 불구하고 저렴하게 유지될 수 있다.

[데이터 레이크 vs. 데이터 웨어하우스 특징 비교] (자료: 델 테크놀로지스)

  데이터 레이크 데이터 웨어하우스

데이터 유형

정형/반정형/비정형 데이터

정형 데이터

데이터 사이즈

페타바이트(PB)

테라바이트(TB)

데이터 소스

원시 데이터(Unprocessed)
- 센서, 카메라, 앱, 인터넷 등

정제된 데이터(Processed)
- DB

목적

사전에 정의된 목적이 없음

사전에 사용 목적이 정의돼 있음

애플리케이션

빅데이터 분석, 머신러닝, 데이터 검색, 침입 탐지/운영 분석

배치 리포팅, BI 툴, 시각화

주요 사용자

데이터 과학자, 데이터 개발자

비즈니스 전문가, 비즈니스 분석가

 



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.