데이터 관리 패러다임 바꾼 ‘데이터 레이크’ (3)

뛰어난 보안·거버넌스 지원…다양한 분석계 시스템과 공존하며 데이터 활용성 높여

[데이터넷] 엔터프라이즈 데이터 클라우드 플랫폼 ‘클라우데라 데이터 플랫폼(CDP)’은 메이저 클라우드 서비스를 통해 쉽게 이용할 수 있으며, 기업에 최고 수준의 보안과 거버넌스를 제공하는 하이브리드·멀티 클라우드 데이터 분석 플랫폼이다.

CDP를 통해 하이브리드 데이터 아키텍처를 수용하면 단 몇 시간 내에 엔터프라이즈 수준의 보안과 거버넌스를 갖춘 클라우드 데이터 레이크를 구축할 수 있다. 비즈니스 사용자는 속도와 민첩성 부문에서 탁월한 클라우드 네이티브와 편의성 높은 다기능 분석 기능을 누릴 수 있다.

클라우데라의 데이터 레이크 서비스는 데이터 포맷이나 스키마를 자동으로 생성하여 사용자가 로우 데이터를 그대로 사용할 수 있게 해주면서도 빠르고 편하게 원하는 정보를 탐색할 수 있는 기능도 제공한다. 메타데이터 거버넌스 및 관리를 지원하고 데이터 액세스 권한 부여 및 인증 기능도 탑재해 보다 안전하고 편리하게 데이터를 활용할 수 있는 환경을 조성한다.

클라우데라는 CDP 로드맵을 비롯해 효율적인 전사적 데이터 강화 파이프라인 자동화를 위한 ‘클라우데라 데이터 엔지니어링’, ‘아파치 나이파이(NiFi)’와 ‘카프카’를 사용해 데이터 스트리밍을 수집하는 ‘데이터 인 모션(Data in Motion)’으로 데이터 레이크를 구축했다.

그 외에도 아파치 플링크 기반으로 실시간 스트림 처리와 스트리밍 분석을 위한 프레임워크 ‘클라우데라 스트리밍 애널리틱스’와 함께 스트리밍 SQL을 사용해 데이터 스트림의 연속 쿼리를 생성하는 ‘SQL 스트림 빌더’ 서비스도 제공한다.

CDP를 활용해 기업은 데이터 파이프라인을 퍼블릭 클라우드로 쉽게 마이그레이션하거나, 여러 기존 또는 신규 데이터 소스에서 데이터를 수집할 수 있는 새로운 데이터 파이프라인을 빠르게 설정할 수 있다.

이러한 방식으로 ‘데이터 인 모션’의 이해와 실시간 분석을 클라우데라 데이터 플로우(CDF)가 수행하고 데이터 앳 레스트(Data at Rest)의 저장과 처리를 CDP가 진행한다. 이렇게 구성된 엔터프라이즈 데이터 레이크에 저장된 정보를 기반으로 클라우데라 ML이 ML과 AI를, 클라우데라 DW가 정보 분석과 BI를 지원한다.

한 예로 CDP를 이용해 데이터 레이크를 구축한 SK하이닉스는 반도체 공정 과정의 주요 데이터를 레이크로 모아 분석할 수 있는 데이터 플랫폼 환경을 제공하고, 실시간 데이터 분석, 데이터 레이크 최적화를 위해 클라우데라 데이터 플랫폼의 환경으로 마이그레이션했다.

“국내외 안정적인 엔터프라이즈 데이터 클라우드 지원”

CDP의 SDX(Shared Data Experience) 기술은 엔터프라이즈 데이터에 대한 보안, 개인 정보 보호, 규정 준수를 단순화해 기업이 손쉽고 빠르게 데이터 레이크를 구축할 수 있게 지원한다. 동시에 반복적인 스크립트 작업을 한 번으로 줄여 편리함도 더해준다.

클라우데라는 이미 전 세계 2000개가 넘는 고객을 확보하고 있고, 매년 10만 달러 이상 지출하는 고객사를 1000곳 넘게 보유하고 있으며, 100만 달러 이상 지출하는 고객은 170여 개에 이른다. 통신, 금융(보험), 인터넷 기업, 기술기업, 공공, 제조(자동차 포함)와 리테일 등 전 산업 분야에서 클라우데라의 비즈니스가 창출되고 있다.

현재 세계 10대 금융기관 중 8곳, 세계 10대 통신사 중 10곳, 40개 이상의 정부기관, 세계 10대 자동차 기업 중 10곳, 세계 10대 제약사 중 9곳, 세계 상위 5개 기술 회사 중 4 개가 클라우데라 솔루션을 도입해 운용 중이다.

한국 시장에서도 클라우데라는 글로벌과 같은 비즈니스 연속성을 갖고 있다. 예를 들어 세계 상위 5대 기술 회사 중 4곳의 공통점은 비즈니스를 성장시킬 수 있는 안정적인 엔터프라이즈 데이터 클라우드를 제공하기 위해 클라우데라를 전략적 파트너 또는 솔루션 공급 업체로 선택했다.

한국에서도 코오롱베니트, 굿모닝아이텍, 피앤지텍 같은 파트너들과 긴밀히 협력하며 국내 기업들의 데이터 활용을 적극 지원하고 있다.

다양한 분석계 시스템과 공존

테라데이타 플랫폼과 객체 스토리지 기반으로 구성된 모던 ‘데이터 레이크(Modern Data Lake)’는 기존 DW 및 DM에서 이미 최고의 분석 기술력이 증명된 테라데이타의 기술력이 그대로 보장된다. 따라서 데이터 레이크에 대한 고성능, 고가용성, 대규모 동시 사용자 및 확장성을 제공한다. 또 인공지능(AI)/머신러닝(ML) 기능까지 함께 제공함으로써 기존의 사용자 외 데이터 분석가도 지원한다.

테라데이타는 강력한 자동 워크로드 관리 기능과 샌드박스 기능을 결합해 단일 통합 시스템 내에서 데이터 분석가가 일부 샘플 데이터가 아닌 전수 데이터를 활용한 AI/ML을 위한 테스트를 성능 문제없이 제공할 수 있도록 지원한다. 나아가 하이브리드 멀티 클라우드 상에서 연계된 데이터 레이크를 구축할 수 있도록 지원하고 있다.

테라데이타의 데이터 분석계에 대한 가장 근본적인 접근은 데이터 패브릭을 통한 ‘논리적 DW’다. 이는 각종 분석계 시스템이 서로를 대체하는 관계로 상존하는 것이 아니라 커다란 분석 에코시스템의 한 영역 내에서 공존하는 체계다. 예로 DW, DM, 데이터 레이크를 이루는 각종 시스템인 테라데이타, 오라클 엑사데이타, 하둡시스템이 포함된다. 테라데이타는 자체 데이터 패브릭 기술인 쿼리그리드(QueryGrid)를 통해 테라데이타 플랫폼을 중심으로 유기적인 분석이 가능한 분석계를 구성한다. 이미 각종 시스템이 구축된 고객에게 유용하다.

이러한 ‘논리적 DW’ 체계 아래 기존 하둡 운영사가 아닌 기업은 전통적인 하둡 중심의 데이터 레이크가 아닌 ‘모던 데이터 레이크’ 전략을 수립할 수 있다.

핵심은 그동안 대용량 데이터 저장에 그치고 분석에 취약했던 하둡을 굳이 쓰지 않고, 하둡보다 저비용으로 데이터를 저장할 수 있는 오브젝트 스토리지(AWS S3, Azure Blob, Google GCP 등 클라우드상 스토리지 혹은 온프레미스상의 오브젝트 스토리지)를 테라데이타 분석 플랫폼과 바로 통합해 오브젝트 스토리지 내에 있는 비정형 데이터에 대한 직접적인 데이터 읽기 및 쓰기 기능을 사용할 수 있다는 것이다. 즉 오브젝트 스토리지를 통한 ‘저비용’ 및 오브젝트 스토리지에 보관된 데이터에 대한 직접적인 쿼리를 통해 고성능을 실현하는 전략이다.

테라데이타는 한국시장에서 활동한 지난 20여 년 동안 ‘전사 DW’나 ‘전사 빅데이터 구축사업’과 같이 대규모 투자가 발생하는 대규모 수주 기회에 집중해왔다. 과거에 비해 확실히 유연해진 가격 정책과 클라우드 제품을 바탕으로 이제는 대규모 표준이 되기보다는 규모에 관계없이 범용 제품으로 해결할 수 없는 최고 난이도의 특정 분석 이슈와 틈새 수요에 집중할 예정이다.

오픈 하이브리드 생태계 확장

데이터 레이크는 지속적인 유지 보수와 데이터에 액세스하고 사용하는 방법에 대한 계획이 필요하다. 이러한 유지 관리가 없으면 데이터에 액세스할 수 없고 다루기 힘들고 비용이 많이 들고 쓸모 없는 데이터가 될 위험이 있다.

기업 부서별로 각자 다른 데이터 요구사항을 갖고 있다. 데이터 레이크는 리소스 문제를 해결하지 않는다. 컨테이너화와 가상화를 활용하면, 각 부서가 데이터 액세스가 필요할 때마다 데이터의 복사본을 만드는 대신 부서 간에 공유가 가능한 소수의 복사본으로 관리할 수 있다.

성공적인 데이터 전략과 데이터 레이크 구축을 위해서 스토리지, 하이브리드 클라우드 및 컨테이너가 필요하다.

우선 파일 및 개체 스토리지, 하둡 데이터 서비스, 인플레이스 분석을 통합할 수 있는 민첩한 소프트웨어 정의 스토리지 플랫폼으로 워크로드별로 최적의 스토리지 유형을 선택해야 한다. 하이브리드 클라우드는 2개 이상의 상호 연결된 클라우드 환경으로서 데이터 노출을 최소화하고 기업이 확장 가능하고 유연한 IT 리소스 및 서비스 포트폴리오를 맞춤형으로 활용할 수 있도록 지원한다.

마지막으로 리눅스 컨테이너를 사용하면 전체 기능을 유지하면서 개발, 테스트, 운영 등의 환경 간에 데이터를 이동할 수 있도록 응용 프로그램을 패키징 및 격리할 수 있다. 컨테이너는 빅데이터로 데이터 처리 작업을 빠르고 간단하게 완료할 수 있는 방법이다.

이를 위해 레드햇은 레드햇 오픈시프트와 셰프 스토리지, 오픈시프트 데이터 파운데이션을 제공한다.

레드햇 세프 스토리지(Red Hat Ceph Storage)는 간단하며 대규모 확장이 가능한 개방형 스토리지 솔루션으로 현대적인 데이터 파이프라인에 적합하다. 데이터 분석, AI/ML, 이머징 워크로드를 위해 설계된 레드햇 세프 스토리지는 고객이 선택한 업계 표준 하드웨어에 기반한 소프트웨어 정의 스토리지를 제공한다. 고객은 레드햇 세프 스토리지를 통해 ▲운영 규모를 확장하여 더 빠르게 출시 ▲애플리케이션 개발과 데이터 사이언스 간의 격차 해소 ▲데이터에 대한 보다 심층적인 인사이트 확보와 같은 이점을 얻을 수 있다.

또 레드햇 오픈시프트 데이터 파운데이션(Red Hat OpenShift Data Foundation)는 컨테이너를 위한 소프트웨어 정의 스토리지다. 레드햇 오픈시프트(Red Hat OpenShift)를 위한 데이터 및 스토리지 서비스 플랫폼으로 설계된 레드햇 오픈시프트 데이터 파운데이션은 팀이 클라우드 전반에서 신속하고 효율적으로 애플리케이션을 개발하고 배포할 수 있도록 지원한다.

레드햇의 개방형 소프트웨어 정의 스토리지 솔루션을 사용하면 중요한 재무 문서에서 미디어 파일에 이르기까지 데이터가 안전하게 저장되므로 더 많은 작업을 할 수 있으며, 더 빠른 성장과 안정성을 얻을 수 있다.

확장 가능하고 비용 효율적인 소프트웨어 정의 스토리지를 통해 방대한 양의 데이터를 분석해 비즈니스 통찰력을 향상시킬 수 있다. 레드햇의 소프트웨어 정의 스토리지 솔루션은 모두 오픈소스를 기반으로 하며 개발자, 파트너 및 고객 커뮤니티의 혁신을 기반으로 한다. 따라서 비즈니스의 고유한 워크로드, 환경 및 요구사항에 따라 스토리지가 포맷되고 사용되는 방식을 정확하게 제어할 수 있다.

한국레드햇 관계자는 “성공적인 데이터 전략과 데이터 레이크 구축을 위해서 스토리지, 하이브리드 클라우드 및 컨테이너가 필요하며, 이를 가능케 하는 것이 레드햇의 오픈 하이브리드 클라우드 전략”이라며 “최근 애플리케이션 트렌드가 과거와 크게 달라진 만큼, 레드햇의 컨테이너 플랫폼 등을 확산시켜 고객의 IT 환경을 현대화하는데 주력할 것”이라고 전했다.

윤현기 기자 다른기사 보기