디지털 혁신 촉진 열쇠는 ‘효율적 데이터 분석’
상태바
디지털 혁신 촉진 열쇠는 ‘효율적 데이터 분석’
  • 박광하 기자
  • 승인 2023.09.01 10:00
  • 댓글 0
이 기사를 공유합니다

장성우 한국오라클 전무
장성우 오라클 전무.
장성우 오라클 전무.

[데이터넷] 기업·기관의 디지털 혁신을 촉진하기 위해 분산되고 상이한 환경에 있는 데이터들을 별도의 ETL 과정 없이 효율적으로 분석할 수 있도록 돕는 인프라가 필요하다는 의견이 대두하고 있다. 이 같은 요구를 만족할 수 있는 방안으로 MySQL 클라우드 DB 서비스인 'MySQL 히트웨이브 DB 서비스'를 제안한다. <편집자>

현재 기업들이 멀티 클라우드를 활용해 비즈니스 수익성을 늘리고, 인공지능(AI) 등 고도화된 기술로 회사 및 고객 데이터를 빠른 속도로 분석해 서비스 운영을 향상시키는 트렌드가 지속되고 있다. 그러나 현재 기업의 기존 데이터 인프라 환경은 대규모의 데이터를 수용하기에는 비용효율적인 확장이 어려운 경우가 많다. 또한, 클라우드, 서비스형 소프트웨어(SaaS), 온프레미스(구축형), 데이터 레이크, 데이터 웨어하우스 등 여러 환경에 걸쳐 다양한 종류의 데이터가 분산 관리되고 있어 분석을 위해서는 별도의 추출·변환· 로드(ETL) 및 통합 과정을 거쳐야 하기 때문에 시간 소모적이다. 그렇기 때문에 기업이 자사의 디지털 혁신을 촉진하려면 분산되고 상이한 환경의 데이터들을 별도의 ETL 과정 없이 효율적으로 분석할 수 있도록 돕는 인프라가 필요하다.

단일 MySQL 클라우드 DB 서비스

오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure, OCI), 아마존웹서비스(AWS), 마이크로소프트 애저(Microsoft Azure) 및 온프레미스 환경에서 모두 사용 가능한 단일 MySQL 클라우드 DB 서비스인 MySQL 히트웨이브 DB 서비스(MySQL HeatWave Database Service)는 이러한 다양한 환경 내 데이터를 ETL 복제 과정 없이 손쉽게 결합시켜 분석할 수 있는 단일 환경을 제공한다.

최근에 오라클이 상용화한 MySQL 히트웨이브 레이크하우스(MySQL HeatWave Lakehouse) 및 MySQL 오토파일럿(MySQL Autopilot)은 기업이 표준 MySQL 구문을 사용해 DB 튜닝 전문지식 없이도 오브젝트 저장소로부터 데이터를 효율적으로 검색할 수 있도록 지원한다. 이러한 오브젝트 저장소 데이터 질의 지원 파일 형식은 CSV, 파케이(Parquet) 및 오로라, 레드시프트 및 MySQL과 같은 다른 DB의 내보내기 파일 등으로 다양하다.

MySQL 히트웨이브 레이크하우스를 통해 사용자는 오브젝트 스토리지로부터 최대 0.5페타바이트(PB)의 데이터를 질의할 수 있으며, 단일한 SQL 질의만으로 이 파일을 MySQL DB 내 트랜잭션 데이터와 결합할 수 있는 옵션도 제공한다. 이 때 데이터는 오브젝트 저장소 안에 그대로 유지되며 MySQL DB로 복제되지 않는다.

MySQL 히트웨이브 레이크하우스는 고도의 병렬 처리를 지원하는 인메모리 질의 가속기로 구동되는 MySQL 히트웨이브의 한 기능이다. MySQL 히트웨이브는 클라우드 DB 서비스 제품 중, 데이터 웨어하우스 워크로드에 최고 성능 및 가성비를 제공하는 점이 특징이다. 또한 DB 안에서 완전 자동화된 머신러닝 처리 기능을 제공한다. 뿐만 아니라, 트랜잭션, 분석, 자동화된 머신러닝 기능을 결합한 업계 유일의 클라우드 DB 서비스다. 이제 ETL 복제의 복잡성, 레이턴시 및 비용 없이, 단일 MySQL DB로 오브젝트 저장소를 질의하는 기능을 통해 안전한 실시간 분석 기술을 제공한다.

현재 기업들이 데이터 레이크하우스 기능을 필요로 하는 이유

[그림 1] MySQL 히트웨이브 레이크하우스.
[그림1] MySQL 히트웨이브 레이크하우스.

지난 몇 년 간 오브젝트 저장소 및 데이터 레이크에 저장된 데이터 양은 그 이전엔 볼 수 없었던 속도로 빠르게 증가했다. 기업들은 이러한 데이터를 분석하려는 필요성을 갖고 있지만, 데이터의 규모가 방대하고 구조화돼 있지 않으며, 표준 질의 툴이 상이한 탓에 분석에 어려움을 겪으며 비싼 비용을 투자해야 했다.

사용자들 역시 데이터 레이크 내 데이터를 DB 내 트랜잭션 데이터와 결합하고 분석을 수행하는 역량을 갖추길 원하지만, 오브젝트 저장소 내 파일 데이터를 DB로 로드해서 분석하는 일이 복잡하고 많은 시간과 비용을 소모해야 한다는 문제에 직면해 있다.

MySQL 히트웨이브 레이크하우스는 통합된 아키텍처 기반으로 높은 효율성을 제공하는 솔루션으로서 이러한 도전과제들을 해결할 수 있다. 오브젝트 저장소 내에서의 데이터 질의 성능은 수백테라바이트(TB) 규모로 향상됐으며, 최대 512개 노드 확장 지원을 기반으로 최대 0.5PB의 데이터 질의 성능을 지원한다.

또한 업계 최초로 오브젝트 저장소 내에서의 데이터 질의 속도를 DB 내에서의 데이터 질의 속도 수준으로 향상시켰다. 기업이 데이터 레이크 내 방대한 양의 데이터를 보유하고 있을 경우, 해당 데이터의 질의 시 MySQL 히트웨이브를 유용하게 사용할 수 있다.

500TB TPC-H 벤치마크에 따르면, MySQL 히트웨이브 레이크하우스의 질의 성능은 스노우플레이크(Snowflake) 대비 17배, 아마존 레드시프트(Amazon Redshift) 대비 9배, 데이터브릭스(Databricks) 대비 17배, 구글 빅쿼리(Google BigQuery) 대비 36배 빠른 속도를 갖췄다. 빅데이터와 같은 대량의 데이터 처리 시, 데이터 로드 성능이 중요한데, 히트웨이브 레이크하우스는 이러한 로드 성능에 있어서도 경쟁력을 제공한다.

500TB의 대규모 데이터세트에 대한 데이터 로드 성능 비교 시, 히트웨이브 레이크하우스는 스노우플레이크 대비 2배, 아마존 레드시프트 대비 9배, 데이터브릭스 대비 6배, 구글 빅쿼리 대비 8배 빠른 성능을 제공한다. MySQL 히트웨이브 레이크하우스는 클라우드 DB 서비스 시장에서 가장 빠른 속도로 오브젝트 저장소로부터 데이터를 로드 및 질의하는 DB다.

MySQL 히트웨이브 레이크하우스 아키텍처

히트웨이브 레이크하우스는 사용자들이 현재 당면한 데이터 레이크 내에서의 데이터 질의 관련 핵심 도전과제들을 해결하도록 설계됐다. 이를 위한 주요 기능은 다음과 같다.

●스케일-아웃(수평 확장) 아키텍처는 히트웨이브가 500TB까지의 데이터를 최고 성능으로 로드 및 질의할 수 있도록 지원한다. 또한 히트웨이브 클러스터는 최대 512개 노드로 확장 가능하다.

●MySQL 오토파일럿은 데이터 관리 작업을 자동화하며, 이는 자동 파일 스키마 추론, 최적의 클러스터 크기 오브젝트 저장소로부터의 데이터 로드 시간 예측을 포함한다.

●DB 및 오브젝트 저장소 내 데이터를 위한 통합 질의 엔진은 모든 소스의 데이터를 로드 직후 단일한 최적화된 내부 형식으로 변환한다. 이로써 모든 소스의 데이터에 대한 질의를 동일한 성능으로 최적화해 실행할 수 있다.

●히트웨이브 레이크하우스는 MySQL 구문과 완벽하게 호환되므로 MySQL 기반 애플리케이션을 오브젝트 저장소 내 데이터를 기반으로 별도의 변경 없이 즉시 운영할 수 있다.

●고가용성의 매니지드 DB 서비스는 컴퓨트 노드 장애에 대응해 히트웨이브 클러스터에 로드된 데이터를 외부 데이터 형식의 재변환 과정을 거치지 않고 자동적으로 복구한다.

●사전 인증된 요청(Pre-Authenticated Request, PAR) 또는 OCI 리소스 원칙(OCI Resource Principal) 메커니즘과 같은 안전한 액세스 제어 방법들을 활용해 다양한 데이터 레이크 소스들에 대한 완전한 액세스 제어를 제공한다.

스케일-아웃 아키텍처

앞서 언급했듯 히트웨이브 레이크하우스는 512개 노드 규모로 확장 가능하며, 최대 0.5PB의 데이터를 질의할 수 있다. 또한, 고도의 병렬 처리를 지원하는 고성능 인메모리 질의 처리 엔진을 탑재했다. 이를 통해 기업은 오브젝트 저장소로부터의 데이터 로드 및 데이터 질의 규모를 스케일-아웃할 수 있다.

[그림2] MySQL 히트웨이브 레이크하우스의 스케일-아웃 아키텍처.
[그림2] MySQL 히트웨이브 레이크하우스의 스케일-아웃 아키텍처.

오브젝트 저장소 내 데이터는 로드 시 히트웨이브 인메모리 형식으로 변환된다. 이러한 데이터 로드 처리 규모를 확장하기 위해 히트웨이브 레이크하우는 슈퍼 청킹(super-chunking) 과정을 통해 소스 데이터를 더 작은 단위로 세분화함으로써 복수 노드 간 동기화 작업을 최소화한다. 동적 작업 밸런싱(Dynamic task balancing) 기능도 활용하는데, 이는 클러스터 전반에서 모든 코어 리소스가 완전히 활용되도록 적응형 방식으로 처리 작업들을 분산시켜 낙오 작업(Straggler) 발생을 방지한다. 낙오 작업이란 노드 간 성능 차이로 인해 특정 작업이 상대적으로 느린 속도로 처리되는 현상을 뜻한다.

마지막으로 적응형 데이터 플로우(Adaptive data flow)를 통해 시스템 상황에 따른 최대 가용 속도를 제공할 수 있도록, 클러스터의 각 노드별로 오브젝트 저장소 요청 처리 속도를 독립적으로 조정한다.

MySQL 오토파일럿

MySQL 오토파일럿 MySQL 히트웨이브의 특징적인 기능들의 집합체로서 머신러닝 기반 자동화를 통해 다양한 DB 운영을 지원하면서 개발자 및 DB 관리자(DBA)의 생산성을 높여준다. MySQL 오토파일럿은 레이크하우스를 위해 한층 향상된 기능들을 제공하는데, 이는 MySQL 히트웨이브 레이크하우스의 고도로 효율적인 확장, 로드 및 처리 성능을 구현하는 데 있어 중추적인 역할을 한다. 히트웨이브 레이크하우스를 위해 개발된 MySQL 오토파일럿의 주요 기능은 다음과 같다.

●자동 스키마 추론: MySQL 오토파일럿은 컬럼의 개수, 데이터 유형 및 정확도를 지능적으로 스캔하고 자동적으로 추론하며, 이는 메타데이터를 포함하지 않은 CSV 파일 작업에 특히 유용하다.

●적응형 데이터 샘플링: 1분 이하의 빠른 시간 안에 400TB 용량의 파일에 대한 스캔 및 스키마 예측을 수행하는데, 이는 자동화에 요구되는 정보 및 데이터에 대한 정보 도출을 지원하는 지능형 파일 샘플링 기술로 구현된다.

●적응형 데이터 플로우: MySQL 오토파일럿은 대규모 클러스터를 구성하는 노드 전반에서 오브젝트 저장소로 연결하는 네트워크의 대역폭 활용률을 조정하며, 기반 오브젝트 저장소의 성능에 동적으로 적응한다. 결과적으로, 최적의 성능 및 가용성을 제공한다.

데이터 레이크하우스 성능

오라클은 고객들의 공통적인 기준을 바탕으로 히트웨이브 레이크하우스에 대한 성능 평가를 진행했다. 이는 오브젝트 저장소 내에서의 데이터 로드 및 질의 성능 및 가격 대비 성능, 그리고 이와 DB 내에서의 데이터 질의 성능에 대한 비교를 포함한다. 그 결과는 다음과 같다.

데이터 로드

[그림3] 데이터 로드 성능 비교.
[표1] 데이터 로드 성능 비교.

MySQL 히트웨이브 레이크하우스를 통한 오브젝트 저장소로부터의 데이터 로드 성능은 다음과 같다:

· 아마존 레드시프트(Amazon Redshift) 대비 9배 빠른 속도

· 스노우플레이크(Snowflake) 대비 2배 빠른 속도

· 데이터브릭스(Databricks) 대비 6배 빠른 속도

· 구글 빅쿼리(Google BigQuery) 대비 8배 빠른 속도

데이터 질의

[그림4] 데이터 질의 성능 비교.
[표2] 데이터 질의 성능 비교.

MySQL 히트웨이브 레이크하우스의 질의 성능은 다음과 같다:

· 아마존 레드시프트(Amazon Redshift) 대비 15배 빠른 속도

· 스노우플레이크(Snowflake) 대비 18배 빠른 속도

· 데이터브릭스(Databricks) 대비 17배 빠른 속도

· 구글 빅쿼리(Google BigQuery) 대비 35배 빠른 속도

*면책조항: 벤치마크에 사용된 질의의 출처는 TPC-H 벤치마크이나 TPC-H 사양을 준수하지 않았기 때문에 그 결과를 공개된 TPC-H 벤치마크 결과와 비교하는 것은 불가능하다.

오브젝트 저장소 질의 성능 및 DB 내에서의 데이터 질의 성능 간 비교

히트웨이브 레이크하우스는 동일한 질의 구문 및 시맨틱을 사용해 DB 및 오브젝트 저장소 내에서의 데이터를 모두 질의할 수 있으며, 그 성능 비교는 다음과 같다.

[표3]
[표3]
[그림6]
[표4]

위의 두 그래프에서와 같이 오브젝트 저장소 내에서의 데이터 질의 성능 및 가격 대비 성능은 DB 내에서의 데이터 질의 성능 및 가격 대비 성능과 같다.

서로 다른 파일 형식 질의

히트웨이브 레이크하우스는 오브젝트 저장소로부터 데이터를 로드하면서 이를 소스 파일 형식에 관계없이 히트웨이브 인메모리 데이터 형식으로 변환하며, 모든 소스 파일 형식에 동일한 질의 성능을 제공한다. 이 때 데이터 로드 성능은 상시 거의 동일한 수준을 유지한다.

이번에 발표된 히트웨이브 레이크하우스 서비스를 통해 MySQL 히트웨이브는 오브젝트 저장소 내에서의 파일 질의를 지원하는, 기존 제품보다 더 향상된 기능을 제공할 수 있게 됐다. 또한 고도로 확장 가능한 방식으로 데이터를 로드 및 질의하는 동시에 업계 최고 성능 및 가성비를 제공한다. 이 때 오브젝트 저장소 내 데이터는 MySQL DB로 별도로 복제되는 과정을 거치지 않고 기존의 저장 공간 안에 그대로 보관된다. MySQL 히트웨이브 레이크하우스 서비스는 전 세계 모든 OCI 리전에서 이용 가능하다.

비즈니스 개선 인사이트 확보 지원

새롭게 향상된 레이크하우스 및 운영 자동화 기능을 통해 고객은 자사의 판매, 구매와 같은 핵심 트랜잭션 데이터와 오브젝트 스토어 내의 다양한 데이터를 결합시켜 분석을 수행함으로써 비즈니스 개선에 유용한 인사이트를 매우 빠르게 확보할 수 있으며, 이러한 인사이트는 성과를 위한 더 나은 의사결정을 내릴 수 있도록 지원하고, MySQL 히트웨이브 상의 트랜잭션에 적용함으로써 비즈니스를 향상시킬 수 있다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.