’자율운영 데이터 웨어하우스’ 통한 데이터 관리 혁신 방안
상태바
’자율운영 데이터 웨어하우스’ 통한 데이터 관리 혁신 방안
  • 데이터넷
  • 승인 2023.06.15 10:00
  • 댓글 0
이 기사를 공유합니다

나정옥 한국오라클 부사장
▲나정옥 한국오라클 부사장.
▲나정옥 한국오라클 부사장

[데이터넷] 조직에서 데이터는 최상의 가치를 발휘할 수 있는 잠재력을 지니는데, 이러한 잠재력에 도달하려면 쉬우면서도 안전하게 데이터를 ‘이용’하고 ‘교환’할 수 있는 방법이 필요하다.

일례로 필자가 근무하는 오라클의 클라우드 서비스를 도입한 세계 최대 규모의 광산 기업 마인센스(MineSense)는 오라클 자율운영 데이터베이스(Oracle Autonomous Database)를 기반으로 초대형 채굴 장비(massive power shovels)에서 수집한 사물인터넷(IoT) 데이터를 활용해 광석 채굴량과 에너지 자원 사용량 사이의 균형을 구현함으로써 친환경 기술 부문 선도 기업으로 인정받았으며, 단 1주 만에 고객이 필요로 하는 앱을 구축할 수 있게 됐다. 또한, 오라클 자율운영 데이터 웨어하우스(Oracle Autonomous Data Warehouse, 오라클 ADW)를 통해 데이터베이스 관리자의 업무량을 65% 감소시킴과 동시에, 데이터 전문가가 고성능으로 IoT 데이터를 분석할 수 있게 했다.

이러한 관점에서 오라클 ADW는 지난 2018년 출시 시점부터 데이터 이용에 있어서 단순성, 안정성, 경제성, 보안성 지원을 주된 목표로 해 지속적인 혁신을 이뤄왔다. 지난해에만 100여 개의 신기능을 출시했고, 고객들은 무중단 자동 업그레이드를 통해 사용 경험을 개선할 수 있었다.

최근에는 개방형 아키텍처를 바탕으로 한 더욱 새로운 기능을 통해 다양한 클라우드 및 데이터 소스들을 통합하고, 조직 및 클라우드 전반에 걸쳐 데이터 쿼리, 관리, 공유, 확장 과정을 간소화할 수 있게 됐다. 따라서 본 기술 기고에선 기업들이 오라클 ADW를 통해 자사의 데이터 관리를 혁신적으로 향상시킬 수 있는 방법을 새로운 기능 중심으로 자세히 소개하고자 한다.

간소화된 멀티 클라우드 데이터 웨어하우스

현재 대부분의 기업 고객의 IT 환경에서 데이터는 사내 구축형(on-premises), 클라우드(cloud)나 서비스형 소프트웨어(SaaS) 등으로 분리 운영되기 때문에, 기업이 가장 최근의 정확한 데이터를 활용해 의사결정을 내리기 위해서는 여러 환경에 분산된 데이터에 대한 ‘통합 데이터 가시성’이 요구된다.

오라클 ADW는 사내 구축형 및 클라우드 환경에 걸쳐 데이터베이스 및 다수의 오브젝트 스토리지에 저장된 데이터를 안전하게 접근할 수 있도록 지원한다.

첫째로, 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure, OCI), 아마존 웹서비스(AWS), 마이크로소프트 애저(Microsoft Azure), 구글 클라우드(Google Cloud) 등 주요 클라우드 서비스 제공 회사의 오브젝트 스토리지에 대한 안전한 접근성을 제공한다.

둘째, SQL 서비스를 통해 애저 SQL(Azure SQL), 애저 시냅스(Azure Synapse), 아마존 레드시프트(Amazon Redshift), 스노우플레이크(Snowflake), 몽고DB(MongoDB), 아파치 하이브(Apache Hive), 포스트그레SQL(PostgreSQL)에 직접 연결할 수 있다. 이 외에도 아파치 아이스버그(Apache Iceberg) 테이블에 대한 쿼리 액세스를 지원한다.

[그림1] 오라클 자율운영 데이터 웨어하우스의 확대된 네이티브 멀티 클라우드 기능.
[그림1] 오라클 자율운영 데이터 웨어하우스의 확대된 네이티브 멀티 클라우드 기능.

특히, 멀티 클라우드 환경에서 데이터 레이크에 접근하는 일은 복잡할 수 있는데, 오라클 ADW는 데이터 레이크를 ADW의 확장된 인프라로 운영할 수 있도록 함으로써 이러한 문제를 해결한다. 클라우드 제공 기업의 계정 및 접근 관리(Identity and Access Management) 서비스와 통합을 통해 데이터 레이크에 접근 시 데이터를 상시 보호할 수 있다. 또한, 간단한 API를 통해 테이블을 생성해 오라클 SQL로 데이터 웨어하우스 및 데이터 레이크 등 다양한 데이터 소스에 접근, 원활한 데이터 분석 수행을 지원한다. 결과적으로 사내구축형이나 클라우드 환경에 산재된 데이터 접근 시에도 애플리케이션을 완전히 보호하고, 간단한 운영 방식을 유지할 수 있다.

새롭게 업그레이드된 오라클 ADW는 데이터 레이크에 존재하는 폭넓은 유형의 파일 포맷에 대한 접근을 지원하며, OCI에서 확장된 외부 메타데이터 관리 서비스 지원을 통해 멀티 클라우드 데이터 접근 과정을 간소화할 수 있다. 데이터 거버넌스를 효과적으로 지원하는 OCI 데이터 카탈로그(OCI Data Catalog)와 통합돼 있던 ADW는 이제 AWS의 메타데이터 저장공간 서비스인 AWS 글루(AWS Glue) 데이터 카달로그와의 통합을 지원한다. 이러한 데이터 카탈로그 통합은 데이터 관리 작업을 크게 간소화시킨다. 오라클 ADW 상에서 데이터 레이크 메타데이터를 자동적으로 동기화하고, 데이터 레이크 상의 데이터에 대한 쿼리를 즉시 수행할 수 있다. 또한, 물리적 데이터 이동 없이 ADW와 오브젝트 스토리지 간 데이터 결합을 수행하는 SQL 쿼리를 실행할 수 있다.

데이터 분석 과정 간소화 구현

오라클 자율운영 데이터베이스 데이터 스튜디오(Oracle Autonomous Database Data Studio)는 IT 팀의 지원 없이도 사용자가 손쉽게 분석 솔루션을 개발할 수 있는 ADW에 내장된 셀프 서비스 노-코드(No-Code) 툴이다.

[그림2] 오라클 자율운영 데이터베이스 데이터 스튜디오의 손쉬운 데이터 분석 지원
[그림2] 오라클 자율운영 데이터베이스 데이터 스튜디오의 손쉬운 데이터 분석 지원

이 툴은 간단한 데이터 로드 작업과 100여 개 이상 데이터 소스의 데이터 수집을 지원하는 커넥터를 탑재했다.

드래그앤드롭 방식을 통해 스프레드시트, 데이터베이스, 데이터 레이크로부터 데이터 로드 작업을 간단히 수행할 수 있으며, 그 과정은 다음과 같다.

① 데이터 소스와 관련된 정보를 자동으로 추출한다.

② 타깃 테이블을 규정하고, 소스에서 데이터를 로드한다.

세일즈포스(Salesforce), 오라클 퓨전 애플리케이션(Oracle Fusion Applications)과 같은 엔터프라이즈 애플리케이션, NoSQL 스토어(NoSQL store), REST 엔드포인트로 이용 가능한 여러 복잡한 데이터 소스로부터의 데이터 로드도 지원한다. 데이터 스튜디오에서 수집을 지원하는 100여 개의 데이터베이스 및 애플리케이션 소스는 [그림3]과 같다.

[그림3] 오라클 자율운영 데이터베이스 데이터 스튜디오의 데이터 트랜스폼(Data Transforms), 다양한 데이터베이스 및 애플리케이션을 포함한 100여 개의 데이터 소스로부터 데이터 수집 지원
[그림3] 오라클 자율운영 데이터베이스 데이터 스튜디오의 데이터 트랜스폼(Data Transforms), 다양한 데이터베이스 및 애플리케이션을 포함한 100여 개의 데이터 소스로부터 데이터 수집 지원

손쉬운 데이터 변환을 가능케 한다.

새롭게 소개되는 데이터 변환 기능으로는 복잡한 데이터 활용과 사용자를 대상으로 데이터 제공 상황에서 요구되는 랭글링(Wrangle) 작업을 지원한다.

또한, 자율운영 데이터베이스의 높은 성능 및 확장성을 바탕으로 손쉬운 설정을 통해 세부 사항에 신경 쓰지 않고, 단 한 줄의 코드도 작성할 필요 없이 광범위한 워크플로우(필터, 집계, 조인, 룩업, 머신러닝, 공간 및 그래프 기능 등)에 대한 정교한 데이터 변환을 수행할 수 있다.

아울러, 단일 데이터 소스를 기반으로 신뢰할 수 있는 의사결정을 내릴 수 있도록 지원하기 위해 ADW 데이터와 연동되는 마이크로소프트 엑셀(Microsoft Excel)이나 구글 시트(Google Sheets) 플러그인을 제공한다. 간단한 인터페이스를 통해 조직의 다차원 데이터와 지표를 구글 시트 피벗 테이블 형식으로 가져올 수 있으며, 비즈니스 용어 및 관련 데이터 값의 일관성을 유지하면서 이를 기업 내외부, 리전 및 클라우드 전반에 걸친 사용자들과 공유할 수 있다.

다른 벤더 솔루션과 달리, 추가적인 데이터 모델링, 변환 및 통합 툴을 구매, 설치, 통합할 필요가 없으며, 탑재된 분석 시맨틱 레이어(Analytic Semantic Layer), 이상 탐지(Anomaly Detection), 머신러닝, 고급 공간 타입 및 모델(Advanced Spatial Types and Models) 등 다양한 분석 기능을 제공한다는 점이 주된 장점이다.

데이터 레이크 아키텍처 개선을 가능케 한다.

아직 대부분의 분석은 전통적인 데이터 아키텍처에 기반한 SQL 애플리케이션을 통해 이뤄지고 있고, 이는 현재 기업들이 SQL 성능 향상보다는 비용 절감에 초점을 맞추고 있는 영역이다. 그런데 만약, 기업들이 데이터 레이크를 통해 데이터 스토리지 비용 감소, 스토리지와 컴퓨팅의 분리, 비정형 데이터의 효율적인 처리 이점을 활용하면서도 쿼리 성능 또한 극적으로 향상시킬 수 있다면 어떨까?

ADW에 탑재된 엑사데이타(Exadata) 스토리지는 오브젝트 스토리지와 동일한 수준의 비용으로 OCI 오브젝트 스토리지와 비교했을 때 5-20배 빠른 쿼리 성능을 제공한다. 이러한 쿼리 속도는 증권거래소의 데이터 처리 성능과 맞먹는다. 이를 통해 기업은 SQL 분석을 위한 데이터 레이크 기반 인프라를 기존 오브젝트 스토리지에서 ADW 엑사데이타 스토리지 환경으로 전환함으로써 상당히 적은 비용만 투자하고, 훨씬 빠른 데이터 처리 성능을 확보할 수 있게 되는 것이다.

개방형 데이터 공유 기능을 제공한다.

기존의 데이터 로드, 이메일 및 복사를 통한 데이터 공유 방식은 거버넌스, 보안, 업그레이드 시스템 및 최신 데이터 뷰의 부재로 인해 복잡하고 안전하지 않았다. 반면, ADW의 개방형 데이터 공유는 업계 표준인 오픈소스 델타 공유(Delta Sharing) 프로토콜을 적용해 해당 프로토콜을 지원하는 애플리케이션 및 서비스를 활용해 사용자들과 안전하게 데이터를 공유할 수 있다.

해당 과정은 다음의 예시와 같다.

ㆍ데이터 소유자들이 원하는 데이터로 구성된 ‘데이터 공유(데이터 세트 또는 테이블의 집합체)’를 생성 및 관리하고, 사용자들에게 읽기 권한을 부여할 수 있다.

ㆍ데이터 공유의 수신자는 데이터를 이용할 수 있다는 알람을 받고 원격에서 중앙 시스템의 데이터에 접근할 수 있다.

ㆍ이 때 데이터는 안전하게 보안이 유지되며, 거버넌스 규정에 부합하고, 사용자가 최신 데이터를 확인할 수 있도록 리프레시된다.

ㆍ파워 BI 사용자에게 데이터 공유 기능을 통해 데이터를 공유할 수 있으며, 이를 공유 받은 사용자는 데이터에 접근해 분석을 수행할 수 있다.

[그림4] 오라클 자율운영 데이터 웨어하우스 개방형 데이터 공유 예시
[그림4] 오라클 자율운영 데이터 웨어하우스 개방형 데이터 공유 예시

기업들의 데이터 웨어하우스 활용의 목적은 데이터를 체계적으로 정리하고 분석을 통해 비즈니스에 적용 가능한 통찰력을 도출하는 일이다. 데이터를 활용해 실험하는 일은 과거에 비해 비용이 높아졌으며, 기업들은 투자한 비용만큼 데이터 가치를 높일 수 있는 솔루션 도입을 고민한다.

오라클 ADW는 기존에 강점을 지닌 데이터 관리의 영역을 다양한 멀티 클라우드, 오픈소스 데이터베이스, 데이터 웨어하우스 및 데이터 레이크로 확장했으며, 기존 OCI 오브젝트 스토리지를 이용하던 고객이 동일 비용으로 20배 더 빠른 쿼리 속도를 누릴 수 있게 한다. 무엇보다 전 세계 권역, 리전, 오라클 또는 비(非)오라클 시스템을 막론하고 데이터를 안전하게 공유할 수 있는 새로운 기능은 기업 내외부 이해관계자와의 협업 및 데이터 기반 의사결정을 향상시키고, 데이터 가치를 높이며, 보다 손쉽게 비즈니스 성과를 낼 수 있도록 도울 것이라 확신한다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.