AWS, 대용량 데이터 처리 위한 신규 데이터 분석 기술 공개
상태바
AWS, 대용량 데이터 처리 위한 신규 데이터 분석 기술 공개
  • 윤현기 기자
  • 승인 2019.12.06 18:41
  • 댓글 0
이 기사를 공유합니다

향상된 쿼리 성능·유연성 제공하는 최신 레드시프트 기술 등 출시

[데이터넷] 아마존웹서비스(AWS)가 방대한 데이터를 간편하게 처리할 수 있도록 지원하는 최신 분석 기술들을 선보인다.

6일 AWS는 대규모 데이터 스토리지, 데이터 웨어하우스(DW), 운영 데이터베이스 처리 시 대폭 향상된 쿼리 성능과 유연성을 제공하는 최신 레드시프트(Redshift) 기술을 선보이고, 아마존 엘라스틱 서치 서비스(Amazon Elastic Search Service)를 위한 고도로 확장 가능하고 비용절감 효과가 있는 웜(Warm) 스토리지 제품군을 새롭게 발표했다.

기업은 데이터 포맷이나 저장 위치와 상관없이, 보유한 모든 데이터를 분석하고 애플리케이션을 확장해 전 세계 모든 사용자들을 지원하길 원한다. AWS는 그 어떤 클라우드 제공업체의 분석 서비스보다 가장 광범위하고 심층적인 분석 서비스를 제공하며, 대용량 데이터를 위한 고객들의 새로운 니즈를 충족시키기 위해 끊임없이 혁신하고 있다.

관리형 스토리지 기능이 탑재된 최신 ‘아마존 레드시프트 RA3(Amazon Redshift RA3)’ 인스턴스는 컴퓨트와 스토리지의 개별적 확장을 통해 데이터 웨어하우스 최적화를 가능케 한다. 아마존 레드시프트 RA3 인스턴스 사용 고객은 데이터 웨어하우스 워크로드의 성능에 따라 인스턴스 물량을 결정하고, 관리형 스토리지는 사용량에 따라 비용을 지불하게 된다.

레드시프트 관리형 스토리지는 고속 로컬 스토리지를 위해 아마존 레드시프트 RA3 인스턴스에서 대용량·고성능 SSD를 사용하고, 장기적이고 견고한 스토리지를 위해 아마존 S3를 사용한다. 인스턴스 데이터가 대형 로컬 스토리지 용량을 초과하면, 레드시프트 관리형 스토리지는 초과 용량을 아마존 S3에 자동으로 오프로드한다. 데이터가 로컬 스토리지에 있든 아마존 S3에 있든, 레드시프트 관리형 스토리지는 저비용으로 사용할 수 있고, 로컬 RA3 스토리지에서 사용한 용량에 대해서만 비용을 지불한다. 즉, 미사용분에 대한 비용 낭비가 없다.

‘아마존 레드시프트용 아쿠아(AQUA, 2020년 중반 출시 예정)’는 아마존 레드시프트를 위한 새로운 분산형 하드웨어 가속 캐시로, 스케일이 다른 데이터 증가 속도에 발맞춰 성능과 혁신면에서 새로운 차원의 솔루션을 제공한다. 스토리지 레이어에 컴퓨트를 탑재해 데이터가 둘 사이를 거치지 않아도 되기 때문에, 레드시프트가 타 클라우드 데이터 웨어하우스 대비 10배 빠른 속도로 작동할 수 있게 한다.

아쿠아는 아마존 S3상에 구현된 대규모 고속 캐시 아키텍처로, 많은 노드의 데이터를 동시에 확장하고 처리할 수 있다. 각 노드는 데이터 압축, 암호화, 데이터 처리(필터링, 집계 포함)를 획기적으로 가속화하는 AWS 분석 프로세서로 구성돼 있다. 이 새로운 아키텍처는 기존 클라우드 데이터 웨어하우스 보다 훨씬 더 빠르게 쿼리를 실행해 로우 데이터(raw data)를 직접 쿼리할 수 있어, 최신 대시보드를 제공하고, 개발 시간을 단축하며, 유지보수를 쉽게 할 수 있게 한다.

‘아마존 레드시프트 데이터레이크 엑스포트(Amazon Redshift Data Lake Export)’는 고객이 데이터를 분석에 최적화된 오픈 데이터 포맷(아파치 파케이, Apache Parquet)으로 아마존 레드시프트에서 아마존 S3로 엑스포트 하도록 지원한다. 고객들은 이제 아마존 레드시프트에서 실행한 쿼리 결과를 자신의 데이터레이크에 오픈 포맷으로 저장해, 데이터를 아마존 세이지메이커(Amazon SageMaker), 아마존 아테나(Amazon Athena), 아마존 EMR(Amazon EMR) 등과 같은 타 분석 서비스와 함께 분석할 수 있다.

‘아마존 레드시프트 페더레이티드 쿼리(Amazon Redshift Federated Query)’는 고객들이 아마존 레드시프트 데이터 웨어하우스, 아마존 S3 데이터레이크, 아마존 RDS, 아마존 오로라(PostgreSQL) 운영데이터베이스 전반의 라이브 데이터에 대해 아마존 레드시프트로 쿼리를 실행할 수 있는 기능을 제공한다. 고객들은 익숙한 SQL 명령어를 사용해 다양한 데이터 저장소의 데이터를 통합할 수 있어 애플리케이션 개발 과정을 단순화할 수 있다.

아마존 엘라스틱서치 서비스에 활용될 수 있는 새로운 스토리지 제품군인 ‘울트라웜(UltraWarm)’은 자주 사용되는 데이터에는 분산 캐시를 제공하는 한편, 고급 배치(placement) 기술을 통해 활용 빈도가 낮은 데이터 블록을 파악해 캐시 바깥의 아마존 S3으로 오프로드 한다. 또한 울트라웜은 고성능 EC2 인스턴스를 사용해 S3에 저장된 데이터와 상호작용하며 경쟁사의 웜 제품군 솔루션 대비 50% 빠른 쿼리 실행 속도를 제공할 뿐만 아니라 고객이 로그 데이터를 사용할 때 동일한 수준의 인터랙티브한 분석 경험을 제공한다.

울트라웜은 기존 엘라스틱서치 대비 동일한 양의 데이터를 저장할 때 최대 90%의 비용 절감 효과가 있으며, 타사의 관리형 엘라스틱서치 제품에 활용되는 웜 제품군 스토리지 대비 80% 낮은 가격으로 제공된다. 울트라웜 사용 고객은 최대 3PB의 로그 데이터를 단일 아마존 엘라스틱서치 서비스 클러스터에서 관리할 수 있으며, 다수의 클러스터에서 쿼리할 수 있는 역량을 활용해 현재 및 과거 로그 데이터를 크기에 상관없이 효과적으로 보관해 추후 인터랙티브 운영 분석이나 시각화에 활용할 수 있다.

라주 굴라바니(Raju Gulabani) AWS 데이터베이스 서비스 부문 부사장은 “고객들은 페타바이트(PB)나 심지어 엑사바이트(EB)에 달하는 데이터를 주기적으로 처리해야 하는데 기존 분석 시스템으로는 이와 같이 방대한 양의 데이터를 처리할 수 없다. 고객들은 데이터 웨어하우스와 데이터레이크 전반에 위치한 로우 데이터를 빠르게 분석하고, 비즈니스 운영에 도움을 줄 수 있는 정보를 보존하기 위해 방대한 양의 로그 데이터를 비용 효율적으로 다루고 싶어 한다”며 “이번 발표를 통해 AWS는 고객이 이 모든 것들을 구현하고, 방대한 데이터도 부담 없이 처리할 수 있게 지원할 것”이라고 말했다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.