칼럼 스토어 DB와 어플라이언스로 ‘DB 개조하기’
상태바
칼럼 스토어 DB와 어플라이언스로 ‘DB 개조하기’
  • 데이터넷
  • 승인 2008.08.05 00:00
  • 댓글 0
이 기사를 공유합니다

데이터 웨어하우스

데이터 웨어하우스는 빠른 속도로 성장하고 있다. IDC 설문 조사에 따르면 거의 40% 가까운 조직들이 데이터량은 연간 50%씩 늘어나고 있다고 말했으며, 웨어하우스 규모가 연간 두 배씩 늘어나고 있다고 답한 곳도 18%나 됐다. 이러한 성장에 따라가기 위해서는 기반이 되는 데이터베이스도 신중하게 튜닝을 해야 하지만, 그렇게 한다 하더라도 많은 중대형 회사들은 레거시 데이터하우스 업그레이드에 직면하게 된다.

웨어하우스 규모, 연간 2배씩 증가
이제 데이터 웨어하우스 어플라이언스와 칼럼 스토어(column-store) 데이터베이스의 세계로 들어가 보자. 이들은 둘 다 최근 몇 년 동안 벤처 자본가들이 여러 신생업체들에게 투자하면서 사람들의 주목을 끌고 있다.
혜성처럼 등장한 데이터유피아(Dataupia)의 CEO이자 데이터 웨어하우스 어플라이언스 시장의 8년차 선두주자인 네테자(Netezza)의 공동 설립자였던 포스터 힌쇼는 “월마트, 스테이플스, 그리고 아마존닷컴이 그렇게 큰 성공을 거둘 수 있었던 비결 중 하나는 이들이 데이터를 분석하고 이것을 전체 엔터프라이즈에서 바로 활용할 수 있게 했기 때문”이라고 말했다. 그는 또 기업들은 신규 점포를 어디다 내야 하는지, 어떤 제품이 판매되고 있는지, 어떤 것을 다른 곳으로 보내야 하는지, 그리고 고객에게 프로그램을 제공해야 하는지 등을 파악하는 데 있어 회사 데이터를 심층 분석할 수 있는 능력이 필수라고 덧붙였다.
신속한 질의 성능과 손쉬운 배치, 테라바이트당 1만달러밖에 하지 않는 가격을 앞세운 어플라이언스는 주요 데이터 웨어하우스 업체들로부터 기업 고객을 유혹해 내고 있다. IBM과 테라데이터가 각자의 어플라이언스로 이에 대응한 것도, 오라클이 써드파티 하드웨어용으로 레퍼런스 구성을 최적화한 것도 놀랄 일은 아니다. 하지만 기존의 업체들은 합성 분석 질의(complex analytic query)에서 가장 빠른 질의 성능을 제공할 수 있는 칼럼 스토어 데이터베이스의 위협에는 맞서지 못하고 있다.
이것은 데이터 웨어하우징에서는 새로운 시대를 예고하는 것이지만, 구매자는 주의해야 한다. 어플라이언스와 칼럼 스토어 데이터베이스가 언제나 전통적인 EDW(enterprise data warehouse)의 대안으로 적합한 것은 아니기 때문이다. 사실 이런 대안들은 EDW에서 데이터 집약적인 애플리케이션들을 덜어내는, 따라서 메인 데이터 웨어하우스를 교체할 필요를 피할 수 있게 해주는(최소한 지연시켜 주는) 데이터 마트(data mart)용으로 가장 자주 이용되고 있다.
데이터를 열로 저장하는 전통적인 로 스토어(row-store) 데이터베이스와 달리 칼럼 스토어 데이터베이스는 데이터를 수직으로 본다. 예를 들어 고객 데이터베이스의 경우 로 스토어 데이터베이스는 각 고객 레코드에서 질의를 하는 데 반해, 칼럼 스토어 데이터베이스는 선택된 칼럼을 질의할 수 있다.

칼럼별 질의
로 방식은 OLTP용으로 좋으며, 각 고객 트랜잭션용으로 많은 쓰기(write)가 있다. 칼럼 스토어는 OLAP용으로 이상적이며, 특정 속성에 대해 많은 읽기(read)가 있다. ZIP 코드와 제품별 판매 현황을 알고 싶다면 질의에서는 이름과 주소, 그리고 기타 관련성 없는 속성들을 모두 통과해 가는 게 아니라 ZIP 코드와 제품 SKU 칼럼만 묻게 된다.
칼럼 스토어 데이터베이스의 또 한 가지 이점은 각 칼럼에 있는 데이터가 일관적이기 때문에(예를 들어 모든 이름들이) 최적화된 압축(최고 10:1 비율)을 적용할 수 있다는 사실이다. 질의가 레코드 집약적이지 않는 한, 다시 말해 여기에 많은 속성들이 포함되지 않는 한 칼럼 스토어에서 나오는 데이터 양은 언제나 전통적인 데이터베이스보다 적으며, 따라서 더 빠른 성능을 가져다준다.
칼럼 스토어 데이터베이스는 많은 애플리케이션들에게 있어 이상적이다. 전기통신 회사들에게는 빌링과 기록상의 이유로 엔터프라이즈 데이터 웨어하우스에 있어야 하는 통화 데이터 레코드가 수십억 개나 되지만, 마케팅 분석용으로 데이터 마트에서 칼럼너(columnar) 추출이 행해질 수 있다.
IRS(Internal Revenue Service)에서는 지난 1996년 사이베이스 IQ에서 2TB짜리 웨어하우스로 출발한 최초의 칼럼 스토어를 배치하기 시작했다. 칼럼너 데이터베이스는 질의 시간을 며칠에서 몇 시간으로 줄여 줬으며, 버틀러 IRS 리서치데이터베이스 책임은 이것을 “경이로운 생산성 향상이었다”고 표현했다. “한 때 몇 시간씩 걸리던 질의는 이제 몇 초밖에 걸리지 않는다.”
IRS의 분석 데이터베이스에서는 지난 10년간 있었던 모든 납세신고서의 파퓰레이션 레벨(population-level) 데이터(이름이나 주민등록 번호가 없다는 의미)를 저장한다. 웨어하우스는 고발이나 규정준수 행위뿐만 아니라 조세법 변화의 잠재적 영향 등을 조사하는 데 사용된다.
IRS가 칼럼 스토어 데이터베이스를 선택한 이유는 하나의 질문에서 다음 질문으로 질의를 하기 위해 어떤 데이터 엘리먼트가 필요한지를 알 수 없었기 때문이라고 버틀러는 말했다. 그의 말에 따르면 정적 보고 애플리케이션을 이용하면 많은 최적화를 할 수 있기 때문에 거의 어떤 데이터베이스든 사용할 수가 있지만 당시 IRS는 이렇게 할 수 있을 만한 상황이 되지 못했다고 그는 덧붙였다.

어플라이언스 성능
로 스토어 데이터베이스든 칼럼 스토어 데이터베이스든 대부분의 데이터 웨어하우스는 공통적으로 MPP(massively parallel processing) 무공유(shared-nothing) 아키텍처를 갖고 있다. MPP는 곧 질의 부하가 여러 프로세서나 노드들 간에, 주로 리눅스를 돌리는 범용 하드웨어에 분산된다는 것을 의미한다. 무공유라는 말은 곧 각 노드가 독립적이며, 그 자체의 메모리와 스토리지를 갖고 있다는 뜻이다. 그 결과 전통적인 데이터웨어하우스를 돌리는 데 주로 사용되던 고성능 동기 멀티프로세서 서버에 돈을 들이지 않고도 높은 성능을 얻을 수 있게 된다.
어플라이언스는 또한 전통적인 웨어하우스보다 배치 및 유지보수가 더 수월하기 때문에도 인기를 끌고 있다. 이전의 웨어하우스들은 튜닝 되고 최적화되고, 나중에 대규모 배치에서 돌아가기 위해서는 클러스터링이 돼야 한다. 이러한 매력에 힘입어 파액셀(ParAccel), 사이베이스(Sybase) 및 버티카(Vertica) 같은 칼럼 스토어 데이터베이스들은 써드파티 하드웨어를 기반으로 하는 소프트웨어-하드웨어 번들을 내놓았다.
최초로 하나의 MPP 무공유 아키텍처에(어플라이언스가 필요 없이) 하드웨어와 소프트웨어를 번들링했던 테라테이터 사의 경우를 보면 신생업체들이 주로 가격에서 경쟁을 벌이고 있는 데 대응해 지난달 자사 고유의 어플라이언스를 발표하는 한편(데이터 마트용 하나와 소형 웨어하우스용 하나), 코어 EDW 제품의 성능과 확장성을 업그레이드했다.

옵션들 저울질하기
어플라이언스나 칼럼 스토어 데이터베이스를 평가할 때는 성능을 향상시키거나, 데이터 웨어하우스 업그레이드를 미루거나, 혹은 두 가지 모두를 위해 복잡하고 데이터 집약적인 분석 질의 부하를 덜 것인지, 아니면 EDW을 교체하는 것인지를 따져 보라. 만약 후자라면 칼럼 스토어 제품은 많은 속성을 포함하고 있는 로 집약적 질의에는 적합하지 않다는 사실을 명심해야 한다.
당신의 EDW가 혼합된 질의 유형을 가진 수천 명의 사용자를 지원해야 하는가? 모든 어플라이언스가 이것을 할 수 있는 것은 아니다. 테라데이터의 대표 제품과 IBM의 인포스피어 밸런스드 웨어하우스 E-클래스(InfoSphere Balanced Warehouse E-Class), HP의 네오뷰(Neo view), DAT알레그로의 v3, 그리고 그린플럼(Green plum)의 G3는 모두 기술적으로 EDW 배치에 적합하지만, HP, DAT알레그로 및 그린플럼의 경우는 테라데이터나 IBM의 데이터 통합 및 정보 관리 소프트웨어와 필적하려면 파트너를 이용해야 한다.
어플라이언스와 칼럼 스토어 데이터베이스는 분석 데이터 마트와, 복잡한 질의와 대량의 데이터를 처리하는 집중식 웨어하우스에 좋다. 이런 시각에서 뉴욕 증시의 모 회사인 NYSE 유로넥스트(Euronext)는 오라클 데이터베이스를 기반으로 하는 노후한 세 개의 100TB 데이터베이스를 세 개의 네테자 퍼포먼스 서버(Netezza Performance Servers)로 교체했다. 이 회사의 수석 데이터 임원인 스티브 허치는 “전통적인 웨어하우스에서는 자그마치 26시간이나 걸리는 복잡한 질의가 이제 두 시간 반이면 가능하며, 7분 정도가 필요하던 간단한 질의는 이제 5초면 그만”이라고 한다.
하지만 이런 것들이 전형적인 EDW는 아니다. 그의 말에 따르면, 하루에 부하는 수백 개의 질의로 한정이 되며, 사용자 커뮤니티는 어플라이언스당 최고 150개로 장비당 동시 사용자 수는 20명에 불과하다. 가장 규모가 큰 네테자 배치 중 하나에는 하루 600명 이상의 사용자와 2만 건 이상의 질의가 있지만, 대형 EDW에 수만 명의 동시 사용자와 하루 수백만 건의 질의가 있는 경우는 흔치 않다고 한다.
사용자 기반에서 볼 때 방대하진 않지만 유로넥스트는 복합 분석 계산을 수행하고 있다. 허치는 “한 개 질의에 데이터가 40~50TB까지 가는 일도 충분히 가능하다”고 말했다.
일단 사용자 수와 심도, 다양성 및 질의 수 등 자신의 데이터 웨어하우징이 무엇을 필요로 하는지를 이해하고 나면 혼란스럽기만 하던 모든 업체들의 주장을 잘 헤쳐 나갈 수 있을 것이다. 그리고 최종 후보자들에게는 PoP(proof-of-concept) 배치를 주장해야 한다.
가트너의 애널리스트인 도날드 페인버그는 “FUD나 TCP-H 벤치마크 통계 같은 것을 믿어서는 안 된다”며, “당신의 데이터를 갖다 놓고 당신의 질의를 돌리고 어떤 대안이 더 빠른지를 직접 확인해야 한다”고 경고했다. 이것만이 올바른 선택을 했는지 확인할 수 있는 유일한 방법이라는 얘기다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.