콘텐츠 어드레서블 스토리지
상태바
콘텐츠 어드레서블 스토리지
  • 데이터넷
  • 승인 2007.02.28 00:00
  • 댓글 0
이 기사를 공유합니다

데이터 검색 요청, “쉽게 처리하라”
CAS(Content Addressable Storage)는 데이터 아카이빙을 위한 강력한 기반을 제공하며, 주요 스토리지 업체들도 이제 제품을 내놓기 시작했다. 여기서는 CAS를 이행하는 데 있어서의 동력과, 이 기술이 할 수 있고 할 수 없는 부분들을 짚어 보았다.

‘변화추적·메타데이터·중복제거’ 강점 … SNIA 표준 부재 고려해야

최근에 미 정부 v. KPMG LLP에 대해 법조계에서 많은 말들이 있었다. 간단히 말하자면 연방정부가 부유한 고객들을 위한 불법 세금 포탈을 조작한 혐의로 한 회계 기관을 고소한 것이다. 하지만 정작 우리의 시선을 끌었던 것은 4억5천500만 달러짜리 회사에서 탈세로 인해 25억달러를 지불해야 한다는 사실이 아니었다.
이 사건은 지금까지 전자적 형태로든, 모든 형태, 크기 및 종류를 통털어 500~600만 페이지의 검색 가능한 문서를 만들어 냈다. 즉 이것은 데이터 보유 및 데이터 검색에 대한 필요가 평소와 같은 모습으로 고정돼 있는 아카이빙 시장 아래서 왜 불꽃을 피우며 타오르고 있는지를 여실히 보여주는 일례다.
업체들은 한 때는 사치품 기술이었던 CAS(Content Addressed Storage)를 이제 검색 요청을 보다 처리하기 쉽게 만들어주는 방편으로 선전하고 있다. 간단히 말해 CAS 시스템은 물리적인 어드레스나 디렉토리가 아니라 어레이에 할당된 어드레스에 따라 데이터를 로케이팅한다. CAS 장비는 자신이 거주하는 하드웨어로부터 데이터를 완전히 추출하기 때문에 문서를 스토리지 장소에 따라서가 아니라 콘텐츠를 기반으로 찾을 수 있다.
이 시장에 가장 먼저 들어온 EMC의 센테라(Centera)는 2002년 처음 발표돼 아직도 CAS 지원 유니트쪽에서는 확실한 시장의 선두 자리를 고수하고 있다. 센테라가 이렇게 될 수 있었던 가장 큰 이유는 EMC가 힘을 가진 업체로는 이 시장에서 최초였기 때문이다.
여기서 시장이란 말은 어쩌면 부적절한 용어다. 센테라 제품에 대한(그리고 전반적으로 CAS 스토리지에 대한) IT의 첫 반응은 약간의 당혹감과 함께 냉담했기 때문이다. 오늘날의 비즈니스를 이끄는 규정 준수의 자극을 받지 않았던 당시 기업들은 자신들의 빛나는 새 스토리지 영역 네트워크를 트위킹하려 하지 않았다. EMC는 또한 얼마간의 비난도 감소해야 했는데, 당시 센테라는 시스템에 포괄적인 소프트웨어 변경을 필요로 했기 때문이다.
최근에는 카링고(Caringo), HP, 히타치, IBM, 넥산 및 썬 등 크고 작은 경쟁업체들이 CAS에 기대를 걸고 있다. 아마도 모든 주요 스토리지 업체가 ‘완전한 아카이브 관리 시스템’이라는 미명 아래 어떤 식으로든 CAS를 제공할 것으로 우리는 예상하고 있다. 어떤 업체들은 이미 제품을 내놓고 있으며, 앞으로 24개월 안에 다른 업체들도 그 뒤를 따르게 될 것이다.

작동 방식
CAS 시스템은 데이터는 물리적으로 보존이 되는 스토리지 노드와, 스토리지 노드에서의 데이터 로케이션에 대한 메타데이터와 정보가 보존되는 액세스 노드로 구성된다. 새로운 문서가 CAS 장비로 전달이 되면 이들은 해싱(hasing)된 다음, 임의의 디렉토리 테이블이 아니라 그 해시를 기반으로 저장이 된다. 그리고 데이터는 그 결과물 해시를 요청함으로써 검색된다.
CAS는 중복(duplication)을 줄일 수 있으며, 따라서 스토리지 공간에 대한 필요조건도 줄일 수 있다. 아무리 작은 변화가 생긴 문서라 하더라도 원래 카피와는 별도로 저장이 되기 때문에(새 버전은 다르게 해싱될 것이다) 디지털 핑거프린팅(digital fingerprinting)과 버전드 스토리지(versioned storage)를 제공한다. 일부 업체들은 이 기능을 이용해 주어진 데이터 세트의 한 카피만을 보관함으로써 표준 로케이션 어드레스드 스토리지(Location Addressed Storage)에서 늘상 있기 마련인 중복을 제거하고 있다.
짐작하다시피 추가적인 해시와 메타데이터 프로세싱으로 인해 CAS는 정적 문서에 가장 적합하며, 따라서 CAS의 주된 용도는 데이터 아카이빙이다. CAS가 데이터를 추적하고, 중복을 제거하며, 아카이브 관리에 대한 기반을 제공할 수 있는 능력이 지금보다 더 적절히 요구되던 때는 없었다. 회사들은 예전에 아날로그 형태로 보관되던 수천 종의 데이터를 디지털화하는 한편, 고객 통화, 보안 감시 비디오, 인보이스 등을 저장하고 있다.
CAS는 특정 날짜가 될 때까지 보관했다가 다른 스토리지 층으로 마이그레이팅을 하도록 마킹이 되기 때문에, 다양한 데이터를 계속 추적해야 하는 기업들에게 분명 리치 메타데이터와 데이터 변화 무결성 기능을 제공해 준다.
또 한가지, CAS로부터 혜택을 받을 수 있는 곳으로 회사의 이메일 저장소를 꼽을 수 있다. 중복과 소송에 민감한 데이터가 매일 매순간 이메일 시스템을 돌아다닌다. 대부분의 이메일 아카이빙 시스템에는 주요 CAS 업체 제품들과 작동하는 데 필요한 연결고리가 있다. 보다 큰 규모에서는 금융 기관과 회사에서 만든 문서를(혹은 비즈니스에 꼭 필요하다고 간주되는 어떠한 데이터든) 회계 프로그램 만큼이나 다양한 소스로부터 워드에 통합하는 것을 고려해 보라. 법정 검색 프로세스에 직면한 회사들은 CAS가 제공하는 리치 메타데이터 태그의 혜택을 볼 수 있다.

표준화 작업
모두가 그렇게 낙관적인 얘기들만 있는 것은 아니며, 많은 CAS 장비들이 심각한 단점을 안고 있다. 예를 들어 메타데이터 표준화는 존재하지 않는다. SNIA(Storage Networking Industry Association)가 서로 다른 CAS 시스템들간의 XML 기반 메타데이터 마이그레이션을 허용해 줄 표준을 만들고 있긴 하지만, 아직 완성된 작업은 없다. SNIA를 계속 지켜 보면서 업체들에게는 나중에 있을 CAS 표준을 어떻게 이행할 계획인지 물어 보라.
게다가 아키바스(Archivas) 기반의 콘텐츠 아카이브 플랫폼(Content Archive Platform)이 있는 히타치와 곧 소프트웨어를 내놓을 카링고 같은 일부 업체들은 중복 데이터의 추적 및 제거 기능을 제공하지 않는다.
폭넓은 사용에 필요한 메타데이터, 데이터 조작 및 업계 표준을 모두 제공하는 한 가지 제품은 나와 있지 않다. 하지만 개발이 신속히 진행되고 있으며, 이런 제품들의 새 버전들을 우리는 계속 주목하고 있을 것이다.

중요한 이점들
주로 기술 부문에서 발생하는 별스러운 분열 현상 가운데 하나로 볼 수 있겠지만, CAS가 제공하는 것에 대한 시장은 이 용어가 빛을 잃어가는 것 만큼 뜨겁게 달아오르고 있다. 그렇다고 실수를 해서는 안된다. CAS 배후의 기술은 시기적절한 것이며, 실제로 모든 주요 스토리지 업체에 의해 아카이벌 시스템의 기반으로서 이행되고 있다. 하지만 어떤 이들은 이 용어를 피하고 대신 CAS를 기반으로 하는 정교한 아카이벌 관리 시스템에 초점을 두고 있다. 이렇게 한다고 해서 문제는 없다.
스토리지와 아카이빙은 굳이 다른 용어로 건너가지 않더라도 이미 충분히 혼란스럽다. 이러한 용어들보다 우리가 정작 더 염려하는 것은 CAS 기술을 아카이벌 전략에 추가함으로써 발행하는 효과를 제대로 이해하고 있느냐 하는 것이다.
우선 가장 큰 이점들부터 살펴보자. 먼저 비즈니스 데이터에 생기는 변화를 추적할 수 있는 능력이 있는데, 이것은 데이터가 법정 검색용으로 변경돼지 않았음을 보장하는 입증 가능한 수단이 된다. 그리고 다양한 유형의 파일을 추적하기 위해 메타데이터를 사용할 수 있는 능력 덕분에 IT에서는 데이터를 필요에 따라 적합한 스토리지 매체로 마이그레이팅한 다음 이것을 효율적으로 검색할 수 있다. 이 외에도 중복 데이터를 제거할 수 있는 능력은 디스크 공간을 절약할 수 있게 해준다.

>> 변화 추적 : 변화 추적 기술을 이용해 회사들은 문서의 진화 과정을 볼 수가 있는데 이것은 법정 검색시에 유용하다. 변화 추적 및 콘텐츠 어드레스는 해시 루틴에서 만들어진다. 편집증적인 경찰이 해싱이 민들 수 없다고 선언했기 때문에, 거의 모든 CAS 시스템에서는 사용하고 있는 것이 구식으로 밝혀지면 새로운 해싱 알고리즘이 적용될 수 있도록 허용하고 있다.
해싱 기능은 성능 면에서는 CAS 시스템의 주된 병목 요소가 되지만, 많은 업체들이 해싱 전담용 하드웨어를 두거나, 혹은 피크 시간이 아닐 때 백그라운드 해싱을 실시하고 있다.

>> 메타데이터 : 기업에 리치 메타데이터 환경이 있을 때는 필수 데이터의 검색, 범주 분류 및 마이닝을 할 가능성이 엄청나게 많다. 로케이션 어드레서블 OS는 아카이빙에서 유용하게 쓰기 충분한 메타데이터를 저장하지 않는다. 이에 비해 CAS는 아카이빙 작동이 수행 가능한 기반으로서의 역할을 할 수 있다.
CAS는 예를 들어 미디어 랏(media rot)과 같이 장기적 아카이빙에 내재된 다른 문제들도 해결해 준다. 미디어 랏은 단순히 물리적인 스토리지 매체의 퇴화가 아니라 단명하는 기술의 속성을 나타내는 말이기도 하다. 예를 들어 많은 매체들이 이들을 읽는 데 사용되는 장비도다도 훨씬 더 오래 간다. CAS는 하나의 리포지토리에서 다른 곳(디스크, 옵티컬, 혹은 테이프 등)으로 데이터를 쉽게 옮길 수 있게 해줌으로써 대부분의 미디어 랏 문제를 제거했다.

>> 중복 제거(de-duplication) : 데이터 중복 제거(스토리지 시스템에서 주어진 파일의 카피 하나만 보관되게 하는 것)는 아직 CAS 장비에서 보편적으로 사용 가능한 기술은 아니다. 이는 중복 제거 기술의 효율적인 스토리지 이용과 비용 절감 효과가 확실하기 때문에 아쉬운 부분이다. CAS 기능성을 갖고 있는 장비를 고를 때는 중복 제거 기술에 대해 물어보기를 권한다.

CAS가 필요한 곳
이 기술이 나온 지는 몇 년이 지났지만 아직 CAS 제품들은 상대적으로 미성숙한 상태다. 스토리지 가상화에서와 마찬가지로, 실질적인 비즈니스 이점을 제공하는 것은 스토리지가 아니라 전문화된 CAS 스토리지 시스템 위에서 돌아가는 소프트웨어다. 가까운 미래에는 CAS 채택이 대기업과 정부, 의료, 보험, 금융 서비스, 비디오/오디오 제작 및 학교 등과 같은 전문 수직 조직들로 한정될 가능성이 많은데, 이것은 단지 이행 비용 때문이다. 카링고는 중소기업들도 일반 서버와 스토리지 하드웨어에서 돌아가는 자사의 새로운 카스토어 (CAStor) 소프트웨어 제품을 사용하기를 희망하면서 이러한 동향에 반발하고 나섰다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.