“더 오래 보관하라”… 법률·규정 장벽 높아져
상태바
“더 오래 보관하라”… 법률·규정 장벽 높아져
  • 데이터넷
  • 승인 2008.07.10 00:00
  • 댓글 0
이 기사를 공유합니다

데이터 보유 솔루션
IT에게 장기적으로 데이터를 보관하도록 요구하는 법률과 규정의 장벽이 갈수록 높아지고 있다. 이에 대한 대처법으로 최근 급부상하고 있는 ‘CAS(Content Addressable Storage)’와 ‘잠금 NAS(Locked Network Attached Storage)’를 비교 분석해 보고, 회사의 아카이브를 직접 관리하고 싶어하지 않는 사람들을 위한 서비스에 대해서도 조사했다. 탐색 요청에 응답해 당신의 팀에서 검색한 전자 데이터가 완벽하고 변질되지 않은 것이라고 어떻게 확신할 수 있는가?



최근 재판 규정에서는 신뢰성 측면에서 전자 기록을 오디오 기록과 디지털 사진과 같은 수준으로 취급하고 있다. 이는 똑똑한 사기꾼이라면 증거로 제출하기 이전에 불리한 증거를 위조하는 등 이메일을 수정할 수 있다는 사실을 재판관이 알게 됐기 때문이다. 아직 변경 불가능한 형태로 데이터를 저장하는 시스템을 이행하지 않는 IT 조직은 시대의 흐름을 따라가지 못하고 있는 곳이다.



의료기관, 20년 이상 기록 보관 요구

장기 데이터 보유에 대한 명령도 또한 가시밭길로 가는 지름길이다. OSHA 규정이 적용되는 조직에서는 예를 들어 직원의 고용 기간이 종료된 후 30년 동안 고용 전의 물리적 시험 결과를 보관해야 하며, HIPAA에서는 의료 기관들에게 20년 이상 기록을 보관하도록 요구하고 있다. 단순히 월말, 혹은 연발 백업 테이프 카피를 보관하는 정도로는 장기 데이터 보유 명령을 지킬 수가 없다.



테이프가 물리적으로 손상이 되지 않았다 하더라도 이것을 읽을 수 있는 드라이브를 갖고 있기가 힘들기 때문이다. 가장 엄격한 규정이 적용되는 조직은 예산도 두둑했기 때문에(최소한 서브프라임 모기지가 붕괴되기 전까지는) 카링고(Caringo), EMC, HDS(Hitachi Data Systems), 퍼머비트테크놀로지(Permabit Technology), 넥산테크놀로지스(Nexan Technologies) 등의 스토리지 업체들은 고정 콘텐츠 데이터를 저장할 수 있는 다양한 기술을 제공하고 있다. 이런 시스템은 저렴하진 않지만 소송 비용 또한 만만히 볼 게 아니다.



그리고 공간이 확장되면서(가트너는 이메일 아카이빙 시장이 2007년 신규 라이선스 판매 3억1천500만달러에서 2011년에는 10억달러로 성장할 것으로 예상하고 있다) IT에게는 선택의 폭이 보다 넓어질 것 같다. 우리는 부정 조작이 불가능한 CAS(Content Addres sable Storage)와 잠금 NAS 장비의 최신 동향뿐만 아니라, 자신들의 아카이브를 관리하고 싶어하지 않는 사람들을 위한 서비스에 대해서도 조사해 봤다.



비즈니스 동력으로 말하자면 당신의 변호사로 하여금 “사용자가 우리 이메일 아카이빙 시스템을 이용해 접근하기 이전에 이 메시지는 감염이 된 상태였으며, 아카이빙 시스템에는 13일의 금요일 4:02:03에 변경 불가능한 아카이브로 저장이 됐다”고 말하게 할 수 있다면 당신은 록스타 대접을 받을 것이다. 이에 반해 “이 이메일은 사용자 메일박스에 9개월 동안 있었으며, 그는 이것을 언제든 바꿀 수가 있었다”는 대답은 법정에서 불리하다.

 

WORM 디스크

증권 중개업이나 제약업과 같이 규제가 엄격한 산업에서는 수정이나 삭제가 불가능한 포맷으로 기록을 장기 보관하는데, 이러한 포맷을 WORM(write once, read many)이라고 한다. 우리는 대부분의 조직이 고정 콘텐츠 아카이브용으로 이 경로를 따르도록 제대로 조언을 받고 있다고 믿고 있다. 사실 EMC가 2002년 센테라 시스템을 발표했을 때까지 광자기 WORM 디스크는 단지 신뢰할 수 있고 변경 불가능한 스토리지 매체에 불과했다. 이 디스크는 30년 가량의 신뢰할 수 있는 데이터 스토리지를 제공하게 돼 있었다. 일부 주크박스에서 로보틱스가 갑자기 말을 듣지 않는 데 대해 가끔씩 있는 불만을 제외하고는 실세계 사용자가 10년, 심지어 15년 전에 기록된 데이터를 읽는 데 아무런 문제가 없는 것으로 보고됐다.



WORM 스토리지 에 어떤 데이터가 저장돼야 하는지를 식별해 주는 이메일 및 파일 아카이빙 애플리케이션도 또한 필요하다. EMC나 시만텍, 잔타즈(Zantaz) 같은 업체들이 스팸과 햄을 구분할 수 있게 도와주겠지만, 이들은 얼마간의 식품 목록을 저장하게 될 것이다. 의료 및 전자결제 시스템 같이 데이터를 고정 콘텐츠 저장소로 직접 기록하는 애플리케이션들도 있다. 플라즈몬(Plasmon) 초고밀도 광 WORM 디스크는 각기 최고 60GB 용량을 갖고 있으며, 장기적인 수명의 매체를 원하는 조직을 위한 첨단 기술이다.



모든 WORM 디스크와 마찬가지로 이들에게는 여기에 기록을 하기 위한 WORM 인지 아카이빙 소프트웨어가 필요하다. 플라즈몬, 기존의 아카이빙 시스템인 엔터프라이즈 액티브 아카이브(Enterprise Active Archive)는 넥산의 어슈어리온(Assureon) NAS 시스템을 프론트엔드로 사용하고 있다. 데이터는 보통 처음 저장이 될 때 RAID 어레이로 기록된 다음 액세스 비율이 줄어들고 장기적 스토리지가 액세스 시간보다 중요해지면서 60~90일 후 마이그레이팅된다. 중간급의 LTO에서부터 하이엔드의 썬 T1000에 이르기까지 인기있는 모든 테이프 포맷에는 특수한 WROM 카트리지를 식별하고, 일단 데이터가 여기에 기록이 되면 겹쳐쓰기나 삭제를 막아 주는 펌웨어가 드라이브에 들어 있다.



카트리지당 800GB의 용량이 있는 WROM 테이프는 특히 RAID 캐시 뒤에서 사용될 경우, IT가 파일 액세스 시간을 몇 분만에 처리할 수 있는 초대형 아카이브용으로 가장 저렴하고 신선한 솔루션이다. RAID나 심지어 MAID는 액세스되고 있지 않을 때도 전력을 사용하며, 광 디스크는 공간을 많이 차지한다. 높은 밀도와 액세스 되고 있지 않을 때 전력을 필요로 하지 않는다는 점이야말로 바로 이 테이프를 매력적인 새로운 대안으로 만드는 요인들이다.

GUID 기반

CAS 시스템은 전통적인 파일 시스템에서처럼 주 식별자로서 디렉토리 계층에 있는 파일의 이름과 위치를 사용하는 게 아니라, 파일이 MD-5나 SHA-1과 같은 해시(hash) 기능을 이용해 저장이 될 때 각 파일용의 GUID(Globally Unique IDentifier)를 만들며, 파일은 GUID를 기반으로 저장된다. CAS 장비가 CIFS나 NFS 인터페이스를 제공할 경우(대부분이 그렇게 하지만) 이것은 데이터베이스 룩업(lookup)을 해서 전체 파일 경로용의 GUID를 찾은 다음 GUID를 이용해 파일을 검색한다.



여기서 한 가지 이점은 CAS 시스템이 단일 인스턴스 스토리지(Single Instance Storage)를 자동으로 제공한다는 것이다. 누군가, 혹은 어떤 프로세스가 이미 시스템에 있는 파일과 정확히 같은 콘텐츠가 있는 파일을 저장할 경우 새 파일은 같은 해시 값을 만들게 된다. 해시 값 GUID는 스토리지용의 기본 키(primary key)이기 때문에 시스템은 같은 GUID로 두 개의 파일을 저장하지 못한다. 그보다 이것은 하나의 파일이 시스템에서 참조가 됐음을 알아차린다.



한 문서의 다중 카피를 보관하는 데이터 저장소의 경우, 단일 인스턴스 스토리지로 공간 필요조건을 대폭 줄일 수 있다. 해시 기반의 데이터 중복제거(de-duplication)와 마찬가지로, 일부 CIO들은 해시 충돌로 인해 두 가지 서로 다른 파일이 자신들의 CAS 시스템으로 전송되고 있음에도 불구하고 하나만 저장되는 상황을 우려하고 있다. 이렇게 될 확률은 매우 높지만 업체들은 우리 마음을 편하게 해주기 위해 SHA-512 같이 충돌에 훨씬 내구성이 강한 해시 기능을 사용하는 것에서부터, 이들이 동일하다고 선포하기 이전에 같은 해시 값을 만들어내는 파일의 바이트 비교법을 사용하는 것에 이르기까지 다양한 조치를 취하고 있다.



실세계 CAS 이행에서는 각각의 객체와 함께 사용자 메타데이터를 저장하고, 데이터 보유를 시행하기 위한 메커니즘을 제공할 수 있는 기능을 추가함으로써 시스템 관리자를 포함한 어떤 사람이든 파일의 보유 기간이 끝나기 전까지는 파일을 삭제하지 못하도록 한다. EMC의 센테라는 상용으로 나온 최초의 CAS 시스템이며 지금까지도 시장 점유율에서 선두를 유지하고 있다. 센테라 RAIN(Redundant Array of Independent Nodes) 아키텍처에서는 애플리케이션이 파일을 저장하고 검색하는 통로로서 액세스 노드를, 그리고 디스크과 추가 프로세싱 파워를 포함하고 있는 스토리지 노드를 사용한다.



센테라는 전통적인 RAID 컨트롤러에 의존하기보다 두 개의 스토리지 노드에 각각의 객체 카피를 저장하거나, 혹은 객체 기반의 패리티 방안으로 데이터를 보호한다. 센테라 클러스터는 또한 로컬이나 원격으로 IP 네트워크를 통해 데이터를 복제할 수 있다.



CAS 참여 업체 속속 증가

최근에 이르기까지, 애플리케이션들이 센테라의 데이터를 저장하고 검색하려면 EMC 전용의 API를 사용해야 했다. 이것은 대부분의 아카이빙 및 문석 관리 애플리케이션에서는 문제가 아니지만 센테라에서 맞춤 애플리케이션을 만들기는 NAS나 다른 표준 인터페이스를 사용하는 시스템에서보다 더 힘들다. 고객의 요구에 대한 응답으로 EMC는 윈도우나 솔라리스 서버에서 돌아가고, 테이프 백업 및 센테라 유니버설 액세스용으로 센테라에 표준 인터페이스를 제공하는 백업 및 복구 모듈을 발표했는데, 이것은 또한 게이트웨이 서버에서도 돌아가며 CIFS, NFS 및 HTTP 액세스를 제공한다.



하지만 센테라의 암호화 능력은 일부 경쟁업체들 만큼 강력하지 못한 것으로 지적되고 있다. HDS의 CAP(Content Archive Platform)은 히타치가 지난 해 아키바스(Archivas) 인수를 통해 얻은 제품으로 파일 위치를 주 식별자로 사용하며, CAS와 달리 데이터가 저장된 후 배경 프로세스로써 해시 토큰을 만들어내는 방식으로 작동한다. CAP는 세 개 이상의 디스크리스(diskless) 프론트엔드 노드를 이용해 파이버 채널 어레이에 파일을 저장하는데, 이것은 또한 다른 데이터용으로도 사용될 수 있다. 조직에서는 용량을 늘리고 인덱싱이나 데이터 등록(ingestion) 속도를 높이기 위해 백엔드 스토리지나 프론트엔드 컴퓨팅 노드를 추가할 것이다.



데이터는 맞춤 API에 의존하기보다 HTTP, NFS, CIS 및 웹데브(WebDav)를 이용해 CAP에 기록되거나 검색된다. 아카이브 애플리케이션은 각 폴더용으로 간단한 텍스트나 XML 파일을 만듦으로써 보유 기간, 저장할 데이터 카피 수, 그리고 기타 메타데이터를 지정할 수 있다.



히타치는 단일 인스턴스 스토리지, 인덱싱 및 데이터 무결성 점검을 배경 작업으로 수행하며, 데이터 등록 속도는 시스템이 해싱과 인덱싱을 얼마나 빨리 할 수 있느냐에 따라 좌우되지 않는다. 데이터는 아카이브 디스크에서 쉬고 있을 때와 SAN을 가로질러 갈 때, 그리고 원격 사이트에 있는 다른 CAP 클러스터로 복제되고 있을 때 암호화된다. CAP는 다중 복제물을 갖기 위해서뿐만 아니라 아카이브를 테이프로 백업하기 위해 NDMP(Network Data Management Protocol)를 직접적으로 지원한다. 액세스 노드와 스토리지 노드 구성으로 1U 서버의 RAIN에서 구축된 퍼머비트(Permabit)의 CAS 시스템은 데이터 중복제거, 전용 노드에서 패스트 써치 앤 트랜스퍼(Fast Search & Transfer)의 풀 텍스트 인덱싱, 그리고 파일이 저장될 때 이들의 다중 버전을 자동으로 보유 및 추적할 수 있는 유연한 NAS 인터페이스 등을 추가시켰다.



문제는 각 노드에서 사용할 수 있는 스토리지가 1TB에 불과하기 때문에 큰 아카이브에는 랙 공간이나 전력이 많이 필요하게 될 수 있다는 점이다. 넥산의 어슈어리온 라인은 조직에서 언제든 컴퓨팅과 스토리지 기능이 있는 간단한 스토리지나 노드에 RAID 어레이를 추가할 수 있게 해준다. 어슈어리온은 또한 필요한 스토리지와 전력 소모량을 줄여주는 데이터 중복제거와 MAID 기술을 포함시켰다. 어슈어리온은 광 디스크나 WORM 테이프 라이브러리 앞에서 RAID 캐시로 작동할 수 있으며, 어떠한 윈도우 파일 저장소든 이들이 폐쇄되거나 수명이 다 됐을 때 여기서 자동으로 파일을 복사해 줄 윈도 파일 시스템 와처를 포함하고 있다.



시스템이 잘못 추측을 할 경우에는 몇 가지 드래프트를 아카이빙하게 될 것이다. 마지막으로 카링고는 두 개의 표준 인텔 기반 PC 서버를 하나의 CAS 클러스터로 바꿔 주는 USB 썸 드라이브에 분산된 소프트웨어로 카스토어(CAStor)를 판매하고 있다. EMC 센테라와 달리 카스토어는 주 인터페이스로 전용 API가 아니라 HTTP를 사용하며, 애드온으로 CIFS/NFS 액세스를 사용할 수 있다. 카스토어에는 로컬 및 광역 복제, 데이터 보유, 그리고 객체 레벨에서 정의 가능한 복제 깊이 등과 같이 대부분의 조직들이 바라는 기본적인 CAS 기능들이 포함돼 있다. 하지만 표준 서버와 디스크로부터 대형 CAS 클러스터를 구축한다는 생각은 분명 매력적이지만 대부분의 기업이 편안하게 자체적인 CAS 시스템을 배치할 수 있으리라고는 생각되지 않는다.





가능한 단순하게

원래부터 타고난 그 모든 매력들에도 불구하고 CAS는 사용자와 관리자가 파일을 삭제하거나 변경하지 못하게 막는 문제에 대해 꽤나 복잡한 솔루션이다. 넷앱은 온탭(OnTap) 운용 파일러용 옵션인 스냅록(Snaplock)을 통해, 썬의 스토리지텍 부문에서는 스토어에지 컴플라이언스 아카이빙(StorEdge Compliance Archiving) 소프트웨어를 통해 자신들의 NAS 어플라이언스에 소프트트웨어 관리 WORM을 추가했다. 조직에서는 주 파일 저장소로서 같은 NAS 아키텍처, 심지어 같은 어플라이언스를 사용하면서 하나의 WORM 아카이브를 가질 수 있다. 백업, 복제 및 관리용으로 하나의 시스템을 두게 되면 비용과 복잡성이 줄게 된다.



잠금 NAS는 또한 애플리케이션 개발자에게 편리하다. 이미지나 다른 파일을 저장 및 검색하는 데 새로운 XML 기반의 API를 통합시킬 필요없이 CIFS나 NFS를 통해 잠금 NAS에 간단히 기록할 수 있기 때문이다. 데이터 보유 기간은 ‘최종 액세스되는 파일’의 시간 속성을 보유 기간의 끝으로 설정한 다음 이 파일을 읽기 전용으로 플래깅하는 방식으로 폴더별로, 혹은 심지어 파일별로 지정할 수 있다.



현재 넷앱에서는 전용 A-SIS(Advanced Single Instance Storage) 서브파일 데이터 중복제거 기술을 배포하고 있기 때문에 스냅록을 돌리는 넷앱 파일러는 CAS 업체의 단일 인스턴스 스토리지보다 한 수 위가 될 수 있다. 즉 이것은 단순한 중복 파일뿐만 아니라 파일 안에 있는 중복 데이터도 제거할 수 있으며, 거의 모든 파워포인트 프리젠테이션에서 등장하는 그 다섯 개의 회사 포지셔닝 슬라이드를 한 번만 저장되게 해준다.



CAS 시스템과 비교할 때 잠금 NAS에는 객체에 대한 메타데이터를 저장할 수 있는 메커니즘이 없다. 이것이 얼마나 심각한 문제이냐는 얼마나 좋은 아카이빙 소프트웨어를 보유하고 있느냐에 따라 달라진다. CAS 시스템은 파일 메타데이터 저장용으로 XML 인터페이스를 제공하지만, 컴플라이언스 저장소로 잠금 NAS를 선택한 조직에서는 아키이빙 소프트웨어나 엔터프라이즈 콘텐츠 관리 시스템을 메타데이터 저장소로 생각해 봐야 할 것이다.

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.