Tech Info - 데이터 관리

부활한 ILM, 아직 제품이 없다(?)

비즈니스 프로세스 필요조건·인프라·예산 고려해야 … 등급분류 방안이 관건

ILM(Information Lifecycle Management)이 부활하고 있으며, 많은 IT 조직들이 ILM 전략을 마련하기 위해 열심이다. 하지만 ILM 프로그램을 만들기란 쉬운 일이 아니고, 업체들의 과대 선전에도 불구하고 ILM 1.0 제품은 아직 존재하지 않는다. 현재 갖고 있는 스토리지와 데이터에서 최대한의 것을 얻을 수 있는 ILM 전략은 어떻게 세워야 하는지 알아보자.

유효 수명 동안 데이터를 인프라에서 관리하기 위한 프로세스를 뜻하는 ILM은 메인프레임에서 분산형 컴퓨팅으로의 변천이 실패로 돌아간 지 약 2년 만에 다시 조명을 받고 있다. 스토리지 비용 절감과 같이 ILM을 배치하는 데는 언제나 충분한 이유가 있지만, 다시금 부활하게 된 데는 그래함 리치 브릴리(Graham-Leech-Bliley), HIPAA 및 사베인 옥슬리(Sarbanes-Oxley)와 같은 규정 때문이다.
이런 규정들로 인해 기업에서는 일정 기간 동안의 특정 데이터를 보존하거나, 혹은 감사자를 위해 신속하게 데이터를 만들어 내야만 한다. 조직에서는 또한 데이터 보유 및 삭제에 대한 기존의 정책을 준수하고 있다는 사실을 증명할 수 있어야 한다. 프라이버시를 보호하고 고객 정보의 이식성을 보장하기 위해 이들은 선택한 데이터를 안전하고 저장할 수 있는 방법을 만들어야만 한다. 무조건 스토리지 용량을 구입하는 전통적인 방식만으로는 이 새로운 규제 환경에서 충분치가 못하기 때문이다.

속지말자, ‘과대광고’
많은 제품들이 ILM이라는 이름으로 광고되고 있다. 하지만, 270가지가 넘는 하드웨어와 소프트웨어 제품들 중 어떤 것도 진정한 ILM 솔루션이라고 불릴 수 있는 것은 없다.
제품들의 종류는 HSM(Hierarchical Storage Management) 소프트웨어, 문서 및 콘텐츠 관리 시스템, 글로벌 명칭 공간 관리 및 가시화 툴, 이메일 및 데이터베이스 아카이빙 제품, 백업/복구 소프트웨어, 엔터프라이즈 스토리지 어레이, 고용량 SATA 어레이 및 ‘까다로운’ 내용 주소화 스토리지 어레이(Content Addressable Storage Array: 장기적 보관을 위한 새로운 어플라이언스 부문) 등 다양하다.

역사가 남긴 교훈
ILM이란 용어는 스토리지텍이 만들고 IBM에서 70년대 후반에 메인프레임 기반의 SMS(Systems Managed Storage)를 통해 실현시켰다. ILM은 메인프레임 환경에서의 스토리지 자원 관리, 할당 및 활용을 최적화하기 위한 전략이며, 이 환경에서 소프트웨어 툴은 데이터와 스토리지 자원을 분류하고 특정 데이터 세트로 가는 액세스를 기록한다. 그리고 이 정보는 정책 기반의 스토리지 장비들간에 데이터를 지능적으로 마이그레이팅하기 위해 정책 기반의 데이터 무버(data mover)를 이용한다.
SMS는 ILM 전략에 있어 스토리지 관리를 향상시키고, 스토리지 효율성을 80%로 끌어올려주는 핵심이 됐다. 하지만 1980년대와 90년대에 컴퓨팅 환경이 메인프레임에서 분산형으로 바뀌면서, SMS는 더 이상 버티지를 못했다. 운영 환경이 하나의 업체에 의해 통제되는 게 아닌 분산형 환경에서는 ILM을 이행하기가 힘들었기 때문이다.
하지만 SMS 같은 솔루션이 없는 상태에서 기업들은 스토리지 공간을 할당하고 이용하는 데 어려움을 겪었다. 우리는 데이터 가치 대 스토리지 비용의 관점에서 잘못된 플랫폼에 잘못된 데이터를 저장하고 있다. 대형 IT 조직에서는 스토리지 비용을 연간 IT 하드웨어 예산의 45%에서 75%로 올리면서 데이터에 신경을 쏟고 있다. 그리고 HIS (Horison Information Strategies)의 CEO인 프레드 무어가 발표한 조사결과에 따르면 분산형 스토리지에서 용량 할당의 효율성(보유하고 있는 스토리지 공간을 얼마나 잘 이용하는가)은 25~35%밖에 되지 않는다고 한다.

데이터 관리 방안
어떤 식으로 보든간에 ILM은 DIY(Do It Yourself)라는 입장이다. ILM 기능을 구축하기 전에 먼저 자신의 비즈니스 프로세스 필요조건과 인프라, 그리고 예산을 고려해야 한다.
가장 간단한 ILM 전략은 부서별로 데이터를 컨테이너 속에 분리시키는 것으로, 여기에는 대신 단점이 있다. 예를 들어 모든 데이터가 똑같이 중요한 것은 아니다. 또한 시간이 흐르면 그 유용성이나 중요도, 혹은 재활용 빈도도 달라진다. 게다가 각 컨테이너의 내용물은 전체 데이터 성장률과 같은 속도로 늘어날 것이기 때문에, 데이터를 하나의 디렉토리나 영역(zone)으로 묶음으로써 관리해야 할 컨테이너만 더 생기게 된다.
따라서 이 전략은 장기적으로 데이터 관리의 효율성을 향상시켜주지 못한다. 백업 프로세스는 이 방안으로부터 거의 도움을 받지 못하며, 시간이 지남에 따라 백업 타깃이 늘어나면서 오히려 더 다루기 힘들어질 수 있다.
데이터를 분리하는 또 한가지 방법은 유형별로 하는 것이다. 회사에는 구조화(structured: 데이터베이스), 반구조화(semistructured: 이메일이나 그룹웨어처럼 데이터베이스 같은 구조에 파일 페이로드가 포함돼 있는 것), 워크플로우(workflow: 콘텐츠 관리 시스템에 있는 것처럼 양식이나 기타 표준화된 콘텐츠), 그리고 비구조화(unstructured: 생산 애플리케이션에 의해 만들어진 사용자 파일) 등 네 가지 유형이 있다.
데이터를 유형별로 구분하는 데는 나름의 장점이 있다. 우선 서로 다른 데이터 유형에 맞는 각자의 관리 툴을 사용할 수 있다. 예를 들어 아우터베이테크놀로지즈(OuterBay Technologies)의 애플리케이션 데이터 매니지먼트 스위트(Application Data Management Suite)나 프린스톤 소프테크(Princeton Softech)의 아카이브는 데이터베이스 콘텐츠 관리를 도울 수 있다.
이런 툴들은 데이터베이스에서 오래된 데이터를 추출해 내서 이것을 정책별로 아카이빙하거나 삭제할 수 있게 해준다. 마찬가지로 미모사시스템즈(Mimosa Systems)의 니어포인트(NearPoint)와 같은 이메일 아카이빙 제품들은 이메일 컨테이너에서 첨부파일을 분리해서 이들이 데이터 원칙을 따를 수 있게 해준다.
콘텐츠 관리나 워크플로우 프로세스에서 수집된 데이터 관리를 위한 툴들도 있다. 문서 관리 시스템 업체들은 스스로를 ECM(enterprise content-management) 사업자로 역할 개조를 하면서 워크플로우 데이터 관리를 중점으로 하는 제품을 내놓고 있다. 이런 곳들로는 EMC(최근 도큐멘텀 인수), 파일네트(FileNet) 등 15개 가량의 업체들이 있다. 대부분의 ECM 업체들은 데이터베이스, 이메일, 혹은 사용자 파일 관리쪽으로까지 이동을 시도하고 있다.
파일을 위한 어떠한 특정 관리 툴은 존재하지 않기 때문에, 이들은 할 수 있는 한 모든 도움을 필요로 한다. DMI (Data Management Institute)에서 실시한 설문조사에 따르면, 조직에서 생성되는 전체 데이터의 50~65%는 비주소화 데이터라고 한다. 그리고 ILM은 종종 이렇듯 까다로운 모든 사용자 파일들을 다루는 것으로 압축되는 경우가 많다. 사용자들은 언제나 자신들의 파일을 설명하는 제목을 제대로 붙이지 못하며, 그러한 설명 정보가 없이는 파일용의 통일성 있는 관리 전략을 만들기가 힘들다.
이러한 툴이 있다고 해도 유형별 데이터 관리는 혼합된 결과를 가져다 준다. 여러 가지의 포인트 관리 소프트웨어 툴이 필요할 것이며, 이들 각각은 고유의 정책 엔진과 정책 프로그래밍 신택스를 갖고 있으며, 아마도 자체 관리 서버와 스토리지 플랫폼을 필요로 할 것이다. 그리고 이는 곧 툴을 관리할 더 많은 사람이 필요하다는 의미가 된다.
사용자 파일의 경우 식별이 잘 되지 않거나 부적절하게 저장된 파일을 이용하려면 얼마간의 수동 개입을 계획해야 한다. 아키비오(Arkivio), 뉴뷰(NuView), PSS 시스템즈, 엑센웨어(Xenware) 등 업체들의 툴은 파일에 얼마간의 질서를 가져다 줄 수 있다는 희망을 주지만, 사용자로 하여금 다시 돈을 쓰게 만드는 것은 무엇이든 부조화스러운 결과를 가져올 것이다.

등급분류 방안
ILM의 성배는 일종의 등급분류(classification) 방안에 의한 데이터 관리다. 일단 방안이 세워지면 데이터는 자기참조(self-referencing) 비트(혹은 외부화된 디렉토리와 교차 참조되는 비트)라는 꼬리표가 붙어서 분류법에 따라 스토리지 인프라에서 마이그레이팅될 수 있게 된다.
데이터 등급과 이용량 특성을 채택하고 무엇을 언제 이동시켜야 하는지를 파악하기 위해 정책을 만들 수 있다. 예를 들어 어떤 데이터는 수년간 저가의 디스크에서 보관되다가 테이프로 옮겨지거나 삭제돼야 하는 반면, 90일이 지나면 삭제돼야 하는 것들도 있다. 메인프레임 ILM도 이런 정도로 정밀하긴 하지만 분산형 환경에서는 여기에 가까운 게 없다.
현재까지는 데이터 등급분류를 위한 어떠한 스키마도 존재하지 않는다. SNIA(Storage Networking Industry Association)는 가장 최근에 보편적인 데이터 네이밍 스키마를 시도하는 조직이지만, 아무런 수확이 없다. SNIA는 스토리지 타깃을 기반으로 데이터 등급을 분류하는 ‘바텀 업(bottom-up)’ 방안을 제안했는데, 이것은 어떤 데모 특성을 지닌 어떤 운전자를 BMW 대 크라이슬러 경주에 참가시켜야 하는지를 결정하는 자동차 제조업체와 유사하다. SNIA의 노력은 계속 진행 중이다.
데이터 매니지먼트 인스티튜트(Data Management Institute)에서 컴플라이언스, 거버넌스 및 오버사이트 카운실(Compliance/Governance/Oversight Council) 등 조직들이 발전시키고 있는 탑 다운(top-down) 전략은 보다 효과적이다. 기업에서는 자신들의 비즈니스 프로세스와 우선순위를 고려하여 데이터 네이밍 방안을 개발하고 있다.
이러한 프로세스는 데이터에게 규정상의 특성(중요성, 유효 수명, 위험성 및 액세스 필요조건 등)을 부여하며, 이는 DNS가 부모에게서 자식에게 대물림 되는 것과 상당히 유사하다. 데이터는 비즈니스 프로세스의 DNA를 파악하지 못한다면 차별화되지 않은 비트 덩어리로 남아 있을 것이다.
따라서 데이터 객체와 등급분류 범주를 식별, 목록화 및 정의한 다음, 이들의 유사성을 비교해야 한다. 유사 그룹이 생기면 데이터 클래스를 만들 수가 있다. 그리고 그런 다음에는 사용자를 포함시키거나, 아직 개발되지 않은 기술을 이용해 데이터 무버가 데이터를 선택해 이것을 클래스 정책에 따라 이동시키도록 함으로써 일관성 있게 클래스를 적용시킬 수 있는 방안을 찾아야 한다.
원래 부서와 스토리지 저장소든, 데이터 유형이든, 클래스든 어떤 방법으로든 데이터를 관리한다는 것은 쉬운 일이 아니다. 데이터 관리는 IT의 필수 임무임에도 불구하고, 기업들이 애플리케이션을 메인프레임에서 분산형 시스템으로 옮겨감에 따라 제대로 다뤄지지 못했던 것이 사실이다.
스토리지 용량에서의 어떠한 비효율성이든 치료를 하고, 규정 준수를 보장하기 위해서는 바로 지금부터 ILM 이니시어티브를 시작해야만 한다.

Ste by Step

ILM 계획 및 구축 방법

1. 업체들의 과대선전은 무시하라. ILM은 제품이 아니다. 어떠한 마법 총알도 없으며 ILM 1.0 제품은 아직 나오지도 않았기 때문에 제품을 사려고 돌아다니는 일은 할 필요가 없다.

2. 회사에게 어떤 ILM이 좋을지 결정하라. 매니지드 데이터 환경의 비전을 만들고 이것이 준수해야 할 규정뿐만 아니라 다른 스토리지 관리 목표에 어떤 의미가 있는지를 생각하라. 조직의 비즈니스 프로세스 소유자 및 비즈니스 연속성 기획자, 기록 매니저, 법률부서 등의 조언을 구하라.

3. 데이터 플로우를 면밀히 분석하라. 비즈니스 프로세스가 의존하고 있는 애플리케이션을 파악하라. 이런 워크플로우를 분석해서 이들이 생산하고 사용하는 데이터를 가려내라. 이로써 데이터 자산 관리를 수월하게 할 수 있다(점검이나 감사를 덧붙이면 스토리지 인프라에서의 현재 데이터 레이아웃을 확인할 수 있다).

4. 발견한 결과물을 자산 관리 시스템과 비교하라(혹은 회사의 재정 및 IT 관리 전문가들과 의논하라). 이 단계는 옵션이긴 하지만 자신의 스토리지가 실제로 얼마나 비효율적이고 비싸게 돌아가고 있는지를 발견하게 된다.

5. 데이터 관리를 얼마나 정밀하게 할 것인지를 결정하라. 가장 간단한 ILM 방안은 중요한 데이터를 컨테이너(폴더, 디렉토리, 영역, 혹은 스토리지 인프라내의 볼륨)에 분리해서 저장하는 것이다. 글로벌 명칭공간 제어나 패브릭 조닝(fabric-zoning) 제어를 이용할 수 이으며, 혹은 사업부문이나 부서의 아웃풋을 위해 특정 볼륨 타깃을 지정할 수 있다.

6. 데이터 관리 정책을 설정하라. 법률과 규정에 따라 일정 기간 동안 데이터를 보관하고 정책에 따라 삭제를 결정해야 한다. 정책별로 보호 방안과 적절한 액세스 제어를 적용시켜라.