“강력한 자동 계층화로 기존 솔루션 단점 해결”

파일 스토리지 가상화

“강력한 자동 계층화로 기존 솔루션 단점 해결”
간단한 파일 분류 방식 제공 … S/W·전용 파일 시스템 도입 불필요

오늘날의 기업들은 급증하는 데이터를 체계적으로 관리하고 저장해야 하는 숙제를 안고 있는 동시에 각종 규제와 비즈니스 요구에 대응하기 위해 상당한 양의 데이터를 장기간 보관해야 한다. 인텔리전트 파일 가상화를 활용하면 이러한 문제를 간단하고 효율적으로 해결할 수 있다. 지난 호 파일 데이터 급증 해결책으로써의 인텔리전트 파일 스토리지 가상화에 이어 스토리지 계층화를 위한 인텔리전트 파일 스토리지 가상화에 대해 살펴본다. <편집자>

연재순서
1회 : 파일 데이터 급증 해결책은 인텔리전트 파일 스토리지 가상화
2회 : 스토리지 계층화 위한 인텔리전트 파일 스토리지 가상화(이번호)

ECM 분야 블루오션 ‘SAP 아카이빙’
박경순 // F5코리아 부장
k.park@f5.com

지난 호에서는 기업들이 직면하고 있는 데이터 급증과 같은 문제를 해결하는 동시에 컴플라이언스나 비즈니스 요구에 맞게 많은 양의 데이터를 장기간 보관해야 하는 문제를 해결해 줄 수 있는 인텔리전트 파일 가상화 기술에 대해 살펴봤다. 인텔리전트 파일 가상화는 파일 시스템, 플랫폼, 업체나 프로토콜 등에 관계없이 이기종 파일 인프라 환경을 통합해 효율적인 인프라 관리를 가능하게 하는 등 다양한 혜택을 제공한다.
이번 호에서는 기존 시스템과 달리 구체적으로 인텔리전트 파일 가상화가 구현하는 기술과 혜택에 대해 살펴보고 그 중에서도 특히 자동 스토리지 계층화에 대해 집중 조명해 보도록 하겠다.

파일 가상화로 자동 스토리지 계층화
인텔리전트 파일 가상화 장치는 스토리지 용량과 함께 비즈니스와 애플리케이션의 요구를 다이내믹하게 만족시킬 수 있다. IT 관리자들은 파일 가상화 장치로 스토리지 시스템을 공통의 유저가 정한 속성을 특정 스토리지 계층으로 통합할 수 있다. 그리고 나서 관리자가 정한 정책에 따라 데이터를 모든 유저와 애플리케이션에 명확하게 적당한 스토리지 계층에 배치하고 이 스토리지 계층 사이에서 이동할 수 있도록 한다.

<그림 1>은 세 계층의 스토리지를 관리하는 이러한 파일 가상화 장치의 개념을 보여준다. 이 그림의 예에서 첫 번째 계층은 디폴트 스토리지 계층으로 FC 디스크 기반의 NAS다. 두 번째 계층은 저렴한 비용에 초점을 둔 NAS 계층으로 SATA 기술을 사용했다. 세 번째 계층은 용량 최적화 스토리지 계층으로 압축 SATA를 기반으로 한다.
예를 들어 한 달 이내의 가장 자주 사용되는 데이터는 첫 번째 계층에 저장되고 한 달은 넘었지만 6개월 이하의 최근 파일은 두 번째 계층에 그리고 6개월 이상된 오래된 파일들은 세 번째 계층에 저장되는 식이다. 낮은 계층의 스토리지로 이동된 파일들은 수정될 경우, 자동으로 첫 번째 계층의 가장 중요한 스토리지로 돌아가게 된다.
인텔리전트 파일 가상화 장치는 ① 이동되는 데이터 지정, ② 이동되는 장소 지정, ③ 이동되는 시점 지정 등과 같이 세 가지 간단한 단계를 통해 자동 스토리지 계층화를 구현한다. 이 단계들을 자세히 살펴보자.

1) 데이터 분류
자동 스토리지 계층화나 ILM(Information Lifecycle Ma nagement)을 위한 첫 번째 단계는 어떤 데이터를 어느 스토리지 계층에 옮겨야 하는지 확실히 정하는 것이다. 이 단계를 데이터 분류 단계라고 한다. 인텔리전트 파일 가상화 장치는 데이터 분류 시 큰 유연성을 보장하는 간단하고 구축이 쉬운 다양한 분류 툴을 보유하고 있다.
많은 분류 툴들이 대게 파일과 애플리케이션 사이의 자세한 관계 분석에 있어 많은 비즈니스 유닛을 포함하는 반면 인텔리전트 파일 가상화는 분류 프로세스에 있어 단순한 파일 메타데이터를 사용한다. 여기에서 애플리케이션을 위한 주장치가 영향을 받지 않고, 밑에서 이뤄지고 있는 계층화를 알아채지 않도록 해야 하는 것이 중요하다. 가장 기본적인 파일 분류는 데이터의 수명을 기반으로 한다.

- 데이터 수명 기반 분류
인텔리전트 파일 가상화의 수명 기반의 정책으로 IT 관리자들은 ‘가장 최근에 수정된’ 또는 ‘가장 마지막에 접근된’ 속성을 기반으로 파일을 분류할 수 있다. 이것은 아직 접근되거나 수정되지 않은 파일을 다른 계층의 스토리지로 얼마간 자동으로 마이그레이션 할 때 매우 유용하다. 정책들은 파일이 접근되거나 수정된 경우 자동으로 첫 번째 계층의 스토리지로 이동시키기 위해 설정될 수 있다.
이것이 유용한 이유를 설명하기 위해 분석 보고서와 같은 상장 기업들에 대한 정보를 보유하고 있는 금융권의 예를 들어보겠다. 금융권에서 많은 보고서들은 30~60일 정도 유용하고 시간이 흐를수록 덜 중요해진다. 파일 가상화 장치는 이렇게 덜 중요해진 파일들을 비용이 낮은 스토리지로 옮길 수 있게 한다. 낮은 계층의 스토리지로 이동된 특정 보고서가 다시 필요하게 되면, 파일 가상화 장치는 이를 자동으로 첫 번째 계층의 스토리지로 불러온다. 이러한 자동 파일 이동은 접근이나 수정 시간을 기반으로 한다.
파일 가상화 장치로 수명 기반의 정책은 모든 데이터에 적용될 수 있으며, 이로써 IT 관리자들은 데이터를 어느 스토리지 계층에 위치시킬지 정하는데 있어 상당한 유연성을 가지게 된다.

- 이름 기반 분류
파일을 분류하는 또 다른 방식으로 이름, 형태 또는 위치에 따른 방식이 있다. 파일 가상화는 이름 기반의 정책을 IT 관리자들이 다음의 기준을 기반으로 한 파일셋(Filesets)이라고 불리는 그룹으로 분류할 수 있도록 해준다.

- 파일 이름 : 파일 이름이 정확한 매치, 예상치 않은 형태의 매치 또는 더 복잡한 정규식 표현 매치로 명시될 수 있는 파일셋 생성(예 : myfile.txt, *.txt, .txt$)

- 경로 : 특정한 디렉토리 경로가 지정될 수 있도록 해주고, 여기에서 이 디렉토리로부터의 매칭 파일만 파일셋에 포함될 수 있도록 한다.

IT 관리자들은 더 상세한 분류를 위해 이러한 파일셋들을 교차 또는 연합으로서 결합할 수 있다. 예를 들어, 파일 이름 파일셋은 경로 path homeuser2 안에서 매칭 파일을 .txt and .pdf 파일로 제한하기 위해 경로 선택권과 결합될 수 있다. 또 이름 기반의 분류는 앞서 언급한 수명 기반의 분류와 결합해 파일 분류에 있어 더 큰 유연성을 달성할 수 있다.

- 다른 분류 방식들
파일 가상화 장치는 파일 사이즈(파일 사이즈 기반으로 파일셋이 생성될 수 있도록 함), 제외(파일셋은 특정 기준을 가진 파일들을 제외할 수 있도록 설정될 수 있음) 등과 같은 기준에 의해서도 파일을 분류한다. IT 관리자들은 파일 데이터들을 더욱 자세히 분류하기 위해 데이터 수명, 이름, 사이즈와 같은 모든 분류 기준들을 결합시킬 수 있다.

2) 적당한 스토리지 계층에 데이터 배치
일단 데이터가 파일셋 정의에 맞게 매칭 기준에 따라 분류되면 다음 단계는 파일 가상화 시스템이 특정 기준에 맞게 파일들을 배치하는 것이다. 즉 IT 관리자들은 어디에 매칭 파일을 배치할 지 목표 위치를 지정해야 한다. 이 타깃 지점은 파일 서버 상의 특정 공유 혹은 공유 팜(Share Farm)이 될 수 있다.

- 공유 팜
공유 팜이란 공유 또는 익스포트를 단일의 스토리지 풀로 함께 분류한 그룹이다. 파일 가상화 장치는 공유 팜에서 데이터를 자동으로 배포해 외부에서는 이것이 단일의 공유인 것처럼 보인다. 계층화나 ILM의 측면에서 IT 관리자들은 비용, 신뢰성, 속도나 다른 유저가 정의한 기준에 기반해 스토리지 계층으로 비슷한 타깃들을 분류하길 원한다. 이러한 공유 팜은 계층화 정책을 위한 타깃으로 사용될 수 있다.

공유 팜의 예는 <그림 2>와 같다. 여기에서 NAS-1은 첫 번째 계층이다. 파일 서버 FS-1, FS-2와 FS-3은 공유 팜으로 풀링돼 두 번째 계층으로 여겨진다. IT 관리자들은 위에서 살펴 본 분류 방식으로 6개월 내에 수정되지 않은 모든 파일들을 첫 번째 계층(NAS-1)에서 두 번째 계층(FS-1, FS-2, FS-3으로 이뤄진 공유 팜)으로 이동하는데 간단한 수명 기반의 분류 정책을 지정할 수 있다. 관리자들은 또 어떤 데이터를 선택적인 파일 셋을 사용해 이동시킬 지에 대해, 예를 들어 6개월 내에 수정되지 않은 .txt, .pdf, .doc 파일을 첫 번째 계층에서 두 번째 계층으로 옮긴다든지 하는 식으로 선택할 수 있다.
· 파일 배치
IT 관리자들이 일단 데이터를 분류하는 정책을 세우고, 어느 위치에 배치할 지를 정하면 파일 가상화 장치는 다음의 두 가지 기능을 하게 된다.

① 파일 가상화 장치는 최초의 정책이 시행되면 기존의 파일들이 분류 기준을 만족시킬 수 있도록 관련 파일 시스템을 스캐닝
② 정책이 파일 가상화 장치에 예시되면 정책 엔진은 자동으로 파일이 옮겨져야 할 시간과 새로운 파일이 배치될 장소를 통보 받음

이 개념을 더욱 이해하기 쉽도록 예를 들면 IT 관리자가 모든 mp3 파일들을 특정 파일 서버인 FS-1에 배치하는 정책을 정의했다고 생각해보자. 이 법칙이 최초로 실행되면 파일 가상화 장치는 우선 모든 mp3 파일을 찾기 위해 스캐닝하고 기존의 파일들을 FS-1 서버로 옮긴다. 그리고 나서 그 정책이 예시되면 새로운 mp3 파일들은 자동으로 FS-1 서버에 생성된다.
파일 가상화 장치의 정책이 파일을 타깃으로 옮기면 그것은 자동으로 적당한 컨테이너 파일 목록을 타깃에 생성한다. 또 타깃 서버에 파일 배치 시 스텁(stub) 파일은 사용되지 않으며 이동된 파일들은 전용 파일 목록 구성으로 들어가지 않는다.

- 스케줄 셋팅
IT 관리자들이 어떤 파일을 어디로 옮길지 정하면 이제는 이동 시점을 정해야 한다. 스케줄 셋팅을 통해 관리자들이 파일 가상화 장치가 정책 기준을 만족시킬 수 있도록 정확히 언제 어떤 파일을 이동할지 정할 수 있도록 해준다. 예를 들어 관리자가 이 정책이 매주 일요일 오전 4시에 실행되기를 원한다고 가정해보자. 정책 실행 기간에 파일 가상화 장치는 적당한 파일 시스템을 스캔해 정확한 스토리지 계층에 배치돼 있지 않은 어떤 파일이든 이동할 수 있도록 해준다.
파일 수명 정책은 스케줄을 기반으로 파일들을 낮은 스토리지 계층으로 이동시킬 수 있도록 한다. 기본적으로는 파일이 수정되거나 접근될 경우 위에서 설명한 인라인 정책 알림 기능을 기반으로 파일들을 첫 번째 계층으로 자동 마이그레이션 할 수 있도록 해준다. 관리자들이 파일 마이그레이션에 있어 더 엄격히 제어하기를 원할 경우, 인라인 알림 정책이 작동하지 않고 수정되거나 접근된 파일들은 스케줄된 기간 내에 상위 계층으로 옮겨지게 된다. 모든 파일 이동은 애플리케이션이나 유저에 영향을 미치지 않으면서 이뤄진다.

- 리포팅
파일 가상화 장치는 또 다양한 리포팅 기능으로 관리자들로 하여금 어떤 파일이 분류 기준에 맞는지 또 정확히 어떤 파일을 옮겨야 하는지에 대해 볼 수 있도록 해준다. 이 리포트는 또 임시 모드에서 구동돼 실제로 데이터를 옮기기 전에 계층 간 이동될 데이터에 대한 자세한 리포트를 제공하고 ROI 분석과 다른 발생 가능한 시나리오 계획에 사용된다.

3) 인텔리전트 파일 가상화 혜택
인텔리전트 파일 가상화 솔루션은 ILM과 계층화 접근을 위한 다양한 혜택을 제공한다. 인텔리전트 파일 가상화 기술 대신 자동 스토리지 계층화를 위한 기존 기술로는 스텁 기반의 솔루션이 있는데 인텔리전트 파일 가상화 기술의 혜택을 이해하기 위해서는 이 스텁 기반 기술에 대한 약간의 이해가 필요하다.

- 스텁 기반 접근
스텁 기반의 솔루션은 파일을 원래 파일의 새로운 위치 정보를 담고 있는 빈 파일(스텁 파일)로 대체한다. 이 위치정보는 파일과 관련된 데이터 대체 데이터 스트림에 저장돼 특정 스텁 기반의 계층화 애플리케이션에서만 읽을 수 있다. 그 파일의 접근 제어 리스트나 파일 소유자와 같은 파일 메타데이터는 파일 데이터가 또 다른 장치로 이동되는 동안에도 스텁 파일과 함께 남아 있게 된다.
스텁 기반의 솔루션의 이해를 돕기 위해 <그림 3>을 보면 스텁 기반의 접근 방식은 앞서 설명한 인텔리전트 파일 가상화의 개념도와 상당히 비교되는 것을 알 수 있다. <그림 3>을 보면 클라이언트가 file1.doc를 요청할 경우 NAS-1이 그 파일을 보내준다. 하지만 여기에서 file2.doc가 영향을 받게 된다. 우선 file2.doc는 클라이언트에게 그 사이즈가 0바이트로 보이게 되고 클라이언트가 file2.doc를 열려면 다음의 단계들을 거쳐야 한다.

- NAS 장치가 열려는 file2.doc이 비어 있음을 인지하고 애플리케이션 서버에 파일을 복구 하라는 요청 전송

- 계층화 애플리케이션 서버는 주로 제3의 데이터베이스에 저장되어 있는 메타데이터 참조

- 계층화 애플리케이션 서버가 그 데이터를 NAS-2로부터 로컬 캐시로 복제

- 계층화 애플리케이션 서버가 file2.doc 데이터를 NAS-1에 재생성

- NAS-1은 file2.doc를 클라이언트에게 재전달

이러한 스텁 기반의 접근 방식에는 다음과 같은 많은 한계가 있다.

- 이러한 방식은 매우 복잡하고 위험할 수 있다. 스텁 기반의 솔루션은 파일을 두 분리된 장소에 배치할 수 있도록 두 부분으로 나눈다. 또 데이터의 가용성은 이제 소스 파일 서버(스텁), 타깃 파일 서버(데이터) 및 애플리케이션 서버나 데이터베이스(메타데이터)에 의존하게 된다. 반면 인텔리전트 파일 가상화 장치에서 개별적인 파일들은 항상 손상되지 않은 채로 단일의 장소에 남아 있는다.

- 스텁 방식은 또 리소스를 낭비해 스텁 파일들을 포함하는 소스 파일 서버의 성능에 영향을 미친다.

- 스텁 기반의 솔루션은 파일의 데이터 구성 요소의 이름이나 경로 정보를 변경하기 때문에 쉽게 제거되지 않는다. 이것은 첫 번째 계층(NAS-1)과 두 번째 계층(NAS-2) 사이의 경로와 파일 이름이 다른 <그림 3>의 구성도에서 볼 수 있다. 반면 인텔리전트 파일 가상화에서 파일 목록 구성은 복제되고 파일 이름 또한 보존된다. 따라서 사용자가 타깃 파일 서버에 직접적으로 연결할 경우 사용자들은 소스 및 타깃 파일 서버 상에서 같은 파일 목록 구성을 보게 될 것이다. 이를 통해 그저 복제하고 공유하는 것으로 파일 시스템을 손쉽게 통합할 수 있다.

- 기존 파일 서버는 스텁 파일이 그 장치에 여전히 남아 있기 때문에 구동을 멈출 수 없다.

- 파일 서버에 필요한 에이전트와 NAS 장치 사용에는 전용 API와 소스 NAS 파일 서버간의 통합을 필요로 한다. 이것 또한 각각에 계층에서 사용되는 장치의 종류를 제한한다.

반면 네트워크 기반 기술에 따라 인텔리전트 파일 가상화 솔루션은 파일 서버에서 스토리지 에이전트를 필요로 하지 않고 표준 파일 접근 프로토콜을 사용함으로써 전용 API를 필요로 하지 않는다. 결과적으로 기업들은 많은 계층에서 그들이 원하는 어떤 NFS 또는 CIFS 기반의 스토리지 시스템이든 선택권을 보장 받는다.

- 인텔리전트 파일 가상화 혜택
스텁 기반 솔루션의 한계와 비교해 인텔리전트 파일 가상화 솔루션의 혜택을 요약하면 다음과 같다.

- 데이터 생명 주기를 통해 스토리지 계층간 파일 이동은 사용자들과 애플리케이션에 투명하게 진행된다. 또 파일의 물리적 위치가 시간이 지나 이동되더라도 클라이언트 드라이브 맵핑이나 마운트 포인트를 변경할 필요가 없다. 이러한 방식으로 데이터는 첫 번째 계층의 스토리지 리소스를 낭비하지 않고도 쉽게 접근될 수 있다.

- IT 관리자들은 NFS 또는 CIFS를 지원하는 스토리지 혹은 파일 서버라면 제조사에 상관없이 임의의 스토리지 계층의 수를 구성할 수 있다.

- 서버나 클라이언트가 소프트웨어 에이전트를 도입해야 하거나 새로운 파일 시스템이나 스토리지 하드웨어를 구축할 필요 없다.

- ILM 정책은 블록이나 파일 시스템 수준이 아닌 파일 수준에서 적용될 수 있다. 파일들은 블록 수준에서는 불가능한 비즈니스 혜택을 제공한다. 또 파일 시스템 전체에 ILM 정책을 적용하는 것은 큰 가치가 없다.

- 파일 메타데이터 특성을 기반으로 단순하고 유연한 기준을 사용해 파일 분류가 가능하다.

- 인텔리전트 파일 가상화는 인라인 정책 실행으로 고유의 실시간 성능을 제공한다.

인텔리전트 파일 가상화 ‘부상’
많은 기업들이 급증하는 데이터들을 단순히 단일의 스토리지 계층에 보관해왔다. 이것은 비용 및 효율성 측면에서 많은 문제들을 가지고 있었고 단일의 스토리지 계층 사용으로 늘어난 백업과 복구 윈도우의 수는 관리가 불가능할 정도로 복잡해졌다. 기업들은 또 기존의 복잡한 자동 계층화와 ILM 툴에 대해 불만을 토로해왔다.
이를 해결하기 위한 인텔리전트 파일 가상화 솔루션은 단순하지만 강력한 자동 계층화 접근 방식으로 기업들이 다른 솔루션을 사용할 때의 단점들을 크게 개선시켰다.
파일 가상화 장치는 간단한 파일 분류 방식을 제공하고 투명한 데이터 이동을 위해 스텁 기반의 접근에만 의존하지는 않는다. 더욱이 인텔리전트 파일 가상화 장치는 업계 표준의 프로토콜을 사용해 기업들이 그들이 원하는 스토리지 기술을 사용할 수 있도록 해준다. 소프트웨어나 새로운 전용 파일 시스템을 도입할 필요 없는 것도 이 기술이 급격히 부상하는 데 기여하고 있다.

데이터넷