차세대 백업 솔루션 현황
상태바
차세대 백업 솔루션 현황
  • 데이터넷
  • 승인 2007.05.30 00:00
  • 댓글 0
이 기사를 공유합니다

지능형 스토리지로 ‘효율과 안정성’ 동시 만족
디듀플리케이션·CDP 등 차세대 백업 기술 ‘각광’
… 데이터 품질관리·신속한 저장·백업·복구는 ‘기본’

폭증하는 데이터는 기업 정보관리의 골칫거리다. 조사기관 포레스터에 따르면 지난 96년부터 2007년까지 디스크 스토리지는 매년 약 37%씩 증가하고 있지만 이렇게 증가하는 데이터를 관리하기위해 마냥 스토리지를 새로 구입할수는 없는 노릇이다. 물론 스토리지의 비용이 지속적으로 하락하고 있어 스토리지 구입 자체에 큰 부담을 느끼지는 않는다손 치더라도 늘어난 스토리지를 관리하는 것 자체가 기업에 비용 및 부담을 가중시킨다.
그렇다면 이렇게 늘어나는 데이터를 효과적으로 관리하기 위한 대안은 무엇일까? 이런 필요에서 최근 중복 데이터를 제거, 데이터 저장공간을 늘려주는 디듀플리케이션(Deduplication) 솔루션에 관심이 집중되고 있다. 또한 늘어나는 데이터를 효율적으로 관리하는 동시에 귀중한 데이터를 안전하게 관리할 수 방안도 필요하다는 문제제기로 CDP(Continuous Data Protection) 솔루션 역시 이머징 마켓으로 주목받고 있다.
올해 스토리지 시장을 뜨겁게 달구고 있는 디듀플리케이션과 CDP 솔루션을 통해 기업 정보의 효율적이고 안전한 관리를 위한 최적의 방안이 무엇인지 살펴보자.
| 장윤정 기자·linda@datanet.co.kr |

제 1부 : 디듀플리케이션
제 2부 : CDP (Continuous Data Protection)

제 1부
디듀플리케이션

‘차세대 백업 시장 견인 ‘이상무’

2010년이면 인류가 생산한 디지털 정보가 988엑사바이트(EB)를 넘어 곧 제타바이트(ZB) 시대가 열릴 전망이다. 1ZB는 1기가바이트 USB 메모리 1조1만억개를 가득 채운 만큼의 정보량이다. 이는 인류가 30만년 동안 쌓아온 정보의 10배, 인류가 저술한 모든 책의 300만배에 이르는 수준이다.
따라서 이렇게 폭증하는 데이터를 관리하는 일은 기업들의 골칫거리로 떠올랐다. 나아가 늘어난 데이터를 단순히 저장하는 것만이 아니라 양질의 데이터를 추출하고 데이터의 품질을 관리하는 데이터품질관리 또한 기업의 미션으로 반드시 수행해야할 과제가 됐다. 이런 필요에서 최근 새로운 백업기술로 주목받고 있는 디듀플리케이션은 중복데이터를 제거해 데이터의 용량을 줄여줘 저장 공간 축소와 관리 데이터의 절감이라는 이점을 가져다준다. 또 실시간 데이터보호 백업기술인 CDP는 반드시 보호돼야하는 미션크리티컬한 데이터를 언제나 원하는 시점으로 되돌려 복구해줄 수 있어 안전한 데이터 보호를 위한 솔루션으로 각광받고 있다.
두 기술 모두 신규 솔루션으로 아직 국내 레퍼런스는 없지만 연내에 구축사례들이 속속 생겨나며 차세대 백업시장을 견인해갈 주요 기술로 부상할 전망이다.

디듀플리케이션이란
디듀플리케이션(Deduplication)이란 중복으로 발생되는 데이터 저장 블록을 계속해 누적하지 않고 최초에 한번만 저장한 후 반복적으로 발생하는 저장 요청에 대해서는 포인트만을 관리함으로써 동일한 내용의 데이터 블록이 디스크를 점유하는 것을 제거하는 기술이다. 즉 데이터의 세그먼트(블록)를 분할하고 중복된 영역을 제거함으로써 유일한 고유 블록이 단 한번만 저장될 수 있도록 하는 것이다.
디듀플리케이션은 모든 백업 데이터의 분석을 통해 반복되는 데이터를 소거, 압축해 바뀐 단어와 위치만 백업한다. 데이터의 서브 파일, 가변길이 세그먼트 등을 통해 데이터를 원자로 분할하고 각 원자를 한번만 전송하거나 저장해 안전하게 데이터 볼팅(vaulting)을 시키는 것. 일반적으로 압축(Compression)은 파일 내 겹치는 데이터를 제거하거나 잉여공간을 없애는 것이지만, 디듀플리케이션은 파일내 중복 데이터뿐 아니라 여러 개의 같은 파일의 중복도 제거할 수 있다.
보통 백업 솔루션은 변경한 파일전체를 다시 한번 백업하는 것이 일반적이었으나 디듀플리케이션은 전체 파일을 다시 백업할 필요 없이 바뀐 단어, 그 위치만 백업하면 된다. 예를 들어 10메가바이트의 첨부파일을 담은 이메일을 200명의 직원에게 보낼 경우 200개의 파일을 모두 저장하는 것이 아니라 한 개의 파일과 보낸 메일 정보만 저장하면 되는 것이다.
관련업계의 전문가들에 의하면 중복데이터 제거를 통해 얻을 수 있는 공간확대의 비율은 백업된 데이터 패턴에 따라 차이가 발생하나 평균적으로 약 2배 이상의 데이터 저장이 가능하다고 주장한다.
관련 전문가들은 “디듀플리케이션을 이용하면 적은 투자로 보다 효율적으로 디스크를 활용할 수 있어 그간 백업 매체로 활용돼 왔던 테이프와의 가격경쟁력을 확보할 수 있을 것”이라며 “이로 인해 디스크를 활용한 기업들의 재해복구(DR) 수요, 원격오피스 데이터 관리 수요를 촉발시키는 등의 효과가 기대된다”고 밝히고 있다.
이렇게 디듀플리케이션을 활용하면 저장공간을 줄일 수 있기 때문에 이론적으로는 테이프보다도 저렴한 가격으로 데이터를 디스크에 보관할 수 있게 돼 테이프보다 안정성 높은 디스크에 테이프보다 저렴한 가격으로 데이터를 보관할 수 있는 길이 열렸다. 데이터 센터 및 고객 전산실 환경에서 운영에 필요한 공간을 최대 50% 이상 줄여준다는 것. 또 디듀플리케이션은 디스크에 저장한 데이터를 원격지에 분산보관하기 위해서는 엄청난 네트워크 대역폭과 느린 백업속도로 엄두도 못냈던 소산(데이터 분산저장)을 가능케 해줄 수 있다.
디플리케이션이 왠 가속기의 개발과정에서 파생됐다는 기술적인 백그라운드가 있는 점도 이와 무관하지 않다. 디플리케이션은 왠 가속기처럼 데이터의 저장공간을 줄여서 전송해줄 수 있기 때문에 적은 대역폭을 이용해 분산저장은 물론 광대역 왠 백업을 가능케 해준다. 또한 디듀플리케이션은 저장 공간을 늘려주기 때문에 한주 보관할 것을 두달로 늘리는 등 백업 기간을 확장시킬 수 있다는 장점이 있다. 디듀플리케이션은 실시간 백업은 아니지만 복구포인트를 여러 배로 늘릴 수 있고 데이터를 복원해 낼수있는 요소가 높아 복구레벨을 높일 수있는 장점이 있다.
이처럼 디듀플리케이션은 서버 시스템 자원 낭비와 백업 윈도 감소에 대한 우려를 하지 않아도 도입 및 운영에 필요한 TCO 절감과 ROI 증가를 제공해 줄 수 있다.
시장조사기관인 가트너는 “기업 데이터의 약 60%가 원격지사, 혹은 지점에 있다”며 “오는 2009년까지 80%의 복구작업이 디스크백업을 중심으로 실행될 것”이라고 예견했다. 이런 디스크 백업의 선두에서 디듀플리케이션은 저장공간의 축소와 고부가가치 데이터의 원격지 백업 등을 가능케 해줌으로써 차세대 백업 시장을 견인해갈 1등 솔루션으로 손꼽히고 있다.

인라인·오프라인 등 형태 ‘다양’
한편 디듀플리케이션이 주목받으며 여러 벤더들이 관련 솔루션을 발표하고 있는데 기능적인 측면에서 크게 두 가지로 구분할 수 있다. 이런 구분 방법이 절대적이거나 일반적인 것은 아니지만(EMC 등에서는 사용하지 않음) 신 기술인 디듀플리케이션의 이해를 돕기 위해 소개한다. 백업은 기존과 동일하게 수행한 이후 백업 디바이스(VTL)에서 별도로 디듀플리케이션 작업이 실행돼 중복이 되는 데이터 블록을 제거하는 오프라인(Off-Line) 방식과 디듀플리케이션 작업을 선행해 중복이 제거된 데이터만을 백업 디바이스로 내리는 인라인(In-Line) 방식으로 나눌 수 있다.
오프라인 방식은 팔콘스토어, 퀀텀, 세파톤 등이 제공하고 있고, 인라인 방식은 EMC, 데이터도메인, 딜리전트, 시만텍 등이 제공한다. 이들은 또 다시 중복된 데이터를 찾아내는 알고리즘이 오픈 스탠다드 해쉬(Open Standard Hash)냐 자체의 독자적(Proprietary)이냐에 따라 또 다시 두 가지로 구분하기도 한다.
오프라인 방식의 솔루션은 디듀플리케이션 작업이 백업 성능에 전혀 영향을 미치지 않는다는 점과 기존 백업 인프라를 전혀 변경하지 않고 자연스럽게 디듀플리케이션 옵션을 적용할 수 있다는 것을 강점으로 내세우고 있다. 이에 반해 인라인 방식의 솔루션은 원천적으로 백업량을 줄임으로써 백업 윈도를 줄이는 효과가 있다고 주장한다.
또 인라인 방식은 디듀플리케이션 작업을 선행함으로 왠 구간의 대역폭을 줄여 원격지 소산을 위해 보다 효과적인 백업 방안을 제시할 수 있다는 장점을 내세운다. 하지만 인라인 방식은 기존 인프라에 약간의 변경은 불가피해 고객사의 부담으로 작용할 수 있고 호스트단에 부하를 줄 수 있다는 단점도 있다.
또 EMC, 시만텍, 데이타도메인 등 다수의 디듀플리케이션 제품이 해쉬 알고리즘을 사용하고 있는데 해쉬 알고리즘은 아주 드물게 키값이 같아서 중복되는 키값을 가질 수 있는데 이렇게 같은 키값끼리 충돌이 나면 그전의 데이터가 사라지는 오류가 존재한다고도 관련전문가들은 지적한다. 물론 같은 키값을 가질 확률은 1/1037의 일로 극히 드물지만 미션크리티컬한 데이터에서는 작은 오류의 가능성이라도 무시하기 어렵다며 해쉬알고리즘의 원천적인 한계를 지적하는 것.
그렇다고 독자 알고리즘을 사용하는 제품들 역시 100% 안정적이라고 단정지을 수도 없고 제품 초기 단계라 지속적인 보완이 필요하다는 지적이다. 이처럼 디듀플리케이션에 사용되는 알고리즘은 결국 성능 및 효용에 직결되는 문제라 오픈 알고리즘이든 독자 알고리즘이든 완벽한 보완을 위해 좀더 기술적인 보완이 필요하다고 관련전문가들은 입을 모은다.
또다른 디듀플리케이션의 단점으로 디플리케이션의 백업본은 하나일 뿐 실제적인 데이터는 사라지기 때문에 안정성부분의 취약점이 있다고 지적한다. 중복되는 데이터를 검사해서 물리적으로 한벌만 저장하기 때문에 그 한벌이 나가면 백업데이터가 사라지는 리스크를 안고 있다는 것. 그러나 이 부분은 백업 방식의 구현을 달리하면 피할 수 있기 때문에 치명적인 것은 아니다.
한편 제품 형태를 살펴보면 디듀플리케이션 기능을 VTL(가상 테이프 라이브러리)에 내장시킨 제품(세파톤, 딜리전트 등)도 있고 디듀플리케이션 전용 어플라이언스 형태(데이타도메인 등), 애플리케이션 서버에서 디듀플리케이션을 수행하고 에이전트 등으로 관리하는 제품(EMC 아마바, 시만텍 등) 등 형태도 다양하다.
혹자는 디듀플리케이션이 VTL을 대체하며 VTL 시장을 잠식해갈 것이라는 의견을 제시하기도 하지만 이것은 극단적인 시각일뿐 VTL과 디듀플리케이션이 공존하며 시너지효과를 낼 것이라는 전망이다. 대부분의 VTL벤더들이 디듀플리케이션 기능을 기존 제품에 추가하거나 별도의 제품으로 출시, 영업하고 있다는 것도 이를 반증하고 있다.

디스크 백업은 기본, ‘VTL, 디듀플리케이션은 선택사양(?)
팔콘스토어코리아 기술부 임병혁 부장은 “몇년전부터 VTL을 이용한 디스크 백업이 급격히 증가하고 있어 이제 VTL을 이용한 디스크 백업은 도입 및 안정화를 지나 보편화 단계에 접어들었다”며 “하지만 장기보관이 필요한 데이터 및 지속적으로 증가하는 백업량 등으로 인해 요구되는 디스크의 양이 폭발적으로 증가해 백업 데이터의 저장공간을 극대화할 수 있는 디듀플리케이션이 각광받고 있다. 디스크 기반 백업 환경으로의 변화를 기정사실로 받아들인다면 디듀플리케이션은 이런 환경과 사실을 뒷받침하는 강력한 무기”라고 강조했다.
VTL이 처음 등장했을 때만 해도 빠른 속도 제공은 장점이었지만 백업된 데이터가 복구가 가능한지 장담할 수도 없었고 미디어의 제도상의 결점 때문에 백업이 불가능한 경우도 있었으나 이런 고객들의 걱정을 불식시키며 VTL은 성공적으로 시장에 안착했다. 그러나 모든 백업환경에 VTL을 제공할 수는 없다. 테이프에 비해 상대적으로 저장공간도 적고 가격면에서도 부담스러워 여전히 테이프를 이용하겠다는 고객도 있다는 것.
디듀플리케이션도 마찬가지다. 투자비용 대비 전체적인 보관사이즈 등 용량면으로는 일반 VTL보다 디듀플리케이션이 더 높은 효율을 제공하지만 같은 동급의 VTL일 경우 디듀플리케이션을 적용시킨 VTL 장비가 속도가 더 낮다. 속도위주의 고객일 경우는 디듀플리케이션이 맞지 않는다.
퀀텀코리아 김정균 과장은 “디듀플리케이션은 데이터를 잘라내는 장비라 잘라내는 기능만큼 자원이 필요해 많은 부분이 디듀플리케이션작업을 하는 기능으로 사용되기 때문에 같은 VTL을 두고 본다면 속도가 떨어진다”며 “그러나 속도가 조금 떨어져도 보관기능을 늘리고 싶다면 디듀플리케이션을 사용해도 괜찮다. 중요한 것은 고객의 환경에 맞는 솔루션을 선택, 구성하는 고객의 성숙도”라고 말했다. 또한 중복되는 데이터가 별로 없는 예를 들어 방송데이터를 취급하는 고객 등이라면 디듀플리케이션으로 얻을 수 있는 효율이 일반 엔터프라이즈 등에 비해 현저히 떨어질 것이다. 즉 고객이 보유한 예산이나 환경 등을 고려한다면 테이프가 맞는 경우, VTL이 맞는 경우, 디듀플리케이션이 적합한 경우 등 고객에게 딱 맞는 환경이 있고 그 환경에 맞게 벤더들이 접근하는 지혜가 필요하다는 지적이다.
그러나 관련 전문가들은 디듀플리케이션 시장 확산에 있어 가장 우려되는 측면은 고객이 디듀플리케이션에 대한 지나친 기대치라고 언급한다. 백업환경에서 효율은 천차만별로 바뀌고 중복데이터가 많고 적음 등 고객사의 환경에 따라 차이가 있기 때문에 디듀플리케이션을 적용한다고 해서 바로 엄청난 효과를 보기를 기대한다는 것은 금물이라는 것. 따라서 관련 벤더들은 제품을 공급하는데 혈안이 되기에 앞서 고객이 디듀플리케이션 솔루션을 잘못 이해한 상황에서 효율이 바뀔 수도 있다는 점을 충분히 주지를 시켜야한다.
한 업계의 전문가는 “디듀플리케이션의 효율은 고객사 환경에 따라 달라진다”며 “단정적으로 몇백대 1의 데이터중복제거 효과를 올려줄 수 있다고 고객들을 현혹하기 보다 고객의 환경에 맞춰 정확한 정보를 제공하며 올 하반기 본격 형성될 것으로 예상되는 디듀플리케이션 시장 확대를 위해 건전한 경쟁을 도모해야할 것”이라고 조언했다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.