2회 : 차세대 데이터 보호 방안
상태바
2회 : 차세대 데이터 보호 방안
  • 데이터넷
  • 승인 2007.07.20 00:00
  • 댓글 0
이 기사를 공유합니다

데이터 보호
최신기술 수용으로 차세대 데이터 보호 실현
CDP·중복제거 적용 RPO·RTO 충족 … 백업, 기업 데이터 보호의 ‘최후 보루’

지난호에서는 데이터의 급속한 증가와 백업 윈도의 감소로 출현한 여러 빠른 백업 및 복구 솔루션 중 디스크를 활용한 백업 방식을 중심으로 백업의 요구 사항 및 기술의 변화에 대해 살펴봤다. 이어 이번호에서는 최근에 각광 받고 있는 조금만 백업 받는 방식, 즉 데이터 중복 제거 기술(Data reduction, Data de-duplication)에 대해 살핀다. <편집자>

연재순서
1회 : 데이터 보호의 과거·현재·미래
2회 : 차세대 데이터 보호 방안(이번호)

천종윤 //
시만텍코리아 제품기술본부 차장
Jay_cheon@symantec.com

아무리 디스크 기술이 빠르게 발전하고 과거에 비해 디스크의 가격이 저렴해졌다고 하더라도, 엄청난 데이터 증가 속도와 현재까지의 디스크 기술 발전을 기준으로 고려한다면 여전히 제약을 가질 수밖에 없다. 빠른 디스크 백업을 위해서는 저가형 SATA 디스크가 아닌 하이엔드급의 디스크가 필요하지만, 이러한 디스크 이용은 백업 전용으로 쓰기에는 아직까지 부담스러운 높은 비용이 필요하다.
데이터 중복 제거 기술은 데이터를 백업할 때 이전에 백업 받은 정보를 확인 한 후 기존에 백업을 수행한 데이터는 다시 백업하지 않고 중복되지 않은 데이터만을 전송해 백업하는 방식이다. 물론 나중에 복구할 때를 대비해 중복된 데이터 영역의 경우에는 실제 데이터가 아닌 중복 데이터가 존재한다는 정보를 담은 아주 작은 크기의 데이터만이 전송된다. 즉, 개별 파일들을 정해진 크기로 잘게 쪼개고(segmentation), 이를 메타 서버에서 비교해 중복되지 않은 파일의 영역만을 전송하는 것이다. 따라서 데이터 중복 제거 기술의 가장 큰 장점은 백업 시간과 스토리지 비용이 절감된다는 점에 있다.

중복제거로 시간·비용 절감
예전에 ‘더 플라이(THE FLY)’라는 제목의 공포 영화가 있었다. 이 영화에서는 과학자 중 한 명이 사람 또는 물건을 ‘트랜스포트’라는 장치를 이용해 원자 단위로 분해한 후 다른 장치에서 이를 완벽하게 복원해 원하는 위치에 전송하는 장치를 개발한다. 다소 차이점이 있긴 하지만 데이터의 중복 제거 후 백업 받는 방식이 이와 유사하다.
먼저 백업의 대상이 되는 파일들을 지정된 최소 단위인 세그먼트로 잘게 쪼개고, 이에 대해 유니크한 핑거프린팅(finger printing) 작업을 수행한다. 최초 백업은 대상 파일들이 모두 백업을 수행하지만 그 이후의 백업에 대해서는 변경된 세그먼트들만이 네트워크를 통해 전송된다. 이는 아주 작은 부분들만을 백업하게 되므로 백업 전송량도 줄어들게 되지만 작은 네트워크 대역폭으로도 백업을 수행할 수 있다는 장점을 가지게 된다.
데이터 중복제거 방식의 백업은 변경된 데이터만을 전송하기 때문에 ‘복구 시 기존 풀백업과 증분 백업의 방식과 마찬가지로 풀백업을 먼저 복구하고 증분 백업 이미지를 복구하는 여러 과정을 거침으로써 오히려 복구 절차가 복잡해지지 않는가’란 의문을 가질 수도 있다. 하지만, 데이터 중복 제거 기술은 기존과 같은 방식의 복구 과정을 진행하지 않고 최초 수행된 백업 이미지와 이후 변경된 세그먼트를 조합해 최종 이미지를 생성하고 복구해 주기 때문에 복구 작업 역시 빠르고 간편하게 수행할 수 있다. 또한 중간에 변경되는 파일들의 다양한 버전을 지원함으로서 원하는 시점 또는 버전의 복구를 지원한다
이외에 데이터 중복 방식에 대해 흔히 가질 수 있는 의문 중 하나는 ‘데이터를 압축해서 보내기 때문에 데이터가 조금 보내지는 것이 아닌가’라는 것이다. 답은 데이터 중복 제거 방식은 데이터의 압축 후 전송과는 전혀 다른 방식이라는 데 있다.
잘 알려진 것처럼 데이터의 압축의 원리는 중복되는 데이터 또는 파일 내의 중복 코드 부분을 줄이는 방식이다. 파일 내에 중복되는 코드 부분이 많으면 당연히 압축률이 좋을 것이고 중복되는 부분이 적으면 그만큼 압축률이 떨어지게 된다. 반면, 데이터 중복 제거 방식은 특정 크기로 파일들을 잘게 쪼개고 이를 비교하여 중복되지 않은 부분만을 전송, 백업받는 방식이기에 실제로 데이터를 압축하지는 않는다. 다만 중복되는 부분이 제거되기 때문에 마치 압축돼 데이터가 전송되는 것처럼 보이는 것이다. 즉, 해당 파일의 특성에 따라 압축률이 달라지는 압축(예를 들어 이미 압축된 파일은 압축 효율이 낮아진다)과 달리 데이터 중복 제거 방식은 이러한 파일에 대해서도 중복 제거 처리가 가능하므로 백업 용량을 줄일 수 있게 된다.

최소용량 전송, 원격지 데이터 보호 실현
데이터 중복 제거 기술은 사실 원격지 데이터에 대한 보호 방안으로 생겨난 기술이다. 기업이 규모가 커지면서 본사뿐 아니라 지사/분사들이 점점 증가하게 되고, 이들 지사에서도 데이터가 증가하게 되면서 본사 데이터 센터 차원의 데이터 보호 방안 외에 지사의 데이터 보호 방안이 필요하게 됨에 따라 등장하게 기술인 것. 본사와 지사는 적게는 56Kbps에서 T1, E1, E3, WDM 등의 다양한 왠 방식을 이용해 연결돼 있지만, 이 네트워크의 속도를 보장받기 위해서는 회선 임대 장비 도입 등 여러 요인으로 비용이 소요된다.
높은 전송 속도를 보장 받으려면 그만큼의 높은 회선 비용을 감수해야 하는 것이다. 그나마도 이런 전용 회선들은 백업을 위한 전용라인이 아닌 VPN, VoIP 등을 위한 라인이기 때문에 이 회선을 통해 백업을 수행하는 것은 아무리 작은 파일이라 하더라도 사실상 불가능에 가깝다고 할 수 있다.
물론 백업 작업은 야간에 수행되고, 또 본사의 데이터 센터 내의 데이터보다는 지사의 데이터 규모가 작은 것은 사실이지만, 보안 등 여러 가지 문제로 인해 단순히 개인 간의 P2P 동영상 전송과 같은 간단한 문제로만 여길 수는 없는 문제다.
이러한 이유로 기업들은 지사내의 데이터를 원격으로 백업하는 방안을 기피해왔고, 만약 원격 백업을 수행한다고 하더라고 매우 제한적으로 시행해왔다. 예를 들어 어느 정도의 규모가 있는 지사의 경우는 별도의 백업 장비를 도입해 자체적으로 백업을 수행하고, 소산으로 생성된 테이프를 중앙 데이터 센터로 전달하는 방식으로 중앙 데이터 센터와 원격지 지사 간의 데이터 동기화를 수행한 것이다.
하지만, 이런 방식은 데이터 백업을 받기 위한 중복 투자가 불가피하다. 백업 장비와 필요 시 여분의 디스크, SAN 스위치 등을 필요로 하고, 소산을 위한 테이프도 요구된다. 더욱이 소산 후 데이터 동기화를 위해 테이프로부터 다시 데이터를 복구 후 동기화를 수행하게 되므로 추가 시간도 더 소요된다.
또 소산 작업 후 테이프를 중앙 데이터 센터로 이송하는 과정에서 테이프 유실로 인한 기업 기밀 정보 누출 사고가 발생할 가능성도 존재한다. 일례로 미국의 한 금융 회사가 데이터 센터에서 원격지로 소산한 테이프를 이송 중에 이를 분실한 사례가 있다. 이 테이프에는 고객의 개인 신상 정보가 고스란히 저장되어 있었는데 만약 악의적 의도를 가진 해커가 이를 누출하기로 결심하는 상황이 발생했다면, 생각만 해도 아찔한 일이 벌어졌을 것이다.
데이터 중복 제거 기술은 이러한 원격지간의 데이터 보호에 대해 최적의 환경을 제공한다. 최초 데이터 전송 시에는 모든 데이터를 보내게 됨으로써 시간이 다소 걸리겠지만, 그 이후에는 아주 적은 용량의 데이터 변경된 부분만이 전송돼 큰 대역폭을 요구하지 않으며 기존 왠 구간에 대한 부하도 적다. 나아가 데이터 전송 시 해당 데이터를 암호화 처리한 후 전송하기 때문에 데이터의 유출 사고를 미리 방지할 수 있는 장점도 있다.
결국 데이터 중복제거 기술을 이용해 고객은 기존의 복잡하고 불편했던 데이터 센터와 원격지간의 데이터 보호에도 효율적인 백업 방안 세울 수 있게 되는 것이다.

원하는 시점 데이터로 ‘즉각적’ 복구
차세대 백업을 얘기 하라고 하면 빼놓을 수 없는 부분이 바로 CDP(지속적인 데이터 보호)다. 앞서 설명했듯 기존 백업은 백업을 받기 위해 필요한 시간(백업 윈도) 내에 백업을 수행해야만 했다. 하지만 CDP의 경우, 이런 백업 윈도가 필요하지 않다. CDP에서는 데이터가 변경되면 변경된 시점의 데이터가 바로 실시간으로 보호되며, 변경된 시점별로 각각의 버전을 가지게 되므로, 이를 통해 사용자는 보다 손쉽게 데이터를 보호할 수 있으며 필요 시 원하는 시점의 데이터를 언제든지 복구할 수 있게 된다.
CDP의 장점에 대해 소개하면, 우선 백업을 하면서 발생하는 부하를 줄여준다는 점이 가장 크다고 할 수 있다. CDP 방식은 이미 언급한 것처럼 별도의 백업 윈도를 가지지 않으므로 백업을 수행하기 위한 별도의 시간을 필요로 하지 않는다. 따라서 백업 시에도 서버에 부하를 주지 않는 이른바 ‘제로 임팩트(Zero Impact)’ 백업을 수행한다.
CDP의 장점 두 번째는 데이터와 애플리케이션 가용성의 증가다. CDP 기술은 백업 시는 물론 데이터 또는 애플리케이션에 장애가 발생한, 복구 작업 시에도 원하는 시점으로의 빠른 복구(APIT)를 지원한다. 따라서 복구 시점 목표(RPO )를 감소시켜 복구 시 데이터 손실을 최소화하고, 복구 시간 목표(RTO)를 향상시켜 빠른 복구 시간을 기대할 수 있다.
이러한 장점은 테스트 환경이나 개발 환경에서 환영받을 만하다. 기존의 테스트 환경에서는 현재의 데이터를 우선 백업하고 테스트 및 개발을 수행해 오류가 발생할 경우 다시 백업본에서 복구를 수행해왔다면, CDP를 적용하면 별도의 백업을 수행할 필요 없이 테스트 및 개발을 수행한 후 오류가 발생을 했을 경우 변경이 발생하기 이전으로 즉시 데이터를 복구할 수 있게 된다. 즉, 별도의 백업 과정이 필요없이 원하는 데이터의 수정 이미지에 대한 코드 버전을 유지할 수 있게 되는 것이다.

향후 데이터 보호 방안
최근 여러 이중화 방안과 재해 복구 계획 수립 등으로 인해 여러 불안정한 요인들로부터 대부분의 데이터가 보호받으면서 최적의 상태로 운영되고 있는 비율이 늘어나고 있지만 예기치 않은 장애 발생 시 시스템을 복구하고, 원하는 시점의 데이터를 복구할 수 있는 가장 경제적이고 효율적인 대안은 여전히 백업이다.
백업 기술 또한 멈춰있지 않고 최신 기술을 수용해 더욱 발전하고 있는데, CDP를 근간으로 한 빠른 백업, 원하는 시점으로 데이터를 복구하고 백업 파일에 데이터 중복 제거 기술을 적용한 SIS(Single instance Store) 처리, 그리고 이를 다시 원격지로 실시간 복제하는 방식의 등장은 이러한 백업의 진화를 보여주는 것이다. CDP, 중복제거와 같은 백업 기술의 발전은 모든 범위의 RPO와 RTO를 충족시키는 백업을 실현할 것으로 예상된다. 즉, 앞으로도 백업은 계속해서 데이터 보호 과제의 중심에 서있게 될 것이다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.