1회 : 정보의 혁명, 스토리지의 혁명
상태바
1회 : 정보의 혁명, 스토리지의 혁명
  • 데이터넷
  • 승인 2007.05.17 00:00
  • 댓글 0
이 기사를 공유합니다

클러스터 스토리지 기술
클러스터 아키텍처가 스토리지 기술 혁명 견인

비정형 데이터 폭발적 증가 피할 수 없는 대세 … 새로운 스토리지 패러다임 제시

클러스터 스토리지 아키텍처는 다음과 같은 3가지 거시적 동향에 의해 주도되고 있다. 비정형 데이터와 디지털 콘텐츠의 폭발적 증가와 클러스터 컴퓨팅으로의 패러다임 전환, 그리고 저렴한 가격, 높은 성능을 제공하는 업계 표준 엔터프라이즈 클래스 하드웨어의 대중화가 이뤄지고 있는 것이다. 이를 바탕으로 클러스터 스토리지 기술의 현재 동향과 변화, 향후 전망을 알아본다. <편집자>

연재순서
1회 : 정보의 혁명, 스토리지의 혁명(이번호)
2회 : 새로운 스토리지 솔루션 클러스터드 솔루션
3회 : 디지털 정보시대의 클러스터 스토리지의 방향

김일동 // 한국아이실론 본부장
ildong.kim@isilon.com

디지털 데이터, 특히 비정형 데이터의 폭발적 성장으로 인해 오늘날의 기업이 일상적인 업무를 수행하는데 필요한 데이터 용량은 엄청난 수준으로 증가하고 있다. 이제는 기업의 IT 관리자들도 동영상, 오디오, 이미지, 연구 자료 등 애플리케이션에서 사용되는 비정형 데이터의 규모가 기존의 스토리지 용량/성능으로 감당하기 어려운 수준에 이르고 있음을 인정하고 있다.

거시적 동향 1: 비정형 데이터와 디지털 콘텐츠의 폭발적 증가
프랫앤위트니(Pratt & Whitney)는 이러한 비정형 데이터의 폭발적인 증가를 경험한 많은 기업 중 하나이다. 상용/군용 항공기 및 우주선 엔진 설계/제작 분야에서 글로벌 리더로 인정 받고 있는 이 회사는, 수 TB에 이르는 엔진 테스트 데이터를 관리하고 있으며 매번 테스트를 수행할 때마다 초당 10만개 이상의 샘플을 생성하고 있다.
임상 질량 분광기 데이터 및 유전자 데이터를 포함하는 다양한 소스 정보를 처리해야 하는 미국 로스앤젤레스의 시더스-사이나이 암연구센터(Cedars-Sinai Cancer Research Center) 역시 대량의 연구 데이터를 저장하는 문제로 고심해 왔다. 시더스-사이나이 암연구센터가 한 방울의 혈액으로부터 추출하는 단백질체 연구 데이터는 무려 60GB에 달한다. 환자들로부터 채취하는 혈액 샘플의 수가 수백, 수천개에 이른다는 점을 감안한다면 비정형 데이터의 폭발적인 증가는 피할 수 없는 현실이다.
2004년 스포츠일러스트레이티드는 아테네 하계 올림픽 취재를 위해 최초로 100% 디지털화된 워크플로우를 적용했으며, 올림픽이 개최된 17일 동안 25만개의 디지털 이미지를 생성했다(각 이미지의 사이즈는 18~24 MB에 이른다). 미디어, 엔터테인먼트, 디지털 이미징, 생명 과학, 오일/가스, 제조업, 공공 기관 등 많은 산업 분야에서 비정형 데이터와 디지털 콘텐츠를 적극적으로 활용하고 있으며 비정형 데이터의 폭발적인 증가는 거스를 수 없는 대세가 되었다.
엔터프라이즈 스트래티지 그룹(ESG)은 2006년 말까지 기업 및 공공 기관이 관리하는 정보 중 레퍼런스 정보가 차지하는 비중이 58%에 이를 것으로 예측했으며 현재 현실화돼 있다. ESG는 레퍼런스 정보(reference information)를 ‘적극적인 참조 및 가치 생성을 위해 보존하는 디지털 자산’으로 정의한다. 여기에는 전자 문서, CAD/CAM 설계, 히스토리 문서, 의료 이미지, 바이오인포매틱스, 지리 정보 데이터, 음성 데이터 등 다양한 유형의 정보가 포함된다.
ESG는 레퍼런스 정보가 연평균 92%의 증가율을 보일 것으로 추산하고, 또 한편으로 마이그레이션 레퍼런스 정보(테이프에서 디스크 기반 스토리지 리소스로 마이그레이션 되는 데이터)의 용량은 이 기간 동안 420PB로 증가할 것으로 예측했다.
그렇다면 이런 흐름이 IT 관리자들에게 어떤 의미를 갖는 것일까? 비정형 콘텐츠의 용량/복잡성이 증가하면서 관계형 데이터베이스, 이메일 서버 등 상대적으로 적은 용량의 파일과 빈번한 트랜잭션을 특징으로 하는 ‘정형 데이터(structured data)’에 최적화된 기존 스토리지 시스템에 대한 압력이 가중되고 있다. 이에 반해, ‘비정형 데이터(unstructured data)’는 대용량 파일 사이즈와 데이터 볼륨, 높은 처리 속도와 데이터 읽기 속도, 그리고 동시 파일 접근 등 고전적인 스토리지 시스템이 지원하지 않는 특성들을 요구한다.
다른 뾰족한 대안을 찾지 못한 기업들은, (텍스트 기반 트랜잭션 데이터에 최적화된) 고전적 스토리지 시스템을 단순히 확장하는 방법으로 비정형 데이터의 요구 사항을 해결하려 시도하기도 한다. 하지만 이들이 사용하는 NAS/SAN 시스템이 아무리 최신의 것이라 하더라도 비정형 데이터와 어울리지 않는 아키텍처상의 내재적인 한계로 인해 관리 복잡성의 증가가 불가피하며, 스토리지의 분산, 확장성의 제한, 성능 병목, 가용성 저하, 비용 증가와 같은 문제가 발생할 수밖에 없다. 이러한 기능적인 제약으로 인해 새로운 스토리지 아키텍처, 즉 비정형 데이터와 디지털 콘텐츠에 최적화된 형태로 설계된 아키텍처의 필요성이 대두됐다.

거시적 동향 2: 클러스터 컴퓨팅으로의 패러다임 전환
두 번째로 주목할 만한 거시적 동향으로 클러스터 컴퓨팅의 대중화를 들 수 있다. 기업의 데이터 센터는 메인프레임과 SMP 서버를 중심으로 하는 환경에서 리눅스, 윈도 등을 기반으로 하는 업계 표준 하드웨어 기반 클러스터 환경으로 전환하는 과정을 거치고 있다.
이러한 동향의 가장 극적인 증거로 전 세계 서버 매출 현황에 나타난 변화를 들 수 있다. 1990년대 중반 이후로 500억달러 규모 시장의 약 4 분의 1이 한 대에 수십만 달러씩 하는 미드레인지 서버 시장에서 2천~3천 달러에 불과한 소형 서버 시장으로 전환됐다.
IT 매니저들이 서버 클러스터 아키텍처를 선호하는 가장 중요한 이유는 대형 시스템의 수 분의 일에 불과한 비용으로 뛰어난 성능, 안정성, 확장성을 보장하고 업계 표준 서버들을 집합적으로 활용해 워크로드를 효과적으로 관리할 수 있다는 장점 때문이다. 이제는 대용량 데이터베이스 구현을 위해 200개의 프로세서를 하나의 머신에 장착하는 경우는 찾아 볼 수 없게 됐다. IT 관리자들은 저가형 서버의 클러스터를 이용해 유연하고 확장성있는 대용량 시스템을 구축하고 있다.
이러한 집합적 워크로드 관리의 대표적인 예로 웹 서버 팜을 들 수 있다. 서버 클러스터링을 이용하면 24X7 기준으로 운영되는 시스템을 위한 가용성, 안정성, 성능 요구사항을 비용효율적인 방법으로 쉽게 만족할 수 있다. 서버 클러스터 팜은 클러스터 내의 각 컴포넌트에 워크로드를 분산하고 컴퓨팅 프로세스의 처리 속도를 개선하는데 필요한 최적화된 환경을 제공한다. 서버 팜의 시스템 중 하나에 장애가 발생하더라도, 워크로드는 다른 서버에 이전돼 정상적으로 처리된다.
다수의 서버와 프로세싱 파워를 단일 엔티티에 조합하는 구현 방식은 과거 연구/교육 기관에서 주로 활용됐지만, 이제는 엔터프라이즈 시장에서도 점차 대중화된 방식으로 통용되고 있다. 전산화된 미션 크리티컬 업무 및 서비스 처리를 위해 서버 클러스터를 활용하는 기업의 사례 또한 갈수록 그 수가 증가하고 있다.
‘클러스터 스토리지 기술의 혁명’은 이처럼 서버 애플리케이션 분야에서 나타난 클러스터 트렌드가 이제 데이터 스토리지 영역으로 확장됐음을 의미한다. 서버 애플리케이션이 클러스터 아키텍처로 전환해 온 것과 마찬가지로, 스토리지 분야 역시 이러한 중대한 아키텍처 전환의 시기를 맞고 있는 것이다.

거시적 동향 3: 업계 표준 엔터프라이즈큽 하드웨어 대중화
클러스터 스토리지 환경을 견인하는 세 번째 거시적 동향으로, 업계 표준형 하드웨어 컴포넌트의 가격대비성능이 극적으로 개선되고 있다는 점을 들 수 있다. 이러한 트렌드는 무어의 법칙(Moore’s Law), 즉 시간의 흐름에 따라 기업이 보다 저렴한 가격으로 보다 높은 컴퓨팅 파워를 구매하고 저가형 하드웨어의 경제성을 실현할 수 있다는 법칙의 연장으로 이해할 수 있다.
저가형 하드웨어 컴포넌트는 클러스터 아키텍처의 이점을 더욱 부각시키는 역할을 한다. 구글은 뛰어난 가격대비성능의 업계 표준 하드웨어를 이용해 고전적인 시스템 환경에 비해 훨씬 저렴한 비용으로 업계 최고 수준의 성능과 안정성을 구현한 대표적인 사례로 꼽힌다.
사용자가 구글 검색을 한 번 실행할 때마다 평균적으로 수백 MB에 달하는 읽기 작업과 수백억회의 CPU 사이클이 사용된다. 이러한 ‘고성능 컴퓨팅’ 워크로드를 처리하기 위해, 구글은 수천 대의 저가형 PC와 고가용성 소프트웨어를 이용해 클러스터 환경을 구현했다. 이처럼 클러스터 아키텍처는 고가의 하이엔드 서버와 비교했을 때 수 분의 일에 불과한 비용으로 뛰어난 성능을 실현할 수 있게 한다.
저가형 엔터프라이즈 클래스 하드웨어의 출현은 클러스터 스토리지 솔루션의 도입을 촉진하는 계기가 됐다. 지난 5 년 동안 하드 디스크의 가격이 하락하고 SATA 등의 디스크 저장 밀도가 향상됨에 따라 디스크의 MB 당 비용은 100분의 1 이하로 감소했다. 프로세서, 메모리, 대역폭 비용의 극적인 감소와 더불어 이제 IT 관리자들은 저가형 스토리지 컴포넌트를 활용해 클러스터 환경의 가치를 극대화할 수 있게 됐다.

거시적 동향이 스토리지 환경에 갖는 의미
이러한 거시적인 동향을 통해 세 가지 중요한 사실을 확인할 수 있다.

- 스토리지 업계는 혁명적인 변화를 맞고 있다.
- 클러스터 스토리지가 주도적인 스토리지 아키텍처로 부상하고 있다.
- 고객들은 클러스터 스토리지로부터 상당한 비즈니스 가치와 혜택을 확인하고 있다.

서버 애플리케이션과 마찬가지로, 스토리지 환경은 대규모 박스형 솔루션에서 클러스터 아키텍처로의 패러다임 변화를 거치고 있다. 지능형 소프트웨어와 업계 표준 하드웨어의 대중화에 힘입어, 클러스터 스토리지는 새로운 스토리지 아키텍처로서 빠르게 확산되고 있다. 고객들은 비정형 데이터가 폭발적으로 증가하는 문제의 심각성과, 클러스터 아키텍처가 혁신적인 가격대비 성능, 안정성, 확장성을 제공한다는 사실을 잘 이해하고 있다. 클러스터 스토리지 기술의 혁명이 드디어 시작된 것이다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.