늘어나는 데이터 관리, 스토리지 계층화로 대응하라
상태바
늘어나는 데이터 관리, 스토리지 계층화로 대응하라
  • 데이터넷
  • 승인 2017.08.08 08:55
  • 댓글 0
이 기사를 공유합니다

워크플로우 단계별 요구사항 수용…전체 비용 줄이고 성과 향상 도모
▲ 유재근 퀀텀코리아 부장(jaekeun.yu@quantum.com)

새로운 연구 기술은 발견 프로세스를 빠르게 변화시키고, 디지털 데이터의 양을 크게 증가시키며, 사이클 타임을 단축시키고 있다. 이러한 연구의 발전은 IT 인프라에도 변화를 요구하고 있다. 즉 IT 인프라는 오늘의 니즈를 충족시켜야 하는 것과 더불어 불확실한 내일을 위한 유연성도 보장해야 한다. IT 하드웨어에 저장-전송-분석되는 디지털 데이터에 대응하기 위해서는 계층화된 스토리지 구조가 필요하다. 

데이터 용량 과제

생명과학 연구 분야는 방대한 IT 자원을 소비하고 있다. 데이터 생성에 드는 비용은 크게 감소한 반면, 인공지능의 사용 증가 및 우수한 분석 툴의 등장으로 데이터 분석은 이전보다 향상되고 있다.

과학적 발견의 속도가 가속화되면서 엄청난 가치가 만들어지고 있다. 그러나 발견 프로세스를 보완 및 지원하고, 손쉽게 용량을 확장할 수 있는 스토리지 인프라를 도입해 방대한 데이터 증가를 효과적으로 관리하는 문제가 대두됐다. 한 예로 호주 게놈 연구소(AGRF: Australian Genome Research Facility)는 최근 2년 반 동안 데이터가 3배나 증가해 어려움을 겪었다. 데이터 급증으로 새로운 데이터를 저장할 공간을 마련하기 위해 1년 미만의 데이터는 삭제해야 했기 때문이다. 새로운 데이터를 위한 공간을 위해 기존 데이터를 제거해야 것, 많은 연구 기관들이 이미 직면한 문제이거나 곧 만나게 될 현실이다.

계층화된 스토리지

이러한 과제를 해결하는 가장 좋은 방법은 발견 프로세스 또는 워크플로우를 통해 데이터를 추적해보는 것이다. 데이터는 다음과 같이 인입(Ingest), 분석(Analysis), 아카이브(Archive)의 3가지 기본 단계를 거친다.

▲ 데이터 처리 단계

위 그림은 과정을 단순화해 보여주는 것이다. 실제로는 데이터 인입 후 병렬 또는 순차 방식의 다양한 분석 프로세스로 데이터를 처리하는 장치가 여러 개일 수 있으며, 아카이브된 데이터는 추가 분석을 위해 다시 아카이브로 돌아가기도 한다.

각 워크플로우 단계마다 스토리지 요구사항이 다르기 때문에 계층화된 스토리지가 가장 이상적인 솔루션이라고 할 수 있다. 예를 들어 연구 팀에 신속한 액세스를 제공하면서 이벤트를 캡처 또는 생성하는 동안 유실 데이터가 없도록 하기 위해서는 데이터를 빠르게 수집하는 것이 중요하다. 데이터는 주로 인입을 위해 SSD로 직접 스트리밍 된다. 그리고 분석 작업은 고속 데이터 스트리밍을 지원하는 고성능 컴퓨팅(HPC) 시스템에서 주로 수행된다. 일반적으로 SSD와 성능 디스크를 결합해 워크로드에 적합한 성능과 용량을 제공하는 하이브리드 스토리지를 사용하기도 한다. 워크로드는 분석 시스템(HPC 및 분석 요구 사항)에 사용되는 시스템 수를 곱한 값에 따라 달라진다.

마지막으로 아카이브 시스템은 저비용으로 용이한 확장을 지원하며 대용량 스토리지를 제공하는 장기적인 저장소(리포지토리)이다. 이처럼 각 단계마다 스토리지 요구사항은 상이하다. 기업들은 아카이브 검색 빈도, 아카이브된 데이터 용량, 연구 팀의 위치에 따라 오브젝트 스토리지, 클라우드, 테이프를 각각 사용하거나, 이들을 조합하여 사용하기도 한다.

계층화된 스토리지 접근법을 통해 연구 팀은 전체 스토리지 비용을 줄이고, 더 탁월한 성과를 낼 수 있다. 일정 기간 동안 전체 데이터 중에서 일부 데이터만 활성화시키고 나머지 비활성 데이터는 저비용의 대용량 스토리지에 저장하는 것이 효율적인 방법이다.

데이터 관리

데이터 용량이 점차 커짐에 따라, 규모에 따라 구축과 관리가 용이한 데이터 관리 프로세스를 확보하는 것이 중요하다. 우수한 데이터 관리 계획에는 반드시 스토리지 계층 전반에서 자동화된 데이터 이동과 데이터 보존을 위한 자동화된 데이터 보호를 보장하는 방안이 포함돼야 한다. 아카이브 스토리지 및 액티브 스토리지에 있는 복사본과 함께 인입 직후 신속하게 복사본을 만드는 정책이 한 예가 될 수 있다. 복사본이 액티브 스토리지에서 제거되면 아카이브 스토리지 계층의 내구성(durability)에 따라 두 번째 아카이브 복사본을 만들 수도 있다.

데이터 액세스

과학자들이 데이터에 접근할 수 없다면 최상의 스토리지 및 데이터 관리 계획도 아무 의미가 없다. 어떤 운영 체제(Windows, Mac, Linux, UNIX)나 프로토콜(LAN, SAN, IP), 스토리지 위치(기본, 아카이브, 클라우드)든 상관없이 그들이 필요할 때 언제든 접근이 가능해야 한다. 필요할 때 액세스가 가능해야 할 뿐만 아니라, 오늘날의 연구는 공동 작업이 많기 때문에 공유 액세스도 지원해야 한다. 협업을 지원하는 병렬 워크플로우의 진정한 효율성을 실현하기 위해서는 연구자들이 동일한 파일에 동시에 접근할 수 있어야 한다.

이 같은 수준의 액세스를 제공하려면 다중 플랫폼 및 멀티-프로토콜 지원과 함께 지속적인 파일 디렉터리 구조가 필요하며, 관리 중인 모든 데이터에 대한 단일 파일 시스템이 필요하다. 이는 연구자들과 애플리케이션이 스토리지 위치와 상관없이 동일한 장소에서 파일을 검색하고 액세스할 수 있다는 것을 의미한다.

생명 과학 연구는 빠르게 변화하고 있다. 이에 IT 스토리지도 그 속도에 맞게 내일을 준비하는 것이 중요하다. 모놀리식(monolithic) 스토리지 사일로는 높은 하드웨어 비용과 관리 시간으로 인해 결국 한계를 드러낼 것이다. 정책 기반 데이터 관리와 더불어, 독립적으로 확장 가능한 성능을 지원하는 계층화된 스토리지 접근 방식이 요구되는 이유이다. 이 같은 접근 방식은 협업 워크플로우를 위한 공유된 데이터 액세스와 함께 반드시 도입돼야 한다.

점차 새로운 협업 방식과 새로운 기술이 소개되고 있다. 동적 연구 프로세스가 활발해지고 과학 발전의 병목 현상이 발생되지 않으려면 이 같은 변화를 유연하게 수용할 수 있는 스토리지 인프라가 필요하다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.