“AI·빅데이터 분석, 고성능 대용량 병렬파일시스템 갖춰야”
상태바
“AI·빅데이터 분석, 고성능 대용량 병렬파일시스템 갖춰야”
  • 윤현기 기자
  • 승인 2021.09.14 20:41
  • 댓글 0
이 기사를 공유합니다

코오롱베니트·한국IBM, 성능 한계 없이 확장 가능한 ‘IBM ESS 3200’ 제안
슈퍼컴퓨터에 적용된 ‘스펙트럼 스케일’ 채택…시스템 성능·안정성 검증 완료

[데이터넷] “디지털 트랜스포메이션 시대를 맞아 인공지능(AI)·빅데이터 분석 역량이 중요해지고 있는 가운데 많은 양의 데이터를 빠르게 저장하고 분석하기 위해서는 일반적인 스토리지 시스템이 아닌 고성능 병렬파일시스템이 필요하다.”

이상호 한국IBM 차장은 14일 데이터넷TV가 개최한 ‘제9회 SDDC 인사이트 2021 온라인 세미나’에서 ‘AI·빅데이터에 특화된 스토리지 전략: 고성능 병렬 파일시스템 어플라이언스’ 주제 발표를 통해 이같이 밝혔다.

현재 전 세계적으로 초당 113테라바이트(TB)의 인터넷 트래픽이 발생하고, 3만 건 이상의 이메일이 발송되고 있으며, 구글에서 검색되는 데이터의 양은 약 9만여 건에 이른다. 또 유튜브 시청도 약 8만8000여 건, 트위터 전송도 9300여 건 이상이 이뤄지고 있다.

이처럼 데이터의 양이 늘어나고, 데이터의 사회·경제적 가치가 커지면서 기업들은 새로운 산업 생태계를 구성하는데 여념이 없는 상황이다.

이상호 차장은 “이제 분석되고 가공된 데이터가 기업 가치와 성장을 주도하고 있다”며 “데이터가 신생 자원으로 인식되면서 가치 있는 데이터를 더 많이 수집하고 보유한 데이터 분석 역량을 고도화해 비즈니스에 활용하려는 노력은 여러 산업 분야에서 활발히 이어지고 있다”고 설명했다.

고속·대용량 스토리지 시스템 중요성 증대
저장하고 분석해야 할 데이터의 종류가 늘어나고 양도 커지면서 이에 대응하기 위한 대용량 스토리지 및 파일시스템의 필요성이 높아지고 있다. 특히 비정형 데이터가 증가하면서 NFS·JFS·CIFS와 같이 OS 기반의 일반적인 파일시스템뿐만 아니라 데이터 병렬처리가 가능하도록 최적화된 파일시스템을 구성해야 한다는 것이 이 차장이 설명이다.

아울러 파일시스템 데이터를 빠르게 읽고 쓸 수 있는 성능도 뒷받침될 필요가 있다. 즉 데이터 IO에 의존적인 애플리케이션을 위해 빠른 성능의 지속적인 향상 필요성이 커짐에 따라 성능 지속성과 선형적인 향상이 이뤄져야 한다는 것. 스토리지 어플라이언스의 스케일아웃 확장을 통해 성능 한계 없이 선형적인 향상을 강조했다.

이상호 차장은 “‘IBM 엘라스틱 스토리지 시스템(ESS) 3200’은 이처럼 빅데이터 분석이 필요한 요건을 충족하는 최적의 스토리지 어플라이언스”라며 “2U 모델 단일 어플라이언스 기준 읽기(Read) 성능이 80GB/s에 달할 만큼 업계 최고 수준의 성능을 제공한다”고 말했다.

‘IBM ESS 3200’은 NVMe 미디어가 탑재되며, 컨트롤러에는 세계 톱 슈퍼컴퓨터에 적용돼 성능과 안정성 검증을 마친 레드햇 기반 IBM 스펙트럼 스케일이 설치돼 고성능 병렬파일시스템을 제공한다. 소프트웨어 정의 스토리지(SDS)로서 스토리지 구성 및 업그레이드와 관리 등이 쉽고 간소화됐으며, GPU 분석 환경에도 최적화됐다.

‘IBM ESS 3200’에는 최신 하드웨어 컴포넌트 기술들이 대거 적용됐다. 최신 AMD 에픽(EPYC) CPU가 장착된 컨트롤러에 PCIe Gen4 기반 고대역폭 네트워크 어댑터인 200기가비트 HDR 인피티밴드 어댑터 4장이 탑재돼 2U 기준 최대 24장의 NVMe 미디어를 통해 최대 80GB/s의 읽기 성능을 제공한다. 사용 가능한 스토리지 용량은 약 200TB다.

이상호 한국IBM 차장이 ‘IBM ESS 3200’이 AI·빅데이터 환경에 적합한 스토리지 요건을 갖췄음을 설명하고 있다.
이상호 한국IBM 차장은 ‘IBM ESS 3200’이 AI·빅데이터 환경에 적합한 스토리지 요건을 갖췄다고 설명했다.

무한 확장성·데이터 계층화 적용
‘IBM ESS 3200’에는 AI·빅데이터 분석 환경에 특화된 스토리지 요소들이 적용됐다.

첫 번째는 빅데이터를 위한 파일시스템 무한 확장성이다. ‘IBM ESS 3200’은 전통적인 공유파일시스템의 구조적인 한계를 극복하고 무한히 파일시스템 확장이 가능하다.

스케일아웃된 성능 역시 선형적으로 증가한다. 산술적으로 일반적인 표준 랙에 약 20대의 ‘IBM ESS 3200’ 스토리지를 장착할 수 있으며, 약 7.3PB의 파일시스템 공간과 1.6TB/s의 성능을 제공할 수 있다.

두 번째는 다양한 애플리케이션 호환성이다. AI 환경에서 필요로 하는 데이터 분석용 애플리케이션과의 호환성을 위해 NFS·SMB·HDFS·S3 등 다양한 프로토콜을 지원하며, 마이크로서비스 아키텍처를 위한 컨테이너 환경도 CSI 드라이버를 통해 지원한다.

여러 스토리지 인프라를 싱글네임 스페이스로 구성, 인프라 관리 효율성도 높였으며, 하나로 통합 구성된 인프라 간 데이터 이동은 사용자 개입 없이 자동으로 이뤄진다.

세 번째는 데이터의 효율적은 계층화 적용이다. AI·빅데이터 환경의 데이터는 바이트 단위의 작은 파일부터 수십 기가바이트 단위의 큰 파일까지, 보관 주기가 짧거나 장기로 보관해야 하는 데이터까지 다양하다.

‘IBM ESS 3200’은 정책 기반으로 스토리지에 저장되는 데이터를 자동으로 고성능 스토리지에서 저성능 스토리지로, 혹은 장기보관용 테이프 라이브러리로 이동시킬 수 있다. 데이터 용도에 따른 적절한 스토리지 계층을 할당해 빅데이터 인프라 구축 시 비용 절감 효과도 제공한다.

빠른 IO 확보로 시스템 활용성 높여
네 번째는 액티브 파일 관리 기술로 역시 스토리지 인프라 구축 시 비용 절감 효과를 얻을 수 있다. 일반적으로 여러 위치에 구축된 스토리지 간 홈과 캐시 역할로 구분해 데이터를 서로 복제할 수 있어 각 위치에 데이터를 분산 백업하거나 온라인 마이그레이션 시 사용할 수 있다.

다섯 번째는 CPU 활용 극대화다. 최근 데이터를 빠르게 분석하고 가공하기 위해 고성능 GPU를 사용하는 추세가 늘고 있다. 이때 GPU 다이렉트 스토리지(GDS) 기술을 활용하면 시스템 메모리와 CPU 사이의 IO 병목 현상을 최소화해 더 빠른 데이터 분석 결과물을 얻을 수 있다.

‘IBM ESS 3200’은 GDS 기술을 지원해 빠른 IO 레이턴시를 확보할 수 있고, CPU 활용률도 높일 수 있어 빅데이터 처리에 더 많은 컴퓨팅 자원을 활용할 수 있도록 돕는다.

이 외에도 ▲스펙트럼 스케일 기반 빠른 데이터 리빌딩 ▲스펙트럼 스케일 소프트웨어 기반 스냅샷 ▲초고속 메타데이터 스캔 ▲데이터 압축 ▲스펙트럼 스케일 기반 무중단 데이터 마이그레이션 ▲아카이브 솔루션과의 연계 ▲웹 기반 다양한 모니터링 기능 등을 제공한다.

현재 IBM ESS 스토리지는 아프리카TV, GC녹십자지놈, 성균관대학교 등에 도입됐다.

이상호 차장은 “‘IBM ESS 3200’은 이처럼 다양한 특징들과 기능들을 바탕으로 AI·빅데이터 환경을 위한 최고 성능을 제공하는 스토리지”라며 “이를 통해 기업들의 비즈니스 가치 창출 시간을 획기적으로 줄일 수 있다”고 밝혔다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.