AI·빅데이터 시장 성장에 부각되는 HPC (2)
상태바
AI·빅데이터 시장 성장에 부각되는 HPC (2)
  • 윤현기 기자
  • 승인 2021.01.10 09:00
  • 댓글 0
이 기사를 공유합니다

인프라 확충·자본 지출 최소화 위한 클라우드 기반 HPC 서비스 확산

[데이터넷] HPC는 연산 문제를 풀기 위해 고성능 컴퓨터 자원을 네트워크로 연결해 하나의 슈퍼컴퓨터처럼 사용하는 것을 의미한다. 이를 위해서는 인프라 확충과 자본적 지출을 최소화하는 동시에 글로벌 진출, 조달 시간 단축과 같은 여러 노력 등이 요구된다.

최근 클라우드 HPC가 이를 가능하게 함은 물론, 단일 회사가 감당해야 할 책임을 분산시킨다는 점에서 기업의 디지털 혁신을 위한 유의미한 선택지로 떠오르고 있다. 특히 과거 회사 내 자산을 보유하고 이를 최적화하는 방식을 선택했던 연구개발 분야에서 클라우드 HPC를 활용해 제품이나 서비스 개발기간을 단축하고 글로벌 시장에서의 기업 경쟁력을 강화해 나가고 있는 선진 기업의 사례들도 주목할 만하다.

클라우드 HPC 분야에서는 리스케일이 두각을 드러내고 있다. 리스케일은 퍼블릭 클라우드의 최신 컴퓨팅 자원에 글로벌 CAE 소프트웨어를 쉽고, 빠르고, 안전하게 사용할 수 있는 플랫폼을 제공한다. SaaS(Software-as-a-Service), HPCaaS(HPC-as-a-Service)로서 별도의 시스템 구축 절차 없이 클라우드에 모든 환경이 구현된다.

단 몇 분 이내에 수천 코어의 클러스터 사용이 가능하며, 클라우드를 통해 무제한에 가까운 인프라를 이용할 수 있다. 특히 기존 HPC 환경과 하이브리드 클라우드 서비스 제공으로 투명한 운영이 가능하고, 변화에 민첩하게 대응할 수 있다는 것도 강점이다.

리스케일 플랫폼은 클라우드 라이선스와 하드웨어 인프라를 동시에 활용해 실시간에 가까운 병렬 해석을 제공함으로써 연구자의 대기시간과 해석시간을 단축해주며, GPU, CPU, FPGA 등 다양한 아키텍처를 유동적으로 지원해 유연한 연구 환경을 제공한다. 뿐만 아니라 자원 공유, 예산 편성 간소화, 소프트웨어 및 하드웨어 종류와 사용 시간을 모니터링함으로써 팀 또는 부서 간 협업도 돕는다.

국내 주요 고객으로는 현대일렉트릭, KISTI, 두산중공업, 삼성전자, 에이조스바이오, 현대기아자동차 등이 있다. 삼성전자와는 팹리스 업체들을 대상으로 반도체 설계 플랫폼 ‘SAFE-CDP(SAFE Cloud Design Platform)’를 출시했으며, 에이조스바이오는 리스케일 플랫폼상에서 효과적으로 성능을 발휘하는 빅데이터와 AI 기술 기반 신약 발굴 프로젝트를 운영할 예정이다.

한편, 리스케일은 포스트 코로나 시대를 대비해 국내 제조업체에 R&D를 위한 혁신적인 솔루션을 제공함으로써 글로벌 클라우드 HPC 입지를 더욱 굳건히 하고, HPC 활용이 일반적이었던 제조업 및 바이오산업에도 그 영향력을 넓혀나가고 있다.

클라우드 기반 혜택 확대
클라우드 후발 주자 오라클이 증가하는 기업의 고성능 컴퓨팅 수요를 충족하기 위한 기술 파트너십 기반의 HPC 컴퓨팅 로드맵을 발표하고, 시장 공략에 들어갔다. 회사 측은 이번 로드맵을 통해 기업 고객은 구축형(On-Premise)과 동일한 수준의 성능을 갖춘 HPC 컴퓨팅을 활용함과 동시에, 사용량에 따른 지불이 가능한 유연한 가격 정책과 시스템 확장성을 포함한 오라클 클라우드의 혜택도 전방위적으로 누릴 수 있게 됐다고 강조한다.

우선 오라클은 HPC 플랫폼 로드맵의 일환으로 내년 초부터 인텔 아이스레이크(Ice Lake) 프로세서를 기반으로 한 차세대 HPC 컴퓨팅 인스턴스를 제공할 계획이다. 이를 통해 충돌 시뮬레이션, CFD, EDA를 포함한 복잡한 워크로드의 성능이 기존 X7 HPC 인스턴스 대비 30% 향상될 것으로 예상된다.

베어메탈 서비스도 제공된다. 고객은 베어메탈 인스턴스에서 NVMe 스토리지와 균형 잡힌 코어 메모리 비율을 확보하고, RMDA 지원 클러스터 네트워크에서 인스턴스를 구축할 수 있다. 고성능 파일 시스템을 실행하는 대규모 분산 스토리지 클러스터를 기반으로 컴퓨팅을 지원할 수 있도록 뛰어난 확장성을 갖춘 파일 시스템 역시 제공할 방침이다.

오라클은 암페어와의 파트너십으로 ARM 기반 컴퓨팅도 OCI에 도입한다. 오라클의 ARM 기반 인스턴스는 다른 x86 컴퓨팅 인스턴스 대비 코어당 뛰어난 가격 대비 성능을 제공한다. 오라클 리눅스와 우분투를 포함한 다양한 리눅스 운영체제에서 3.3GHz 터보 주파수를 사용하는 코어를 최대 160개 탑재한 베어메탈 혹은 가상머신(VM)을 출시한다는 계획이다.

워크로드 특성 및 요구사항에 따라 다양한 범주의 코어 혹은 메모리 선택이 가능하며, 오라클 올웨이즈 프리(Always Free) 서비스는 퓨어 컴퓨팅 인스턴스 외에도 다른 인스턴스의 개발 및 테스트를 지원한다.

이 외에도 엔비디아, 알테어, 리스케일 등 여러 기업들과의 파트너십을 통해 고객들의 다양한 요구사항에도 대응할 수 있도록 한다는 방침이다.

분산된 컴퓨팅 자원을 하나로
최근의 빅데이터 환경에서 거대한 데이터를 처리하기 위해서는 분산 및 병렬처리 또는 슈퍼컴퓨터 등 고성능 인프라와 솔루션을 활용해야 하기 때문에 비용과 처리 속도, 데이터 수집량에 한계가 발생할 수밖에 없다.

기업은 점점 더 많은 양의 데이터를 처리, 분석해야 하는 어려움에 직면해 있으므로, IT 담당자는 매우 비싼 특수 컴퓨터를 구입해 규모를 확장하거나 표준 하드웨어의 클러스터에서 복잡한 분산 알고리즘으로 응용 프로그램을 다시 작성한 후 확장하는 두 가지 옵션에 직면할 수밖에 없다. 하나는 비용, 다른 하나는 시간문제다. 예산에 민감한 오늘날 어떠한 조직도 이 둘을 모두 받아들이기는 어렵다.

타이달스케일(TidalScale)은 이러한 문제를 해결하고자 스케일업 솔루션의 단순성과 성능에 가성비가 있으면서도 확장의 유연성을 지닌 ‘소프트웨어 정의 서버’를 제안한다.

기존 가상화는 각 물리적 서버의 자원을 여러 개의 OS에 배분해 사용하는 방식을 취한다. 이는 작은 애플리케이션과 데이터를 처리함에 있어 물리적인 자원 소모를 줄이고 효율성을 강화시키는 것이 목적이었다. 하지만 물리적 서버 1대에 대한 CPU와 메모리 등의 자원에 한정되므로 대규모 확장형 애플리케이션에는 오히려 미흡할 수밖에 없다. 타이달스케일은 이와는 완전히 반대되는 개념으로 여러 대의 물리적 서버 자원을 통합해 단일 OS로 운영할 수 있도록 한다.

타이달스케일의 핵심 기술인 하이퍼커널(Hyperkernel)은 역 하이퍼바이저(Inverse Hypervisor) 기술로, 여러 개의 OS가 하나의 서버에서 실행되던 기존의 가상화와는 반대로 소프트웨어 정의 서버가 CPU, 메모리, 스토리지, 네트워크 등 여러 노드의 모든 자원을 단일 시스템으로 통합될 수 있게 한다.

하이퍼커널은 하드웨어와 게스트 OS 사이에 위치하면서 특허 받은 ML을 통해 움직이는 가상 CPU와 메모리를 마이크로 초 단위로 최적화하고, 이를 완전히 새롭게 설계된 인터커넥션(Interconnection) 네트워크로 이동시키면서 점점 더 빨라지고 진화하는 것이 특징이다.

타이달스케일 소프트웨어 정의 서버 아키텍처
타이달스케일 소프트웨어 정의 서버 아키텍처

타이달스케일 솔루션은 OS와 상관없이 가상으로 여러 대의 상용 서버를 하나 또는 그 이상으로 통합할 수 있도록 지원함으로써 데이터센터의 유용 수명 및 가치 확장은 물론 사용자가 현재 사용되고 있는 방식보다 훨씬 손쉽게 서버 환경을 구현한다.

이를 통해 대규모 분석, 메모리 집약적 컴퓨팅, 컴퓨팅 집약적 워크로드 및 모델링을 수행하는데 있어 기업이 슈퍼컴퓨터급 시스템을 구축할 수 있도록 지원하며, 몇 주에서 많게는 몇 개월씩 걸렸던 HPC 시스템 구축 과정을 단 몇 분으로 줄여 온프레미스 및 클라우드상에서 구성 및 부팅할 수 있게 한다.

최근 타이달스케일은 한국전자통신연구원(ETRI)과 소프트웨어 정의 서버 기술 개발 협력을 위한 업무협약(MOU)을 체결하고, 데이터센터를 혁신할 기술을 개발해 소프트웨어 정의 서버 보급에 앞장선다는 방침이다.

국산 클라우드 기술 기업 이노그리드도 소프트웨어 정의 서버 ‘CA클라우드잇(Ctrl+A Cloudit)’을 선보인다.

이노그리드가 개발한 ‘CA클라우드잇’은 ▲소프트웨어 정의 서버 기반 고성능 컴퓨팅 파워를 제공하는 ‘슈퍼가상머신(Super-VM)’ ▲다양한 물리적 x86 서버들을 하나의 서버로 묶는 병렬서비스 제공 ▲CPU·GPU·메모리·스토리지 등 x86 서버의 다양한 자원을 하나의 단일 시스템처럼 클라우드로 제공하는 것이 특징으로, 전통적인 HPC 사업과는 차이가 있다는 것이 회사 측의 설명이다.

핵심기술은 클라우드 내 다수 물리서버 자원 통합을 역가상화를 통해 단일 가상화로 묶는 ‘하이퍼체인(Hyper chain)’ 기술이다. 기존 가상화 서비스의 반대 개념으로, 이노그리드는 창업 초기 HPC 사업을 위해 슈퍼컴 병렬화 및 최적화 사업과 그리드 기술 기반 CDN 사업을 통해 HPC 분야 기술을 내재화시켜 왔다.

갈수록 커지는 HPC 활용도
2020년 전 세계를 강타한 코로나 팬데믹으로 인해 전 지구촌이 비상에 걸렸다. 세계 각국은 코로나바이러스 확산 방지를 위해 적극 협력하는 한편, 치료제와 백신 개발을 위해 협력하고 있다. 이를 위해 다양한 컴퓨팅 자원이 동원되고 있으며, 슈퍼컴퓨터를 비롯한 HPC는 강력한 연산 성능을 앞세워 이에 기여하고 있다.

미국은 에너지부(DOE)에 1억2750만 달러를 투입해 코로나19 연구를 위한 슈퍼컴퓨터 민관 컨소시엄을 발족했으며, 유럽연합(EU)도 총 18개 기관이 참여하는 코로나 대응 슈퍼컴퓨팅 프로젝트(Exscalate4CoV)를 출범했다.

KISTI는 미국 백악관과 IBM이 주도하는 코로나19 HPC 컨소시엄에 가입, 슈퍼컴퓨터 ‘누리온’의 자원을 전 세계 연구자들에게 공유한다. 코로나19 HPC 컨소시엄은 슈퍼컴퓨팅 자원을 이용해 신종 코로나바이러스의 검출, 억제, 치료를 위한 효 과적은 방법 개발 가속화를 목표로 하고 있다. 컨소시엄에는 오크릿지 연구소, 아르곤 연구소와 같은 국립 연구소 외에도 IBM, 아마존, 구글 등 기업을 포함해 42개의 멤버가 참여 중이다. 영국, 스위스, 일본의 슈퍼컴퓨터 센터도 함께 한다.

코로나19 HPC 컨소시엄의 계산 자원은 600만개 이상의 CPU와 5만 개 이상의 GPU를 제공해 총 600페타플롭스 성능을 갖췄다. KISTI의 ‘누리온’은 25.7페타플롭스의 이론 성능을 보유하고 있다.

해당 컨소시엄은 지난 7월 기준으로 전 세계에서 73개 프로젝트를 선정해 연구하고 있으며, 그중 절반이 넘는 38개의 프로젝트가 치료제와 백신 개발을 목표로 하고 있다.

미국 코로나19 슈퍼컴퓨팅 컨소시엄(왼쪽)과 유럽연합 코로나19 극복 프로젝트 이미지(자료: KISTI)
미국 코로나19 슈퍼컴퓨팅 컨소시엄(왼쪽)과 유럽연합 코로나19 극복 프로젝트 이미지(자료: KISTI)

이처럼 HPC를 활용한 고성능 연산 필요성이 증대되자 우리나라 정부는 2020년부터 2023년까지 4년간 460억 원을 들여 슈퍼컴퓨터의 핵심인 CPU 개발에 나섰다. 슈퍼컴퓨터용 고성능·저전력 CPU 및 코어 설계 기술을 확보·운영하기 위한 소프트웨어 및 계산노드를 개발하고, 여러 대의 계산 노드를 연결해 클러스터 시스템 시제품을 개발한다는 방침이다.

CPU의 활용성을 극대화하기 위해서 개발 초기부터 하드웨어와 소프트웨어 기술을 함께 설계하고, 슈퍼컴퓨팅 응용 분야에 특화된 CPU를 설계할 수 있는 기술도 확보한다는 계획이다. 해당 사업을 통해 3년 후 슈퍼컴퓨터 CPU 시제품을 개발하고, 후속 연구를 연계해 슈퍼컴퓨터 CPU 기술개발을 완성하는 것이 목표다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.