엔비디아 ‘A100 GPU’, 전세계 슈퍼컴퓨터 센터 도입 확산

[데이터넷] AI 컴퓨팅 기술 선두주자 엔비디아는 전 세계 슈퍼컴퓨터 센터 6곳이 지난 14일 공식 발표한 암페어(Ampere) 아키텍처를 기반으로 설계된 A100 GPU가 도입됐다고 밝혔다.

미국과 독일에 위치한 슈퍼컴퓨터 센터들은 약 1만3000개의 A100 GPU를 사용해 천체 물리학에서 바이러스 미생물학에 이르는 다양한 분야에서 엑사스케일 시대를 열 예정이다.

A100 GPU는 64비트 부동소수점 연산을 사용하는 시뮬레이션을 위해 최대 250페타플롭(PF) 이상의 성능을 제공한다. 이는 혼합정밀수학을 사용하고 희소성 지원을 위해 A100 GPU를 사용하는 인공지능(AI) 추론 작업에는 8.07 엑사플롭스급의 성능을 제공한다.

연구원들은 이러한 컴퓨팅 성능을 통해 과학을 다각도로 발전시키고, 더 방대한 모델을 시뮬레이션하고, 고도화된 딥 네트워크를 훈련·배포하며, AI 지원 시뮬레이션이라는 새로운 하이브리드 분야를 주도할 수 있게 됐다.

일례로, 미국 아르곤 국립 연구소(Argonne National Laboratory)의 연구원들은 150만 개의 원자로 구성된 코로나 바이러스 표면에 있는 단백질 스파크의 핵심 부위를 시뮬레이션하며 코로나19 백신을 개발하고 있다. 아르곤 국립 연구소는 이를 위해 24개의 엔비디아 DGX A100 시스템 클러스터를 활용할 예정이다.

미국 에너지부 버클리 국립 연구소의 국립에너지연구소 과학컴퓨팅센터(NERSC)는 프리-엑사스케일 슈퍼컴퓨터인 펄머터(Perlmutter)에 6200개의 GPU 구축을 위해 HPE와 협력하고 있다.

NERSC 디렉터 스도프 도산지(Sudip Dosanjh)는 “NERSC의 과학 및 알고리즘 분야에서 현재 사용중인 코리 시스템의 KNL CPU 노드를 V100 GPU 한 개로 대체했을 때 성능이 최대 5배 빨라졌다. 슈퍼컴퓨터 펄머터에 A100를 탑재할 경우 성능이 훨씬 향상될 것으로 기대된다”고 전했다.

NERSC의 엑사스케일 컴퓨팅 전담팀은 대규모 시뮬레이션, 데이터 애널리틱스, 딥러닝을 활용하는 약 30개의 펄머터 프로젝트를 계획하고 있다. 이 중에는 강화 학습을 통해 광원 실험을 제어하는 프로젝트 등 HPC와 AI를 결합해 사용하는 프로젝트와 고에너지 물리 탐지기에서 많은 비용이 드는 시뮬레이션을 재현하기 위해 생성 모델을 사용하는 프로젝트도 있다.

이미 A100 GPU의 배정밀도 텐서 코어(Tensor Cores)를 탑재해 NERSC의 HPC 애플리케이션 중 두 개의 프로토타입이 제작됐으며, 이는 이전 세대 볼타(Volta) GPU 대비 성능이 대폭 개선됐다.

NERSC 수석 아키텍트 니콜라스 라이트(Nicholas Wright)는 “펄머터 슈퍼컴퓨터에는 MPI, 오픈MP, 오픈ACC, 쿠다, 최적화된 수학 라이브러리 등 사용자가 요구하고 기대하는 모든 프로그래밍 모델을 지원하는 컴파일러가 필요하다. 엔비디아 HPC SDK는 이 모든 조건을 충족한다”고 설명했다.

A100은 프랑스 슈퍼컴퓨터 제조기업 아토스(Atos)가 제작한 독일 율리히(Jülich) 슈퍼컴퓨팅 센터의 새로운 70PF 시스템에 탑재돼 AI 프로젝트에 집중 사용될 예정이다. 그 중 비교적으로 느린 대규모 대기 시뮬레이션을 사용하는 기존 시스템을 보완하면서 단기간에 빠른 기상 예측을 제공하는 것을 목표로 하는 딥 레인(Deep Rain) 프로젝트에 도입된다.

이 외에도 수천 개의 고해상도 2D 뇌 이미지를 딥 러닝으로 조합해 인간 두뇌의 섬유 지도를 구축하는 프로젝트에도 활용될 예정이다. 또한 율리히 센터가 도입한 새로운 A100 시스템은 물질을 구성하는 아원자 단위 쿼크(quark)의 응집력을 연구하고, 기후 과학 프로젝트를 통해 지표면과 지하수 흐름을 모델링하는데 기여하게 된다.

카를스루에 공과대학(KIT)은 엔비디아 멜라녹스 200Gb 인피니밴드 네트워크에 740개의 A100 GPU를 탑재한 새로운 17페타플롭급 시스템을 구축하기 위해 레노버와 파트너십을 맺었다. KIT는 이 시스템을 통해 기후 과학 목적의 킬로미터 단위의 대기 시뮬레이션 등과 같은 여러 난제에 대응할 예정이다.

KIT 슈퍼컴퓨팅 센터장 마틴 프랭크(Martin Frank)는 “KIT에서는 데이터 집약적 시뮬레이션과 AI 워크플로우를 집중적으로 연구하고 있다. 따라서 새로운 GPU를 상호 연결하는 3세대 NV링크(NVLink)를 활용하고 있다. 또한 노드 당 4개 GPU가 아닌 최대 28개 GPU를 효과적으로 제공하는 멀티-인스턴스 GPU 기능에 대한 기대가 크다”고 말했다.

뮌헨 근방에 위치한 막스 플랑크 연구소(Max Planck Institute) 컴퓨터센터는 레노버와 합작해 768개의 엔비디아 A100 GPU로 구동되는 레이븐-GPU라는 슈퍼컴퓨터 시스템을 구축하고 있다. 레이븐-GPU는 천체 물리학, 생물학, 이론 화학, 고급 재료학과 같은 분야에 사용된다. 막스 플랑크 연구소는 연말까지 레이븐-GPU를 설치하는 것을 목표로 하고 있으며 현재 A100에 최적화된 애플리케이션 지원 요청을 받고 있다.

미국 인디애나대학교는 6페타플롭급의 슈퍼컴퓨터 빅 레드 200을 구축하고 있다. 256개의 A100 GPU가 탑재되는 빅 레드 200이 완성되면 인대애나대학은 미국에서 가장 빠른 슈퍼 컴퓨터를 보유하게 된다.

빅레드 200 슈퍼컴퓨터는 AI를 활용해 사이버 보안 위협에 대처할 뿐 아니라, 유전학 분야의 난제를 해결하는데 기여해 개인 맞춤형 진료를 지원하고, 나아가 기후 모델링, 물리학, 천문학 연구에 기여할 전망이다.

강석오 기자 다른기사 보기