엔비디아, 산업용 AI·HPC 가속화 위한 ‘HGX A100 시스템’ 공개
상태바
엔비디아, 산업용 AI·HPC 가속화 위한 ‘HGX A100 시스템’ 공개
  • 윤현기 기자
  • 승인 2021.06.29 16:42
  • 댓글 0
이 기사를 공유합니다

‘A100 80G PCIe’·‘NDR 400G 인피니밴드’·‘매그넘 IO’ 등 강화된 기능 제공
엔비디아 HGX AI 슈퍼컴퓨팅 플랫폼
엔비디아 HGX AI 슈퍼컴퓨팅 플랫폼

[데이터넷] 엔비디아(CEO 젠슨 황)는 엔비디아 HGX AI 슈퍼컴퓨팅 플랫폼에 AI와 고성능컴퓨팅(HPC)을 융합하는 새로운 기술을 추가하고, 다양한 산업분야에서 슈퍼 컴퓨팅이 더욱 유용하게 활용될 수 있도록 지원한다고 29일 밝혔다.

엔비디아는 새로운 산업용 AI·HPC 시대를 위해 HGX 플랫폼에 엔비디아 A100 80GB PCIe GPU, 엔비디아 NDR 400G 인피니밴드(InfiniBand) 네트워킹, 엔비디아 매그넘(Magnum) IO GPU다이렉트(GPUDirect) 스토리지 소프트웨어 등 3가지 핵심 기술을 추가했다. 이를 통해 산업분야에서 HPC 혁신을 가능하게 하는 궁극의 성능을 제공한다.

아토스(Atos), 델 테크놀로지스(Dell Technologies), HPE, 레노버(Lenovo), 마이크로소프트 애저(Microsoft Azure)와 넷앱(NetApp) 등을 포함한 수십 여 파트너사들은 차세대 시스템 및 솔루션에 엔비디아 HGX 플랫폼을 사용하고 있다.

AI·HPC용 엔비디아 A100 80GB PCIe 성능 향상
엔비디아 A100 텐서(Tensor) 코어 GPU는 산업용 HPC와 관련된 복잡한 AI, 데이터 애널리틱스, 모델 교육 및 시뮬레이션 과제를 위한 전례 없는 HPC 가속화 성능을 제공한다. A100 80GB PCIe GPU는 A100 40GB에 비해 GPU 메모리 대역폭을 25% 증가시켜 초당 2TB로 높이고, 80GB의 HBM2e 고대역폭 메모리를 제공한다.

A100 80GB PCIe의 방대한 메모리 용량과 높은 메모리 대역폭은 더 많은 데이터와 더 방대한 신경망을 메모리에 저장할 수 있게 해줘 노드 간 통신 및 에너지 소비를 최소화할 수 있다. 더 빠른 메모리 대역폭과 함께, 연구자들은 더 높은 처리량과 더 빠른 결과를 통해 IT 투자 가치를 극대화할 수 있다.

A100 80GB PCIe는 AI 추론과 같은 소규모 워크로드에 대한 가속화를 제공하는 멀티 인스턴스 GPU(MIG)를 탑재한 엔비디아 암페어(Ampere) 아키텍처로 구동된다. HPC 시스템은 MIG를 통해 서비스 품질을 보장하면서도 컴퓨팅 및 메모리 규모를 줄일 수 있다. PCIe 외에도 4웨이, 8웨이 엔비디아 HGX A100 구성이 가능하다.

A100 80GB PCIe에 대한 엔비디아의 파트너 지원에는 아토스, 시스코(Cisco), 델 테크놀로지스, 후지쯔(Fujitsu), H3C, HPE, 인스퍼(Inspur), 레노버, 펭귄컴퓨팅(Penguin Computing), QCT 및 슈퍼마이크로(Supermicro)가 포함된다. NV링크(NVLink)를 통해 상호 연결된 A100 기반 GPU를 탑재한 HGX 플랫폼은 아마존웹서비스(AWS), 구글 클라우드(Google Cloud), 마이크로소프트 애저 및 오라클 클라우드 인프라스트럭쳐(OCI)의 클라우드 서비스를 통해서도 사용할 수 있다.

차세대 NDR 400Gb/s 인피니밴드 스위치 시스템
탁월한 데이터 처리량이 요구되는 HPC 시스템에는 전세계 유일의 완전 오프로드 가능한 인네트워크 컴퓨팅 인터커넥트인 엔비디아 인피니밴드가 적용된다. NDR 인피니밴드는 확장된 성능으로 산업 및 과학 분야 HPC 시스템의 대규모 문제를 해결한다.

엔비디아 퀀텀-2(Quantum-2) 고정 구성 스위치 시스템은 포트당 64개의 NDR 400Gb/s 인피니밴드 포트(또는 128개 NDR200 포트)를 제공하여 HDR 인피니밴드 대비 포트 집적도가 3배 더 높다.

엔비디아 퀀텀-2 모듈식 스위치는 최대 2048개의 NDR 400Gb/s 인피니밴드 포트(또는 4096개의 NDR200 포트)의 확장 가능한 포트 구성을 제공하며, 총 양방향 처리량은 초당 1.64페타바이트(PB)로 이전 세대 대비 5배 높다. 2048개의 포트 스위치는 드래곤플라이+(DragonFly+) 네트워크 토폴로지를 사용해 단 3개의 홉으로 100만 개 이상의 노드를 연결할 수 있어, 이전 세대보다 6.5배 향상된 확장성을 제공한다.

3세대 엔비디아 샤프(SHARP) 인네트워크 컴퓨팅 데이터 축소 기술은 이전 세대 대비 32배 높은 AI 가속화 성능으로 고성능 산업 및 과학 애플리케이션의 성능을 향상시킨다.

고급 관리 기능에는 자가 복구 네트워크 기능 및 엔비디아 인네트워크 컴퓨팅 가속화 엔진이 포함된다. 엔비디아 UFM 사이버-AI(Cyber-AI) 플랫폼을 통해 데이터센터 다운타임을 더욱 최소화할 수 있다. 업계 표준에 기반한 엔비디아 퀀텀-2 스위치는 연말까지 샘플링이 가능할 것으로 예상되며 상위 및 하위 버전과 호환되므로 기존 시스템과 소프트웨어를 손쉽게 마이그레이션하고 확장할 수 있다.

아토스, DDN, 델 테크놀로지스, 엑셀레로(Excelero), 기가바이트(GIGABYTE), HPE, 레노버, 펭귄컴퓨팅, QCT, 슈퍼마이크로, VAST 및 WekaIO를 비롯한 업계 최고의 인프라 제조업체들은 퀀텀-2 NDR 400Gb/s 인피니밴드 스위치를 엔터프라이즈 및 HPC 오퍼링에 통합할 계획이다. 애저(Azure)를 비롯한 클라우드 서비스 공급업체들도 인피니밴드 기술을 활용하고 있다.

매그넘 IO GPU다이렉트 스토리지
복잡한 워크로드에 독보적인 성능을 제공하는 매그넘 IO GPU다이렉트 스토리지는 GPU 메모리와 스토리지 간의 직접 메모리 액세스를 가능하게 한다. 이는 애플리케이션이 IO 지연시간을 단축하고 네트워크 어댑터의 전체 대역폭을 사용하는 동시에 CPU 사용 부하를 줄이고 데이터 사용량 증가에 따른 영향을 관리할 수 있게 해준다.

DDN, 델 테크놀로지스, 엑셀레로, HPE, IBM 스토리지, 마이크론(Micron), 넷앱, 파빌리온(Pavilion), 스케일플럭스(ScaleFlux), VAST와 WekaIO를 포함한 업계 선도기업들이 현재 이용 가능한 매그넘 IO GPU다이렉트스토리지를 지원한다.

젠슨 황(Jensen Huang) 엔비디아 창립자 겸 CEO는 “학계에서 시작된 HPC 혁신은 다양한 산업으로 빠르게 확대되고 있다. 이른바 ‘슈퍼’ 무어의 법칙에 따라 HPC가 기하급수적으로 발전되면서 산업분야에서 유용하게 활용되고 있다. 엔비디아의 HGX 플랫폼은 연구자들이 업계에서 직면하고 있는 가장 어려운 문제를 해결할 수 있는 탁월한 HPC 성능을 제공한다”고 말했다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.