엔비디아, 블랙웰 플랫폼·DGX 슈퍼팟 출시

블랙웰, NV링크와 복원력 기술로 조 단위 매개변수 규모 AI 모델 구현
새로운 텐서 코어, 텐서RT-LLM 컴파일러 통해 LLM 추론 비용과 에너지 최대 25배 절감
DGX 슈퍼팟, 수조개의 파라미터 모델 처리... 국가 자체 AI 생성 지원

[데이터넷] 엔비디아가 블랙웰(Blackwell) 플랫폼을 출시한다고 19일 발표했다. 이는 모든 기업이 이전 세대 대비 최대 25배 적은 비용과 에너지로 조 단위의 대규모 언어 모델(LLM)에서 실시간 생성형 AI를 구축하고 실행할 수 있도록 지원한다.

데이터 처리, 엔지니어링 시뮬레이션, 전자 설계 자동화, 컴퓨터 지원 신약 설계, 양자 컴퓨팅, 생성형 AI 등은 엔비디아의 새로운 산업 기회로 떠오르고 있다. 블랙웰 GPU 아키텍처는 이러한 분야에서 획기적인 발전을 이룰 수 있는 가속 컴퓨팅을 위한 6가지 기술을 갖추고 있다.

젠슨 황(Jensen Huang) 엔비디아 CEO는 “엔비디아는 지난 30년 동안 딥 러닝, AI와 같은 혁신을 실현하기 위해 가속 컴퓨팅을 추구해 왔다. 생성형 AI는 우리 시대를 정의하는 기술이다. 블랙웰 GPU는 이 새로운 산업 혁명을 구동하는 엔진이다. 세계에서 가장 역동적인 기업들과 협력해 모든 산업에서 AI의 가능성을 실현할 것“이라고 말했다.

아마존, 델 테크놀로지스, 구글, 메타, 마이크로소프트, 오픈AI, 오라클, 테슬라 등 많은 기업이 블랙웰을 도입할 계획이다.

순다르 피차이(Sundar Pichai) 구글 CEO는 “블랙웰 GPU의 획기적인 기능을 클라우드 고객과 구글 딥마인드를 비롯한 구글의 모든 팀에 제공해 미래를 위한 발견을 앞당길 수 있기를 기대한다“고 말했다.

블랙웰은 게임 이론과 통계학을 전공한 수학자이자 흑인으로는 최초로 미국국립과학원(National Academy of Sciences)에 입회한 데이비드 헤롤드 블랙웰(David Harold Blackwell)을 기리기 위해 붙여진 이름이다. 이 새로운 아키텍처는 2년 전 출시된 엔비디아 호퍼(Hopper) 아키텍처의 후속 기술이다.

가속 컴퓨팅과 생성형 AI 촉진

최대 10조 개의 파라미터로 확장되는 모델에 대한 AI 훈련과 실시간 LLM 추론을 지원하는 블랙웰의 6가지 기술은 다음과 같다.

강력한 칩: 블랙웰 아키텍처 GPU는 2,080억 개의 트랜지스터를 탑재했다. GPU 다이가 초당 10테라바이트(TB)의 칩 투 칩(chip-to-chip) 링크로 연결된 단일 통합 GPU로 맞춤형 2레티클 제한 4NP TSMC 공정을 통해 제조된다.

2세대 트랜스포머 엔진: 블랙웰은 새로운 마이크로 텐서 확장 지원과 엔비디아 텐서RT-LLM(TensorRT-LLM), 네모 메가트론(NeMo Megatron) 프레임워크에 통합된 엔비디아의 고급 동적 범위 관리 알고리즘에 기반한다. 이를 통해 새로운 4비트 부동 소수점 AI 추론 기능으로 컴퓨팅과 모델 크기를 두 배로 늘릴 예정이다.

5세대 NV링크(NVLink): 수조 개의 파라미터와 여러 전문 AI 모델 조합의 성능을 가속화하기 위해 최신 버전의 엔비디아 NV링크는 GPU당 획기적인 초당 1.8테라바이트의 양방향 처리량을 제공한다. 이는 오늘날 가장 복잡한 LLM을 위한 최대 576개의 GPU 간의 원활한 고속 통신을 보장한다.

RAS 엔진: 블랙웰 기반 GPU에는 안정성, 가용성, 서비스 가능성을 위한 전용 엔진이 포함된다. 또한 블랙웰 아키텍처는 칩 수준에서 AI 기반 예방적 유지보수 기능을 활용해 진단을 실행하고 안정성 문제를 예측하는 기능을 추가한다. 이를 통해 시스템 가동 시간을 극대화하고 복원력을 개선해 대규모 AI 배포를 몇 주 또는 몇 달 동안 중단 없이 한 번에 실행하고 운영 비용을 절감할 수 있다.

보안 AI: 고급 기밀 컴퓨팅 기능은 의료와 금융 서비스와 같이 개인정보 보호에 민감한 산업에 필수적인 새로운 기본 인터페이스 암호화 프로토콜을 지원한다. 이는 성능 저하 없이 AI 모델과 고객 데이터를 보호한다.

압축해제 엔진: 최신 형식을 지원하는 전용 압축해제 엔진은 데이터베이스 쿼리를 가속화해 데이터 분석과 데이터 과학에서 최고의 성능을 제공한다. 앞으로 기업들이 매년 수백억 달러를 지출할 것으로 예상되는 데이터 처리는 GPU를 통해 점점 더 가속화될 것이다.

대규모 생성형 AI 슈퍼컴퓨팅 위한 블랙웰 기반 DGX 슈퍼팟 출시

엔비디아는 차세대 AI 슈퍼컴퓨터인 앤비디아 GB200 블랙웰 슈퍼칩 기반의 앤비디아 DGX 슈퍼팟을 발표했다. 이는 초대형 생성형 AI 훈련과 추론 작업을 위해 일정한 가동 시간 동안 수조 개의 파라미터 모델을 처리한다.

새로운 DGX 슈퍼팟은 새로운 고효율 수냉식 랙 스케일 아키텍처를 특징으로 하며 엔비디아 DGX GB200 시스템으로 구축됐다. FP4 정밀도에서 11.5 엑사플롭(exaflops)의 AI 슈퍼컴퓨팅과 240테라바이트의 고속 메모리를 제공하며 랙을 추가하면 추가 확장이 가능하다.

각 DGX GB200 시스템에는 36개의 엔비디아 그레이스 CPU(Grace CPU)와 72개의 엔비디아 블랙웰 GPU를 포함하는 36개의 엔비디아 GB200 슈퍼칩이 5세대 엔비디아 NV링크(NVLink)를 통해 하나의 슈퍼컴퓨터처럼 연결된다. GB200 슈퍼칩은 대규모 언어 모델(LLM) 추론 작업을 위한 엔비디아 H100 텐서 코어(H100 Tensor Core) GPU에 비해 최대 30배 향상된 성능을 제공한다.

젠슨 황은 “엔비디아 DGX AI 슈퍼컴퓨터는 AI 산업 혁명의 공장이다. 새로운 DGX 슈퍼팟은 엔비디아 가속 컴퓨팅, 네트워킹, 소프트웨어의 최신 기술을 결합해 모든 기업과 산업, 국가가 자체 AI를 개선하고 생성하도록 지원한다“고 말했다.

그레이스 블랙웰 기반 DGX 슈퍼팟은 8대 이상의 DGX GB200 시스템을 갖추고 있다. 또 엔비디아 퀀텀 인피니밴드를 통해 연결된 수만 개의 GB200 슈퍼칩으로 확장할 수 있다. 고객들은 8개의 DGX GB200 시스템에 있는 576개의 블랙웰 GPU를 NV링크로 연결해 차세대 AI모델에 필요한 대규모 공유 메모리 공간을 구성할 수 있다.

위아람 기자 다른기사 보기