[AI 컴퓨팅 산업 동향 ①] 병렬처리 GPU·스토리지에 관심 집중

고성능 GPU·데이터 저장소 기반 컴퓨팅 환경 구축 확산세

[데이터넷] 세계 각국에서 생성형 인공지능(AI) 열풍이 거세다. 수많은 기업이 AI 기반 데이터 분석, 가공, 제공과 이를 기반으로 하는 업무 혁신에 나서고 있다. 이를 위해 GPU를 기반으로 하는 고성능 컴퓨팅(HPC) 수요가 지속적으로 증가하는 상황이다. 아울러 AI 컴퓨팅 확산에 따라 데이터 양이 폭증하고 있다. 이에 AI 분석의 정확성을 높이고 빠른 인사이트 확보를 위해 데이터 수집과 관리가 더욱 중요해지면서 고성능 데이터 저장소의 도입도 활발해지고 있다. <편집자>

오픈AI의 챗GPT(ChatGPT)를 비롯해 생성형 AI가 전 세계 산업의 변화를 일으키고 있다.

가트너가 글로벌 기업 임원 2544명을 대상으로 설문조사를 실시한 결과, 경영진의 45%가 챗GPT가 AI 투자를 늘리도록 자극했으며, 생성형 AI의 주요 투자 목적으로 ‘고객 경험, 매출 성장, 비용 최적화’를 꼽았다. 경영진의 70%가 현재 생성형 AI에 대해 탐색 단계에 있고, 19%는 파일럿 또는 프로덕션 모드에 있다고 답했다.

생성형 AI의 열풍은 한국도 예외가 아니다.

파수의 ‘기업 및 기관의 생성형 인공지능(AI) 활용 현황’ 설문조사에 따르면 국내 기업, 기관의 절반 이상이 생성형 AI 기술을 활용할 예정인 것으로 나타났다. 국내 기업·기관 보안, IT 담당자 1012명이 참여한 이번 설문조사에서 생성형 AI 기술을 ‘추후에 활용할 예정’이라고 답한 응답자가 58%로 절반을 넘었다. 현재 이미 적극 활용하고 있다는 응답은 18.6%를 기록했다. 생성형 AI 기술을 활용해 가장 도움이 될 것이라고 기대되는 영역은 ‘업무 프로세스 간소화’와 ‘문서 데이터 분석’으로 나타났다.

생성형 AI와 AI 반도체의 동반성장

가트너의 AI 반도체 시장 전망에 따르면, AI 칩은 2023년에 전년 대비 20.9% 증가한 534억달러(약 70조6807억원) 규모의 매출 기회를 창출할 것으로 예측된다.

생성형 AI의 발전과 데이터 센터, 엣지 인프라, 엔드포인트 디바이스에서의 광범위한 AI 기반 애플리케이션 사용 증가에 따라, 고성능 그래픽 처리 장치(GPU)와 최적화된 반도체 디바이스를 활용한 컴퓨팅 환경 구축이 필수가 됐다. 이 같은 시장 흐름이 AI 칩의 생산과 배포를 주도하는 주요한 원동력이 되고 있다.

AI 반도체 매출은 전망 범위에 해당하는 기간 동안 계속해서 두 자릿수 성장률을 유지하며 2024년에는 25.6% 증가한 671억달러(약 88조8135억원)에 이를 것으로 기대된다. 2027년에는 2023년 시장 규모의 두 배가 넘는 1194억달러(약 157조8563억원)에 이를 것으로 예상된다.

기업에서 AI 기반 워크로드가 널리 사용됨에 따라 더 많은 산업군과 IT 기업에서 AI 칩이 포함된 시스템을 배포할 것으로 예측된다. 가트너는 소비자 가전 시장의 경우 디바이스에 사용되는 AI 지원 애플리케이션 프로세스의 가치가 2022년 5억8000만달러(약 7665억원)에서 2023년 말 12억달러(약 1조5858억원)로 상승할 것으로 보고 있다.

또한 AI 기반 워크로드의 비용 효율적인 실행을 지원하기 위해 효율적이고 최적화된 설계의 필요성이 대두되고 있으며 이에 따른 맞춤형 설계 AI 칩 배포가 증가할 것이다.

많은 조직에서 광범위한 AI 기반 워크로드, 특히 생성형 AI 기술을 기반으로 하는 워크로드에 대한 맞춤형 AI 칩을 대거 배포하면서 현재 활용되는 주요 칩 아키텍처인 개별 GPU를 대체할 것이라는 예측도 나온다.

생성형 AI는 개발, 배포에 필요한 고성능 컴퓨팅 시스템 수요를 주도하고 있으며 고성능 GPU 기반 시스템과 네트워킹 장비를 제공하는 많은 업체가 상당한 단기적 이득을 얻고 있다.

가트너는 장기적으로 하이퍼스케일러가 이러한 애플리케이션을 배포하는 효과적이고 비용 효율적인 방법을 모색함에 따라, 맞춤형 설계 AI 칩의 사용이 증대될 것으로 예측하고 있다.

실제로 생성형 AI 관련 컴퓨팅 솔루션의 수요 증가에 따라 GPU 품귀 현상까지 벌어지고 있다.

병렬 연산처리 적합 GPU 활용 대세

생성형 AI는 텍스트, 이미지, 음성 등 다양한 형태의 데이터를 생성하는 역할을 수행한다. 머신러닝 기술을 기반으로 개발된 생성형 AI는 머신러닝 모델의 학습과 추론에 많은 연산이 필요하다.

특히 생성형 AI는 머신러닝 모델을 학습하기 위해 대규모 데이터셋을 사용한다. 대규모 데이터셋을 학습하기 위해서는 많은 양의 데이터 연산이 필수적이다.

데이터 연산 시 CPU는 단일 코어를 중심으로 연산을 수행하는 반면 GPU는 다수의 코어를 병렬로 연산을 수행하므로, GPU는 CPU에 비해 연산 속도가 빠르고 많은 양의 연산을 동시에 수행할 수 있다.

생성형 AI에서는 머신러닝 모델이 이미지 데이터를 학습해 새로운 이미지를 생성한다. 이미지 생성에는 많은 양의 연산이 필요하기 때문에 GPU를 사용하면 학습 시간을 단축하고, 더 나은 품질의 이미지를 생성할 수 있다. 음성이나 텍스트 생성에서도 GPU 사용을 통해 학습시간을 단축할 수 있다. 이런 이유로 생성형 AI 개발·운영에서 GPU는 필수적이다.

생성형 AI 산업에서 주로 사용되는 GPU는 단연 엔비디아(NVIDIA)의 GPU다.

엔비디아는 전 세계 AI 칩 시장에서 80% 이상을 점유하고 있는 것으로 평가받고 있다. 생성형 AI 기술을 활용하는 기업 대다수가 엔비디아의 GPU를 선택했다는 것이다. 오픈AI 또한 챗GPT 개발에서 엔비디아의 GPU 수만개를 연결한 슈퍼컴퓨터를 이용한 것으로 알려져 있다.

이런 상황은 엔비디아의 실적을 끌어올리는 데 작용했다. 엔비디아는 지난 2분기에 매출 135억700만달러(약 17조8598억원)를 기록했다고 밝혔다. 이는 지난해 같은 기간 67억400만달러(약 8조8660억원)보다 2배 가량 증가한 수준으로, 당초 전망되던 112억2000만달러보다 20% 가까이 상회한 것이다. 순이익은 61억8800만달러(약 8조1778억원)로 전년 동기 6억5600만달러(약 8669억원)에 비해 9.4배 급증했다. 향후 매출 전망도 긍정적이다. 엔비디아는 3분기 매출을 160억달러(약 21조1448억원)로 전망하고 있다.

이처럼 생성형 AI 산업에서 주도적인 역할을 하고 있는 엔비디아는 생성형 AI의 머신러닝을 위한 전용 하드웨어와 소프트웨어를 지속적으로 개발하고 있다.

엔비디아가 발표한 GH200 그레이스 호퍼는 가속 컴퓨팅과 생성형 AI를 위한 차세대 플랫폼이다. 이 플랫폼은 HBM3e 프로세서가 탑재된 새로운 그레이스 호퍼 슈퍼칩을 기반으로 한다.

GH200 그레이스 호퍼 플랫폼은 대규모 언어 모델, 추천 시스템, 벡터 데이터베이스를 비롯해 전 세계적으로 가장 복합한 생성형 AI 워크로드를 처리할 수 있도록 개발됐으며, 다양한 구성으로 제공될 예정이다.

현 세대 제품보다 최대 3.5배 많은 메모리 용량과 3배 높은 대역폭을 제공하는 듀얼 구성은 144개의 Arm 네오버스 코어, 8페타플롭스(PFLOP)의 AI 성능, 282GB의 최신 HBM3e 메모리 기술을 갖춘 단일 서버로 구성된다.

2024년 2분기에 이 플랫폼을 기반으로 한 시스템을 제공할 것으로 예상된다.생성형 AI 시장에서 엔비디아에 점유율이 뒤쳐지고 있는 AMD도 AI 특화 솔루션을 출시하며 추격에 나섰다.

AMD는 대규모 언어 모델(LLM)과 다른 최첨단 AI 모델을 위해 설계된 ‘MI300X’를 공개했다. 이 칩은 최대 192GB의 메모리를 탑재해 큰 AI 모델에 장착할 수 있고, 이는 엔비디아 H100에서 탑재한 120GB보다도 월등히 높은 수준이다. 또한 MI300X는 엔비디아 H100 대비 2.4배의 메모리 밀도와 1.6배 이상의 대역폭을 제공한다.

AMD는 데이터센터 AI 칩 시장이 올해 300억달러에서 연간 50% 이상 성장해 2027년에는 1500억달러 이상으로 성장할 것으로 전망했다.

엔비디아, AI 특화서버 직접 공급 나서

엔비디아의 생성형 AI 솔루션은 GPU만 있는 게 아니다. 생성형 AI 워크로드에 특화된 서버를 직접 개발, 공급하고 있다.

엔비디아는 VM웨어 프라이빗 AI 파운데이션을 지원하는 AI 레디 서버를 공급한다. 이 서버는 기업이 독자적인 비즈니스 데이터를 사용해 생성형 AI 애플리케이션을 맞춤화하고 배포할 수 있도록 지원한다.

엔비디아 AI 레디 서버에는 엔비디아 L40S GPU, 엔비디아 블루필드-3 DPU, 엔비디아 AI 엔터프라이즈 소프트웨어가 탑재된다. 이를 통해 기업들은 생성형 AI 기반 모델을 미세 조정하고 지능형 챗봇, 검색, 요약 도구 등과 같은 생성형 AI 애플리케이션을 구현할 수 있다.

엔비디아 L40S 기반 서버는 델 테크놀로지스, HPE, 레노버 등 글로벌 시스템 제조사를 통해 연말 출시를 앞두고 있다. 해당 서버는 엔터프라이즈용 생성형 AI 가속화에 활용될 예정이다.

이 서버에는 엔비디아 AI 플랫폼 운영 체제인 엔비디아 AI 엔터프라이즈가 탑재된다. 이 소프트웨어는 LLM을 위한 엔비디아 네모(NeMo), 시뮬레이션을 위한 엔비디아 모듈러스(Modulus), 데이터 사이언스를 위한 엔비디아 래피즈(RAPIDS), 프로덕션 AI를 위한 엔비디아 트리톤 추론 서버 등 100개 이상의 프레임워크, 사전 훈련된 모델, 툴킷, 소프트웨어에 대한 프로덕션 지원과 보안을 제공한다.

L40S GPU는 수십억 개의 매개변수가 있는 복잡한 AI 워크로드를 처리하도록 설계됐으며, 4세대 텐서 코어와 FP8 트랜스포머 엔진이 포함된다. 이를 통해 1.45PFLOP 이상의 텐서 처리 성능과 엔비디아 A100 텐서 코어 GPU에 비해 최대 1.7배의 훈련 성능을 제공한다.

지능형 챗봇, 어시스턴트, 검색, 요약 등과 같은 생성형 AI 애플리케이션의 경우, 엔비디아 L40S는 엔비디아 A100 GPU에 비해 최대 1.2배 더 뛰어난 생성형 AI 추론 성능을 제공한다.

엔비디아 블루필드 DPU를 통합하면 가상화, 네트워킹, 스토리지, 보안과 기타 클라우드 기반 AI 서비스의 엄청난 컴퓨팅 부하를 가속화, 오프로드 또는 격리해 속도를 더욱 높일 수 있다.

엔비디아 커넥트X-7 스마트NIC은 고급 하드웨어 오프로드와 초저지연을 제공해 데이터 집약적인 생성형 AI 워크로드를 위한 동급 최고 수준의 확장성을 제공한다.

L40S GPU와 블루필드 DPU가 탑재된 엔비디아 AI 레디 서버는 연말 출시 예정이다.

엔비디아는 생성형 AI와 산업 디지털화 가속화 지원을 위한 ‘OVX’ 서버도 공개했다. 엔비디아 L40S GPU를 탑재한 이 서버는 엔비디아 옴니버스(Omniverse) 플랫폼을 통해 AI 트레이닝과 추론, 3D 디자인과 시각화, 비디오 처리, 산업 디지털화 등 컴퓨팅 집약적이고 복잡한 애플리케이션을 가속화하도록 설계된 강력하고 범용적인 데이터센터 프로세서다.

엔비디아 L40S GPU는 텍스트, 이미지, 동영상 생성, 챗봇, 게임 개발, 제품 디자인, 의료 등 산업 전반의 워크플로우와 서비스를 혁신하는 생성형 AI를 위한 가속화된 컴퓨팅 워크로드를 지원한다.

엔비디아 OVX 시스템은 서버당 최대 8개의 엔비디아 L40S GPU를 지원하며, 각각 48GB의 메모리가 장착돼 있다. L40S는 엔비디아 에이다 러브레이스(Ada Lovelace) GPU 아키텍처를 기반으로 한다. 여기에는 4세대 텐서 코어와 FP8 트랜스포머 엔진이 포함돼 있어 1.45PFLOP 이상의 텐서 처리 성능을 제공한다. 수십억 개의 매개변수와 텍스트, 영상과 같은 여러 데이터 양식이 포함된 복잡한 AI 워크로드의 경우, L40S는 엔비디아 A100 텐서 코어 GPU에 비해 최대 1.2배의 생성 AI 추론 성능과 최대 1.7배의 트레이닝 성능을 제공한다.

엔비디아 L40S GPU에는 212테라플롭스(TFLOPS)의 레이 트레이싱 성능을 제공하는 142개의 3세대 RT 코어가 포함돼 있다. 실시간 렌더링, 제품 디자인, 3D 콘텐츠 제작과 같은 고충실도 전문 시각화 워크플로우를 지원하기 위함이다. 이를 통해 크리에이티브 전문가들은 몰입감 넘치는 시각적 경험과 사실적인 콘텐츠를 제작할 수 있다.

더불어 엔지니어링, 과학 시뮬레이션과 같이 계산이 까다로운 워크플로우를 위해 엔비디아 L40S에는 1만8176개의 쿠다 코어가 포함됐다. 이는 복잡한 계산과 데이터 집약적인 분석을 가속화할 수 있도록 엔비디아 A100 GPU보다 약 5배 높은 단정밀도 부동소수점(FP32) 성능을 제공한다.

엔비디아 L40S GPU를 사용하는 기업은 엔비디아 AI 엔터프라이즈 소프트웨어의 주요 업데이트 이점을 누릴 수 있다.

이 소프트웨어는 시뮬레이션을 위한 엔비디아 모듈러스(Modulus), 데이터 사이언스를 위한 엔비디아 래피즈(RAPIDS), 프로덕션 AI를 위한 엔비디아 트리톤 추론 서버 등 100개 이상의 프레임워크, 사전 훈련된 모델, 툴킷, 소프트웨어에 대한 프로덕션 지원과 보안을 제공한다.

더불어 엔비디아는 옴니버스 플랫폼의 주요 업데이트를 발표했다. 여기에는 개발자가 생성형 AI의 강력한 성능으로 오픈USD 파이프라인과 산업 디지털화 애플리케이션을 가속화하고 발전시킬 수 있는 기능과 플랫폼 개선 사항이 포함된다. 옴니버스 클라우드를 구동하는 차세대 엔비디아 OVX 시스템에는 L40S GPU가 탑재돼 생성형 AI 파이프라인과 옴니버스 워크로드를 강화하는 데 필요한 AI와 그래픽 성능을 제공할 예정이다.

한편 에이수스, 델 테크놀로지스, 기가바이트, HPE, 레노버, QCT, 슈퍼마이크로 등 글로벌 시스템 제조사들은 엔비디아 L40S GPU가 포함된 OVX 시스템을 올 가을부터 출시할 예정이다.

박광하 기자 다른기사 보기