[컬럼] AI는 네트워크를 어떻게 혁신하고 있는가?

라미 라힘 주니퍼 CEO “주니퍼 데이터센터 네트워킹은 새로운 AI 시대 열 것”

[데이터넷] 인공지능(AI)이 우리의 모든 것을 바꿀 것이라는 사실을 깨닫게 된 순간이 기억납니다.

지금으로부터 5년 전, 당시 기술 파트너였던 미스트시스템즈의 설립자들이 비즈니스 기회 모색을 위해 주니퍼네트웍스를 방문한 적이 있습니다. 이들은 네트워크 문제가 사용자에게 드러나기 전에 자동으로 파악하고 해결할 수 있는 AI 기반 네트워크 플랫폼이라는 획기적인 아이디어를 소개했습니다.

그들이 설명한 모든 내용들은 근사하게 들렸습니다. 하지만 AI는 수십 년 동안 유행어에 불과했기 때문에 미스트의 AI가 실제 작동하는 것을 확인하기 전까지 그 가능성에 대해 일부 회의적인 생각에 사로잡혀 있었습니다.

사실 주니퍼의 IT 팀은 이미 시범 구축을 통해 미스트의 효과에 대해 어느 정도는 인지하고 있었습니다. 결과적으로 이 플랫폼은 탁월한 정확성과 속도를 통해 실시간으로 문제를 자가 진단하고 해결할 수 있었습니다. 그 순간 AI가 주니퍼와 전 세계에 얼마나 큰 영향을 미치게 될지 깨닫게 됐습니다.

그 이후 AI옵스(AIOps) 플랫폼은 주니퍼 전략의 초석이 됐고, 네트워크 혁신을 가속화하며 탁월한 사용자 경험 기반을 제공하는 최고 수준의 7세대 AI를 출시했습니다. 이에 고객사인 글로벌 소프트웨어 기업은 지원 요청이 90% 감소했고, 다국적 유통기업은 매장 출장이 85%나 줄었습니다. 또 이동통신사는 사상 최단 시간에 브랜치 네트워크를 구축할 수 있었습니다.

이처럼 미스트 플랫폼은 ‘게임 체인저’가 됐지만 이는 시작에 불과했습니다. 주니퍼는 미스트의 성공을 확인하면서 AI 애플리케이션이 더욱 광범위하게 확산되고, AI 모델과 데이터센터 규모의 폭발적 증가는 시간문제라고 예측했습니다.

AI 기반 데이터센터: AI 혁명 연장

수 년 전 반도체 기업들은 게임용 그래픽처리장치(GPU)가 AI의 학습과 추론 워크로드 연산에 매우 적합하다는 사실을 발견했습니다. 하지만 단일 GPU는 자체적으로 많은 AI 처리를 처리하는 데 한계가 있었습니다. 최신 AI/ML 클러스터는 오늘날의 AI 모델을 학습하는 데 필요한 대규모 병렬 컴퓨팅 성능을 제공하는 수백 개 또는 수천 개의 GPU로 구성됩니다.

물론 이러한 GPU를 하나로 연결해 매우 강력한 단일 AI 처리 시스템으로 작동할 수 있게 하는 것은 네트워크입니다. 클라우드, 모바일 또는 스트리밍 서비스와 같은 이전 기술 혁명은 네트워크를 새로운 차원으로 끌어올렸지만 분산된 머신러닝 워크로드에서 생성되는 데이터센터의 트래픽은 대부분의 다른 애플리케이션의 트래픽을 압도하고 있습니다.

네트워크는 대규모 데이터 세트와 통신하고 수십억, 심지어 수조 개의 모델 매개변수를 해결해야 하는 AI 요구 사항으로 인해 전례 없는 스트레스를 받고 있습니다. 간단히 설명하면 고객이 최대 성능으로 구축을 원하는 일반적인 GPU 클러스터는 미국 전역의 인터넷 트래픽과 거의 비슷한 규모의 네트워크 트래픽이 매초마다 클러스터를 통과한다는 뜻입니다.

AI 데이터센터의 경제성을 이해하려면 GPU 서버의 가격이 각각 40만 달러에 달할 수 있다는 점을 알아야 합니다. 따라서 GPU 활용도 극대화와 GPU 유휴 시간 최소화는 AI 데이터센터 설계에서 가장 중요한 요소 중 하나입니다.

워크로드를 GPU에 분산한 후 이를 동기화해 AI 모델을 학습시키려면 JCT(Job Completion Time)를 가속하고, 시스템이 마지막 GPU가 계산을 완료할 때까지 기다리는 시간(Tail Latency)을 줄일 수 있는 새로운 네트워크가 필요합니다.

결국 AI나 머신러닝에 최적화된 데이터센터 네트워크는 혼잡 관리, 로드 밸런싱, 지연, 그리고 JCT를 최소화하는 특별한 기능을 갖춰야만 합니다. 이는 주니퍼가 수년 동안 탁월한 역량을 발휘해 온 시스템 특성입니다. 또한 모델 크기와 데이터 세트가 계속 증가함에 따라 머신러닝 클러스터에 더 많은 GPU를 수용해야 하고, 네트워크 패브릭은 성능 저하나 통신 병목 현상 없이 확장성을 원활히 지원해야 합니다.

AI 네트워킹은 한 세대에 한 번뿐인 변곡점으로 앞으로 수년간 복잡한 기술적 과제를 안겨줄 것입니다. 이러한 문제를 해결하기 위해서는 AI 기반 데이터센터 네트워크의 삼계명을 반드시 지켜야 합니다.

#1 고성능

AI 모델 학습에서 가장 중요한 경제적 요소인 GPU 활용도를 극대화하려면 JCT에 최적화되고, 테일 레이턴시를 최소화하는 네트워크가 필수입니다. 모델 학습 속도가 빨라진다는 것은 결과 도출 시간이 단축되고, 컴퓨팅 리소스가 최적화된 데이터센터의 비용도 낮아진다는 것을 의미합니다.

주니퍼는 처음부터 실리콘에 구애받지 않으려고 역량을 집중해 왔고, 이러한 노력을 통해 고객에게 전력 효율성과 규모와 같은 다양한 요소에 맞게 최적화된 스파인, 리프, 데이터센터 상호연결에 대한 여러 옵션을 제공하고 있습니다. 주니퍼는 타사나 자체 설계 실리콘을 기반으로 하는 광범위한 시스템 포트폴리오를 제공해 지구상에서 가장 큰 네트워크를 지원하고 있으며, AI 여정의 다양한 단계에 있는 고객의 요구 사항과 제약 조건을 충족시킬 수 있는 유연성을 제공합니다.

#2 개방형 인프라

인프라 투자에 있어 성능은 가장 중요한 고려 요소이고, 그 다음은 경제성입니다. 경제성은 경쟁에 의해 이끌리고, 경쟁은 개방성이 주도하게 됩니다. 이미 이러한 현상을 목격했고, 베팅을 한다면 이번에도 이더넷의 승리에 걸고 싶습니다.

개방형 플랫폼은 혁신을 극대화할 수 있습니다. 독점 기술도 중요한 역할을 하지만 단일 기술 공급업체가 시장을 혁신하는 경우는 거의 없습니다. 그리고 위험 요소가 큰 환경에서는 결코 그런 일은 일어나지 않습니다.

주니퍼는 이더넷 표준과 새로운 울트라 이더넷 컨소시엄을 비롯한 강력한 벤더 에코시스템을 확고히 지원해 비용 절감은 물론 혁신을 촉진하고 궁극적으로 인피니밴드 같은 독점적인 접근 방식을 추월할 것입니다. 주니퍼는 방대한 이더넷 에코시스템과 함께 데이터 전송 속도를 높이고, 무손실 전송을 제공하며, 혼잡 제어를 향상시키는 네트워킹 기술을 혁신해 나가고 있으며, 이는 AI 혁명 촉진에 중요한 요소입니다.

#3 경험 최우선 운영

데이터센터 네트워크는 점점 더 복잡해지고 있으며, AI 워크로드 성능 요구 사항을 충족시키기 위해서는 새로운 프로토콜을 패브릭에 추가해야 합니다. 복잡성은 계속 늘겠지만 인텐트 기반 자동화는 네트워크 운영자가 이러한 복잡성으로부터 보호할 것입니다.

주니퍼는 멀티벤더와 운영 최우선 사고방식으로 데이터센터에 접근합니다. 자체 OS인 주노스(Junos)와 데이터센터 패브릭 관리·자동화 솔루션인 앱스트라(Apstra)를 기반으로 AI 클러스터를 확대해 나가고 있습니다. 무엇보다 중요한 것은 앱스트라가 데이터센터 관리와 자동화 부문에서 유일한 멀티벤더 플랫폼이라는 점입니다.

특정 벤더에 운영이 종속된다면 사용자에게는 아무런 이득이 없습니다. AI는 이제 현실이고, 더 이상 돌이킬 수 없습니다. 주니퍼는 이미 유선, 무선, WAN 관리를 간소화해 최종 사용자 경험은 물론 네트워크 운영자의 업무를 획기적으로 개선하는 데 AI가 미치는 영향을 입증했습니다. 그러나 머신러닝과 거대언어모델(LLM)이 네트워크에 가하는 압박은 지속적인 혁신과 새로운 과제 해결을 요구하고 있습니다.

이러한 도전은 매우 어려운 일지만 이러한 문제를 해결하는 것이 주니퍼의 임무이고, ‘Power Connections. Empower Change’라는 미션 실현에 최선을 다할 것입니다. 고성능이라는 전통을 기반으로 경험 최우선 운영을 목표로 전진하고 있는 주니퍼의 데이터센터 네트워킹 접근 방식은 새로운 AI 시대를 열어갈 것입니다.

데이터넷 다른기사 보기