SK텔레콤 “자일링스 FPGA로 AI 추론 가속화”
상태바
SK텔레콤 “자일링스 FPGA로 AI 추론 가속화”
  • 데이터넷
  • 승인 2019.05.06 10:00
  • 댓글 0
이 기사를 공유합니다

AI 추론 가속기 ‘AIX’ 개발…맞춤형 하드웨어 가속기 개발 발판 확보
▲ 다니엘 이튼(Daniel Eaton) 자일링스 가속 컴퓨팅 시장 개발 수석매니저

SK텔레콤은 자일링스의 ‘킨텍스(Kintex) 울트라스케일(UltraScale) FPGA(Field Programmable Gate Array)’의 대규모 병렬처리 및 재구성 기능을 통해 ‘누구(NUGU)’ 음성 인식 장치의 응답 시간과 음성 인식 정확도를 모두 향상시킬 수 있었다. 이를 통해 자동 음성 인식 플랫폼을 최첨단 인공지능(AI) 기술로 발전시킬 수 있는 유연성도 확보했다. 대규모 데이터센터를 위한 AI 도메인에서 최초로 FPGA 가속기를 상용화한 사례를 살핀다. <편집자>

SK텔레콤은 자일링스 ‘킨텍스 울트라스케일 FPGA’의 대규모 병렬처리 및 재구성 기능을 통해 ‘누구(NUGU)’ 음성 인식 장치의 응답 시간 및 음성 인식 정확도를 모두 향상시켰다. 이를 통해 자동 음성 인식(ASR: Automatic Speech Recognition) 플랫폼을 최첨단 AI 기술로 발전시킬 수 있는 유연성을 확보할 수 있게 됐다.

SK텔레콤, AI 가속 위해 자일링스 FPGA 선택
AI는 온라인 소비자 서비스 시장에서 빠르게 확산되고 있으며, 이에 따라 주요 기업들은 데이터센터 업그레이드를 위해 신속하게 대응해 나가고 있다.

음성 인식과 같은 애플리케이션을 사용자가 원활하게 이용하기 위해서는 낮은 대기시간의 추론이 반드시 필요하다. 또한 비용 및 전력소모, 시장 출시시간 단축도 중요하게 고려돼야 하며, 높은 소유비용을 들이지 않으면서도 AI의 급속한 발전에 대응할 수 있는 유연성도 필수로 요구된다.

대형 클라우드 및 이동통신 사업자는 신경망을 위한 전통적인 하드웨어 플랫폼으로는 대규모 상용화 구축 요구를 충족시키지 못한다는 점에 동의한다. 이에 SK텔레콤은 자일링스와 협력을 통해 데이터센터에 AI 가속기를 성공적으로 구축했다.

자일링스 FPGA의 병렬 처리 및 전력 효율의 이점을 극대화해 낮은 대기시간으로 매우 뛰어난 성능을 달성했다. 동시에 FPGA는 빠른 속도로 진화하는 AI 기술에 대응해 보다 진보된 신경망으로 가속기를 신속하게 업그레이드할 수 있는 유연성을 제공했다.

AI 추론 가속기 ‘AIX’, 낮은 대기시간 음성 인식 최적화
SK텔레콤은 한국 최대의 이동통신사로 전체 시장의 약 50%에 이르는 2900만명의 모바일 가입자를 보유하고 있다. 이 회사는 현재 한국어로 동작하는 최초의 디지털 홈 인공지능 서비스인 누구를 비롯해 AI 기반 서비스 포트폴리오를 개발하고 있다.

SK텔레콤의 누구는 이미 음악과 스마트 홈 지원, 온디맨드 정보, 스마트폰 위치추적, 다이어리 지원 등의 다양한 기능을 제공하고 있다. 또한 협력사 개발자들이 에코시스템에 진입할 수 있도록 개방형 API를 비롯한 향후 개발 계획이 추진되고 있다.

누구에는 SK텔레콤의 AI 및 음성 인식, 자연어 처리 분야의 전문 기술이 집약돼 있다. 어조와 강세, 그리고 사투리까지 이해할 수 있어 매우 높은 음성 인식률을 자랑한다. 이 서비스의 핵심은 SK텔레콤의 자연어 처리 엔진으로, 이는 사용자의 요구를 정확하게 해석하고 음성으로 상호 작용할 수 있도록 해준다.

이강원 SK텔레콤 소프트웨어기술원 원장(수석부사장)은 “최상의 사용자 경험 제공을 위해서는 매우 안정적인 음성 인식 외에도 언제든지 모든 질문에 즉각적인 응답이 가능해야 한다”며 “이를 위해 AI 추론 가속기인 AIX를 개발했다. 이 가속기는 낮은 대기시간의 음성 인식에 최적화되고, 유연성과 빠른 시장 출시를 위해 자일링스 FPGA 상에 구현된 다수의 커스텀 NPU가 포함돼 있다”고 설명했다.

<그림 1> 자일링스 FPGA 기반 SK텔레콤 NPU

추론 트레이닝 모델 구축 중요
추론은 트레이닝 되고 구축된 이후 신경망 기능을 도출한다. 추론을 위해 트레이닝된 모델을 구축하는 것은 AI 상용화에 있어 가장 중요한 도전 과제 중 하나다.

업계 전문가들은 신경망 트레이닝 툴은 이전보다 더욱 저렴하고 사용하기 쉬워진 반면 추론을 위한 모델 구축 비용은 시간이 지남에 따라 인프라 비용 중 가장 큰 비중을 차지하고 있다고 지적했다.

이강원 SK텔레콤 원장이 언급한 것처럼, 최종 사용자와 직접 상호 작용하는 음성 기반 서비스의 경우 성능 측면에서는 매우 낮은 대기시간이 중요하다. 소비자들은 거의 실시간 추론이 요구되는 자연스럽고 완벽한 사용 경험을 기대한다. 점점 더 많은 사업자들이 AI 구축에 나서면서 이를 달성하기 위한 기술들이 계속해서 개발되고 있다.

반면 신경망 트레이닝에 대해서는 이미 많은 부분이 알려져 있다. 이 경우 대형 GPU 어레이가 수 엑사비트(Exabits)의 데이터와 테라플롭스(Teraflops) 컴퓨팅을 처리하는 플랫폼으로 자리잡고 있지만 트레이닝은 오프라인으로 수행돼야 하고 수일 또는 수주에 이르는 시간이 소요되고 있다.

한편 구축 단계에서는 애플리케이션이 엄격한 대기시간  및 전력소모 요건 안에서 기대 성능을 제공할 수 있도록 해야 한다.

<그림 2> CPU 전용 서버와 GPU·FPGA 가속기 채널 수 대 처리량
▲ <그림 3> 지연시간 대 채널 수

FPGA 가속기, GPU 보다 월등한 성능 입증
자일링스는 FPGA 가속기가 GPU를 사용하는 것보다 훨씬 낮은 전력소모로 음성 인식 및 자연어 상호 작용에 필요한 실시간 추론 응답을 제공할 수 있음을 입증했다. 물론 ASIC 기반 추론 엔진 또한 낮은 대기시간과 낮은 전력 소모를 제공할 수는 있지만 FPGA 가속기는 지속적인 기술 발전에 따라 신속하게 최신 머신러닝 기술을 적용할 수 있는 재구성 기능의 이점을 추가로 제공한다.

SK텔레콤 팀은 자일링스의 킨텍스 울트라스케일 XCKU115 FPGA가 포함된 KCU1500 데이터센터 가속기 카드를 기반으로 ‘AIX’를 개발했다. AIX는 누구의 핵심 애플리케이션인 ASR을 실행할 수 있도록 킨텍스 FPGA의 디지털 신호 프로세서(DSP) 슬라이스에 구현된 대규모 신경 코어 어레이를 포함하고 있다.

웨이트 피더(Weight Feeder), 텐서(Tensor) 캐시 및 컨트롤러와 같은 신경 어레이를 비롯해 관련 기능들은(그림 1 참조) 추론을 위한 수만 개의 가속기를 효과적으로 포함하고 있는 고성능 NPU(Neural Processing Unit)를 구현할 수 있으며, 이는 GPU 보다 훨씬 뛰어난 병렬 처리 기능을 제공한다.

SK텔레콤의 엔지니어들은 정적 및 동적 연산 최적화와 함께 프루닝(Pruning), 양자화(Quantization), 동적 정밀도를 적용해 FPGA 내 DSP 코어의 95% 이상이 매 사이클마다 활성화되도록 했다.

SK텔레콤은 기존의 CPU 전용 ASR 서버에 KCU1500 PCIe Gen3 x16 가속기 카드를 장착했다. SK텔레콤 팀의 자체 수치에 의하면, GPU 기반 가속기 대비 여러 개의 음성 채널을 동시에 실행할 때 성능이 500% 향상된 것으로 나타났다(그림 2, 그림 3 참조). 전력 소모 역시 3분의 1 미만 수준으로 와트당 성능이 16배 향상된 결과다.

이와 함께 SK텔레콤은 킨텍스 울트라스케일 FPGA의 재프로그램이 가능한 특성을 통해 미래의 새로운 향상된 신경망 아키텍처를 채택할 수 있는 유연성을 확보할 수 있었으며, 동시에 빠른 시간 안에 솔루션을 제공할 수 있게 됐다.

대형 데이터센터 AI 도메인에 FPGA 가속기 상용화 첫 사례
AIX 카드를 성공적으로 도입한 SK텔레콤의 이 프로젝트는 대형 데이터센터의 AI 도메인에 FPGA 가속기를 적용해 상용화한 한국 최초의 사례다. 킨텍스 울트라스케일 FPGA의 적응형 특성을 통해 SK텔레콤은 AI와 딥러닝 기술의 발전에 따라 새롭고 향상된 맞춤형 하드웨어 가속기를 지속적으로 개발할 수 있게 됐다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.