엔비디아, 실시간 대화형 AI 지원 위한 ‘텐서RT 7’ 공개

인간·AI 간 스마트한 상호작용 위한 실시간 추론 제공…추론 지연시간도 크게 개선

[데이터넷] 엔비디아(CEO 젠슨 황)가 실시간 대화형 인공지능(AI)를 지원하는 추론 소프트웨어의 최신 버전인 엔비디아 텐서RT 7(NVIDIA TensorRT 7)을 19일 발표했다.

이는 전 세계 개발자들이 대화형 AI 애플리케이션을 제공하는데 사용돼 그간 인간과 AI 간 상호작용에 걸림돌이 됐던 추론 지연시간(Latency)을 크게 개선할 것으로 기대된다.

엔비디아 텐서RT 7은 엔비디아의 7세대 추론 소프트웨어 개발 키트로, 보다 스마트한 인간과 AI 간 상호작용을 가능케 함으로써 음성 에이전트(voice agent), 챗봇, 추천 엔진 등의 애플리케이션을 실시간으로 구현할 수 있게 됐다.

미국 시장조사기관 주니퍼 리서치(Juniper Research)에 따르면, 전 세계 디바이스에서 약 32억5000만개의 디지털 음성 비서가 사용되고 있는 것으로 추정된다. 2023년까지 그 숫자가 세계 총 인구 수를 뛰어 넘는 80억개까지 증가할 것으로 예상된다.

텐서RT 7은 AI 음성 애플리케이션을 구현하는데 필요한 트랜스포머 기반 순환신경망(RNN: Recurrent Neural Network)을 자동으로 최적화하고 가속화하도록 설계된 최신 딥러닝 컴파일러를 제공한다. 이를 통해 대화형 AI의 구성요소가 CPU에서 실행될 때보다 10배 이상 빨라진다. 동시에 지연시간은 실시간 상호작용에 필요한 수준인 300밀리초 임계값 미만으로 단축된다.

텐서RT 7은 RNN 순환 루프 구조를 사용하는 시계열 시퀀스 데이터 시나리오를 예측하는 용도로 활용되는 AI 모델 세계가 더 빠르게 확장될 수 있도록 지원한다. RNN은 대화형 AI 음성 네트워크 외에도 차량이나 위성의 도착시간 계획, 전자의료기록에 기입될 상황 예측, 금융자산 예측, 사기행위 감지 등의 목적에도 사용될 수 있다.

텐서RT의 최신 딥 러닝 컴파일러를 통해, 전 세계 개발자들은 맞춤형 자동 음성인식 네트워크와 텍스트-투-스피치용 웨이브RNN과 타코트론 2(Tacotron 2) 등의 네트워크를 자동 최적화할 수 있는 능력을 갖추게 됐고, 이를 통해 최고 수준의 성능을 최저 지연시간에 제공할 수 있게 됐다.

또한, 이 최신 컴파일러는 BERT와 같은 자연어 처리용 트랜스포머를 최적화하는 기능도 제공한다.

텐서RT 7은 하이퍼스케일 데이터 센터, 내장형 또는 자동차용 GPU 플랫폼을 통해 훈련된 추론 신경망을 빠르게 최적화, 검증, 배포할 수 있다. 텐서RT를 비롯한 여러 엔비디아 쿠다-X AI 라이브러리, 엔비디아 GPU 등이 포함된 엔비디아 추론 플랫폼은 이미지 분류, 사기 탐지, 분할, 오브젝트 탐지, 추천 엔진 등 저지연, 고처리량 추론 기능을 대화형 AI 이외의 애플리케이션에서도 구현한다.

엔비디아 추론 플랫폼은 알리바바(Alibaba), 아메리칸 익스프레스(American Express), 바이두(Baidu), 페이팔(PayPal), 핀터레스트(Pinterest), 스냅(Snap), 텐센트(Tencent), 트위터(Twitter) 등 세계적인 선도 엔터프라이즈 및 소비자 기술 기업들 사이에서 널리 사용되고 있다.

젠슨 황(Jensen Huang) 엔비디아 창립자 겸 CEO는 “우리는 기계가 인간의 언어를 실시간으로 이해할 수 있게 된 새로운 AI 시대에 들어섰다. 텐서RT 7은 전 세계 개발자들에 인간과 AI 간의 보다 자연스러운 상호작용을 가능케 하는 빠르고 스마트한 대화형 AI서비스를 구축 및 배포할 수 있는 툴을 제공한다”고 말했다.

윤현기 기자 다른기사 보기