리턴제로, AI 전화 ‘비토’ 업데이트…ARS 음성까지 인식
상태바
리턴제로, AI 전화 ‘비토’ 업데이트…ARS 음성까지 인식
  • 강석오 기자
  • 승인 2021.08.19 11:06
  • 댓글 0
이 기사를 공유합니다

음성 인식 구간 범위 정교하게 재설정…음성 인식률·가독성 한층 개선

[데이터넷] 눈으로 보는 통화 앱 ‘비토(VITO)’를 운영중인 인공지능(AI) 스타트업 리턴제로(대표 이참솔)는 한국어 음성인식 성능을 크게 개선한 AI 전화 서비스를 선보인다고 밝혔다.

비토는 한국어 STT(Speech To Text) 기술 기반의 음성 인식 ‘소머즈 엔진’ 및 사용자의 목소리 특성을 인지해 구분하는 화자 분석 ‘모세 엔진’, 그리고 자체 수집한 한국어 데이터셋을 바탕으로 지금까지 4단계에 걸친 성능 업데이트를 거치며 음성인식 개선을 실현해 왔다.

비토는 업데이트를 사람의 육성을 넘어 ARS 음성까지 검출해내는 기술 개발에 성공해 한국어 음성인식 시장에 새로운 이정표를 새우게 됐다. ARS를 포함한 다자간 자유발화 대화에서 AI로 ARS 음성을 검출해 낸 사례는 비토가 처음이다.

언어모델 분석 시 ARS가 발화한 대화까지 포함하게 되면 대화 내용과 관계 없는 자동 응답 내용이 화자 간 대화 속에 끼어들어 가독성을 떨어뜨리는데, 비토는 이러한 자동 응답 음성을 인식하고 구분하여 표기함으로써 대화창의 가독성을 대폭 개선했다.

기존 음성인식 엔진들은 실제 소리가 나는 간격에 맞춰 받아 적는 것에만 치중함에 따라 변환된 텍스트가 문장으로 매끄럽게 이어지지 않거나 문법적 표기가 틀린 경우가 빈번해 가독성이 떨어지는 경우가 많았다. 비토는 통화음성 인식 구간 범위를 실제 소리가 난 구간이 아닌 사람의 대화 즉, 단어로 인식된 구간으로 보다 정교하게 재설정해 음성 인식률 및 가독성을 한층 높이는 의미 있는 결과를 얻었다.

이번 기술 고도화 바탕에는 비토가 가진 한국어 음성 빅데이터도 한 몫 했다. 리턴제로는 비토 서비스를 운영하면서 대규모 데이터셋을 확보해 왔으며, 정교한 데이터 정제 작업을 거쳐 AI 학습에 반영한 결과 여타 음성인식 엔진 대비 뛰어난 음성 인식률과 가독성을 구현해 내는데 성공했다.

비토의 성능 개선으로 AI전화 이용 고객들도 더욱 편리한 통화기록 환경을 누릴 수 있을 전망이다. 비토는 현재 전화 통화가 많은 비즈니스맨들에게 높은 평가를 받으며 산업 곳곳에서 업무 효율 증진에 도움이 되고 있다. 간단한 설치만으로 통화녹음, 음성인식, 메신저 형태로 보여지는 말풍선 화면 기능은 물론 과거 통화 내용을 손 쉽게 검색하고 편집하는 기능까지 한 번에 이용 가능하다.

비토는 추후 진행될 서비스 업데이트에서는 ‘어, 음, 그’와 같이 대화 중 의미없이 사용되는 간투어와 욕설에 대한 필터링 기능을 강화하고, 통화 시 기존 대화 내용을 요약해서 제공해주는 오버레이 기능도 추가로 선보일 계획이다.

리턴제로 이참솔 대표는 “업데이트를 통해 비토 이용자들은 통화에 참여한 발화자들을 정교하게 구분하고 통화내용을 보다 정확하게 텍스트로 구현해내는 그 동안 경험해보지 못한 수준의 음성 인식 서비스를 체감할 수 있을 것”이라며 “지속적인 연구 및 개발을 통해 성장시킨 독보적인 AI 음성인식 기술력을 토대로 서비스를 계속해서 고도화해 음성 AI 시장의 혁신을 이어 나갈 것”이라고 밝혔다.

한편, 리턴제로는 2019년 5월 초기모델(Sommers V1)을 시작으로 1년도 채 안 된 지난해 3월 언어모델 성능을 개선한 2.0 버전을 선보였다. 같은 해 9월에는 수집된 자유발화 데이터를 학습시켜 음성 인식 정확도를 더욱 높인 3.0 버전을 출시했으며, 이번에 ARS 기계 음성까지 포괄한 4.0 버전을 선보이며 자체 기록을 경신하는 도전의 도전을 거듭하고 있다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.