임베디드 디바이스 음성인식

지난 호에서 현재 컴퓨팅 환경의 변화와 결부된 음성인식의 중요성과 소프트웨어의 구조에 대해 개략적인 내용을 살펴보았으니 음성인식의 기술적인 내용에 대해서 좀 더 자세히 알아보도록 하자.
일반적으로 임베디드 디바이스(Embedded Device)에서의 음성인식 모듈은 자동 음성인식시스템(ASR)을 사용한다. <편집자>

ASR(Automatic Speech Recognition) 시스템은 마이크와 같은 장치를 통해 시스템으로 입력된 음향 신호를 분석해 일련의 단어 토큰으로 바꾼다.

이러한 토큰들은 받아쓰기나 간단한 전화 걸기와 같은 기능을 제공하기 위해 애플리케이션에서 사용되기 쉽도록 구성된다.

음향 신호를 단어 토큰으로 변화하는 것은 신호의 특성을 뽑아내기 위해 수행하는 분석단계를 거친 후 각기 다른 음향 신호로 구성된 일련의 모델과의 비교작업을 하게 된다. 이러한 모델들은 단어의 시작과 끝에 있는 휴지음, 단어 그리고 단어를 더 분해한 음소를 나타낸다.

디코더는 입력신호를 분석해 그 분석 결과와 가장 잘 맞는 일련의 모델들을 찾아내게 된다.

ASR

<그림 1>은 단어를 사용하는 시스템과 음소를 사용하는 시스템간에 입력 신호의 각기 다른 부분들이 어떻게 대응되게 되는지를 잘 보여주고 있다. 휴지음과 같은 토큰은 일반적으로 애플리케이션에 전달되는 결과에서는 제거되는 부분이다.

ASR 시스템에 의해 인식되는 단어들은 단어 사전에서 찾아진다. 이러한 단어 사전에 등록된 어휘의 개수가 늘어나면 모든 가능한 단어를 표현하기 위해 각 모델의 수와 복잡성도 따라서 증가하게 되고, 이것은 곧바로 시스템 자원을 더 많이 요구하게 된다.

따라서 ASR 시스템이 효과적으로 작동하기 위해서는 음향신호를 분석하고 연습(training)을 시켜 알맞은 단어나 음소 모델링 해야 되는 것이고, 이 모델들은 특정 화자를 위한 화자종속 모델과 일련의 화자 군을 대상으로 하는 화자 독립 모델로 나뉜다. 이때 일련의 화자군은 나이나 성별 혹은 지역으로 분류하는 것이 일반적이다.

한 사람이 같은 단어를 말하더라도 말할 때마다 약간의 차이점을 가지고 있고, 이것이 추출된 음향적 특징에서도 다양한 영향을 미치기 때문에 이러한 다양성이 음성인식시스템이 오인식을 하게 되는 결과를 가져오게 되는데 여기서 이러한 요소와 더불어 언급할 것은 우리가 음성인식시스템을 통해 구현해야 될 애플리케이션에서 인식해야 될 단어들 중에 음성적으로 비슷한 구성을 가진 것이 있다면 그러한 단어들 사이에서 잘못 인식될 확률도 상대적으로 높아지게 된다.

배영우 한국IBM 소프트웨어연구소 차장