스피치SC와 MRCPv2
상태바
스피치SC와 MRCPv2
  • 데이터넷
  • 승인 2007.05.31 00:00
  • 댓글 0
이 기사를 공유합니다

Tech Tracker
네트워크 미디어용 ‘고급 음성 서비스 표준’
시스코·칸타나·IBM 후원 … MS 등 일각에서는 냉대

스피치SC와 MRCPv2는 업체 중립적인 표준으로서 어떠한 음성 애플리케이션이든 음성 신디사이저와 인식기 같은 네트워크 기반 미디어를 제어할 수 있게 해준다. 하지만 이들은 또한 일부 주요 업체들로부터 냉대를 받고 있기도 하다. 그 자세한 내막을 알아본다.

스피치SC와 MRCPv2는 프로세싱 엔진들간 일관성 있는 CPI를 이용해 분산형 음성 프로세싱을 가능하게 하도록 고안된 업체 중립적인 표준이다. 기존의 멀티미디어 프로토콜을 변경할 필요 없이 미디어 프로세싱 장비들에서는 음성 인식, 스피커 검증 그리고 TTS(Text-To-Speech) 서비스 등이 가능해진다.

음성 프로세싱 혜택
시스코와 칸타나(Cantana)는 스피치SC 워크그룹의 수장을 맡고 있다. 뉘앙스 커뮤니케이션즈(Nuanace Communications)나 복스파일럿(Voxpilot) 같은 음성 프로세싱 업체들도 또한 여기에 힘을 실어주고 있다. 어바이어나 지멘스 같이 이미 VoIP와 음성 지원을 제공하고 있는 대형 IP PBX 업체들은 스피치SC 멤버 목록에서 빠져 있으며, 마이크로소프트는 아직 입장을 정하지 않았다.
스피치SC 프레임워크와 MRCPv2는 음성 프로세싱 중소기업과 통합업체에게는 혜택이 될 것이다. 강력한 음성 프로세싱 기능이 없는 IP-PBX 업체들은 써드파티 제품을 보다 쉽게 통합할 수 있을 것이며, 음성 애플리케이션 개발자들은 안정되고 예측 가능한 오디오 스트림 프로세싱 방안을 갖게 될 것이다. 기존의 SIP 및 RTP 표준에 변경을 가할 필요가 없게 한 것은 워크그룹의 현명한 선택이었으며, MRCPv2의 간편한 채택을 도와줄 것이다.
음성 애플리케이션을 개발, 배치, 혹은 사용하는 사람이면 누구든 음성 프로세싱의 혜택을 잘 알고 있다. 이 기술은 이메일 전송이나 인스턴트 메시지와 같은 기능을 TTS 기술을 사용하는 휴대전화를 이용해 회사 PBX에서 실현시켜 준다. 하지만 이러한 능력을 쉽게 얻을 수 있는 것은 아니며, 네트워크 자원에서 오디오 스트림을 프로세싱 및 제어하는 표준 방안도 분명 찾아볼 수가 없다.
IETF의 스피치SC(Speech Services Control) 워크그룹은 MRCP(Media Resource Control Protocol) 버전 2를 이용해 이러한 문제의 해결에 나섰다. 이 사양은 어떠한 음성 애플리케이션이든 음성 합성기나 인식기 같은 네트워크 기반 미디어 자원을 제어할 수 있게 해줄 것이다. 이 워크그룹의 궁극적인 목표는 새로운 음성 지원 애플리케이션의 개발을 장려하고, 재정적인 부담을 줄여주는 것이다.
표준이 아직 개발 중이긴 하지만, 시스코시스템즈와 마찬가지로 뉘앙스커뮤니케이션스나 복스파일럿과 같은 음성 프로세싱 업체들이 이미 참여하고 있으며, MRCPv2 음성 엔진도 이미 나오고 있다.
하지만 이 표준은 일부 주요 업체들로부터 냉대를 받고 있기도 하다. 마이크로소프트는 아직 여기에 대한 공식적 입장을 밝히지 않았으며, 음성 프로세싱에 판돈을 걸고 있지 않은 몇 되지 않는 거대 세력들 가운데 하나이기도 하다.

업체 전용의 문제 해결
MRCPv2가 없을 경우 음성 애플리케이션 프로그래머는 각 업체의 음성 엔진용을 별도로 개발해야 할 것이다. 어떤 경우 소프트웨어 업체는 회사에서 판매하고 있는 각 업체마다 서로 다른 인터페이스를 갖고 있어 혼란이 더욱 가중되기도 한다. 전용 인터페이스 문제를 해결하기 위해, 시스코, 뉘앙스 및 스피치웍스는 2001년 MRCP를 개발했으며, 이들의 작업은 처음에는 IETF의 영역 밖에서 이루어졌다.
MRCP의 첫 버전은 고도로 집중화된 음성 프로세싱 이행을 가정했으며, SI(Speaker Identification)나 SV(Speaker Verification) 같은 이런 주요 부문들을 해결하지 못했다. 스피치 그룹의 공동 회장인 칸타나 테크놀로지스의 에릭 버거에 따르면, MRCPv1은 확장성, 보안, 그리고 프로토콜 엔지니어링 문제로 곤란을 겪었다고 한다.
SI는 텔레포니를 다른 시스템에 통합시키는 데 사용될 수 있다. 예를 들어 PSTN 브리지를 이용해 웹 컨퍼런스에 참여하고 있는 직원이 있고, 다른 직원은 전화를 이용해 컨퍼런스에 연결이 돼 있을 경우, 스피커 ID 서비스는 현재 이야기하고 있는 웹 사용자를 디스플레이할 수 있다. SV 서비스는 예를 들어 암호 제어에 생체인식적으로 사용될 수 있다.
지난 2002년 이러한 모든 문제를 해결하고, 이를 통해 TTS, SI, SV 및 음성 인식 엔진용 인터페이스를 표준화하기 위해 IETF의 스피치SC 그룹이 결성됐다. 스피치SC의 기본 프레임워크는 RFC 4313에 설명돼 있다. MRCPv2는 이 프레임워크의 이행안이며, 올 4월 전에 IETF에 의해 비준될 전망이다.
MRCPv2는 SIP(Session Initiation Protocol), RTP(Real-Time Transport Protocol) 및 보이스XML 같은 음성 프로토콜과 기존의 VoIP를 기반으로 만들어졌다. 스피치SC 워크그룹의 공동 회장인 버거와 데이비드 오란은 또한 SIP 포럼 이사회의 일원이기도 하다. 그리고 버거는 보이스XML 포럼 MRCP 위원회에도 소속이 돼 있다. 따라서 MRCPv2를 책임지고 있는 사람들은 다른 음성 및 VoIP의 실세들과도 힘을 합칠 수 있는 능력을 갖고 있다.

참여 업체들
MRCPv2에는 시스코와 IBM을 비롯한 10여 개의 다른 업체들이 후원하고 있으며, 워크그룹 참여 업체의 대부분은 음성 프로세싱 회사들로 구성돼 있다.
마이크로소프트는 스피치SC 참여자 목록에서 그 부재가 가장 눈에 띄는 곳이다. 이 회사 고유의 통신 프로토콜인 SAPI(Speech Application Programming Intferface)를 기반으로 하는 마이크로소프트 스피치 서버(Speech Server)는 마이크로소프트에서 현재 진행 중인 통합 커뮤니케이션(Unified Communications) 전략의 중요한 한 부분이기도 하다.
예를 들어 스피치 서버는 익스체인지 2007 사용자가 음성 인식 및 TTS 기능을 이용해 모바일 전화기에서 이메일에 액세스할 수 있게 해준다. 하지만 레드몬드로부터는 MRCPv2에 대한 언급이 거의 없는 상태다. 이 회사 음성기술 팀 블로거들 가운데 그 누구도 여기에 대해 말하는 사람은 없으며, 마이크로소프트는 어떠한 공식적인 언급이나 비판도 하지 않고 있다.

채택시 이점
MRCPv2에 대한 마이크로소프트의 입장이 이 표준의 성공과 실패를 말해주는 것은 아니며, 이는 보이스XML 때의 역사를 보면 알 수 있다. 마이크로소프트는 원래 스피치 서버용으로 SALT(Speech Application Language Tags)에 참여를 했다. 2006년 4월, 마이크로소프트는 스피치 서버 2007에서 SALT와 음성XML을 둘 다 완전 지원하겠다고 발표한 바 있다.
이 시장이 음성XML을 향해 움직이고 있다는 전망이 있었기 때문에 마이크로소프트에서 여기에 대한 지원의 필요성을 느꼈다고 할 수 있다. 하지만 보다 냉소적인 시각에서 보자면 마이크로소프트는 SALT로 시장을 지배하고자 했으나 시장에서 이것을 거부했다고 풀이할 수도 있다. 어찌됐든 우리는 이 업계가 MRCPv2를 선호하리라 예상하고 있으며, 마이크로소프트도 뒤늦게 합류하게 될 것이다. 그렇지 않을 경우에는 마이크로소프트의 불참 문제를 효과적으로 해결하기 위해 SAPI 투 MRCP 번역기가 개발될 수 도 있다.
업체들의 MRCPv2의 채택은 음성 애플리케이션 개발을 보다 쉽고 저렴하게 만들어줄 것이며, 따라서 음성 프로세싱의 잠재 시장을 늘려줄 것이다. 하지만 이 표준은 또한 엔진 교체를 한층 수월하게 만들며 이것은 IT 부서에는 혜택이지만 음성 프로세싱 업체에게도 그러할지는 의문이다.
뉘앙스는 록 다운(locked down) 시장보다는 보다 큰 시장이 더 좋다고 믿고 있으며, 이 업계를 성장시키는 것이라면 무엇이든 모든 음성 업체들에게 유리하게 작용한다는 생각이다. 음성 업계는 비교적 작은 커뮤니티며, 아직 폭발적인 성장을 경험하지 못했다. 업체들은 MRCPv2가 여기에 불길을 당겨줄 것으로 기대하고 있다. 반면에 MRCPv2는 업체들이 개발자에게 자사의 엔진을 지원하는 쪽으로 흔들어 놓기 쉽게 할 것이다.
마지막으로 시스코와 IBM 등과 같이 음성 프로세싱 기술을 사용하기는 하지만 반드시 개발한다고 할 수는 없는 업체들은 모든 엔진에 표준 인터페이스를 둠으로써 표준의 혜택을 받을 수 있는데, 그것은 애플리케이션을 개발하고, 엔진을 바꾸며, 프로그래머를 구하는 일이 한층 더 쉬워지기 때문이다.

요점 정리
약속 스피치SC와 MRCPv2는 업체 중립적인 표준으로서 프로세싱 엔진들간에 일관성 있는 API로 분산형 음성 프로세싱을 실현하고자 고안되었다. 이 표준을 이용할 경우 기존의 멀티미디어 프로토콜을 변경할 필요 없이 미디어 프로세싱 장비에서 음성 인식, 스피커 검증 및 TTS 서비스가 가능해진다.
참여 업체들 시스코와 칸타나가 스피치SC 워크그룹에서 공동 회장을 맡고 있다. 뉘앙스 커뮤니케이션즈와 복스파일로트 같으 몇몇 음성 프로세싱 업체들도 또한 여기에 기여하고 있다. 스피치SC 멤버 목록에서 빠진 곳들로는 어바이어나 지멘스처럼 VoIP와 음성 지원을 이미 제공하고 있는 IP-PBX 업체들이 있다. 마이크로소프트는 아직 입장을 밝히지 않았다.
전망 스피치SC 프레임워크와 MRCPv2는 소규모 음성 프로세싱 업체와 통합업체들에게 혜택이 될 것이다. 강력한 음성 프로세싱 능력을 갖추지 못한 IP-PBX 업체들은 써드파티 제품을 보다 쉽게 통합할 수 있게 되며, 음성 애플리케이션 개발자는 오디오 스트림을 처리할 수 있는 고정되고 예측 가능한 수단을 갖게 된다. 기존의 SIP와 RTP 표준을 바꿀 필요가 없게 한 것은 이 워크그룹의 현명한 선택이었으며, MRCPv2 채택을 한층 수월하게 만들어 줄 것이다.

Tech Tracker / IETF 스피어민트의 SIP 표준안

“보다 표준으로, 보다 저렴하게”
‘어바이어·시스코·지멘스’ 주도 … 기존 SIP 문제 해결

어바이어, 시스코, 지멘스 등과 같은 굵직한 업체들의 지원에 힘입어 이 새로운 사양은 표준화된 백본 접속성과 보다 저렴한 음성 통신으로 가는 길을 열고 있다. 덕분에 PSTN은 나날이 설 곳을 잃어가고 있다.

당신이 글로벌 기업의 CTO라고 상상해 보라. 사무소들간 통신에 비용이 들어간다는 거부할 수 없는 현실을 받아들이고 있을 것이다. 이것은 사용량과 지리적으로 떨어진 정도에 따라 꽤 큰 액수가 되기도 한다.
이제 이러한 사무소간 통화 비용이 사실상 거의 사라져가고 있고, 다른 회사로 거는 장거리 통화 비용이 감소한다고 상상해 보라. 계산상의 착오로 여겨질 수도 있겠지만 이것은 사실 SIP 피어링을 이행하겠다는 당신의 발 빠른 결정으로 인한 결과다. 그리고 IETF에서 작업 중인 표준은 SIP 피어링을 이용한 통신의 발전을 약속하고 있다.
우리에게는 SIP(Session Initiation Protocol)나 그 극적인 효과가 전혀 낮설지 않으며, 이것은 집에서나 직장에서 모두 엔드유저가 접할 수 있는 기술이다. SIP 피어링은 서버간 상호연결을 책임지며, ITSP(Internet Telephony Service Provider), 즉 IETF 언어로 말하자면 VSP(Voice Service Provider)와 기업간에 백본 접속을 제공한다. 이러한 상호접속은 전용, 혹은 공중 인터넷을 이용해 IP 공간에서 완벽하게 이루어지며, 비용을 유발하는 PSTN은 결코 건드리지 않는다.
SIP 피어링은 비용과 유연성 면에서 막대한 이점을 제공하긴 하지만, VoIP와 같은 약점을 갖고 있다. 즉 이것은 신뢰성이 있긴 하지만 패킷 교환망, 특히 인터넷에서의 백본 피어링은 레거시 회선 교환망보다 서비스 중단이 발생할 가능성이 많다. 나아가 SIP 피어간 보안에는 호환 가능한 보안 기술이 필요하다. 그렇지 않으면 호출이 일반적으로 오류가 나거나, 혹은 보안이 되지 않기 때문이다. IETF의 SIP 피어링 그룹인 스피어민트(Speermint: Session Peering for Multimedia Interconnect)에서는 바로 이런 단점들을 해결하기 위해 노력하고 있다.

막대한 잠재력
이상적으로 볼 때는 회
사의 모든 사무소와, 그리고 관계를 맺고 있는 가능한 많은 곳과 피어링을 할 수 있는 게 좋으며, 따라서 PSTN에 대한 의존성을 없애고 비용을 극적으로 낮출 수 있기를 원할 것이다. 케이요트 네트웍스(Kayote Networks), 스텔스 커뮤니케이션즈(Stealth Communications) 및 엑스커넥트 글로벌 네트웍스(XConnect Global Networks) 같은 회사들이 자신들의 SIP ‘동맹(federations)’에 가능한 많은 구성원들을 포함시킴으로써 진작시키고자 하는 동향도 바로 이러한 것들이다. 이 동맹에서는 모든 참가자로 하여금 보안과 QoS(Quality of Service) 호환성 등급을 수립하기 위해 자신들의 규칙을 따르도록 하고 있다.
한편 동맹에의 가입을 정당화할 수 없는 기업이나 사업자들을 위해 스피어민트는 피어드 네트워크에서의 실시간 세션 처리를 위한 방법론을 다루는 일련의 BKM(Best Known Methos)도 제공한다.
스피어민트 그룹에서 우선으로 하는 목표는 특정 용도에 맞게 만들어진 다양한 아키텍처를 이용해 SIP 프로토콜을 널리 보급시킨다는 것이다. 모든 아키텍처는 실시간 통신과 지연에 민감한 통신에 대해 신원확인, 시그널링 및 라우팅을 제공하며, 동시에 악용과 공격에 대한 저항, 신용 및 보안을 수립하고 유지할 수 있도록 구축됐다.
네트워크 유형에 완전히 독립적으로 운영하기 위해, 이 그룹에서는 애플리케이션 레이어에 신경을 써서 이것을 레이어 5 이상으로 유지하고 있다. 덕분에 여기서는 기반 네트워크가 DSL 접속이든 OC-48이든 여기에 독립적으로 작업하는 데 충분한 모델을 만들 수 있게 됐다. 이 두 가지 기술들간에는 막대한 차이(QoS 호환성 등)가 있기 때문에 이 시점에서는 너무 낙관적인 생각일런지도 모른다. 스피어민트 그룹은 이 사실을 인정하고 있으며, 향후 QoS와 트래픽 엔지니어링 메커니즘을 포함키는 것도 고려 중이다.
이 시각 현재 스피어민트 그룹에서는 SIP 피어링의 기본적인 개념을 다루는 다섯 가지 인터넷 드래프트를 발표한 상태다. 이러한 표준안들은 본질적으로 스피어민트의 목표에 맞게 이미 나와 있는 SIP 표준을 확장시킨 것들이다. 표준안 가운데 유명한 두 가지는 피어링 기능과 그 다음 발생하는 메시지 흐름 단계들의 논리적 그루핑을 다루고 있다.
메시지 흐름 단계에 관한 인터넷 드래프트에서는 탐색, 정책 및 보안 단계를 SIP 세션에 적용시키며, SIP 신호의 통신과 호출 셋업이 있기 이전 피어들간의 상호교환과 협정으로 구성돼 있다. 이러한 추가 시퀀스들은 다중 SIP 피어들 사이에서 시스템 관리자들에 의해 구성 가능한 역동적인 정책을 수립하기 위한 첫 번째 단계다.
스피어민트는 동맹에서와 같은 수준의 보호와 신뢰성을 제공할 수 있겠지만, 사업자와 기업이 자체적으로 피어링 커뮤니티를 만들지는 않을 것이다. VPF와 같이 동맹에 의해 제공되는 전용 인프라는 공중망에서는 결코 기대할 수 없는 뛰어난 보안과 성능을 제공할 수 있다. 하지만 앞으로 몇 년 안에 나머지 사람들 모두 참여할 수 있는 대대적인 ‘스피어민트 지원’ 오픈 피어링 커뮤니티들도 등장할 것으로 기대된다.

요점 정리
약속 IETF의 스피어민트 프로토콜은 VoIP 트래픽 상호교환을 위한 표준을 제공함으로써 PSTN 종료와 관련된 높은 비용과 기능성 한계 문제를 피할 수 있게 해준다.
참여 업체 스피어민트 그룹 회원사들로는 어베이어, 시스코시스템즈 및 지멘스 같은 PBX 업체들뿐만 아니라, 콤캐스트, 레벨 3 커뮤니케이션즈 및 스프린트 등 서비스 사업자들과 뉴스타 같은 VoIP 피어링 사업자들까지 포함돼 있다.
전망 스피어민트 그룹는 지금까지 몇 개의 인터넷 드래프트를 발표했으며, 더 많은 것들을 준비 중이다. 이러한 표준안에서는 기업과 VoIP 사업자들을 위해 주류 SIP 피어링 배치를 지원하는 데 필요한 기반 사항들을 다루고 있다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.