스캐터랩, 한국어 오픈 도메인 대화생성 모델 개발 과정 공개

기술 블로그에 ‘한국어로 대화하는 생성 모델의 학습을 위한 여정’ 게시
한국어 답변 생성 모델 데모 공개 예정…실제 서비스 적용 계획도

대화생성 모델 디코딩 방법에 따른 답변 내용. )Meena(Large)모델 beam search 디코딩(왼쪽)과 Meena(Large) 모델 nucleus(p=0.2p=0.2) 디코딩

[데이터넷] AI 스타트업 스캐터랩(대표 김종윤)이 대량은 한국어 데이터를 학습해 한국어 오픈 도메인 대화를 생성하는 모델의 개발 과정을 21일 공개했다.

스캐터랩 AI 챗봇 개발을 담당하는 핑퐁팀은 최근 자체 운영 중인 기술 블로그에 ‘한국어로 대화하는 생성 모델의 학습을 위한 여정(Journey into Korean Dialog Generation System)’을 게시했다.

명확한 목표 문장이 있는 기능형 챗봇과 달리 영화 그녀(Her, 2013)의 AI 챗봇 ‘사만다’나 영화 아이언맨(Iron Man, 2008)의 ‘자비스’와 같이 사람처럼 유연한 대화가 가능한 오픈 도메인 챗봇을 구현하는 것은 자연어 처리(NLP) 업계의 큰 과제다. 최근 구글, 페이스북, 바이두, 마이크로소프트 등의 기업들은 오픈 도메인 챗봇 모델에 관한 논문을 속속 발표하면서 오픈 도메인 챗봇 개발을 새로운 전기를 마련하고 있다.

글로벌 기업들의 오픈 도메인 답변 생성에 관련한 최근 논문들은 대량의 학습 데이터가 답변 생성 능력에 결정적인 차이를 만들어 낸다는 결과를 보여주고 있다. 이에 스캐터랩 핑퐁팀은 한국어 오픈 도메인 대화 생성 모델의 연구에 도움이 되고자 스캐터랩이 보유 중인 대량의 한국어 데이터를 활용한 연구를 진행했다.

이번 연구에서 스캐터랩은 자체 보유하고 있는 350기가바이트(GB)의 한국어 대화 데이터를 학습 데이터로 활용했다. 이는 해외 연구 논문에 사용된 대량의 데이터셋과 비슷한 수준의 한국어 대화 데이터이다. 또한 일상 대화 데이터에서 학습할 수 있는 단순 답변 능력뿐만 아니라, 다양한 지식과 상식을 학습할 수 있도록 ‘위키피디아’와 ‘나무위키’ 데이터를 활용했다.

스캐터랩의 기술 블로그에 방문하면 학습 데이터의 전처리 과정과 스캐터랩이 학습 모델로 활용한 ‘Encoder-Decoder’ 구조(Meena형 구조)와 ‘Decoder Only’ 구조(GPT형 구조), 그리고 디코딩 과정에서 결정론적 방법과 확률론적 방법을 활용해 답변을 얻어낸 결과를 확인할 수 있다.

스캐터랩은 이번 연구를 통해 개발한 한국어 답변 생성 모델을 데모로 공개할 예정이며, 이후 스캐터랩이 서비스하고 있는 ‘이루다’에 적용할 예정이다.

김종윤 스캐터랩 대표는 “스캐터랩이 보유하고 있는 대량의 한국어 데이터를 통해 처음 시도해본 프로젝트에서 좋은 결과를 얻게 된 것 같다”며 “같은 연구를 진행 중인 기업들에게 우리의 실험이 조금이나마 도움이 됐으면 좋겠다”고 말했다.

윤현기 기자 다른기사 보기