“한국어-영어 번역 말뭉치 공개로 자동번역 시장 연다”
상태바
“한국어-영어 번역 말뭉치 공개로 자동번역 시장 연다”
  • 강석오 기자
  • 승인 2019.11.27 14:15
  • 댓글 0
이 기사를 공유합니다

솔트룩스파트너스, 한국어-영어 번역 AI 데이터 160만쌍 전면 공개

[데이터넷] 솔트룩스파트너스(대표 신석환)는 12월 중으로 한국정보화진흥원이 운영하는 AI허브 사이트에 고품질 인공지능 번역 말뭉치 160만쌍을 공개한다. 인공지능 번역 학습을 위한 말뭉치는 ‘원문-번역문’의 문장쌍이 하나의 데이터를 이루기 때문에 160만 문장은 160만 문장쌍을 의미한다.

이는 지난 5월 15일 한국정보화진흥원이 발주한 2019 인공지능 데이터 구축사업의 주관사업자로 선정된 후 6.5개월간 300명 이상의 구축인력을 통해 얻어낸 결과물이다.

인공신경망 기계번역(NMT)의 기술 발전으로 일반 대중들은 자동 번역기를 활용하면서 AI 번역 기술과 학습용 번역 데이터는 중요한 자원으로 요구되고 있다. 하지만 일반 민간 기업들이 해당 시스템을 개발하거나 기술적 성능을 내기 위해서는 대규모의 고품질 학습 데이터가 절실히 필요한 상황이다. 

한국정보화진흥원은 이러한 국내 기업 및 공공기관의 수요를 파악해 10개 분야에서 AI 데이터 구축사업을 진행하고 있다. 이 중 가장 대중적인 관심과 활용도가 높을 것으로 판단되는 분야가 바로 한국어-영어 번역 말뭉치다.

학계 연구진은 물론 통역기와 번역기를 개발하는 기업은 해당 데이터의 공개에 기대가 크다. 특히 중소기업이 해결하기 어려운 저작권 문제가 해결된 뉴스 데이터 80만 문장과 학습성능이 뛰어난 조례 10만 문장, 한국문화 10만 문장, 상황별 구어체 40만 문장, 대화체 10만 문장 등은 다양한 서비스를 자동번역과 연결하는 AI 기업들에게 기초 데이터로 활용될 것으로 보인다.

신석환 솔트룩스파트너스 대표는 “이번에 구축된 데이터는 일반 번역비용으로만 봐도 50억 이상의 가치를 갖는 고품질 한국어-영어 번역 데이터기 때문에 관련 학계와 업계에서는 다각도로 활용하기를 기대한다”고 밝혔다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.