> 뉴스 > 뉴스 > 소프트웨어
  • 트위터
  • 페이스북
  • 구플러스
  • 네이버밴드
  • 카카오스토리
     
솔트룩스, 국립국어원 ‘원시 말뭉치 구축 사업’ 수주
TV·라디오 등 구어 원자료와 드라마·연극 대본 등 준구어 원자료 수집해 말뭉치 구축
2019년 08월 12일 10:29:48 윤현기 기자 y1333@datanet.co.kr

[데이터넷] 솔트룩스(대표 이경일)는 고품질 우리말 자원 구축을 위한 국립국어원의 ‘구어 자료 수집 및 원시 말뭉치 구축 사업’을 수주했다고 12일 밝혔다.

현재 주요 국가 공공 데이터세트 현황을 살펴보면 미국 25만2952건, 캐나다 8만1949건, 영국 5만1297건에 달한다. 이에 비해 한국은 2만9934건으로 미국의 1/9 수준이다.

특히 언어 데이터인 말뭉치 어절 보유량을 살펴보면 문제는 더욱 심각하다. 언어별 말뭉치 데이터는 영어 2000억 어절, 중국어 800억 어절 대비 한국어 2억 어절로 한국어가 영어의 1/1000에 그치는 등 해외 선도국보다 데이터 자산이 매우 취약한 상황이다.

이에 국립국어원은 TV, 라디오 등의 구어 원자료와 드라마, 연극 대본 등의 준구어 원자료를 수집해 말뭉치를 구축하고, 저작권 이용 계약까지 체결해 민간 활용 가치를 극대화하는 말뭉치 구축 사업을 계획했다.

솔트룩스는 이미 2018년 자체 말뭉치 구축 전문인력을 통해 품질순도 99.9%의 국립국어원 ‘국어 말뭉치 연구 및 구축 사업’을 수행했던 경험이 있으며, 그 외에도 한국전자통신연구원(ETRI) ‘음성 DB 구축’, 한국언론진흥재단 ‘뉴스 빅데이터 시스템 구축’ 등 20년간 축적된 빅데이터 구축 경험과 4단계 품질관리 프로세스 등의 전문성을 인정받은 바 있다.

솔트룩스 이경일 대표는 “인공지능 산업 및 국어·언어학계에 필요한 구어 말뭉치 구축을 위해 유용성 검증과 품질 확보라는 두 마리 토끼를 잡아야 한다”며 “자체 보유한 인공지능 원천 기술력과 국내 최다 인공지능 서비스 개발 경험을 통해 최상의 프로세스로 반드시 성공적으로 사업을 수행하겠다”고 밝혔다.

윤현기 기자의 다른기사 보기  
ⓒ 데이터넷(http://www.datanet.co.kr) 무단전재 및 재배포금지 | 저작권문의  

     

인기기사

 
가장 많이 본 기사
인사·동정·부음
전체기사의견(0)  
 
   * 200자까지 쓰실 수 있습니다. (현재 0 byte/최대 400byte)
   * 욕설등 인신공격성 글은 삭제 합니다. [운영원칙]
전체기사의견(0)
사명: (주)화산미디어 | 주소: 서울시 강남구 강남대로 124길 26 유성빌딩 2층 | 전화: 070-8282-6180 | 팩스: 02-3446-6170
등록번호: 서울아03408 | 등록년월일: 2014년 11월 4일 | 발행년월일: 2003년 12월 17일 | 사업자등록번호: 211-88-24920
발행인/편집인: 정용달 | 통신판매업신고: 서울강남-01549호 | 개인정보관리 및 청소년보호 책임자: 박하석 | 호스팅 사업자: (주)아이네임즈
Copyright 2010 데이터넷. All rights reserved. mail to webmaster@datanet.co.kr