비투엔, 고품질 AI 학습용 데이터 대량 확보
상태바
비투엔, 고품질 AI 학습용 데이터 대량 확보
  • 윤현기 기자
  • 승인 2022.01.12 16:05
  • 댓글 0
이 기사를 공유합니다

정부 주관 AI 학습용 데이터 구축 2사 사업 다수 참여
총 7종 88만건 이미지·텍스트 데이터·1만7000시간 음성 데이터 품질 점검 완료

[데이터넷] 빅데이터·인공지능(AI) 전문 기업 비투엔(대표 조광원)이 대량의 고품질 인공지능(AI) 학습용 데이터 확보에 성공했다. 

12일 비투엔은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 ‘인공지능 학습용 데이터 구축 2차 사업’에서 ‘주제별 음성 데이터(솔트룩스 컨소시엄)’, ‘요약 텍스트 데이터(와이즈넛 컨소시엄)’, ‘반려동물 질병진단을 위한 영상 데이터(이노그리드 컨소시엄)’ 과제에 참여해 총 7종 88만건(이미지 60만, 텍스트 28만), 1만7000시간(음성)의 AI 학습용 데이터의 품질 점검을 완료하고, 고품질 AI 학습용 데이터를 확보했다고 밝혔다.

비투엔은 컨소시엄 내에서 품질관리 실무책임자로서 품질관리 계획 수립, 각 단계별 품질관리 활동 점검, 품질관리 실무와 관련된 협의체 구성 및 운영, 품질 관련 TTA 및 NIA 대응 등 품질 관리 전반의 업무를 수행했으며, 총괄 PM과 품질 총괄 책임자의 든든한 지원자 역할을 소화했다.

나아가 소리자바, 딥네츄럴, 유클리드소프트, 지케스 등 라벨링 전문 기업들과 긴밀하게 협업해 체계적인 데이터 품질관리체계를 구축했다.

또 국내 유일 AI 학습용 데이터 품질관리 솔루션 ‘SDQ for AI’를 활용해 파일의 완전성 진단, 구조의 정확성, 형식의 유효성 진단 등 구문 정확성 검사와 데이터 클래스 분포, 인스턴스 분포, 문장 길이, 어휘 개수 등 데이터 특성에 맞는 분석 가능 항목의 통계적 분포를 검증함으로써 고품질 학습용 데이터를 확보했다.

특히 ‘반려동물 질병진단을 위한 영상 데이터’ 과제에서는 구문 정확성과 통계 다양성에 더불어 구축된 학습용 데이터의 인공지능 알고리즘을 활용한 품질 점검 항목인 모델 유효성까지 업무 영역을 확장해 모델 유효성 검증 지표 설정, 구축된 학습용 데이터 기반의 모델 학습 및 목표 달성 여부 점검, 모델 유효성 관련 TTA 협의 및 분석 결과 제출 등의 세부 업무를 완벽하게 수행했다.

비투엔은 인공지능 학습용 데이터 구축 컨소시엄 내 품질 검사 도구를 확보하고 있지 않은 과제들을 대상으로 품질 검증 서비스와 ‘SDQ for AI’ 도구를 제공하는 등 다양한 형태로 인공지능 학습용 데이터 구축 사업에 참여했으며, 현재도 2022년 인공지능 학습용 데이터 구축 사업 참여를 계획하는 여러 기관 및 기업의 문의가 이어지고 있다는 설명이다.

비투엔은 지난해 참여한 과제들의 고품질 데이터 확보를 통해 AI 학습용 데이터 품질관리의 최대 레퍼런스를 보유한 국내 유일 AI 학습용 데이터 품질 전문 기관으로 기술 전문성과 솔루션 성능 및 안정성을 작년에 이어 다시 한번 입증했다는 평가다.

김문영 비투엔 사업총괄 부대표는 “2021년 AI 학습용 데이터 구축 사업의 참여 경험을 기반으로 2022년에 보다 다양한 사업에 참여해 AI 학습용 품질관리 전문 기업의 위치를 굳건히 하겠다”며 “앞으로 빅데이터·AI 데이터 품질관리 사업을 신성장 핵심사업으로 선정하고, 지속적인 투자와 연구개발을 통해 경쟁력을 더욱 강화할 것”이라고 말했다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.