> 뉴스 > 뉴스 > 소프트웨어
  • 트위터
  • 페이스북
  • 구플러스
  • 네이버밴드
  • 카카오스토리
     
[오피니언] AI 위한 데이터셋 공유 위해 정부·민간 힘 합쳐야
AI 학습 위해 대규모 정제된 데이터 필요…경계없는 데이터셋 공유의 장 만들어야 산업 발전
     관련기사
  “클릭 한 번으로 사용 가능한 AI 플랫폼 제공”
2019년 07월 08일 10:18:17 데이터넷 webmaster@datanet.co.kr
   
▲ 박종훈 위앤아이 대표 컨설턴트

[데이터넷] 가트너에 따르면 기업의 83%가 ‘데이터는 가장 전략적인 자산’이라는 점에 동의하고 있다. 그러나 대부분의 기업이 분석하고 있는 것으로 추정되는 데이터의 양은 약 12% 정도에 그치고 있으며, 83%의 데이터 분석가와 데이터 사이언티스트는 데이터셋을 만드는 전처리 작업에 리소스의 80%를 소요하고 있는 것으로 나타났다.

우리나라 정부는 AI를 위한 데이터셋을 공개해 AI 구현을 위한 개발사와 고객의 사전학습을 도와주고 있다. 그러나 엔터프라이즈에서는 현업에서 활용할 수 있는 데이터셋을 자체적으로 만들어야 하는데, 그 과정에서 상당히 많은 어려움을 겪고 있다. 가장 큰 문제는 AI 학습을 위한 데이터가 절대적으로 부족하다는 것이며, 정제되지 않은 데이터가 많아 전처리 작업에 많은 시간과 비용을 써야 하며, 전문가도 부족하다.

AI를 연구하고 서비스를 만드는 개발자 입장에서는 일반 데이터가 아닌 라벨링 된 데이터가 다량으로 필요하다. AI 학습 위한 데이터 전처리 과정에서 너무 많은 시간이 소요되고, 연구에 집중할 수 있는 절대적인 시간이 부족하기 때문이다. AI를 학습시키기 위해 걸리는 시간을 계산하면 전 처리시간이 약 90%, 학습 시간이 약 10% 소요된다.

더불어 애플리케이션 개발을 위한 데이터가 아니라, AI를 위한 데이터셋 구축이 필요하다는 것도 현실적인 문제이다. 현재 개방된 공공데이터는 앱 서비스를 개발에는 좋지만, AI 연구와 서비스 개발을 위해 적합한 데이터는 현저히 적다. 앱 개발을 위한 데이터가 아닌 AI를 위한 데이터, 즉 연구·개발 포맷에 맞춰 전 처리된 데이터 셋 구축이 꼭 필요하다.

AI를 위한 데이터는 제공자 중심이 아닌 개발자와 컴퓨터 할 수 있도록, 필요한 포맷에 맞춰 라벨링된 정제된 데이터를 모으는 작업이 필요하다. 정부뿐 아니라 민간의 데이터셋을 서로 쉽게 활발히 공유하고 연구할 수 있는 여건과 마켓이 시급히 필요하다.

데이터넷의 다른기사 보기  
ⓒ 데이터넷(http://www.datanet.co.kr) 무단전재 및 재배포금지 | 저작권문의  

     

인기기사

  빅데이터, AI, 데이터 공유
가장 많이 본 기사
인사·동정·부음
전체기사의견(0)  
 
   * 200자까지 쓰실 수 있습니다. (현재 0 byte/최대 400byte)
   * 욕설등 인신공격성 글은 삭제 합니다. [운영원칙]
전체기사의견(0)
사명: (주)화산미디어 | 주소: 서울시 강남구 강남대로 124길 26 유성빌딩 2층 | 전화: 070-8282-6180 | 팩스: 02-3446-6170
등록번호: 서울아03408 | 등록년월일: 2014년 11월 4일 | 발행년월일: 2003년 12월 17일 | 사업자등록번호: 211-88-24920
발행인/편집인: 정용달 | 통신판매업신고: 서울강남-01549호 | 개인정보관리 및 청소년보호 책임자: 박하석 | 호스팅 사업자: (주)아이네임즈
Copyright 2010 데이터넷. All rights reserved. mail to webmaster@datanet.co.kr