[오피니언] AI 위한 데이터셋 공유 위해 정부·민간 힘 합쳐야

AI 학습 위해 대규모 정제된 데이터 필요…경계없는 데이터셋 공유의 장 만들어야 산업 발전

[데이터넷] 가트너에 따르면 기업의 83%가 ‘데이터는 가장 전략적인 자산’이라는 점에 동의하고 있다. 그러나 대부분의 기업이 분석하고 있는 것으로 추정되는 데이터의 양은 약 12% 정도에 그치고 있으며, 83%의 데이터 분석가와 데이터 사이언티스트는 데이터셋을 만드는 전처리 작업에 리소스의 80%를 소요하고 있는 것으로 나타났다.

우리나라 정부는 AI를 위한 데이터셋을 공개해 AI 구현을 위한 개발사와 고객의 사전학습을 도와주고 있다. 그러나 엔터프라이즈에서는 현업에서 활용할 수 있는 데이터셋을 자체적으로 만들어야 하는데, 그 과정에서 상당히 많은 어려움을 겪고 있다. 가장 큰 문제는 AI 학습을 위한 데이터가 절대적으로 부족하다는 것이며, 정제되지 않은 데이터가 많아 전처리 작업에 많은 시간과 비용을 써야 하며, 전문가도 부족하다.

AI를 연구하고 서비스를 만드는 개발자 입장에서는 일반 데이터가 아닌 라벨링 된 데이터가 다량으로 필요하다. AI 학습 위한 데이터 전처리 과정에서 너무 많은 시간이 소요되고, 연구에 집중할 수 있는 절대적인 시간이 부족하기 때문이다. AI를 학습시키기 위해 걸리는 시간을 계산하면 전 처리시간이 약 90%, 학습 시간이 약 10% 소요된다.

더불어 애플리케이션 개발을 위한 데이터가 아니라, AI를 위한 데이터셋 구축이 필요하다는 것도 현실적인 문제이다. 현재 개방된 공공데이터는 앱 서비스를 개발에는 좋지만, AI 연구와 서비스 개발을 위해 적합한 데이터는 현저히 적다. 앱 개발을 위한 데이터가 아닌 AI를 위한 데이터, 즉 연구·개발 포맷에 맞춰 전 처리된 데이터 셋 구축이 꼭 필요하다.

AI를 위한 데이터는 제공자 중심이 아닌 개발자와 컴퓨터 할 수 있도록, 필요한 포맷에 맞춰 라벨링된 정제된 데이터를 모으는 작업이 필요하다. 정부뿐 아니라 민간의 데이터셋을 서로 쉽게 활발히 공유하고 연구할 수 있는 여건과 마켓이 시급히 필요하다.

데이터넷 다른기사 보기