과기정통부, AI 학습용 데이터 170종 공개…한국형 데이터 대폭 확충
상태바
과기정통부, AI 학습용 데이터 170종 공개…한국형 데이터 대폭 확충
  • 윤현기 기자
  • 승인 2021.06.18 18:34
  • 댓글 0
이 기사를 공유합니다

음성·헬스케어·자율주행·비전·국토환경·농축수산·안전 등 8대 분야 4억8000만건 개방

[데이터넷] 과학기술정보통신부(장관 임혜숙)와 한국지능정보사회진흥원(NIA, 원장 문용식)은 18일부터 ‘AI 허브’를 통해 인공지능(AI) 학습용 데이터 170종을 개방한다고 밝혔다.

이번에 개방되는 AI 학습용 데이터는 ▲음성·자연어 ▲헬스케어 ▲자율주행 ▲비전 ▲국토환경 ▲농축수산 ▲안전 ▲기타 등 8대 분야 4억8000만건이다.

AI 학습용 데이터는 18일 60종을 시작으로 6월말까지 순차적으로 개방되며, 헬스케어 데이터(27종) 등 개인정보 및 민감정보가 포함될 우려가 있는 59종의 데이터는 최종 검증을 거쳐 30일에 개방될 예정이다.

그간 국내 AI 기업들은 AI 개발에 필요한 데이터 확보를 위해 해외 오픈데이터를 많이 활용해왔다. 그러나 한국어, 국내 도로 환경 등 국내 실정을 반영하지 못한 오픈데이터는 국내 AI 서비스 개발에 활용되기 어려운 문제가 있었다.

이번에는 지역별 방언을 포함한 한국어, 국내 주요 도로와 국내 환자 의료영상 데이터 등 ‘한국형 AI 학습용 데이터’가 대폭 확충돼 국민이 체감할 수 있는 AI 서비스 개발이 가속화될 수 있을 것으로 기대된다.

오는 30일 공개를 앞두고 있는 한국어 방언(경상·전라·충청·강원·제주) 발화 데이터는 표준어에 비해 사투리를 잘 인식하지 못하던 음성 기반 AI 서비스의 문제점을 상당 부분 해결할 수 있을 것으로 전망된다. 특히 데이터 개방 전 활용성 검토 결과 ‘자연스러운 방언이 수집됨’, ‘기존 서비스의 인식률이 12% 향상됨’ 등의 좋은 평가를 받기도 했다.

또 순차적으로 공개될 자율주행 데이터(21종)는 국내 도로주행 영상뿐 아니라, 주차 장애물·이동체 인지 영상, 버스 노선주행 영상 등 다채로운 데이터를 제공해 자율주행차 개발을 한층 앞당길 것으로 기대되고 있다. 활용성 검토 결과 ‘특수 차선, 장애물, 포트홀 등 다양한 객체가 포함’된 점은 대표적인 장점으로 꼽힌다.

과기정통부는 데이터 개방과 함께 AI 허브에 데이터 개선의견 수렴을 위한 온라인 창구를 운영하고, 전문 기관(TTA, KISA 등)과 협력해 데이터 품질 등 이용자 의견에 신속하게 대응하기 위한 TF도 운영할 계획이다.

임혜숙 과기정통부 장관은 “댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이, 이번에 공개되는 데이터들이 산업 곳곳에서 널리 활용되어 혁신의 열매를 맺을 수 있기를 기대한다”며, “정부도 고품질의 AI 학습용 데이터를 지속적으로 제공하고, 누구나 데이터를 쉽게 활용하고 성과를 공유할 수 있는 환경을 조성하는데 지원을 아끼지 않겠다”고 말했다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.