[구축사례] 서초구 AI 학습용 데이터셋 구축
상태바
[구축사례] 서초구 AI 학습용 데이터셋 구축
  • 데이터넷
  • 승인 2020.12.22 12:46
  • 댓글 0
이 기사를 공유합니다

스마트시티, AI 학습용 데이터셋 확보 부터 시작해야
서초구 AI 학습용 데이터셋 구축 사업 진행 … 데이터 정제 위한 라벨러 양성 나서야

[데이터넷] 스마트시티의 핵심 기술은 AI이며, AI는 정제된 데이터를 충분히 확보하고 있어야 한다. 스마트시티 사업은 ‘쓸모있는 데이터 확보’부터 시작해야 한다는 뜻이다. 서초구는 ‘인공지능 학습용 데이터세 구축 사업’에 선정돼 사업을 진행하고 있다. 이 사업을 통해 ‘충분히 쓸모있는 데이터셋’을 확보하고 이를 기반으로 스마트시티를 완성시켜나간다는 계획이다.<편집자>

임동현 서초구청 스마트도시서비스팀 주무관
<임동현 서초구청 스마트도시서비스팀 주무관>

서초구는 8월 과학기술정보통신부와 한국지능정보사회진흥원원(NIA)이 주관하는 ‘인공지능 학습용 데이터셋 구축 사업(2차)’ 자유과제 부문에 씨프로, 나무플래닛, 국민안전역량협회와 컨소시엄을 구성, 최고 점수로 선정돼 2021년 2월까지 데이터셋 구축을 진행한다.

서초구가 제시한 주제는 ‘버드아이뷰(BirdEye-View)’를 이용한 차량·사람 도심지 혼잡도 측정 데이터셋 구축’이다. 서초구가 관내 랜드마크 20여 빌딩 옥상을 임차해 설치·운영중인 고성능 무선 CCTV 영상(버드아이뷰)을 수집, 컨소시엄이 함께 가공해 카운팅과 혼잡·밀집도 등의 AI 엔진 성능 향상을 위한 기준 데이터셋을 제작할 예정이다.

정부는 AI 학습용 데이터셋 구축사업을 포함한 ‘데이터댐-뉴딜 사업’으로 라벨러라는 직업군을 정의하고 적극 지원을 약속한 바 있다. 데이터셋 구축사업 중 자치단체가 주관기관이 된 경우는 본 사업이 처음이다. 향후 정부정책 수립과 업계 발전 방향을 위해 서초구 버드아이뷰 데이터셋 내용을 다음과 같이 정리해 보고자 한다.

랜드마크 건물 옥상에서 데이터 취득

서초구는 버드아이뷰 화각 확보를 위해 고정카메라 40대를 랜드마크 건물 옥상에 신설했다. 사당역, 강남역, 고속터미널, 강남대로변, 경부고속도로 등 실제 혼잡 상황이 자주 발생하는 장소를 주요 목표로 선정해 혼잡도 관점에서 의미 있는 데이터셋이 될 수 있도록 디자인했다.

업계 다양한 요구를 반영해 영상포맷(사진과 동영상), 영상크기(2Mpixel과 5Mpixel), 압축방식(H.264와 H.265), 거리(원거리와 근거리), 촬영각도(대지수평기준 30도에서 90도까지), 객체크기(개인정보 확인 불가 크기부터 더 작게) 등 40여종의 다양한 화각을 설정하고 고품질 영상을 취득했다.

랜드마크 건물 옥상에 설치한 버드아이뷰
▲랜드마크 건물 옥상을 통해 확보한 버드아이뷰

VDI 통해 개인정보 유출 없이 데이터 가공

버드아이뷰를 통해 취득된 데이터에는 개인 식별 가능 정보가 있을 수 있다. 기존의 파일 유통 작업 방식이나 파일을 다운로드 할 수 있었던 작업 방식과 다르게 기본 환경을 VDI로 구현해 불법적인 개인정보 유통과 개인정보 침해를 예방했다.

라벨러는 VM웨어 호라이즌 VDI 클라이언트를 이용해 서초구 버드아이뷰 플랫폼에 접속·작업·저장하되 복사는 할 수 없도록 했다. 모든 관리자 역시 VDI 환경에서만 모니터링과 품질평가 하게 함으로써 법규를 준수했다. 가상화 환경내 작업 플랫폼은 오픈소스 CVAT 기반으로 개발돼, 라벨러는 직관적으로 작업하고 3차에 걸친 검수자에게는 편리성을 더 하며, 관리자에게는 깊은 가시성을 확보할 수 있도록 디자인됐다. 차량번호 등이 식별되는 특정 영상·이미지에 대해서는 해당 영역에만 마스킹 처리해 원본 및 학습용 데이터 훼손율이 최소가 되게 했다.

라벨러는 약 300명 투입됐는데, 한국장애인고용공단과 협약해 장애인 약 40명, 서초여성인력개발센터와 협약해 라벨러 교육과정 수료한 경력단절 여성 약 80명에게 사회 (재)진출 기회를 제공해, 본 사업이 정부 뉴딜 시책에 부응하게 했다.

라벨러 선정시, 시험을 통해 데이터 품질 저하를 방지했다. 코로나 상황에 맞춰 10여 차례의 모든 교육은 온라인을 활용해 진행했고, 라벨러와 소통의 창구로 오픈톡을 활용함으로써 품질 일관성이 이뤄지게 했다.

▲서초구 도심 혼잡 버드아이뷰 AI 데이터 구축 운용 플랫폼
▲서초구 도심 혼잡 버드아이뷰 AI 데이터 구축 운용 플랫폼

충분히 쓸모 있는 데이터셋 제공

서초구 컨소시엄은 사람·차량 각 300시간 라벨링 된 영상과 메타데이터, 1만4400시간 버드아이뷰 원본 영상, 영상압축기술(H.264·H.265) 기반 AI 신뢰도 향상을 위한 차분용 배경이미지 1200장을 결과물로 제공할 예정이다. 모든 영상에 개인정보 식별 가능 여부 확인 위해 실제 영상으로 법률 검토를 진행중이며, 검토 완료된 데이터에 한해서 TTA 통한 검수 완료 후 한국지능정보사회진흥원원(NIA) AI 허브에 업로드할 예정이다. 객체 흐름 방향, 미세먼지 데이터 등 환경정보, 레이저측정기로 측정한 화각의 변곡점과 카메라 간의 거리·각도 데이터 등을 메타데이터 내에 포함 제공해 사용자의 데이터셋 이용만족도가 높아질 수 있게 할 계획이다.

서초구 컨소시업은 하드웨어 제조사 씨프로, 인공지능 서비스 전문회사 나무플래닛이 수요자 입장에서 공동 기획해 현재 상황에서 ‘충분히 쓸모있는 데이터셋’이 되도록 노력하고 있다.

이렇게 준비된 데이터셋은 AI 카운팅 엔진과 혼잡(밀집)도 측정 AI서비스의 기준 데이터로 활용될 수 있고 ITS 영역에서 다양한 실증 서비스 기준 데이터로도 활용 될 수 있다. 또한 지금은 생각하지 못해 라벨링되지 않았으나 언제든지 새로운 라벨링 수요가 생겨날 수 있음을 감안해, 충분한 양의 고품질 원본데이터도 라벨링·메타데이터와 함께 AI 허브를 통해 제공 예정이다.

▲라벨링 된 메타데이터
▲라벨링 된 메타데이터

코로나 대응 융합서비스 실증 진행

버드아이뷰 실증 서비스는 서초구 버드아이뷰 화각 2개(소)를 선정해 원본 스트림에 실시간 인공지능 혼잡도 분석 결과를 오버레이 해, 1월부터 서초구 홈페이지 버드아이뷰와 서초스마트시티 앱에 송출되는 시범서비스를 운영할 예정이다.

특히 코로나 대응 융합서비스 실증으로 실시간 인공지능 혼잡도 분석 결과를 SIP 방송 단말과 전광판 등 미디어 매체와 연동해 혼잡 레벨에 따른 주기적 안내 방송을 송출함으로써 국민건강에 일조하는 데이터셋 활용 가능성을 입증할 계획이다.

AI 서비스는 개발 기업이 요구하는 메타데이터는 다양할 수 있으므로, 라벨링과 별개로 다양한 원본 데이터가 많이 모이게 해야 한다. 이는 데이터셋 구축 사업이 일정 관점에서는 원본 데이터를 구입하는 사업이라는 인식으로의 전환이 필요하며 이에 따른 데이터셋의 신뢰성과 품질에 대해 관련자 모두가 책임 의식을 공감해야 한다는 뜻이다.

사업 기획하는 곳에서는 중립적인 데이터셋이 만들어지게 노력해야 한다. 업계를 대변하는 협회도 기획에 참여시켜 더 넓고 보편적인 표준안이 생성되고, 데이터의 범주가 더 넓어져야 한다. 실한 전문 기업이 그룹으로 묶이지 못해 데이터셋 구축 사업에 참여하지 못하거나 탈락되는 일은 없어야 한다.

이를 위해 참여 컨소시엄 멤버의 다양성이 필요하다. 데이터셋 사업이 라벨러 운영 몇몇 전문 기업과 신생 AI 소프트웨어 기업들에 편중되기 보다는, 이를 서비스화 시키는 사업자(하드웨어 제조사에서 AI 서비스 현장 적용 기업들)까지 폭넓은 기업 연대가 이루어질 때 모두가 원하는 인공지능 생태계가 창출될 수 있을 것이다.

공공기관이 데이터셋 과제에 관심 갖고 적극적 참여 분위기가 조성되길 바란다. 특히 고품질의 데이터가 필요하다면, 데이터 취득과 정제 과정에는 공공이 참여해야만 한다. 주관기관이 공공기관이라면 데이터 신뢰도 하락을 스스로 방조하지 않을 것이기에 고품질로의 반사이익을 생각해 볼 수 있다.

참여기업들의 도덕성 제고도 필요해 보인다. 실제로 유튜브 혹은 중국산 메터데이터 구입 등 적절하지 않은 경로로 취득된 학습가능 데이터로 결과물이 제출돼 또는 부정확한 라벨링으로 인해 본 사업의 취지를 무색하게 하는 일은, AI 생태계 발전을 방해하는 일은, 발생하지 않기를 바란다. 참고로 시장에서 이미 유통되고 있는 혹은 중국 등에서 손쉽게 구입할 수 있는 저렴한 영상데이터셋은 법적 문제 아니더라도 인공지능 시각에서 ‘무의미하고 양만 많은’, ‘고유하지 않은’, ‘통계적 오류를 발생시키는’ 결과를 초래하므로 필터링 돼야 한다.

마지막으로 라벨러라는 직업은 국민복지 관점에서 사회에서 소외된 분들과 재진입이 어려운 분들에게 주어질 수 있는 희망적인 일자리이다. 데이터셋 사업이 더욱 활성화되기를 바라고 무엇보다 이에 알맞은 처우가 규정되고 보장돼야 한다. 서초구 컨소시업은 8시간 예상 근무 기준으로 약 10만원씩의 비용을 지급해 사업의 취지를 살리기 위해 노력하고 있다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.