“글로벌 4차 산업 경쟁, 공공데이터 품질이 좌우한다”

비투엔, 공공데이터 품질 제고 위한 수준평가 제도 개선 필요성 강조

[데이터넷] 공공데이터의 법률적인 정의를 살펴보면 ‘데이터베이스, 전자화된 파일 등 공공기관이 법령 등에서 정하는 목적을 위하여 생성 또는 전자적 방식으로 처리된 자료 또는 정보’를 말한다.

<공공데이터법 제2조 제2호>

전자정부법 제2조 제6호에 따른 행정정보
지능정보화 기본법 제2조 제1호에 따른 정보 중 공공기관이 생성한 정보
공공기록물 관리에 관한 법률 제 20조 제1항에 따른 전자기록물 중 대통령령으로 정하는 전자기록물
그 밖의 대통령령으로 정하는 자료 또는 정보

▲ 비투엔 DX2본부 이창수 위원<br>- 공공데이터 품질지원 사업 총괄 PM (2019~2021)<br>- 공공기관 및 금융 등 산업분야에 대한 품질관리 및 품질체계 수립 컨설팅 수행<br>- 공공데이터 품질수준 평가 심사원<br>- 데이터 관리체계 인증 심사원 — ▲ 비투엔 DX2본부 이창수 위원
- 공공데이터 품질지원 사업 총괄 PM (2019~2021)
- 공공기관 및 금융 등 산업분야에 대한 품질관리 및 품질체계 수립 컨설팅 수행
- 공공데이터 품질수준 평가 심사원
- 데이터 관리체계 인증 심사원

우리나라는 경제협력개발기구(OECD)가 실시하는 2019 공공데이터 평가에서 1위를 차지했다. 2015년, 2017년에 이어 3년 연속 1위다. 이후 코로나19 상황 때문인지 OECD에서 2021년 이후 데이터는 아직 발표하지 않고 있다. 가장 최근 데이터인 2019년 평가 데이터를 기준으로 우리나라는 공공데이터 개방 지수 0.93점(1점 만점)으로 1위를 기록했으며, 이는 OECD 평균(0.60)보다 크게 높은 수준이다. 최고 성적표를 받은 우리나라의 뒤를 이어 프랑스 2위(0.90점), 아일랜드 3위(0.77점), 일본 4위(0.75점), 캐나다 5위(0.73점) 등 국가들이 상위권에 이름을 올렸다.

OECD 공공데이터 지수(OURdata Index)는 국제 공공데이터 헌장(IODC)에 기초해 OECD 조사 대상국의 공공데이터 정책 평가를 위해 개발된 지수로 2년마다 측정된다. 공공데이터 관련 정부의 노력을 ‘데이터 가용성(Data Availability)’, ‘데이터 접근성(Data Accessibility)’ 및 ‘데이터 활용을 위한 정부 지원(Government support for data re-use)’의 세 가지 분야로 평가한다.

행정안전부에서 운영하는 공공데이터 포털에는 파일 데이터, 오픈 API, 표준 데이터 셋 등을 포함해 약 7만7000여건 이상의 데이터를 공개하고 있다(2023년 2월 기준). 이는 각 공공기관이 생성한 데이터를 개방한 것으로, 개별 기관이 별도로 공개하는 자료도 있으니 공개된 공공데이터는 이보다 훨씬 많은 양일 것이다. 2013년도에 개방 건수가 약 5000여 건이었는데 이제 7만 건이 넘으니 10년간 약 15배 이상 괄목할 만한 성장을 이뤘다.

양적 성장에 걸맞은 질적 성장 필요
네이버에서 '데이터 오류'를 입력하고 검색하면 데이터 품질 미흡으로 인한 뉴스들을 어렵지 않게 접할 수 있다. 그리고 이런 데이터 품질 오류로 인한 영향이 결코 멀리 있지 않다는 것을 느낄 수 있다.

공공기관의 정보화 사업 및 공공데이터 품질수준평가 등을 통해 데이터 품질이 많이 개선됐지만 아직도 미흡한 부분이 상존한다. 다년간 공공데이터 품질관리를 전문적으로 수행하면서 경험한 필자의 입장에서 보면 우리나라의 공공데이터 품질 수준은 극과 극으로 평가하고 싶다. 얼마 전 관세청에서 자체 품질수준을 진단한 뉴스가 나왔다.

▲ OECD OURdata index 2019 및 데이터 포털 데이터 목록

이에 따르면 관세청은 매일 실시간으로 처리돼야 하는 수출입 통관·물류 데이터를 수집하고 관리한다. 지난해까지 행정안전부의 공공데이터 품질관리 수준 평가에서 4년 연속 1등급을 유지했다. 올해는 금융정보분석원(FIU), 한국은행 등으로부터 받은 데이터에 대해 오류를 제거하는 정제 작업을 진행했으며, 그 결과 지난해 0.0167%였던 데이터 오류율을 0.0001%로 낮춰 정확도를 높였다.

오류율 0.0001%는 100만 개의 데이터 중에 한 개 틀린 수준이고, 완벽하다고 할만하다. 관세청은 우리나라 공공기관 중에서도 데이터 품질관리를 가장 잘하는 기관에 속한다. 관세청뿐만 아니라 특허청, 조달청, 산림청 등도 데이터 품질관리를 잘 수행하는 기관들이다.

이런 기관들은 10여 년 전부터 데이터 품질 제고를 위해 기관 내 제도, 조직, 인력 및 시스템을 정비하고 지속적으로 데이터 품질을 높이기 위해 노력했다. 데이터 품질의 중요성을 인식하고, 이를 지원할 조직의 규모가 있고, 예산이 있어 자체적으로 충분히 개선이 가능했다.

이처럼 조직의 규모가 큰 기관은 일시적으로 오류 데이터가 발생할 수는 있지만 장기적인 데이터 품질관리를 통해 적정 품질수준을 제고하고 있다. 단지 우려하는 것은 규모가 작은 다수의 지방 공기업 및 지방자치단체다.

공공데이터 품질관리 수준평가 제도
정부는 2018년부터 지속적으로 공공데이터에 대한 수준평가를 수행해 기관이 자체적으로 보유한 DB의 데이터 품질 평가를 수행하고, 이를 통해서 보유 데이터 및 개방 데이터에 대한 품질을 높일 수 있도록 유도하고 있다.

2018년 45개 기관에서 시작해 2022년 약 680여 개 기관으로 확대됐고, 향후 전 공공기관으로 확대·시행할 계획을 갖고 있다. 그 결과 시행 초기보다는 많은 기관이 데이터 품질의 중요성에 대해 인식하고 있으며, 자연스럽게 데이터 품질도 점차 개선되고 있는 것으로 평가되고 있다.

앞서 이야기한 관세청 사례처럼 역량이 충분히 갖춰진 대규모 기관의 경우 당위성과 충분한 시간만 주어지면 자체적으로 데이터 품질을 충분히 높일 수 있다. 문제는 전체 공공기관의 80% 이상을 차지하는 소규모 공공기관이 생성하는 데이터의 품질이다. 이를 개선하기 위한 몇 가지 제언을 하고자 한다.

소규모 피평가 기관에 대한 전문 기술 지속 지원
공공데이터 수준평가 대상이 되는 약 700여 개의 기관 중, 중앙행정기관 45여 개, 광역자치단체 17개, 대규모 공기업 약 40여 개를 제외하면 기초지방자치단체를 포함한 나머지 약 500여 개의 공공기관은 정보 자원에 대한 투자가 너무 미약하다.

특히 기초지방자치단체의 경우 공공데이터 품질관리 수준평가를 담당하는 공무원이 IT에 대한 지식이 전무한 경우가 허다하다. 오죽하면 매년 상당수의 기관이 행정안전부에서 수행하는 ‘평가’를 포기하는 경우도 발생하고 있다. 자신이 감당할 수 있는 역량을 초과한 일이 부여됐다고 생각한다. 그리고 이런 결정은 담당자 혼자서 내리지는 않았을 것이다. 기관 내에서도 어찌할 수 없는 상황이었을 것이라 판단된다.

아무리 쉽게 설명하고 가이드를 제공한다고 해도 데이터 관련 교육을 받고 충분한 경험을 보유하고 있지 않다면 쉽게 받아들이기 어려운 것이 사실이다. 그들 중에는 어찌어찌 과거의 자료를 찾아서 스스로 공부하고 대응하는 인력이 있는가 하면 일부는 평가를 포기하게 되는 것이다.

그러나 정부는 각 공공기관에서 매년 더 많은 데이터를 개방·오픈할 것을 요구한다. 이런 상황에서 데이터 관리체계가 잘 유지되고 인공지능(AI) 서비스, 예를 들면 챗GPT(ChatGPT)의 소스가 되는 양질의 데이터가 생성될 것이라고 믿는 것은 이성적이지 않다고 생각한다.

IT에서 오래전부터 사용하는 용어로 ‘쓰레기가 들어가면 쓰레기가 나온다(Garbage in, garbage out)’는 말이 있다. 이런 저품질의 데이터를 학습한 챗GPT라면 우리가 묻는 질문에 대답은 하겠지만 그 대답에 대해서 얼마나 신뢰를 줄 수 있을지 의문이다.

최근 챗GPT가 훈민정음을 이황이 만든 중국 고대의 어휘라고 대답하거나 신사임당이 조선의 23번째 왕이라고 잘못 대답해 화제가 됐다. 이 같은 오류의 발생은 AI 학습용 데이터의 품질 오류에서 기인한 것으로, 챗GPT가 잘못된 데이터를 학습한 결과다. 이처럼 스마트폰 다음으로 이어갈 차세대 산업 혁신 도구로 기대되는 챗GPT와 같은 AI를 위해서도 데이터 품질은 매우 중요한 필수 요소이며, 그 중요성은 갈수록 커져가고 있다.

데이터 품질을 개선하려면 우선 가장 하부에 위치하는 말단 조직의 데이터 관리를 지원할 수 있는 체계를 수립해야 한다. 정부의 예산이 아주 많을 경우 전문 인력과 예산을 충분히 지원하고 관리를 잘 하면 데이터의 품질도 높아질 것이다. 하지만 다 알고 있는 바와 같이 정부 예산이 그렇게 넉넉하지 많은 않다. 그렇다고 현 상황을 유지하는 것 역시 답이 아니다.

전국 지방 거점 기술 지원 사무소를 만들고 기초지방자치단체 및 소규모 공공기관이 스스로 데이터 관리 여력이 생길 때까지 전문 기술을 지원하는 체계를 만드는 것을 제안한다. 수준평가 기간에만 지원하는 구조가 아니라 최소 3년에서 5년 상주 조직을 만드는 것이다. 기관이 데이터 관리체계 및 데이터 품질을 개선 하고자 하는 의지만 있다면 충분히 믿고 의지할 수 있는 조직을 만들어 지원하는 것이다.

데이터 품질 평가, 연중 상시 평가로 개선
현재 공공데이터 수준평가는 10월 31일을 기준으로 평가하고 있다. 피평가 기관은 매년 6월에 기관이 보유한 DB 중 평가 대상 DB가 선정되면, 대상 DB를 기준으로 자체 평가를 수행하고 10월 31일까지 평가 증적 자료를 제출하게 된다. 이 증적 자료를 바탕으로 평가를 하게 되는데 대부분의 기관은 평가 기간 중에는 제출할 자료를 준비하고 10월 마지막 1~2주에 그동안 준비한 평가 결과를 제출한다.

공공데이터 수준 평가 10개 지표 중에는 개방 데이터 평가가 포함돼 있다. 이 지표는 다른 지표와는 다르게 자체 평가 없이 중앙에서 공공데이터포털에 개방돼 있는 데이터 목록의 데이터 값 수준을 일괄 진단해 평가 점수로 적용한다. 평가해야 할 데이터 양이 많아 보통 10월 1일 기준으로 수집한 데이터를 기준으로 평가하는데, 통상 7월 말 또는 8월 초에 1차 평가를 하고 10월에 2차 평가를 한다. 기관은 1차 평가 시 지적된 오류 데이터를 개선하여 10월 평가를 대비하고 10월 평가 점수를 최종 평가 점수로 인정받는다.

그런데 평가를 진행해 보면 7~8월 사이에 수행하는 1차 평가 점수가 10월에 평가하는 2차 평가에 비해 점수가 현저히 떨어지는(데이터 품질이 나쁜) 현상이 매년 발생한다. 동일한 데이터가 다음해 7월이 되면 또다시 낮은 평가 점수를 받고, 10월이 되면 평가 점수가 높아지는 현상이 반복되고 있다. 무언가 이상하다.

전년도 10월에 개선된 데이터가 왜 차년도 7월에 품질이 저하되는가? 이 질문에 대해서 실제 조사를 해보지 않았기 때문에 정답을 알 수는 없지만 유추해 볼 수는 있다.

기관에서 생성해 개방하는 데이터의 오류는 생성 원인을 개선한 것이 아니라 최종 데이터 값을 보완한 것이 아닐까? 그래서 다음 해에 다시 평가하면 새롭게 수집한 데이터에서 오류가 발생하는 것이 아닌가?

공공데이터 품질수준 평가는 개방 데이터만 평가하는 것이 아니다. 개방 데이터는 일부이고 전체 평가 영역 중에서 개방 데이터가 차지하는 비중은 10% 남짓하다. 데이터 관리 계획, DB 설계 산출물 일치, 데이터표준 적용률, 데이터구조 현행화, 데이터 연계, DB 값 진단 등 데이터 품질과 관련된 다양한 항목을 평가한다. 그런데 우리가 4차 산업의 원유라고 그렇게 중요성을 강조한 데이터의 품질이 특정 기간에만 높으면 되는 것일까?

현재 공공데이터 품질관리 수준평가는 6월에 시작하고 10월까지 평가를 받는 형태로 진행된다. 기간이 다소 짧아 현재와 같은 상태에서는 데이터 품질 오류에 대한 원인을 해결하기에는 어려움이 많을 것으로 사료된다.

데이터 품질평가제는 연중 수시 평가로 바뀌어야 한다. 공공데이터 품질관리 수준평가 사업을 진행하기 위한 예산이 매년 초 편성되기 때문에 어쩔 수 없다는 것은 알고 있다. 다년간 수행하는 사업으로 예산을 편성받아 집행하는 것이 최선이겠지만, 이렇게 예산을 편성받기 어렵다면 기관은 반드시 연중 품질관리를 해야 하고 이를 점검하는 것은 별개라는 관점으로 접근을 해야 한다. 매년 10월 말 기준으로 어느 한 시점의 평가가 아니라 기관이 연중 관리한 데이터의 품질을 평가받도록 제도를 개선할 필요가 있다.

또 기관이 품질 진단에 사용하는 도구 등을 일괄 구매해 지원하거나 기관이 기술 지원을 받을 수 있는 기술 지원 바우처 제도를 만들어서 기관이 연중 사용할 수 있도록 할 수도 있다.

품질관리의 목표는 정부의 데이터 개방 건수가 아닌 정부가 개방하는 데이터의 품질 점수를 대다수의 국민이 신뢰할 수 있도록 해야 하는 것이다. 데이터 품질은 완벽할 수 없다. 모든 프로그램은 완벽할 수 없다. 공공기관이 생성하고 제공하는 공공데이터 또한 항상 완벽할 수는 없다. 하지만 공공기관이 제공하는 공공데이터에서 오류가 발견됐을 때 이를 적절한 시점에 적절한 방법으로 개선하는 절차가 존재하고 개선하는 것을 믿는다면 그것으로 족하다고 생각한다.

청년자원 활용, 데이터 전문 일자리 창출
2020년 7월 정부는 한국판 뉴딜 일자리 사업을 했다. 새로운 단기 알바로 급부상한 ‘데이터 라벨링 작업’을 포함해 다양한 사업을 수행하였다.

코로나 시국이 새로운 국면에 접어든 현 시점에 한국판 뉴딜 사업이 남긴 것은 무엇인지 생각해볼 필요가 있다. 사회적으로 청년들에게 일자리를 제공하고 소득을 만들어 줌으로써 소비를 진작 시키기 위한 올바른 방향성이었지만, 아쉬운 점이 많은 것은 사실이다.

4차 산업을 위한 ‘데이터 댐’ 구축 사업은 그때만 필요했고 지금은 필요 없는 사업이 아니다. 양질의 데이터 댐을 구축하기 위해서는 최소 10년 이상을 내다보고 습관화, 체질화될 때까지 지속적인 지원이 필요한 사업이다.

청년들에게 단기 일자리를 제공하는 것이 아니라 청년들이 양질의 데이터를 생성하는데 직접 참여해 데이터 전문 기술을 익히고, 이를 바탕으로 민간 또는 공공 분야에서 기술이 뒷받침된 양질의 일자리를 제공해야 한다. 우리 사회에 지속적으로 고품질의 데이터를 만들어가는 체계를 구축하기 위한 일을 만들어야 하는 것이다.

우리가 사용하는 거의 대부분의 정보시스템은 데이터 구축을 위한 DB 설계도 작성, DB 설계도 유지 보수, 데이터 용어 표준화, 데이터 품질 진단 및 개선 등 다양한 데이터 관련 전문적인 일들을 필요로 하고 이는 쉽게 얻을 수 없는 고급 기술들이다.

그동안 정부는 데이터 품질수준평가 및 진단 개선 등의 사업을 하면서 데이터 관련 축적된 노하우와 데이터 관련 고급 인재들을 양성해 왔다. 그중 다수의 기술 인재들이 정년을 맞아 사회에서 밀려나고 있고 아쉽게도 그들이 가진 전문 기술은 젊은 청년들에게 이전이 이뤄지지 않고 있다.

우리가 당면한 문제점 및 자원들을 비빔밥 만들 듯 조화롭게 잘 섞어서 비벼주면 대한민국 미래를 위한 충분히 좋은 정책이 만들어질 수 있다고 믿는다. 그래서 지속적으로 인생 선배의 지식이 젊은 청년에게 전달되고, 이 기술이 양질의 고급 직업으로 정착되는 선순환 구조를 만드는 것이다. 여기에 추가적으로 국가 데이터 정책에 대한 확신과 믿음을 가지고 뚝심 있게 정책을 추진할 정책 리더가 필요한 시점이다.

데이터넷 다른기사 보기