[기고] 스마트하지 않은 데이터 활용법

데이터 한계·특성 명확히 알고 활용할 수 있는 상태로 지속 관리 필요

[데이터넷] 데이터는 일종의 의사결정 도구로, 데이터를 스마트하게 잘 활용하는 것이 중요하다. 그러나 실제로 많은 기업들이 활용 가능한 데이터 확보에 어려움을 겪고 있으며, 또 원하는 모든 데이터를 수집하는 것도 불가능하다. 이에 확보된 데이터를 이용해 최대한의 결과를 낼 수 있어야 하며, 스마트하지 않은 데이터도 쓸모 있는 데이터로 변환해 활용이 가능하다.

연재순서

스마트하지 않은 데이터 허브를 구별하는 방법
스마트하지 않은 데이터를 활용하는 방법(이번호)
스마트하지 않는 생활을 바꾸는 융복합 서비스

서동재 비투엔 AI연구사업팀 이사<br>(b2en@b2en.com) — 서동재 비투엔 AI연구사업팀 이사
(b2en@b2en.com)

어쩌면 여러분은 스마트하지 않는 데이터까지 활용해야 할 필요성을 전혀 느끼지 못할 수도 있다. 스마트시티 사업은 최신 기술을 이용해 눈길을 끄는 것이 중요하다고 생각되기 때문이다.

스마트시티 업계 종사자들은 수차례 전시행사를 진행하면서 참관객들이 ‘디지털 트윈’과 같은 3D 시각화를 선보인 부스에 환호했다는 것을 이미 알고 있다. 시각화 기술이 중요하다는 의견에 필자 역시 동의하지만, 그 이상으로 데이터를 스마트하게 하는 과정이 중요하다.

여전히 데이터를 스마트하게 활용한다는 점이 와닿지 않을 수 있다. 예를 들어 겉보기에는 화려하지만 입으로는 거짓말을 하는 사람이 있다고 가정해보자. 잠깐 바라보는 것은 좋으나 시간이 지날수록 그 매력은 떨어지기 마련이다. 이렇듯 데이터는 우리가 말하는 것처럼 일종의 의사결정 도구라고 할 수 있다. 그런 이유로 데이터를 스마트하게 잘 활용하는 것은 무엇보다 중요한 문제다.

그렇다면 굳이 스마트하지 않는 데이터까지 활용해야 할까? 미국 매사추세츠공대(MIT) 테크놀로지 리뷰에서 실시한 설문조사에 따르면 글로벌 기업들의 48%가 활용 가능한 데이터 확보에 어려움을 겪는다고 답했다. 이렇게 원하는 대로 모든 데이터를 수집하는 것은 불가능한 일이다. 그래서 스마트하지 않더라도 확보된 데이터를 이용해 최대한의 결과를 낼 방안을 마련해야 한다.

다행히 스마트하지 않는 데이터도 쓸모 있는 데이터로 만들기 위한 방법은 있다. 데이터의 한계에 대한 인지, 데이터 저장 및 처리 과정의 중요성, 데이터 분석을 위한 전처리 방법을 알면 가능하다. 그럼 지금부터 단계별로 스마트하지 않는 데이터를 어떻게 좋은 데이터로 바꾸는지 알아보자.

데이터 한계에 대한 인지
데이터를 제대로 활용하기 위해서는 그것의 한계를 아는 것이 가장 먼저다. 분석 기획 과정에서 수집을 희망했던 데이터는 어느 순간에 대상에서 제외되는 경우가 허다하다. 분석에서 최고의 결과를 내기 위해선 주요한 데이터를 확보하고 그 특성을 아는 것이 중요하다.

그리고 그 과정에는 여러 가지의 역경이 있을 수 있다. 분석가는 모든 가능성을 열어놓고 데이터를 확인하는 방법으로 그 한계를 인지해야 한다. 데이터의 종류는 많아도 실제 분석에 사용하는 데이터가 아니면 의미 없기 때문에 이 과정을 반복적으로 수행해야 된다.

[그림 1]에서 볼 수 있듯이 빅데이터 프로젝트를 추진할 때 어려움으로 ‘신뢰할 수 있는 데이터 확보(64.0%)’, ‘데이터 처리 속도(41.6%)’, ‘데이터 양(35%)’이 주요 원인으로 나타났다. 우리가 인지해야 하는 것은 ‘데이터 확보의 한계’뿐만 아니라 ‘데이터 양에 대한 한계’, ‘처리 성능에 대한 한계’ 등 데이터의 특성과 연관성이 높은 것들이다. 결국 정확한 데이터의 특성을 파악하고 그 특성에 맞는 대처가 필요하다.

실제 프로젝트를 하면서 다양한 데이터의 한계를 봤다. 고객으로부터 데이터 제공이 어렵다는 통보를 받기도 하고, 데이터 수집 방식이 달라 추가 개발 이슈로 데이터를 받는 데까지 오랜 시간이 걸리기도 한다.

반면에 데이터 양이 너무 많아 수집이 어려울 거라 여겼지만 스마트한 처리 방법으로 활용 가능한 데이터로 바뀌기도 한다. 그렇게 수집한 데이터가 ‘버스 노선 최적화’ 융복합 분석에서 중요하게 사용됐고, 서비스에 꼭 필요한 데이터였기에 무엇보다 값진 경험이었다.

해당 데이터는 너무 용량이 커서 레거시 시스템에서도 활용할 수 없는 상태였음을 담당자와 협의하면서 알았다. [그림 2]에서 알 수 있듯이 우리 팀의 아이디어는 두 가지였다.

첫째, 빅(Big) 데이터를 잘게 쪼개는 파티션(Partition) 기법을 적용하자. 둘째, 데이터를 실시간 처리함으로써 적재 부하를 최소화하자. 이런 전략으로 데이터를 파티션화해 ‘데이터 접근(Data Access) 부하’를 최소화하고, 실시간 처리를 이용해 ‘데이터 적재(Data Upload) 부하’ 또한 낮춰 성능 이슈를 완전히 해결할 수 있었다.

이렇게 ‘데이터 양’ 때문에 활용할 수 없었던 데이터도 데이터 한계를 정확히 알면 스마트한 데이터로 변모할 수 있다.

데이터 저장·처리 과정 중요성
여러 한계를 극복하고 수집한 데이터라도 스마트하지 않는 데이터는 존재한다. 이를 개선하기 위해 데이터 저장·처리 과정이 중요하다. 한마디로 문제가 있는 원천 데이터를 스마트하게 가공하는 작업이 필요한 이유다.

만약에 센서 또는 사물인터넷(IoT) 기기에서 발생한 데이터가 값이 없는 상태로 데이터 허브로 유입된다면 다양한 문제가 발생한다. 이 같은 결측 데이터는 숫자 타입은 ‘0’, 문자 타입은 ‘#’으로 기본적인 가공 작업을 수행한다. 이 방법은 데이터 처리에 대한 약속과 같은 것으로 값이 빈 상태로 계산되는 통계적 오류를 방지해 준다.

글로벌 기업인 구글과 마이크로소프트의 경우 다년간 인공지능(AI)을 위한 빅데이터를 모았지만, 정확도는 43%에서 83%에 불가하다. 또 IT 리서치 기업 가트너는 빅데이터에 대한 품질 관리는 정형 데이터 위주이기 때문에 분석 결과의 신뢰성이 떨어진다고 말한다. 비정형 데이터 특성상 수집 과정에서 오류 또는 손상이 빈번하다. 그렇게 때문에 데이터 허브에서는 데이터를 스마트하게 개선하는 데이터 처리 과정이 필수적이다.

데이터 허브에서 스마트한 데이터 처리 과정이란, 분석에 활용할 수 있는 형태로 데이터를 만드는 과정을 말한다. 예를 들어 대구시의 ‘교통 카드 사용내역’ 데이터를 가공한 사례가 좋은 예라 할 수 있다. 이 데이터는 시민들이 교통카드를 이용하면서 승하차 태그를 할 때 발생한 데이터다.

[그림 3]에서 볼 수 있듯이 대구시에서는 버스 하차 태그 데이터가 33%밖에 존재하지 않았다. 하차 태그를 하지 않아도 추가 금액이 부가되지 않기 때문에 나타난 현상이었다. 그렇다고 분석가로서 67%나 되는 하차가 없는 승차 데이터를 제거하는 판단을 내릴 수는 없다.

시민들의 버스 이용 패턴을 분석하기 위해 없는 하차 데이터를 만들어야 하는 상황이었다. 우리는 우선 데이터가 가진 속성들의 맥락을 연구하기 시작했다. 그리고 발생할 수 있는 사례별로 하나씩 하차 정보를 찾아 나가는 방식으로 가능한 많은 하차 데이터를 만드는 과정을 반복했다.

예를 들어 [그림 4]의 사례 연구 예시와 같이 버스 환승 과정에서는 환승하기 전에 하차 태그가 없어 데이터가 없는 상태라도 맥락상 환승 승차 시점보다 몇 분 전으로 추정해 값을 채울 수 있다. 이런 방법으로 모든 데이터의 하차 정보를 추정할 수는 없어도 분석의 정확도를 높일 수 있는 더 많은 데이터를 확보할 수 있었다.

데이터 분석 위한 전처리
데이터의 저장·처리 과정을 통해 이제 좋은 품질의 데이터를 만들 수 있게 됐다. 하지만 데이터 품질로서는 결점 없는 데이터가 됐더라도 분석에 적합한지는 다른 문제이다. 적합한 데이터는 이미 파악이 끝나 분석가의 고민거리로 올라오지 않는다. 마지막 남은 불완전한 요소를 스마트하게 하기 위해서 데이터 분석의 ‘전처리’ 과정이 필요하다.

포브스(Forbes)에서 인용한 크라우드플라워(CrowdFlower)의 설문 결과에 따르면 데이터 분석가는 업무 시간 중 60% 정도를 ‘데이터 전처리’ 과정에 사용한다. 하지만 동일 설문에서 데이터 분석 업무 중 가장 싫어하는 과정 또한 ‘데이터 전처리’였다. 이러한 결과는 전처리 과정이 결코 쉽지 않은 과정이라는 증거가 된다.

데이터 전처리 과정에서 가장 중요한 문제는 ‘가능성과 근성’이라 할 수 있다. 데이터를 더 효율적으로 사용할 수 있는 가능성에 대해 합리적으로 접근하는 훈련이 돼야 하고, 그 훈련된 방식을 지속적으로 해내는 근성을 갖춰야 가능하다.

데이터 분석 전처리 사례로 경찰청의 신고 데이터의 업샘플링(upsampling)을 했던 경험을 소개한다. 업샘플링 기법은 실제보다 더 자주 데이터가 수집된 것처럼 만드는 과정이다. 신고 데이터 분석을 위해 우선 지도상의 50m × 50m 픽셀의 공간격자를 만들었다. 그리고 범죄에 대한 안전도를 1시간 단위로 공간격자별로 예측하는 것이 분석의 목적이었다.

이렇게 세밀한 조건으로 안전도를 예측하다 보니 1시간 동안 특정 공간격자에 신고가 발생할 확률이 20% 이하로 떨어졌다. 이런 신고 데이터의 희소한 특성은 데이터를 확장할 수밖에 없는 당연한 이유가 됐다.

우선 공간이라는 범위는 하나로 연결돼 있어 특정 위치에서 발생한 신고 데이터는 주위에 영향을 줄 수밖에 없다. 이러한 특성을 고려해 신고 위치로부터 영향력 관점에서 가중치를 주는 방식을 채택했다.

시간 범위도 특정 시점을 기준으로 신고 발생 전과 후에 영향력이 있다는 판단을 했다. 그리고 신고 발생 전후 24시간 내 시간까지 점차 가중치를 감소시키는 방식으로 데이터를 확장했다. 이러한 데이터 전처리 과정을 하지 않았더라면 분석의 정확도를 측정하지 못할 수 있었다. 그만큼 데이터의 특성에 맞는 데이터 전처리는 분석 과정에서 핵심이다.

데이터, 스마트하게 활용해야
지금까지 데이터를 스마트하게 활용하는 방법에 대해 단계별로 알아봤다. 이미 눈치챘겠지만 데이터 분석을 위해 데이터가 항상 완벽할 수는 없다.

중요한 사실은 데이터의 한계와 특성을 명확히 알아야 한다는 것이다. 그리고 데이터 허브가 가진 여러 기능(수집, 저장, 처리, 분석, 수명주기 등)을 이용해 데이터를 활용할 수 있는 상태로 지속적으로 관리해야 한다. 이러한 과정이 모두 완료되고 나서야 데이터 분석을 통해 최고의 결과를 얻을 준비가 된 것이다.

스마트시티 데이터 허브의 핵심은 데이터를 얼마나 많이 확보하는지가 아닌, 데이터를 어떻게 스마트하게 활용할 것인지에 있다. 결론적으로 데이터를 스마트하게 활용하는 궁극적인 목적은 시민에게 필요한 융복합 서비스를 만들어 도시문제 해결에 활용하도록 하는 것이다.

다음 편에서는 어떻게 하면 융복합 서비스를 활용해 복잡한 문제들을 처리하고, 시민들이 가장 필요한 부분까지 스며들어 스마트하게 생활을 변화시키는지 살펴보겠다.

데이터넷 다른기사 보기