데이터 품질관리(Data Quality Management)

정보 관리 인프라로부터 최상의 가치 이끌어낼 핵심 대안

저품질 데이터로 인한 비용손실 문제 절감 … DQM 표준 확립 ‘박차’

최근 불어 닥친 ‘통합’ 이슈에 있어 데이터 정확성의 중요도에 대한 관심이 증가하고 있다. 정보시스템을 통합하는 과정에서 일선 업무에서 전혀 발견되지 않았던 데이터 문제가 속속 드러나기 때문이다. 한 예로, 막대한 예산을 투입해 구축한 CRM이나 DW는 ‘데이터의 품질(Data Quality)’이라는 복병을 만나면서 기대만큼 성과를 거두지 못하고 있는 것.
다시 말해 CRM, DW, e비즈니스, ERP 수행에 대한 성공여부는 상당 부분이 기업의 고객 정보 품질에 달려있다고 해도 과언이 아니다. 기업의 ‘데이터품질’ 문제를 극복하기 위한 노력은 각종 프로젝트의 성공을 위한 중요한 요소이다.
이에 따라 국내는 물론 세계적으로도 데이터품질 향상이 화두로 등장했고, ISO가 마련 중인 데이터품질표준은 업계 전반에 상당한 파급효과를 몰고 올 전망이다. 특히 이 작업에는 국내에서 개발된 데이터 품질관련 기술이 채택될 전망이어서 데이터품질에 대한 관심이 더욱 뜨거워지고 있다. ｜김나연 기자·grace@datanet.co.kr｜

가트너가 최근 발표한 데이터 통합 주요 사용 트렌드에 대한 연구 보고서에 따르면, 기존의 데이터 통합은 주로 비즈니스 인텔리전스(BI)나 CRM 등의 정보 분석을 위한 통합이 주된 니즈였다면, 최근 글로벌 그리고 전 산업별로 나타난 바에 따르면 비용 절감과 마스터 데이터 관리, 컴플라이언스에 대한 효과적인 대응을 위한 통합이 BI나 CRM 등에 앞선 주된 이유로 나타났다.
주목할 점은 기업이 데이터 통합을 한 차원 높은 전략적인 비즈니스 이슈로 인식하기 시작했다는 점이며, 많은 조직들이 데이터 통합 프로젝트를 지원하기 위해 전사적 아키텍처를 개발하고 도입하는 방향으로 나아가고 있다는 것이다. 또한 통합적이고 일관된 뷰를 가진 전사적 싱글 버전 데이터를 통해 기업 가치를 제고할 수 있도록 데이터 통합 전 과정에 걸쳐 데이터 품질관리를 고려하고 있다. 데이터 품질은 앞으로 데이터 거버넌스(governance)의 일부로 전사 차원에서 관리돼야 할 것이다.
데이터에 관한 연구는 지난 30여 년 동안 IT 분야에 이론적으로나 산업적으로 엄청난 변화를 일으키고 있다. 특히 현재 데이터품질 관리에 관한 연구는 경영 관리 사이클 관점에서 재해석되고 있으며, 학계 및 산업계에서 데이터품질에 대한 중요성을 인식하고 있다.
데이터 품질관리란, 기업의 비즈니스 목적에 적합하게 활용될 수 있도록 최적의 데이터 상태를 유지하고 정확한 정보를 일관성 있게 관리할 수 있도록 지속적으로 수행하는 데이터 관리 및 개선 활동이다.
데이터품질관리인증센터 김선영 팀장은 “얼마 전 실시한 조사에 따르면, 공공기관의 데이터베이스 관리체계가 허술한 것으로 나타났다. 이는 최근 전자정부 프로젝트의 일환인 데이터 공동 활용 및 통합을 위한 시스템 구축사업에도 상당한 걸림돌로 작용하는 것으로 나타났다”고 밝혔다. 김 팀장은 “일반적으로 민간기업의 잘못된 데이터로 인한 손실은 해당 기업이 떠안겠지만 공공기관의 데이터품질로 인한 피해는 고스란히 행정서비스의 수혜자인 국민에게 돌아가 그 심각성이 크다”고 말했다.

저품질 데이터로 인한 비용 손실
데이터 품질관리는 일반적으로 3가지 영역으로 정리할 수 있다. 첫째로, 데이터를 담는 그릇을 잘 만들어야 하는 데이터 정의영역(데이터 표준화, 데이터 모델링, 데이터 아키텍처링) 둘째, 그릇안의 데이터가 과연 설계대로 잘 들어갔는지 데이터 값이 설계와 맞는지 콘텐츠를 확인하는 데이터 콘텐츠 품질관리 셋째, 그 데이터가 정보로서 비즈니스적으로 유용하게 활용되는지의 품질, 서비스가 제대로 되는지의 품질, 영업활동 시 정확한 데이터로 활용하는지의 품질관리 등으로 말할 수 있다. 이 중에서 무엇이 가장 중요하다고 꼽을 수 있는 것은 아니다.
하지만 현실을 살펴보면 아직도 저품질의 데이터로 인해 발생하는 문제점은 실로 다양하며, 이것이 비즈니스에 미치는 영향도 우려할만하다.
데이터품질이 위험성을 갖게 되는 이유를 살펴보면 크게 ▲입력위험 ▲통제위험 ▲DB에 최초로 에러데이터가 입력될 확률 ▲탐지위험 등으로 나눠진다.
DB에 입력되는 레코드에 에러데이터가 포함돼 있을 확률과 시스템 편집기능에서 에러를 탐지하지 못하고 DB 입력을 허용할 확률을 줄인다면 이 같은 위험성을 제거할 수 있다. 또한 DB에 최초로 에러데이터가 입력될 확률은 ‘입력위험 X 통제위험’으로 나타낼 수 있는데, 입력데이터 에러율이 10%이고, 시스템 에러방지율이 50%라면, 최초DB에러율은 5%임을 알 수 있다.
이 밖에도 DB관리자/사용자가 일정기간동안 에러데이터를 발견/정정하지 못할 확률인 탐지위험 등이 있는데, DB관리자가 정기적인 에러데이터 검사 및 정정활동을 수행하면 DB에러율은 최초 에러율보다 낮아진다.
데이터품질 위험유형을 고려하지 않는다면, 이로 인해 발생되는(저품질데이터) 비용도 만만치 않다. 저품질 데이터로부터 기인하는 문제점은 업무적인 손실, 업무지연 및 재수행, 데이터 정제, 업무손실 복구 등 기업에게는 ‘비용증가’라는 문제를 야기하며 이로 인한 가격상승은 고객에게 까지 이어진다.

현업 및 IT부서 인식확보 우선돼야
데이터 품질은 종종 IT 이슈로 인식된다. 하지만 실제적으로 데이터 품질관리 프로젝트가 IT 부서에 의해 실행되고, 유지되지만 가장 많은 효과를 얻는 부서는 현업이다. 또한 현업부서는 각 애플리케이션에서 사용되고 있는 데이터의 용도와 의미를 가장 잘 이해하고 있다. 이러한 이유로 기업내에 데이터 품질관리 역할을 이해하고, 기대를 충족시키기 위해 현업 및 IT부서의 동의를 얻어야 한다.
데이터품질관리인증센터 김선영 팀장은 “대부분의 많은 기업들이 데이터 품질관리 솔루션 구축을 실패하는 이유가 다양한 부서에서 사용하는 데이터 품질에 대한 책임을 서로 전가하기 때문이다”고 지적했다. 따라서 데이터 품질관리 프로젝트 수행 시 부서별 인원을 동원하는 것이 이런 문제를 해결 할 수 있는 열쇠가 될 수 있다.
IT 부서와 현업 부서 모두에게 프로젝트의 디자인과 수행에 대한 오너십을 갖도록 하는 것이 성공을 위한 중요한 요소다.
데이터품질 관리는 기업 스스로의 필요성 인식에 의해 메타데이터를 포함한 각종 데이터 및 트랜잭션, 콘텐츠까지 관리하는 것으로, 자체적인 해결책 모색하는 방법으로 실행할 수 있고, 데이터품질 관리 전문 툴을 도입하는 방법도 있다. 주로 품질관리 하는 이슈는 데이터 거버넌스, 컴플라이언스, MDM, 대형 프로젝트 추진, 데이터 마이그레이션시에 발생한다.
특히, 메타데이터가 정확하게 관리되고 있다면 데이터 품질관리의 8할은 성공한 샘이라고 할 수 있다. 기업에서는 수많은 데이터베이스를 구축해 관리하고 있으며 각각의 데이터베이스에는 수많은 테이블이 생성돼 있으며, 또한 각각의 테이블은 여러 개의 컬럼으로 구성돼 있다. 이 각각의 데이터베이스, 테이블, 컬럼에 대한 정보를 관리하는, 테이블간의 연결관계, 컬럼 간의 연결관계 및 다양한 정보를 리포지토리에 저장해 관리하는 것을 메타데이터 관리하고 한다. 한국인포매티카 정인호 본부장은 “메타데이터가 정확하게 관리되고 있다면, 내가 타 시스템에서 필요한 정보가 있을 때 담당자에게 물어보는 것이 아니라 메타데이터 관리 시스템만 찾아보면 쉽게 어디에서 어떻게 가지고 와야 하는지를 알 수 있다”고 설명했다.

ETL 접근 방식 확장 적용
ETL툴은 차세대 및 DW 구축시 기간계 데이터를 타깃으로 하는 것으로, 데이터 마이그레이션시에 데이터 추출, 변화, 적재하는 과정을 솔루션으로 제공하면 더 생산적이라고 봐서 나온 툴이다. SAS, 인포매티카 등에서 ETL툴을 제공하고 있다.
ETL툴은 ‘a+b=c’라는 매핑 로직을 ETL툴로 생산적으로 제시하고, 빠르게 로딩하는 기능이 중심이고, 거기에 품질관리 툴이 하고자하는 역할은, 프로파일링(기술적 품질관리)과 오디팅(비즈니스적 품질관리) 기법이 들어간다.
아이티플러스 김봉수 차장은 “ETL툴은 원천에서 타깃으로 데이터를 빠르고 정확하게 넘긴다는 용도로 나왔기 때문에 콘텐츠를 일일이 확인하는 기능은 없다. 데이터를 옮기는 과정이라면 어차피 품질관리를 할 수 있는 기회가 생기니까, ETL로 품질관리를 할 수 있다고 얘기하기도 한다”고 밝혔다. 데이터가 움직일 때는 집중적인 품질관리를 할 수 있는 시기가 될 수 있으며, 그때 부족한 기능을 채우겠다는 개념을 가진 솔루션이 아이티플러스에서 제공하는 툴과 같다.
김 차장은 오디팅 안에 있는 업무적 기준을 ‘비즈니스 룰’이라 표현, 비즈니스 룰을 많이 뽑아놓으면, 실제 현업, 개발자, 시스템 유지업자가 비즈니스 룰 하나만 봐도 품질관리의 단일 기준을 공유할 수 있다고 설명했다.
실제로 국내 시장에서도 이 같은 과정이 중요하다고 인식하기 시작함으로서 룰을 뽑아주는 역할을 하는 컨설팅 업체와 이를 통해 품질관리를 지속적으로 가능케 하는 솔루션 및 컨설팅 업체의 역할이 커지고 있다.
한편, 아이티플러스의 ‘DQ마이너(DQMiner)’는 데이터의 품질을 체계적으로 진단, 관리함으로써 저품질 데이터로 인한 경영효율의 저하를 방지하고 올바른 의사결정을 유도해 기업의 경쟁력을 높여주는 데이터 품질관리 솔루션이다.
DQ마이너는 전사 데이터의 품질수준을 향상시킬 수 있도록 체계적인 데이터 품질관리 방법론을 제공하며, 이를 기반으로 기업의 상시 데이터 품질관리 프로세스 및 시스템을 구축할 수 있도록 지원한다. 아이티플러스의 Single+4 DQM 방법론은 대형 프로젝트 수행을 통해 검증된 아이티플러스의 고유 방법론으로 6시그마 수준의 DQM 목표를 관리할 수 있도록 한다.

데이터 품질관리 전략의 선택
아이티플러스 DQ사업부 김봉수 차장은 “종종 데이터 품질관리는 고객 파일이나 데이터베이스에서 발생하는 특정 문제를 해결하기 위해 필요한 테크놀러지의 한 부분으로만 생각하는 경우가 있다”며 “현실적으로도 많은 데이터 품질관리 소프트웨어 솔루션은 IT 부서에서 데이터 품질에 대한 문제가 발생됐을 때에만 구매를 하는 경우가 많지만 선진기업 들은 데이터 품질관리를 고객 정보 강화 및 검증을 위한 전략적인 프로젝트라고 생각하며, 또한 기업의 가장 중요한 자산인 고객 데이터가 지속적으로 발생되므로, 언제든지 커럽트(corrupt) 될 수 있다고 생각한다”고 설명했다.
데이터품질 관리 프로젝트는 기 검증된 단계별 접근법을 사용함으로써 기업의 데이터 품질 전략수립에서부터 데이터 통합, 검사에 이르기 까지 그리고 글로벌 언어지원, 각 국가의 문화에 따른 데이터 차이, 기술요구사항, ROI 측정 등과 같이 각 단계별로 엔드유저에게 유용한 비즈니스 정보를 제공해야 한다.
성공적인 CRM, ERP, e비즈니스 프로젝트 역시 웹 기능이 포함된다고 할 때, 데이터 품질관리 방법론은 배치모드에서 뿐만 아니라 웹을 통해 실시간으로 유연하게 트랜젝션 데이터를 처리할 수 있어야 한다.

데이터 품질관리 시장 선점 싸움 ‘치열’
데이터 품질관리에 대한 중요성이 커지면서, 업계에서도 M&A 등을 통해 전열을 정비하며 시장선점을 위해 열을 올리고 있다.
비즈니스오는 퍼스트로직을 인수해 BI중심의 품질관리를 표방하고 있다. 인포매티가는 시뮬레러티를 인수, SAS는 데이터플럭스를 인수했으며, 데이터 품질 툴을 계속 인수해오던 어센셜을 IBM이 인수하기도 했다.
IBM은 ‘인포메이션 서버’ 제품으로 품질관리 시장 문을 두드리고 있지만, 아직 국내에 완성된 형태로의 소개는 못하고 있는 것으로 보인다.
SAS는 기존에 보유한 ETL툴 위에 데이터플럭스(데이터 품질, 실시간 데이터 통합 솔루션을 전문으로 하는 SAS의 자회사)와 연계해 기업의 요구 사항에 따라 점진적으로 또는 다양한 방식으로 적용될 수 있는 통합 솔루션을 제공하고 있다.
한국IBM 측은 “최근 경쟁사들도 이러한 통합된 전사 정보 아키텍처의 중요성을 눈치채기 시작하고, 기존의 주력 분야인 ETL 혹은 OLAP 제품 라인을 강화함으로써 이러한 핵심 기능을 통합하기 위한 인프라 구축에 나서기 시작했다. 하지만 이러한 인수 합병이 모두 최근 6개월 내에 이뤄졌다는 점을 고려해야 한다”고 밝혔다.
ETL툴 시장에서 전폭적인 시장점유율을 가진 인포매티카는 ETL툴로 품질관리까지 드라이브 했지만 최근 전문 업체 인수 등을 통해 통합 스위트 형태로 작업하고 있다. 한국인포매티가 정인호 본부장은 “인포매티카는 데이터 통합의 모든 단계, 데이터를 추출하는 과정에서부터 타깃에 데이터를 저장하는 단계 가운데 데이터를 검증하는 과정과 클렌징하는 과정을 포함해 데티어 품질관리 기능을 제공하고 있다”고 설명했다.
데이터를 추출하는 과정에서는 파워익스체인지와 파워센터를 통해 소스 시스템의 형태에 관계 없이 소스 시스템으로부터 메타데이터를 자동으로 추출해 통합 리포지토리에 저장 관리하게 된다. 통합 리포지토리에 관리되는 정보를 기반으로 데이터를 추출하게 되면 데이터 익스플로러를 통해 데이터의 프로파일링 작업을 수행하게 된다.
전사적인 데이터 품질의 새로운 표준 제시를 표방하는 ‘인포매티카 데이터 퀄리티’ 제품은 데이터 소유자가 전사적인 데이터 품질 솔루션을 설계, 관리, 배포 및 제어할 수 있도록 지원하는 업무 중심의 정보 품질 플랫폼이다. 기업 내에서 정보 품질을 구현하는 데 있어 가장 중요한 3대 요소는 바로 사람, 프로세스 그리고 기술이라면, 인포매티카 데이터 퀄리티(구 시뮬레러티 시스템즈 ATHANOR)는 기업 내 적절한 담당자가 효율적이고 장기적인 데이터 품질 전략을 구현하는 데 필요한 권한과 기능을 제공한다.
성공적인 데이터 품질 관리를 위해 한국IBM은 데이터 표준화와 통합은 우선적으로 소스 데이터에 대한 이해를 바탕으로 정확하게 범위를 산정하고 데이터 값의 품질 정제까지 포함하는 전사 차원의 데이터 품질 관점에서 접근하는 것이 바람직하다고 제안한다. 이를 위한 데이터 품질관리 아키텍처의 요건으로 기업은 데이터 품질관리에 필요한 모든 솔루션을 단일화된 인프라 기술로 채택할 필요가 있다는 것이 한국IBM의 설명. 또한 한국IBM은 데이터는 끊임없이 변화하고 생성되므로 데이터 품질관리 역시 일회성 작업이 아닌 지속적이고 반복적으로 수행돼야 하며, 이를 뒷받침할 수 있는 공학적이고 체계적인 방법론과 프로세스의 구현이 필수적이다고 덧붙였다.
또한 IBM은 데이터 품질관리 프로젝트 수행 시, DQM 로드맵을 설정해 지속적으로 데이터 품질을 모니터링 할 수 있는 견고한 시스템 인프라를 설계·제공한다. 이러한 시스템 인프라는 DQM의 성공적인 도입은 물론 DQM 체계가 기업 내에 성공적으로 적용 및 활용, 확산 및 정착 되도록 하기 위한 다양한 전략과 일련의 활동을 포함한다.
한국HP 인포메이션 매니지먼트팀 김준범 팀장은 “데이터 품질관리는 비즈니스 목적을 달성하기 위해 데이터 진단부터, 관리하는 시스템 전반 과정을 총칭하는 것”이라고 정의하며 “이를 위해 HP에서는 6시그마 방식을 적용하기도 하고, 분석·측정하고, 측정한 부분을 관리하고 다시 컨트롤 하는 등의 단계를 거치는 것도 데이터 품질관리를 위해 적용하는 방법이다”고 설명했다.
특히 HP는 IQM(Information Quality Managiment) 방법론을 기반으로 하여, 주기적으로 데이터를 분석해 데이터 품질관리 프로세스를 확립을 위한 컨설팅 서비스를 제공하고 있다.
HP는 데이터 품질관리에 있어 툴 벤더로서의 물리적 솔루션을 제공하는 형태가 아닌, IQM 방법론과 서비스 프레임워크로 데이터 품질관리를 제공하고 있다. 이 때 툴이 필요하다면 타 벤더 제품을 가져올 수도 있지만, 지금 현재는 서비스 위주로 진행하는 것이 고객에게 훨씬 유리하다는 것이 HP 측의 설명이다.

‘데이터품질 진단’으로 문제점 먼저 알아야
데이터 품질을 높이기 위한 표준제정 작업이 한창이다. 국제표준화기구 ISO는 국내에서 개발된 데이터 품질관련 기술을 국제 표준으로 고려하고 있는 것으로 알려졌다.
통상 ISO 표준이 제정되는 데에는 5년 이상이 걸리는데, 국제 데이터품질 표준은 내년 말제정 완료를 목표로 빠르게 진행되고 있다.
데이터품질관리인증센터에서는 새롭게 재정될 국제 표준에 ‘데이터품질관리 인증 표준’ 이라는 가칭을 붙이고, 품질인증과 관련된 한국의 심사 모델이 국제 표준에 반영될 수 있도록 노력을 기울이고 있다.
데이터품질관리인증센터 김선영 팀장은 “어차피 데이터 품질관리 관련 국제표준이 만들어지면 역으로 우리나라에 들어올텐데, 국내에서도 데이터 품질관리 인증사업 시작하는 마당에, 이왕이면 한국의 표준이 국제 표준에 반영시키겠다는 목표로 적극 참여하고 있다”고 밝혔다.
데이터품질관리인증센터에서는 현재 ‘데이터품질 진단’ 사업과 데이터 관리 프로세스를 평가하는 ‘인증’ 사업을 펼치고 있다.
인증센터에서는 기업이 가진 문제점을 먼저 보여주는 것이 중요하다고 판단해, 그들의 데이터를 평가해서 오류를 보여주는 사업을 활발하게 진행하고 있다. 이렇게 데이터품질 진단사업을 활성화 시키면 자연스럽게 데이터품질 관리에도 눈을 뜨기 시작할것이라는 생각에서다.
김선영 팀장은 “궁극적으로는 데이터품질을 개선하기 위해 프로세스를 개선해야 하지만, 시발점은 진단이다”며 “문제점을 분석하고 찾아내는 것이 중요하다. 이를 통해 품질관리를 시작하도록 유도하는 방법으로 이어져야 한다”고 설명했다.
즉, ‘진단’은 오류 잡아내고 어떻게 고쳐야 하는지를 제시해주는 사업이고 ‘인증’은 프로세스 관점에서 데이터 품질을 궁극적으로 개선하기 위한 수준을 심사해서 개선책을 제시하는 사업이다.
데이터 품질관리를 도입하기 위해서는 무엇보다 현재의 품질 상태를 정확하게 인식하고 오류 발생 원인과 문제점을 분석해 대응 방안을 마련해야 한다. 그러나 이 같은 문제를 효율적으로 해결하도록 지원하는 방법론이나 참조 사례가 아직 부족해, 데이터 품질관리를 도입하려는 기업에서는 많은 어려움을 토하고 있는 것이 사실이다.
그러나 조직이 자체적으로 데이터 품질관리 수준을 진단해보고 체계적인 데이터 품질관리 전략을 수립할 수 있도록 앞으로 정부와 데이터품질관리인증센터, 그리고 컨설팅 및 솔루션 제공 벤더 차원에서 이를 지원하기 위한 움직임이 더욱 활발해질 것으로 기대된다.

국내외 데이터 품질관리 필요성 및 사례
저품질 데이터의 위험
· 8년 동안 2천300만 달러를 더 지불한 미국 시민:
미국 연금 계산 오류로 인해 Nashvill 시민 일부는 8년 동안 2천300만 달러를 초과해 지불했으며, 반면에 다른 사람들은 같은 기간 동안에 2천600만 달러를 적게 낸 것으로 밝혀졌다. -美, The Tennessean
· 금융계좌 주민번호 398만개 잘못 기재…이사소득에 대한 금융과세 못해:
금융회사 고객 원장의 주민등록번호가 잘못 기재된 것은 금융기관과 감독기관의 관리 및 감독 소홀이 주된 이유... 특히 동일인이 2개의 주민번호로 금융거래를 하거나, 하나의 번호를 동시에 2~3명이 사용해 온 것이어서, 선의의 피해를 부르거나 금융사고나 범죄에 악용됐을 가능성이 높다. -조선일보
· 호적정보시스템 주민등록번호 10명중 1명꼴 엉터리:
호적정보시스템에 기록된 정보 가운데 971만여 명의 주민등록번호가 누락되거나 잘못 기재되는 등 오류가 있는 것으로 파악... 호적상 주민번호에 오류가 있을 경우 국민들은 대출이나 구직 또는 혼인신고 등에 필요한 호적등본을 제때 발급 받지 못 하는 불편을 겪게 돼. -한국일보

Case Study / KTF 데이터품질 관리 구축
IT 정보 자산에 대한 체계적 관리체제 확보

KTF는 데이터품질 관리를 위한 메타데이터 시스템을 IT정보 인프라 시스템이라고 표현하고 있다. 그 이유는 KTF IT개발 조직 내에 산재되어 있던 정보를 수집해서 하나의 채널을 통해 개발팀에 개발 관련 정보를 제공하고 있기 때문이다.
현재 KTF에서 데이터 품질 관리를 시행하고 있는 대상영역은 ▲데이터 모델 정보(테이블 정의서, ERD, Valued-Value) ▲용어 표준(명명 규칙과 표준 용어 제시-사내 개발 지원 시스템을 통해 데이터 모델과 표준 용어에 대한 자동 연계를 지원하고 있음) ▲AP영향도(단위 시스템 내에서 개발 시 함께 수정해야 할 관련 AP에 대한 연관 관계 파악) ▲데이터 흐름도(타 시스템 간에 함께 수정해야 할 영향도 파악, 예) 기간계와 정보계의 연동 관계 흐름을 분석하여 보여줌) ▲데이터품질 관리(주요 컬럼에 대한 유효값 관리 및 오류 데이터에 대한 오류 원인 분석, 오류 원인 소스 수정 요청, 오류 데이터 제거) ▲인덱스 디자인 차트(테이블에 대한 접근 경로(Access Path)를 수집해 인덱스의 활용 현황과 추가 시 판단 근거로 활용) 등이다.
KTF는 데이터 품질관리 프로젝트 진행 시 아이티플러스와 엔코아 정보컨설팅이 각 자의 특화영역을 구축했던 것으로 알려진다. 아이티플러스에서는 체인지 마이너(Ap영향도), DQ 마이너(데이터 품질 관리)를 도입했고, 데이터 흐름에 대해 인하우스개발 지원이 있었다.
또 엔코아에서는 Inverter와 Wordict를 통해 용어 표준화 적용했고, 요청에 의해 인덱스 디자인 차트 구축 및 메타 포털이라는 포털사이트를 구축했다.
KTF IT서비스기획팀 오진수 차장은 “데이터품질 관리의 도입을 고려하고 있는 기업들은 도입목적과 목표가 확실해야 한다”며 “IT는 오프라인으로 있는 업무를 온라인으로 구현할 때 가장 효과가 좋은데, 데이터 품질 관리(일명 메타 데이터 시스템)는 기업이 오프라인으로 준비되지 않은 업무를 바로 온라인으로 구현하는 경우이기 때문에 목적과 목표를 충분히 고려하지 않으면 향후 기업 내부에 내제화에서 많은 문제가 발생할 수 있다”고 조언했다.

Case Study / 우리금융정보시스템 데이터품질 관리 구축
신BIS DQMS 확대 구축으로
성공적인 데이터 품질관리 기반 마련

우리금융정보시스템은 6시그마 프로세스 개선 방법론을 기반으로 한 자체적 데이터 품질관리 방법론(DMAIC, Define, Measure, Analyze, Improve, Control)에 따라 데이터 품질관리 시스템(DQMS)을 구축, 전사 데이터 품질관리 조직(기획실) 및 업무별 데이터 품질관리자(DQA)가 전담 관리하고 있다.
현재 신 BIS(바젤2), EDW, CRM, 관리회계, 카드DW 및 운영리스크(ORMS) 업무를 데이터 품질관리 대상으로 성공적으로 운영하고 있으며, 타 업무로의 확대를 진행하고 있다.
우리FIS 박영길 차장은 “데이터 품질관리 시스템(DQMS) 구축은 1차, 2차로 나눠 진행했으며 1차 신BIS DQMS는 신BIS 프로젝트의 부분으로 투이컨설팅이 참여, 당사의 방법론에 따라, 아이티플러스의 DQ솔루션(DQ마이너)을 기반으로 구축했다”고 밝혔다. 또 2차 EDW 외 4개 업무시스템에 대한 DQMS 구축 및 연계 메타시스템 구축은 1차 신BIS DQMS를 확대구축 하는 것으로 자체 개발한 것으로 알려졌다.
박영길 차장은 “향후 데이터 품질관리 도입을 고려하고 있다면 정책, 조직, 프로세스 및 시스템 등으로 구성되는 데이터 품질관리 체계구축을 위해서는 경영진의 전폭적인 지원을 받는 전담조직 구성이 우선돼야 한다”고 전제하며 “이해관계자의 데이터 품질에 대한 지속적인 관심과 적극적인 개선노력을 유도할 수 있는 방안/절차의 수립 및 운영이 필요하다”고 강조했다.
데이터 품질관리 도입 배경.
● 외부 감독기관 및 고객사의 데이터 품질에 대한 통제와 요구에 대응
→ 신BIS(바젤2) 협약도입에 금감원에서는 데이터 품질을 주요 인증요건으로 통제 강화
→ 고객 관계 마케팅(CRM)을 위한 고객정보의 품질에 대한 요구가 꾸준히 증대
● 데이터 품질관리(DQM) 프로세스의 자동화를 통해 DQM생산성 및 효율성 제고 필요
→ DQM프로세스(관리대상 정의, 측정, 분석, 개선, 통제)의 수동운영 및 산출물 관리의 미흡으로 중복작업 및 재작업 비용이 발생
→ 오류데이터에 대한 이력관리 및 성과관리가 어려움
● DQM 정보의 공유를 통해 당사 및 고객사 임직원의 데이터 품질에 대한인식 제고가 필요

특별기고
데이터품질 경쟁력이 기업 경쟁력

조외현
아이티플러스 상무
whjo@itplus.co.kr

최근 데이터 품질이 이슈가 되면서 차세대 프로젝트와 맞물려 데이터 품질관리 프로젝트도 확대되고 있다. 기업과 정부가 정보시스템 구축에 지속적으로 투자한 결과 정보화 수준은 국제적인 경쟁력을 갖추게 되었지만, 증가하는 데이터 양과 비교해 그에 따른 데이터의 품질 확보에는 상대적으로 관심과 투자가 적었던 것이 현실이다. 그 결과 부실한 데이터 관리로 인한 문제가 심심찮게 방송이나 지면을 통해 알려지고 있지만 대부분의 문제들은 기업 내부에서 처리돼 외부에는 알려지지 않고 있다. 이에 따른 경제적 손실은 수치화가 가능한 분야와 더불어 기업 이미지 저하, 고객 이탈, 서비스만족도 저하, 의사결정의 부적합성 등과 같은 보이지 않는 손실로 인해 기업의 경쟁력이 투자한 만큼 따라주지 않을 수가 있다. <편집자>

잘못된 데이터로 인해 발생하는 손실 비용으로 매년 3천억 원 이상의 예산이 낭비되고 있다고 한다. 또한 데이터품질관리인증센터가 지난해 말 국내 146개 기업을 대상으로 조사한 ‘데이터 품질관리 성숙 수준 조사 결과’에 따르면 국내 기업의 데이터 품질관리 수준은 ‘도입’ 단계인 1단계를 조금 넘는다고 알려졌다.
1단계는 초보적인 품질관리 수준을 뜻하는 것으로 우리 기업의 데이터 품질관리의 현주소를 보여준다. 이러한 때에 기업신용평가에 ‘데이터 품질’이 반영될 것으로 알려져 데이터 품질관리가 기업경쟁력 평가의 잣대로 재조명 되고 있다.
데이터 품질의 문제는 상당히 복잡한 요인이 작용하고 있으며 이와 비례하여 데이터 품질 확보 또한 복잡한 과정을 요구하는 경우가 대부분이다. 게다가 프로그램 변경, 데이터베이스 구조의 변경, 업무규칙의 변경, 다수 시스템 간 데이터 교환, 데이터 수집경로의 다양화 등 여러 요인들로 인해 한번 확보된 데이터 품질이 훼손되는 것은 언제든지 쉽게 일어날 수 있는 일이다.
현재까지 데이터 품질관리는 몇 가지 제약들 때문에 IT 조직에서 투자 우선순위가 낮았다. 즉 데이터 품질관리 전담 조직의 부재, 관련 기술이나 솔루션의 미성숙, 데이터 오류 원인 규명 과정의 어려움, 데이터 품질 수준의 계량화 작업 어려움, 컨설팅과 전문 솔루션을 수반하는 개선 작업 필요, 투자 대비 개선 효과의 가시화 및 효과 지속성이 낮은 점 등이 투자를 망설이게 하는 장애 요인들이 되어 왔다.
간혹 솔루션 벤더들이 데이터 품질관리 솔루션을 도입하면 저품질 데이터를 고칠 수 있다고 장담하기도 하지만, 데이터품질은 일회성 작업이나 일부 솔루션으로 확보될 수 있는 것이 아니다. 체계적인 조직, 프로세스, 적합한 시스템을 종합적으로 구축하여 지속적인 데이터 품질관리 활동을 해야만 고품질의 데이터를 유지할 수 있는 특성이 있기 때문이다.

데이터 품질관리의 주요 기술 및 방법론
데이터 품질관리와 관련해 현재 시장에서는 다음과 같은 핵심 기술들이 활용된다.

가. 파싱(Parsing)/표준화(Standardization)
텍스트 필드 값을 단위 부분으로 분리해 내고 값을 일관된 레이아웃의 형태에 맞추는 작업으로서 일반적으로 산업 표준이나 국가 표준을 기반으로 한다. 주소 데이터의 경우 국가 우편번호 표준 준수, 사용자 정의 업무규칙, 값이나 패턴에 대한 특화된 지식을 기반으로 한다. 주로 메타데이터 관리의 기본 영역에 속하기도 한다.

나. 프로파일링(Profiling)
데이터 품질관리의 가장 기본적인 기술이며 업무에 대한 특별한 사전지식 없이 데이터 품질 현황의 기본을 이해할 수 있는 기술이다.
즉 데이터 품질 문제를 이해하는데 도움을 주는 각종 통계를 얻기 위한 데이터 분석 기법이다.

다. 데이터 검증(Auditing)/ 비즈니스 룰(Business rule)
단위 업무 내부 또는 다른 업무들과 연관된 데이터의 품질 확보를 위하여 복잡한 규칙 또는 데이터 규칙을 관리할 수 있게 하고 또한 정의된 업무규칙에 맞게 데이터 품질이 관리되고 있는 지를 검증하는 기능을 제공한다. 업무규칙 도출을 위해 인사이드-아웃이나 아웃사이드-인 기법을 활용한다.

라. 매칭(Matching)
데이터 셋 내부에서 또는 외부 데이터 셋 사이의 연관된 엔트리에 대한 유일성, 연계성, 통합성 등을 찾아내는 기술이다.

마. 클린징(Cleansing)
조직에 맞게 정의된 업무 규칙에 따라 데이터 품질을 맞추는 과정으로서 실질적으로 데이터 값을 변경하는 작업이다. 기존의 가장 전형적인 예로는 고객 주소 정제를 들 수 있다.

바. 인리치먼트(Enrichment)
외부 소스로부터 관련된 속성들을 추가함으로써 내부적으로 보관된 데이터의 가치를 향상시키는 기술이다. 예로는 소비자에 대한 인구통계학적인 속성을 입력하거나 지리적 색인 정보를 추가하는 등으로 보다 정확한 소비자의 성향파악 및 통계 자료를 제공함으로써 데이터에 대한 신뢰도를 높일 수 있다.

사. 모니터링/Dashboard
조직에서 정의한 비즈니스 규칙에 맞게 데이터 품질이 지속적으로 준수되고 있는지를 관리 및 통제하는 기능이다.

위에 언급된 데이터 품질관리의 주요 기술과 함께 중요한 것이 데이터 품질관리 방법론이다. 방법론은 그 특성상 핵심적인 기술을 제공하지는 않지만 위의 주요 기술들을 적용하는 최선의 방안을 제시하게 된다. 이것은 데이터 품질이 단지 몇 가지 기술만을 적용하여 확보될 수 있는 것이 아니라 전문적인 컨설팅을 필요로 하고 각기 조직에 맞는 프로세스를 적용하여 각 단계별로 최적의 활동과 기술을 선택해야 함을 시사한다.
국내에서도 데이터 전문 컨설팅 기업이나 데이터 품질 전문 벤더들이 자체적인 데이터 품질관리 방법론을 제공하고 있다. 그러나 무엇보다 중요한 것은 산업별 다양한 베스트 프랙티스를 갖추고 있는지를 고려해야 한다.

데이터 품질관리 적용 사례
최근 데이터 거버넌스, 데이터 컴플라이언스라는 제목으로 프로젝트가 생겨나고 있다. 오늘날 기업에서 데이터 품질관리를 어떻게 적용하고 있는지 살펴보면 아래와 같이 정리해 볼 수 있다.

1) 데이터 거버넌스 적용 사례
현재로는 명확히 ‘Data Governance’라는 이름으로 프로젝트가 추진되는 사례는 많지 않으나 데이터 품질관리 관련 프로젝트의 성격을 구분할 때 이 범주에 해당되는 사례들이 늘고 있다. 데이터 거버넌스 성격의 데이터 품질관리를 적용한 사례는 데이터 표준화, 메타 데이터 관리, 데이터 품질 관리 및 애플리케이션 영향분석 분야를 기업 내부의 관리 프로세스와 긴밀하게 연계해 메타 포털 형태로 통합하고 있다. 이런 프로젝트의 경우에는 데이터 품질관리 컨설팅과 데이터 아키텍처 컨설팅을 선행하거나 병행하여 추진하는 것을 볼 수 있다.

2) 데이터 컴플라이언스 적용 사례
미국의 SOX 법안의 영향으로 금융권을 중심으로 데이터 컴플라이언스를 준수해야 하는 문제가 데이터 품질관리 구축을 견인하고 있다.
국내에서도 BIS(바젤II)시스템 구축 시에 데이터 품질관리를 동시에 적용하는 사례가 늘고 있다. RDM(Risk Data Mart) 데이터의 원천을 구분해 관리하고 오류가 발생할 경우 오류 데이터의 근원을 추적할 수 있도록 하고 있다.

3) 차세대 부분 적용 사례
최근 국내의 경우 금융권을 중심으로 차세대 시스템 구축이 한창이다. 이러한 프로젝트에서는 데이터 품질관리가 필수적으로 필요한 것으로 인식되고 있다.
차세대 적용 분야는 현행(원천) 데이터 품질 분석, 이행 데이터에 대한 품질 검증 등에 품질관리를 적용해 차세대 시스템의 데이터 품질을 분석해 데이터 감리 자료로 제공한다. 그리고 데이터 품질관리는 데이터 품질 문제 발생시 원인 규명에 결정적인 기여를 함으로써 프로젝트의 데이터 측면의 위험을 감소시키는 목적으로도 활용된다. 또한 차세대 중에 도출된 업무규칙이나 데이터 규칙을 오픈 한 후에도 계속 활용하여 자산화하려는 시도가 늘고 있다.

4) ERP/EDW 부분 적용 사례
ERP 구축 단계에 있는 기업에서 현행 데이터에 대한 품질 분석을 적용하는 사례가 늘고 있다. 이러한 경향은 ERP를 구축하면 데이터도 문제가 없을 것이라는 고객의 기대가 어긋나고 있음을 보여주는 사례이다.
기업에서 보유하고 있는 기존의 데이터가 정비되지 않고 ERP로 이관됐을 경우 오픈 후 상당한 혼란을 초래하는 경우를 자주 볼 수 있다. EDW의 경우에는 많은 기업들이 구축을 완료해 데이터 마트(Data Mart)와 리스크 마트(Risk Mart)를 운영하고 있다. 그러나 이 경우에도 여전히 데이터 품질 측면의 많은 문제점들을 드러내고 있다.

다양한 업종으로 도입 ‘확산’
현재 국내 시장은 공공, 금융, 통신을 비롯해 제조, 유통 등 모든 업종에 걸쳐 적용 사례들이 나오면서 데이터 품질관리 영역이 실질적으로 시장에서 그 필요성을 검증 받고 있는 상황이다.
지금까지 대부분의 데이터 품질관리는 ERP, EDW, 차세대 등 기존 프로젝트에 데이터 품질관리 분야를 부가적으로 추가하는 모습이었으나 향후에는 데이터 아키텍처, 데이터 모델링, 데이터 품질관리, 데이터 거버넌스, 데이터 통합 등을 통해 보다 데이터 중심적인 프로젝트에 독립된 분야 혹은 다른 데이터 관리 분야와 결합해 추진될 가능성이 높다. 결과적으로는 기존의 CRM과 BI와 관련해 데이터 품질관리 프로젝트를 추진하는 전술적인 수준에서 벗어나 전사적이며 전략적인 수준에서 데이터 품질관리 프로젝트가 진행될 가능성이 크다.
데이터 품질 관리의 궁극적인 목적은 비즈니스를 위한 것이다. 기업 경영층의 의사결정 과정에 필요한 정보는 데이터의 정확성과 적시성에 기반해 생성된다.
비즈니스 관점에서 데이터의 핵심품질요소(CTQ: Cri tical to Quality)와 데이터품질지수(DQI: Data Quality Index)를 선정해 전사적인 관점에서 잘 관리하고 있어야만 의사결정에 필요한 정보를 적시에 제공할 수가 있을 것이다. 따라서 IT부서만이 아니라 현업에서도 데이터를 어떤 목적으로 활용할 것인지 비즈니스 목표를 잘 이해하는 것이 데이터 품질관리를 위한 가장 중요한 선행 과제일 것이다.

데이터넷