빅데이터 알파와 오메가 ‘데이터 거버넌스’
상태바
빅데이터 알파와 오메가 ‘데이터 거버넌스’
  • 김선애 기자
  • 승인 2012.02.06 18:49
  • 댓글 0
이 기사를 공유합니다

데이터 관리 기본 ‘DI/DQ’ … 비정형 데이터도 ‘품질’ 중요

‘데이터 거버넌스’는 빅데이터 시대에 중요한 요소다. 데이터가 증가할수록 더 철저한 거버넌스 정책이 필요하기 때문이다. 그렇지 않으면 거대한 ‘데이터의 바다’에 빠져서 통찰력을 얻을 수 없고, 데이터의 의미를 잘못 파악해 경쟁력을 악화시키는 결과를 낳을 수 있다.

비용효율적인 DI/DQ 전략 고민해야
데이터 거버넌스를 위해 가장 먼저 얘기해야 할 것이 데이터 품질이다. 빅데이터의 대부분을 형성하는 비정형 데이터는 구조화되지 않았기 때문에 데이터 품질이 매우 낮다. ‘빅데이터 열풍’의 진원지라고 할 수 있는 트위터와 페이스북의 예를 들어보자.

앞서 설명한 것처럼 트위터와 페이스북의 글은 쓰고 삭제하는 것은 가능하지만 수정은 안 된다. 트위터는 자신의 계정에서 글을 삭제해도 리트윗이나 인용된 글들은 계속 남아있기 때문에 원천적으로 삭제가 불가능하다.

SNS의 콘텐츠는 감정이나 특정한 상황이 전제돼 있기 때문에 텍스트 혹은 이미지 자체만으로 의미를 정확히 파악할 수 없다. 예를 들어 선거를 할 때 특정 후보에 대해 “A후보 짱”이라는 글을 남겼다고 하자. ‘짱’이라는 표현은 좋다는 뜻일 수도 있고, ‘짜증난다’는 뜻의 부정적인 뜻일수도 있다. 앞뒤 정황을 살펴보면 그 뜻은 또 달라질 수도 있다. 스마트폰의 특성상 오탈자가 많이 발생하기 때문에 텍스트만으로는 의미를 알지 못할 수도 있다.

품질이 낮은 데이터를 비즈니스에 적용하면 합리적인 의사결정을 할 수 없다. 트위터에서 신제품에 대한 고객 반응을 구하고자 했을 때, 해당 트윗이 의미하는 바를 정확하게 파악하지 못한 상태에서 해당 제품에 대한 고객의 평가를 분석하는 것은 잘못된 의사결정을 내리게 될 확률이 높다.

고객 반응에 대한 문제는 가급적 많은 데이터를 끌어 모으되, 정황을 정확하게 살펴야 하는 문제, 즉 감성분석 분야에 해당하는 문제이다. 데이터의 의미를 보다 정확하게 파악하기 위해 분석기술에만 의존할 수는 없다. 정형데이터와 마찬가지로 비정형 데이터에서도 데이터의 품질과 통합은 중요한 문제이다.

이승범 투이컨설팅 수석컨설턴트는 “빅데이터는 분석과 활용이 중요하며, 구조화되지 않은 대용량 데이터, 매니데이터에 대한 품질관리가 필수”라며 “그러나 하둡은 데이터의 정합성보다 대용량 데이터를 빠르게 처리하는데 초점이 맞춰져있기 때문에 데이터 품질을 높이기 위한 기술로 적합하지 않다”고 말했다.

그러나 기존 데이터 품질(DQ) 관련 솔루션은 비정형 데이터를 지원하지 못한다. 비정형 데이터의 많은 부분은 일정한 시간이 지나면 쓸모없게 된다. 특정 시점 이후에는 필요하지 않은 데이터를 위해 정제하고 구조화하는 일에 시간과 비용을 낭비하는 것은 어리석은 일이다.

비정형 데이터의 품질을 높이는 방법은 규모로 승부하는 수밖에 없다. 웹2.0이 집단지성의 힘을 강조했던 것과 마찬가지로 데이터가 많으면 많을수록 데이터가 의미하는 바가 분명해진다. 트위터의 글들이 많이 모일수록 해당 내용에 대한 긍/부정을 파악할 수 있게 되는 것과 마찬가지다.

정형데이터 DI/DQ 시급
DI/DQ 분야에서는 비정형 데이터보다 정형 데이터에 대한 품질관리를 중점적으로 제안한다. 허은아 데이터스트림즈 이사는 “정형데이터의 빅데이터화도 무시할 수 없는 변화이다. 정형데이터의 증가량도 기업이 감당할 수 있는 범위를 벗어나고 있다”고 말했다.

데이터스트림즈는 ETL, 데이터 통합, 메타데이터 관리, 데이터 컨설팅 등을 수행해온 전문기업으로, 공공·금융 분야에서 강점을 갖고 있다. 이 회사는 대용량 데이터를 빠르게 처리할 수 있으며, 국내 기업문화에 적합한 데이터 관리 솔루션을 제공한다는 점을 강조한다.

데이터 통합 시장에서는 정형 데이터와 비정형 데이터를 통합해야 한다는 필요성은 제기되고 있지만, 정형-비정형 데이터를 통합할 수 있는 기술이 없으며, 통합을 위해 필요한 시간과 비용에 비해 실제 높은 효과를 볼 수 있을지에 대해서도 이견이 분분하다.

업계 관계자는 “정형데이터 DI/DQ도 아직 낮은 수준”이라고 지적하며 “우선 기업이 보유하고 있는 데이터 품질을 고도화하는 작업이 먼저”라고 말한다. 실제로 글로벌 금융위기 당시 많은 기업들이 인수합병을 단행했으며, 조직을 통합하는 과정에서 데이터 통합 프로젝트가 다수 발생하고 있다.

최근에는 실시간 데이터 통합이 화두가 되고 있는데, 비즈니스 변화가 빨라지면서 실시간 DW에 대한 요구가 늘어나 빠르게 데이터를 통합해 앞으로 발생할 수 있는 리스크의 수준과 범위를 알아보거나, 새로운 시장기회를 찾을 수 있는 방법을 알아내기도 한다.

클라우드 환경을 지원하는 데이터 통합도 화두가 된다. 클라우드에서의 데이터 통합은 서비스로 이용하는 소프트웨어(SaaS) 방식으로 DI를 이용하는 것과 클라우드 자원을 이용해 데이터를 통합하는 것으로 나눌 수 있다. SaaS로 이용하는 DI는 중소규모 기업간 통합이나 공동개발 등을 통한 협력관계, 혹은 크지 않은 규모의 신규 비즈니스 발족 시 유용하게 사용될 수 있다. 클라우드 자원을 이용한 DI는 대용량 하드웨어를 이용하지 않고 가상화된 IT 리소스를 사용해 데이터를 통합하며, 데이터를 가상화된 풀에 넣어 시뮬레이션을 하는 등 데이터 가상화 기술로도 응용된다.

인포매티카는 ‘데이터 중심 엔터프라이즈(Data Driven Enterprise)’ 전략을 앞세우며 DI·DQ 뿐 아니라 ILM (Information Lifecycle Management), MDM(Meta Data Management), 클라우드 데이터 통합 등을 종합적으로 제공한다.

오라클은 ‘골든게이트’ 제품군을 제공한다. 이 제품은 실시간 데이터 통합과 대용량 데이터 변환을 지원하며, 비즈니스 인텔리전스, 고성능 온라인 트랜잭션 프로세싱(OLTP) 및 미션 크리티컬 시스템을 위한 최대의 가용성을 제공한다. 최신 버전은 데이터 전송 과정의 부하나 지연시간을 단축하고, 데이터를 분산해 IT 인프라의 부담을 최소한으로 줄여 신속한 실시간 데이터 통합 및 미션 크리티컬 시스템을 위한 중단 없는 데이터 가용성 등을 제공해 IT 관리의 중앙화를 쉽고 안정적으로 실현시켜 준다.

데이터스트림즈는 데이터 품질 솔루션 ‘메타 스트림(Meta Stream)’ ‘퀄리티 스트림(Quality Stream)’ ‘임팩트 스트림(Impact Stream)’과 데이터 통합 솔루션 ‘테라 스트림(Tera Stream)’ ‘델타 스트림(Delta Stream)’ 등을 공급하며 시장에서의 리더십을 입증하고 있다. 데이터스트림즈는 데이터 표준관리 시스템을 기반으로 표준 데이터 관리 및 데이터 품질 사전 동적 검증 및 사후 정적 검증이 가능한 다중 검증 체계를 구축하고, 데이터품질 검증체계와 자동화 검증을 통해 데이터 이행(변경) 전·후 품질 모니터링에 의한 재 작업 방지 와 데이터 품질검증에 대한 부하를 분산시킨다.

위세아이텍은 BI, 데이터관리, CRM 등의 솔루션을 공급하는 토종기업으로, 데이터 품질을 분석, 향상시키는 데이터 품질관리 도구 ‘와이즈 DQ’를 공급한다. 이 제품은 품질지표, 품질측정 대상과 품질측정 방법을 정의하고, 품질을 측정해 데이터 품질 개선 활동을 지원한다. 사용자는 측정된 데이터 품질 결과를 제공받아 데이터 품질의 문제점을 진단할 수 있다.

DB 보안 ‘뜨거운 감자’로 대두
클라우드와 빅데이터 환경에서는 메타데이터 관리(MDM) 기술도 주목받는다. MDM은 데이터센터 통합을 위해 기본이 되는 사업 중 하나지만 지금까지는 대규모 제조업에서만 한정적으로 도입돼 왔다.

그러나 비즈니스가 복잡해지고, 실시간 기업(RTE)에 대한 요구가 높아지면서 전사 통찰력을 갖기 위한 데이터 품질 고도화가 부상하고, 그 기본기술이 되는 MDM이 부상하고 있다. MDM은 ERP 패키지에 포함되는 경우가 많지만 인포매티카, 데이터스트림즈 등 전문기업에서 MDM의 필요성을 적극 주장하면서 시장을 환기시키고 있다.

이외에도 데이터 모델링, 데이터 튜닝 등 데이터 관리 기술이 빅데이터 환경에서 필수적인 솔루션으로 다시 부각되고 있으며, 데이터 관리가 기업의 크리티컬한 문제로 떠오르면서 시장 활성화를 기대할 수 있을 것으로 보인다.

한편 2011년 대형 금융권의 해킹사례가 발생하면서 데이터 보안에 대한 관심도 매우 뜨겁다. 개인정보보호법 시행으로 중요도가 높아지고 있는 DB 보안은 빅데이터 환경에서 뜨거운 감자로 부상할 것으로 예상된다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.