“데이터 활용성 높이려면 지속적인 품질 관리 뒤따라야” (2)
상태바
“데이터 활용성 높이려면 지속적인 품질 관리 뒤따라야” (2)
  • 윤현기 기자
  • 승인 2023.02.20 09:00
  • 댓글 0
이 기사를 공유합니다

안전한 AI 활용 위한 발판…사람·프로세스·기술 간 조화 이뤄야 가능

[데이터넷] 위세아이텍은 데이터 품질 관리 솔루션 ‘와이즈DQ’와 메타데이터 관리 솔루션 ‘와이즈메타’를 시장에 공급하며 시장 공략에 나서고 있다.

와이즈DQ는 데이터 신뢰 확보를 위한 데이터 품질 관리 도구로 공공데이터 품질 관리 수준 평가에 특화된 제품이다. 체계적인 품질 관리 프로세스와 상시 모니터링으로 데이터 품질을 향상시키며, 오류 발생 시 원인을 분석해 이를 토대로 개선방안을 마련할 수 있도록 한다.

와이즈메타는 금융권 시장점유율 1위를 자랑하는 메타데이터 관리 도구로 국내 유일 범정부 데이터플랫폼 자동 연계를 지원하는 것이 특징이다. 데이터 항목의 표현과 형식을 일관되고 명확하게 정의해 데이터의 식별성과 이해도를 향상시키며, 메타데이터의 생성, 번경, 소멸에 이르기까지 전 과정을 관리해준다.

대표 고객사로는 KDB산업은행을 든다. 지난 2017년 KDB산업은행은 계정계와 정보계 전체 시스템을 동시에 재구축하는 빅뱅 방식의 차세대 사업을 추진했고, 위세아이텍의 솔루션들을 활용해 운영관리 상황과 품질을 적시에 파악할 수 있는 투명한 시스템을 구현했다. SQL을 사용하지 않아도 DBMS에 저장된 값의 현황을 쉽게 파악할 수 있게 됐다.

뿐만 아니라 오류 데이터가 지속 발생하는 근본 원인을 찾아내 제거하는 선순환 구조를 갖췄으며, 운영 업무 데이터에 대한 품질 진단은 물론 데이터에 대한 품질도 관리함으로써 데이터 품질 수준을 지속 개선·관리하고 있다.

이 외에도 한국관광공사, 한국지능정보사회진흥원, 경찰청, 국세청 등 주요 공공기관들과 신한은행, 카카오뱅크, 케이뱅크 등 금융권에서 다수 고객들을 확보한 상태다.

위세아이텍은 데이터 품질 관리의 중요성이 확산됨에 따라 제품에 사용자 친화적인 기능들을 추가하면서 좀 더 나은 서비스 제공을 목표로 하고 있다.

“적합한 품질 관리 체계 기반 마련 필수”
▲ 서명원 위세아이텍 DM사업부장
▲ 서명원 위세아이텍 DM사업부장

최근 빅데이터 분석을 통한 인사이트 발굴, AI를 활용한 비즈니스 혁신 등 데이터를 효과적으로 활용해 비즈니스 성공을 이끌어낸 다양한 사례들이 발굴되면서 많은 기업이 데이터에 집중하고 있다. 그러나 데이터 활용 방법만큼이나 중요한 것이 바로 데이터의 품질 관리다. 맛있는 요리를 완성하기 위해서는 질 좋은 재료가 필요하듯이 품질 낮은 데이터를 보유하고 있다면 아무리 그 양이 많아도 올바로 활용되기 어렵다.

데이터의 품질을 위해서는 품질 진단을 수행하고, 잘못된 데이터를 수정하는 것도 필요하겠지만 무엇보다 기업마다 적합한 데이터 품질 관리 체계 기반을 마련해 지속적으로 모니터링하는 것이 필요하다. 데이터는 시간이 흐를수록 축적되는 양이 증가하고 변경돼 품질이 낮아질 수밖에 없다. 그 때문에 데이터 구축부터 운영, 활용까지의 라이프 사이클을 고려한 관리체계를 바탕으로 꾸준한 유지관리가 이뤄져야 한다. 필요시 데이터 품질 관리 도구를 사용하는 것도 효과적인 관리와 운영을 위한 방법이 될 것이다.

솔루션 사업 한층 확대
엔코아는 최근 수년간 독자적인 데이터 컨설팅 역량과 데이터 통합 관리 전문 솔루션을 갖춰 기업 데이터 관리를 위한 토털 서비스를 제공하고 있다. 그중 데이터 통합 관리 솔루션 ‘데이터웨어’는 데이터 플랫폼 구축에 필요한 데이터 설계, 메타데이터 관리, 데이터 품질 관리와 같은 ‘데이터 거버넌스’, 클라우드, 마이크로서비스 아키텍처(MSA), 온프레미스 등 복잡한 IT 환경에서 효과적인 데이터 통합과 실시간 데이터 조회를 가능하게 하는 ‘데이터 가상화 솔루션’, 내재화된 데이터의 활용을 위한 ‘데이터 포털’ 솔루션까지 10여개의 솔루션으로 구성돼 기업의 데이터 플랫폼 구축을 위한 전 프로세스를 지원한다.

엔코아는 그동안 컨설팅 위주의 사업에서 데이터 솔루션으로 사업 영역을 보다 넓혀가고 있으며, 그 효과를 톡톡히 보고 있다. 그 결과 지난해 솔루션 라이선스 매출이 전년 대비 30% 이상 늘어났을 정도로 빠른 성장을 이뤄내고 있다. 지금껏 인력을 투입하는 프로젝트가 전체 매출의 65% 이상을 차지했다면, 앞으로는 솔루션 라이선스와 교육 매출 비중을 더 높여나가는 것을 목표로 삼았다.

그 일환으로 엔코아는 ‘데이터웨어’ 구독형 서비스도 새롭게 선보였다. 엔코아의 데이터웨어 솔루션 중 8개의 솔루션을 3가지 타입으로 패키징해 구독형으로 공급하는 것으로 고객은 데이터 통합 관리 솔루션을 구독형으로 간편하게 도입할 수 있고, 솔루션 도입부터 유지보수까지 한 번에 해결이 가능하며, 최신 버전의 지속적인 업데이트 지원으로 초기 구축 비용은 물론 기업 데이터 관리를 위한 전반적인 TCO를 절감해 체계적이고 효율적인 데이터 관리를 수행할 수 있다.

이에 힘입어 아모레, SSS닷컴, 롯데멤버스, 수자원공사 등 대기업 및 공공기관에 치우쳐 있던 고객군을 SMB까지 한층 늘려나가겠다는 입장이다.

“사람·프로세스·기술 간 조화 이뤄야”
▲ 명재호 엔코아 부사장
▲ 명재호 엔코아 부사장

최근 데이터 활용을 위해 ‘데이터 패브릭’ 등 다양한 개념들이 등장했지만, 데이터를 제대로 활용하기 위해서는 ‘데이터옵스’가 필요하다. 데이터옵스에 대해 IBM은 “신뢰할 수 있는 고품질의 데이터를 사용자에게 신속하게 제공하기 위한 사람, 프로세스, 기술의 오케스트레이션”이라고 정의하며, 가트너는 “조직 전체 데이터 관리와 데이터 소비자 간 데이터 흐름의 협업, 오케스트레이션 및 자동화 개선에 중점을 둔 데이터 협업 관리”로 보고 있다.

이러한 정의들에서 알 수 있듯이 데이터 품질을 단순하게 여기는 것은 잘못이다. 품질은 사용자가 보는 결과에 해당하지만, 그것이 유지되려면 데이터 관리 체계를 전부 뜯어 바꾸지 않으면 안 되기 때문이다. 즉 사람, 프로세스, 기술이 협력하는 체계를 구현하지 않으면 제대로 된 품질 관리가 이뤄진다고 볼 수 없다.

안전한 AI 활용 위한 발판
AI 산업에서 데이터 품질은 ‘AI 기술(모델 및 알고리즘)에 활용한 데이터가 다양성·정확성·유효성 등을 확보해 사용자에게 유용한 가치를 줄 수 있는 수준’인지를 의미한다. 실질적으로 AI 모델 개발에 사용되는 데이터 품질은 개발된 모델의 성능과 서비스의 성공을 가를 수 있는 매우 중요한 요소로 일반적인 제품의 품질 측정과 다르게 복합적인 측면을 고려해야 한다.

무--엇보다 AI가 학습하는 데이터의 품질이 관리되지 않는 경우(개발 전-후, 의도하지 않는 경우를 모두 포함) 예상하지 못한 최악의 결과로 나타날 수 있다. 예를 들어 자율주행이나 보안과 같은 분야에서는 모델의 잘못된 판단으로 사람의 생명과 안전에 직결되는 문제가 발생할 가능성이 커진다.

현재 AI 모델을 개발하는 단계에서 데이터 품질 관리는 후반 공정의 한 단계로 인식되고 있다. 하지만 성공적인 AI 모델 개발을 위해서는 설계 단계부터 데이터 품질을 고려하는 것이 반드시 필요하다. ▲데이터 수집 계획 수립 ▲편향되지 않는 학습을 위한 데이터 분포 기준 수립 ▲라벨링 가이드와 검수 기준 작성 등 데이터를 수집하고 가공하기 전에 상세한 데이터 품질 기준과 관리 정책을 수립해야 한다.

수립된 데이터 품질 기준과 관리 정책은 AI 모델 개발 전공정에서 업무의 기준으로 주요하게 사용할 수 있다. 그리고 AI 모델 학습 전에 시행되는 구축된 학습용 데이터에 대한 데이터 품질 관리는 사전에 수립된 기준과 정책에 의해서 데이터가 수집되고 라벨링됐는지 검증을 거쳐 최적의 데이터를 확보하는 과정으로, 이후 진행될 AI 모델 학습과 모델 성능에 직접적인 영향을 미칠 수 있는 중요한 활동이다.

보다 정확한 검증 서비스 제공
테스트웍스는 구축된 학습용 데이터의 품질 검증 업무를 기본으로 데이터 품질 검증 맞춤형 서비스를 제공한다. 데이터 품질 검증 업무는 기본적으로 가공이 완료된 데이터에 대한 데이터 적합성과 정확성을 중심으로 데이터가 학습될 AI 모델과 알고리즘에 적합하게 수집·가공됐는지 검증하는 업무다. 검증 과정에서 ML옵스 기반 자동화된 프로세스를 통해 효율성을 확보하고, 개선사항을 정량적으로 확인할 수 있는 솔루션을 활용해 보다 정확한 검증 서비스를 제공한다.

일반적으로 데이터 검증을 위해서는 데이터에 대한 샘플링이 필요하며, 전통적인 샘플 추출 방식은 통계적으로 무작위한 데이터를 샘플링한다. 하지만 테스트웍스는 액티브 러닝(Active Learning) 방식을 통해 모델이 익숙하지 않은 데이터를 샘플링한다. 이를 통해 모델의 성능을 효과적으로 높일 수 있는 데이터를 추출하고, 해당 데이터에 대한 검증·개선 작업을 한다.

여기서 데이터 검증 시 활용되는 ADQ(AI Data Quality)는 다양한 도메인 내 대규모 데이터 구축 경험과 검증 역량을 기반으로 테스트웍스가 자체 개발한 AI 데이터 검증 전문 솔루션이다. ADQ를 통해 품질 검증에 필요한 데이터 샘플링, 분할 및 관리까지 여러 개의 검증 프로젝트 작업을 동시에 진행할 수 있으며, 오류 검증과 분석을 통해 품질 높은 데이터 셋 확보로 비용 절감 및 생산성을 확보할 수 있다.

또 테스트웍스는 다양한 AI 학습용 데이터 구축 및 모델 개발 경험을 바탕으로 설계 단계에서부터 품질을 확보할 수 있는 컨설팅과 관리 서비스를 제공한다. 데이터 수집, 가공, 검수 전반에 걸쳐 풍부한 경험과 자체 솔루션을 통해 데이터 구축에서 품질 검증까지 고객 맞춤형 원스톱 서비스가 가능한 것이 테스트웍스만의 차별화된 데이터 품질 서비스다.

현재 테스트웍스는 한국지능정보사회진흥원(NIA)의 ‘AI-허브 개방 데이터 품질개선 사업’의 주사업자로 2020년까지 구축된 AI-허브 개방 데이터 중 기술 가치가 높고 개선 효과가 높을 것으로 예상되는 데이터를 선정하여 개선하는 사업을 수행 중이다.

테스트웍스의 데이터 품질 관련 사업 목표는 데이터 품질을 검증하고 향상시킬 수 있도록 서비스의 활용 범위를 높여 전문성을 확보하는 것이다. 현재 대부분의 데이터 품질 관련 사업을 수행하는 기업들이 집중하는 후반 검증 업무에서 탈피한 테스트웍스만의 차별화된 데이터 품질 관리 방안을 통해 데이터 구축 및 AI 모델 개발 사업을 전주기에 걸친 품질 중심의 사업으로 발전시켜 나갈 예정이다.

테스트웍스 ML옵스 기반 AI 모델 활용한 데이터 검증·개선 과정
테스트웍스 ML옵스 기반 AI 모델 활용한 데이터 검증·개선 과정

AI·빅데이터에서 산업데이터까지 평가
데이터 품질 관리는 구축 단계뿐만 아니라 운영 단계에서도 매우 중요하다. 구축 단계에서는 오류 데이터가 수집되지 않도록 감지하는 절차를 갖춰야 하며, 여기에는 데이터를 표준화해 저장하거나 오입력 데이터에 대한 사전 체크 등이 해당한다.

운영 단계에서 필요한 것은 진단이다. 운영상 문제가 없는지 확인한 후 오류 데이터가 있으면 삭제하거나 조정하는 등의 개선을 거쳐야 한다. 또 데이터 수집 시 필터링 등을 통해 오류 데이터가 수집되지 않도록 하는 방안도 모색해야 한다.

이는 솔루션으로도 해결이 가능하지만, 좀 더 공신력을 갖기 위한 방안으로 평가를 거치는 방안도 거론된다. 소프트웨어 테스팅 전문 기업 와이즈스톤은 이러한 기업들의 수요를 충족시키기 위해 소프트웨어 테스팅과 더불어 다양한 산업용 데이터에 대한 품질 평가를 진행한다.

앞서 와이즈스톤은 산업통상자원부 국가기술표준원 산하 한국인정기구(KOLAS)로부터 데이터 품질 평가 업무 수행에 대한 공식적인 자격을 인정받은 바 있다. 이에 따라 와이즈스톤은 빅데이터, AI 분야의 데이터 품질 공인시험성적서를 제공하고 있다.

인증을 획득한 기업은 데이터 품질에 대한 객관성은 물론 신뢰성도 갖게 된다. 데이터 품질 인증을 통해 지금까지 저품질의 데이터로 잘못된 의사결정이나 데이터 관리 등에 사용되던 시간적·금전적 비용을 대폭 줄일 수 있다.

이에 더해 와이즈스톤은 한국산업지능화협회와 공동으로 ‘산업데이터 품질 인증’도 개발했다. 이는 산업에서 사용되는 데이터의 품질을 심사해 발행하는 인증으로, 개발-생산-유통-소비 등 산업 밸류체인 전 과정에서 생성되는 산업데이터를 대상으로 한다. 산업데이터의 품질 인증은 데이터 품질에 관한 국제표준 ISO/IEC 기반의 심사·심의 과정을 거친다. 이로써 데이터에 대한 글로벌 품질 경쟁력 입증이 가능해진다.

현재 한국기업데이터, 한국전자기술연구원, 한국야금, 한국기계산업진흥회, 미소정보기술 등이 와이즈스톤으로부터 데이터 품질 인증을 받았으며, 이들은 내부적인 데이터 활용 외에도 외부 마케팅용이나 수요처에 증빙용으로도 인증을 활용하고 있다.

올해 와이즈스톤은 시험 효율화를 위한 데이터 검증도구 고도화에 나선다. 또 정부 차원에서 AI 데이터 검증에 대한 의지를 내보이고 있는 만큼 AI 학습데이터에 대한 정량 평가 방법 연구도 지속할 방침이다.

김홍기 와이즈스톤 ICT시험인증연구소 소프트웨어시험센터장은 “최근 AI 소프트웨어 개발에 대한 연구개발 수요가 높지만, 점차 데이터 활용을 위한 연구개발 과제도 늘어날 것으로 예상되는 만큼 시험기관으로서 데이터 평가인증을 위한 선순환 생태계를 만들기 위해 노력할 것”이라며 “시험성적서를 통한 증빙 등의 필요성도 꾸준한 홍보를 통해 알리고 중요성을 부각시켜 사업을 다각화할 예정”이라고 전했다.

“데이터 거래 시대, 품질 관리 필수”
▲김홍기 와이즈스톤 ICT시험인증연구소 소프트웨어시험센터장(왼쪽), 정세린 와이즈스톤 ICT시험인증연구소 디지털융합시험인증센터 부센터장
▲김홍기 와이즈스톤 ICT시험인증연구소 소프트웨어시험센터장(왼쪽), 정세린 와이즈스톤 ICT시험인증연구소 디지털융합시험인증센터 부센터장

이제 데이터가 거래되는 시대가 됐다. 실제로 데이터 거래소도 존재한다. 데이터를 거래할 때 판매자 혹은 구매자가 가장 궁금해하는 것은 무엇일까? 아마도 데이터 품질일 것이다. 판매자 측에서는 활용가치가 높은 데이터임을 어필하고 싶을 것이며, 구매자 측에서는 정말 믿고 쓸 수 있는 데이터인지 확인하고 싶어 하는 것이 당연하다.

이때 판매자와 구매자 간의 간극을 좁혀줄 수 있는 것이 시험성적서다. 당사자들과 이해관계가 얽히지 않은 제3자에게 시험을 의뢰한다는 것 자체가 객관적인 증빙을 받기 위함이다. 이를 통해 판매자와 구매자 모두 자신들이 거래할 데이터의 품질을 믿을 수 있게 된다. 판매자는 자신들이 판매하는 데이터의 품질이 어느 정도인지 가늠할 수 있으며, 구매자 역시 품질이 보증되는 데이터를 믿고 구매할 수 있다. 결과적으로 서로에게 유익하다.

이처럼 데이터 품질 관리는 내부에서 활용할 때도 중요하지만 외부에 공유하기 위해서라도 반드시 필요하다.

 



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.