“AI 서비스 품질, 학습용 데이터 품질에 달렸다”
상태바
“AI 서비스 품질, 학습용 데이터 품질에 달렸다”
  • 윤현기 기자
  • 승인 2022.05.02 08:30
  • 댓글 0
이 기사를 공유합니다

특허 기술로 품질·정확도 향상…AI 학습 데이터 구축·활용 전 영역 지원

[데이터넷] 정부의 디지털 뉴딜 정책 추진과 인공지능(AI) 산업 발전에 따라 AI 학습용 데이터 구축 시장이 급성장하고 있지만, 구축되는 학습 데이터들의 품질 관리를 위한 세부 기준과 도구가 미흡해 실질적인 품질 관리가 힘든 것이 사실이다. 이에 빅데이터·AI 전문 기업 비투엔(대표 조광원)은 회사가 보유한 품질 관리 노하우와 기술력을 담은 AI 학습용 데이터 품질 관리 플랫폼 ‘SDQ for AI’를 선보이며 관련 시장 선도에 나섰다. 박순혁 비투엔 AIX 그룹장을 만나 이야기를 들어봤다.

박순혁 비투엔 AIX그룹장
박순혁 비투엔 AIX그룹장

글로벌 AI 시장의 성장세는 가히 폭발적이며, 그로 인해 오는 2025년까지 데이터 전처리 분야는 8.6조원, 품질 검증 분야는 5200억원 이상의 시장을 형성할 것이라는 전망이 나오고 있다. 이에 우리나라는 글로벌 AI 시장에서 경쟁력을 확보할 수 있도록 정부 주도로 AI 학습에 사용할 수 있는 고품질의 데이터를 확보하고자 ‘데이터댐’ 구축에 나섰으며, 2020년부터 2025년까지 약 2조5000억원에 달하는 대규모 예산을 투입하고 있다.

이때 중요한 것은 데이터의 품질이 보장돼야 한다는 것이다. 데이터 품질이 보장되지 않으면 데이터 활용에 대한 신뢰도가 저하되고, 잘못된 업무처리 또는 의사결정으로 손실이 발생할 수 있으며, 대외 신뢰도에도 악영향을 줄 수 있다. 이러한 이유들로 인해 데이터 품질 관리의 중요성이 점차 부각되는 추세다.

박순혁 그룹장은 “여성 지원자를 차별했던 아마존의 AI 채용 시스템은 유명한 AI 데이터 편향 사례다. 이를 통해 AI 학습용 데이터의 품질이 AI 서비스 성능과 품질에 직접적인 영향을 미친다는 것을 알 수 있다”며 “AI 모델 및 서비스의 성능 향상을 위해서는 많은 양의 데이터, 즉 고품질의 학습용 데이터 확보가 필수적이다”고 말했다.

데이터 품질 관리 시장 개척
데이터는 특정 목적의 활동이나 이벤트로 인해 발생된 사실이나 바탕이 되는 기초적인 자료로, 신호, 기호, 숫자, 문자 등으로 기록된다. 이러한 데이터들의 최신성, 정확성, 상호연계성 등을 사용자에게 유용한 가치를 줄 수 있는 수준으로 확보하기 위한 품질 목표 설정, 정책 및 조직 구성, 품질 관리 계획 수립, 품질 진단, 품질 개선 등의 활동들이 데이터 품질 관리에 해당한다.

지난 15년간 다수 공공기관과 민간기업의 데이터 구축 및 품질 관리 컨설팅을 통해 축적된 전문 역량과 노하우를 집대성한 정형 데이터 품질 관리 도구 ‘SDQ’를 선보였던 비투엔은 최근 AI 학습용 데이터 품질 관리에 대한 시장 수요가 커짐에 따라 ‘SDQ for AI’를 선보이고 관련 시장 개척에 나섰다.

박순혁 그룹장은 “‘SDQ for AI’ 출시 이전에는 품질이 낮은 데이터를 삭제해 모델 학습에 사용되는 데이터의 양이 부족한 상황이 빈번하게 발생했지만, ‘SDQ for AI’ 출시 이후 학습 데이터 구축 초기 단계부터 데이터 품질을 상시 점검하고 개선해 보다 많은 고품질의 학습 데이터 확보가 가능해졌다”며 “기존에는 범용적인 AI 학습용 데이터 품질 점검 도구가 없었기 때문에 학습 데이터별로 프로그램을 개발해 품질 관리를 하거나 사람이 직접 샘플링해 데이터 품질을 점검해야 했지만, ‘SDQ for AI’를 활용하면 동일한 검사 지표로 다양한 유형의 AI 학습용 데이터 품질 점검이 가능하다”고 말했다.

특허 기술로 품질 한층 높여
‘SDQ for AI’에는 AI 학습용 데이터에 대한 형식 및 구조 정확성, 카테고리 및 인스턴스의 다양성을 진단하는 ‘어노테이션 자동 진단 시스템’이 적용된 것이 특징이다. 해당 기술은 지난해 기술 특허를 취득하고, 글로벌 특허 취득을 위해 PCT 특허 출원을 마친 상태다. 비투엔이 양질의 데이터셋 구축을 위한 고품질 데이터 확보 및 라벨링 정확도 향상을 위해 개발한 기술로 JSON, XML, CSV, TSV, TXT 등 다양한 유형의 어노테이션 파일에 대한 구문 규칙 자동 생성, 파일 완전성 검사, 구조 정확성 검사, 값의 유효성 검사 등 AI 학습용 데이터 품질 검사를 위한 핵심 기술로 활용되고 있다.

‘SDQ for AI’를 활용하면 별도의 프로그램 개발 없이 다양한 분야의 학습 데이터 품질 관리가 가능하다. 1000만개 이상의 파일로 구성된 대량의 학습 데이터에 대해서도 빠른 검사와 분석 속도가 보장된다.

GUI 기반의 설정 방식을 적용, 비 개발자도 쉽게 사용이 가능하다는 것도 장점이다. 복잡한 계층 구조의 학습 데이터를 이해하기 쉬운 그리드 형태로 변환해 제공함으로써 품질 관리자와 데이터 구축 담당자 간 원활한 의사소통을 지원하는 역할도 담당한다.

뿐만 아니라 SaaS 형태로도 제공돼 서버나 스토리지 등 인프라 자원 구축에 소요되는 비용도 절감할 수 있고, 학습 데이터 용량에 맞춰 언제든 스토리지 확장이 가능해 능동적인 인프라 운영을 돕는다.

AI 학습 데이터 구축·활용 전 영역 지원
‘SDQ for AI’는 한국정보통신기술협회(TTA)가 추진하는 ‘AI 데이터 구문 정확성 검사 용역’ 사업을 2020년과 2021년 연속 수주하면서 다양한 분야의 학습 데이터에 대한 검사·분석 성능을 입증한 바 있다.

이 외에도 ‘한국어 방언 AI 데이터’, ‘드론 영상 AI 데이터’, ‘동적 객체 인지 데이터’ 사업과 ‘주제별 음성 데이터’, ‘반려동물 질병 진단을 위한 영상 데이터’, ‘요약 텍스트 데이터’ 사업을 2년여에 걸쳐 수주하면서 AI 학습용 데이터 품질 관리 전문 기업임을 인정받고 있다.

올해 비투엔은 지난 1월 출시한 ‘SDQ for AI’ SaaS 버전에 대한 영업과 마케팅을 보다 공격적으로 실시한다는 방침이다. 최근 공공, 민간을 가리지 않고 AI 학습용 데이터 품질 관리 관련 사업들의 발주가 이어지고 있는 만큼 보다 다양한 영역에서 제품이 활용될 수 있도록 하겠다는 계획이다.

점차 AI 학습용 데이터의 양이 급격하게 늘어나고 복잡해지는 것에 대응하고자 비투엔은 ‘SDQ for AI’ 엔진을 고도화해 보다 빠른 검사 성능을 보장하면서도 정교한 검사 기능을 제공하도록 업그레이드도 단행할 예정이다. 데이터의 통계적인 특징들을 한 눈에 파악할 수 있는 시각화 기능도 한층 보강한다.

박순혁 그룹장은 “AI 데이터 품질 관리 영역뿐만 아니라 데이터 구축과 활용 전 영역을 지원하는 통합 플랫폼으로 진화시켜 나갈 것”이라고 밝혔다.

한편 비투엔은 ‘SDQ for AI’ 품질 검사 기능 고도화 및 다국어 지원을 통해 해외로의 사업 확장도 노리고 있다. 지난해에는 데이터 기업의 해외 진출을 지원하는 ‘2021 데이터 글로벌’ 사업자로 선정, 제품 현지화와 더불어 마케팅 활동도 적극 펼치고 있다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.