필적감정 학습 데이터로 본인인증 지평 연다
상태바
필적감정 학습 데이터로 본인인증 지평 연다
  • 데이터넷
  • 승인 2023.01.31 21:16
  • 댓글 0
이 기사를 공유합니다

AI 이용 필적감정, 모사 전문가 필적 구분 … 시험·계약 등 다양한 활용사례 만들 것
<한수연 에스엠시스템즈 이사>

[데이터넷] 개인의 필체는 개인을 식별할 수 있는 고유한 속성으로, 개인 동의나 확인시 사용한다. 그러나 개인의 필체 정보를 취득하고 진위여부를 확인할 수 있는 방법이 정확하지 않아 서류 위조 등의 사건이 발생한다. 이 문제를 해결할 기술을 개 발하기 위해서는 ‘필체 비교’에 관한 데이터가 필요하다.

에스엠시스템즈는 금천구청, 뉴코리아전자통신, 비젼인, 호서대학교 산학협력단과 컨소시엄을 구성, 과학기술정보통 신부와 한국지능정보사회진흥원(NIA)이 주관한 ‘2022년 인공지능 학습용 데이터 구축 사업’의 ‘신기술 선도 부문’에 필적감정을 위한 데이터 구축 사업을 제안해 최고 점수로 선정됐다. 사업명은 ‘개인 특정을 위한 자필과 모사 필기 데이터 구축’으로, 지난해 성공적으로 완수했다.

필적감정 활용 데이터 필요

본인과 타인의 필체를 비교해 위조를 증명하는 서비스를 ‘필적감정’이라고 한다. 필적감정은 고대 로마제국부터 시행된 오래된 학문이다. 필적감정은 동일 환경에서 동일 방법으로 필기했을 경우를 전제로 한다.

그러나 시간 제한, 감정기복 등의 다른 상황, 펜과 종이의 특성 등 다른 환경으로 인해 유사하지만 다르게 필기하는 경 우가 있다. 동일해 보이는 다른 사람간의 필체의 경우 필적감정의 신뢰도가 높게 나타날 수 있고, 유사도가 낮은 동일인 필체의 경우는 신뢰도가 낮게 나타난다.

개인 필체는 어떤 상황에서도 고유하다는 내용을 연구하기 위해서는 데이터가 필요했지만 한글로 작성된 연구 데이터를 찾을 수 없었다. 그래서 ICT 기술을 이용해 인공지능이 해결 할 수 있도록 데이터를 만들어야 했다.

종이와 볼펜을 이용해 작성된 보편적인 손글씨 데이터를 단순히 이미지로서의 결과만이 아닌, 위치의 변화, 필압, 회전 반경 등 필기 과정 데이터를 취득해 분석한다면 더 높은 신뢰도로 개인을 특정할 수 있을 것이다. 이때 필기 상황이나 환경이 변하더라도 필기 특성의 간격(획간의 시간차, 필압의 변화차 등)은 일정한 비율로 변할 것이다.

이를 증명하기 위해 데이터 구축 사업을 다음과 같이 기획 했다.

- 수학능력시험 등에서 자필 식별을 위해 사용되는 15글자 내외의 변별력 있는 표준문장 30셋을 기본 문장으로 활용

- 연령별, 성별 일정 분포의 3000명 이상의 개인이 자필로 하나의 문장을 3가지 자세(서서/앉아서/기대서)로 각각 5회 이상 작성 하게 해 자필문장 데이터를 수집

- 비교를 위해 미대생 모사 전문가를 채용, 자필문장 데이터와 동일 필체, 동일 내용으로 모사문장 데이터를 작성

- 사용되는 종이와 펜은 ‘닷 패턴(Dot Pattern)’ 기술 적용. ‘닷 패턴’은 일반 A4지에 위치 정보 인식을 위한 점 데이터를 1차 출력한 후, 그 위에 내 용/서식을 재출력하는 기술이다. 인식을 위해 유핏에서 생산한 적외선 카메라가 부착된 디지털펜을 활용했다. 이 펜은 특정인이 필기시 ‘닷 패 턴’을 초당 60회 인식해 펜의 위치(x,y), 필압(1,024등급) 등의 정보를 블루투스 방식으로 전용 애플리케이션에 제공한다.

- 한사람이 작성한 같은 문장 15번 이상의 자필 데이터를 필체 간 필적감정 검증을 위해 상관모델을 이용해 일치도 평가

- 작성된 자필 데이터를 동일하게 모사한 데이터 간에도 필적감 정 검증을 위해 상관모델을 이용해 일치도 평가

- ICT기술과 인공지능을 결합한 결과 도출을 위해 Signet 모델과 CNN+LSTM 모델로 학습 후 예측 성능 평가. 이때의 비교기준은 한 자필의 그 사람의 다른 자필간에, 한 자필과 그 모사본간에, 동일한 문장 기준으로 다른 자필과 모사본을 비교 평가한다.

- 서비스로서의 제공 가능성을 확인하기 위해 EER(Equal Error Rate)로 최종 평가

이러한 기획 과정은 사업참여 이전에 관련 논문을 참고하고 ‘1 cycle test’를 진행해 가능성을 확인했다.

환경 데이터 결합하면 신뢰도 3배 높아

에스엠시스템즈 컨소시엄은 다양한 자필문장 데이터를 수집하기 위해 금천구청의 도움으로 금천구 관내 10개소에서 3주간 로드쇼를 진행해 3000명 이상의 자필 데이터를 수집했다. 또한 베껴쓰기 능력 테스트를 통해 검증된 미대생들이 정규화 및 자필 유사도 검증 완료한 자필문장 데이터 를 특정한 방법으로, 원본과 동일하게 모사문장 데이터로 작성했다.

구민이 작성한 자필 데이터와 모사문장 데이터는 ▲자필에 대한 동일 내용의 모사에 대한 유사도 평가 ▲동일 문장에 대한 사람A와 사람B에 대한 유사도 평가 ▲동일인의 개별 자필들간의 유사도 평가를 기준으로 비교했다.

분석 결과 중 트루 네거티브(True Negatives)는 자신의 필체와 모사한 필체가 이미지는 높은 수준으로 유사해 보이지만, 필체 정보를 취득하면 정확히 다른 경우다. <그림 1>과 같이 이미지만으로 구분했을 때는 같은 사람의 필체로 판별 할 가능성이 높지만, 필압, 속도 등 시계열 특징을 활용했을 때 모사 필체라는 것이 정확하게 판별됐다.

<그림 1> 특정인의 자필문장과 모사문장을 비교한 결과

펄스 네거티브(False Negatives)가 소량 발생했는데, 이는 자신의 필체와 타인의 필체를 구분하지 못하는 경우다. 환경 변수 결과가 우연히 같지만 필체는 다르게 나타난다.

정탐(True Positives)은 같은 사람의 필체임을 정확하게 판별한 경우이며, 오탐(False Positives)은 동일인이 쓴 두 문장을 타인의 필체로 잘못 인식한 경우다. CNN+LSTM 모델 정확도가 100%가 아니기 때문에 실제 적용시 추가 학습과 딥러닝 네트워크 모델 업데이트를 통해 해결해야 한다.

<그림 2>의 왼쪽은 필적감정과 같이 이미지만으로 평가한 정확도를, 오른쪽은 환경데이터 취득 후 이미지와 함께 평가한 정확도 결과를 표현한다. 신뢰도가 약 3배 높아진 것을 확인할 수 있다.

<그림 2> 환경변수 입력 전(좌)과 후(우) 정확도 결과

디지털펜 이용 필체 데이터 취득 가능

본 결과를 서비스에 적용할 수 있을지 확인하기 위해 동일 오류율(EER) 사전 평가를 진행했다. EER은 특정인이 특정인임을 판별하지 못하고 인증 거부되는 비율(FRR: False Reject Rate)과 다른 사람을 특정인으로 오인식해 인증 허용되는 비율(FAR: False Acceptance Rate)이 동일할 때의 정확도를 측 정하는 평가지표로 각종 인증시스템에서 사용되고 있다.

이 프로젝트의 최종 결과인 EER 0.1673(16.73%)는 ID의 개념을 적용하지 않고 임의의 두쌍의 데이터를 이용해 평가한 결과이고 단일 이미지만 이용해 판별한 경우보다 13% 정도의 높은 정확도를 보인다. 이는 실제 애플리케이션에서 ID정보 를 활용해 개발하면 충분히 상용화가 가능할 만한 매우 높은 신뢰를 제공할 수 있다는 의미다.

이번 프로젝트를 통해 확인할 수 있는 내용은 다음과 같다.

- 종이와 디지털펜을 이용한 데이터 수집 시 결과 이미지와 필체 데이터를 취득할 수 있다.

- 수집된 데이터는 육안식별이 불가능한 자필 글씨와 모사 글씨 등의 필체 비교에 더 많은 차원의 추가 정보를 제공하며 높은 신뢰도로 제공할 수 있다. 즉 전문가가 똑같이 베껴쓰기를 진 행하더라도는 작성 순서와 획간 시간간격, 획간 속도비율 등이 다르기 때문에, 두 문장 작성자가 다른 사람임을 확인할 수 있 게 한다.

이 결과를 기초로 디지털펜을 보편화하고 개인의 필체에 관해 지속적으로 연구한다면, 신분증 확인 없이 문장 작성으 로 본인인증을 할 수 있는 방안이 될 것이며, 각종 시험, 계약 및 본인확인에 활용될 수 있을 것으로 기대된다.

인공지능 학습용 데이터셋 구축 사업은 대량의 데이터를 정해진 기간 동안 구축하는 사업이다. 또한 정부의 뉴딜 정책 방향을 따라 국민 참여형 일자리 창출을 위해 대규모 크라우 드워커를 채용해야 한다.

자체 개발 데이터 구축 플랫폼 활용

본 컨소시엄은 약 3100명이 넘는 크라우드워커의 업무 편의성을 제고하고 대량 데이터의 구축 단계별 효율성 향상을 위해 데이터 구축 플랫폼을 자체 개발해 이 사업에 적용했다. 이를 통해 4개월이라는 시간 내에 모든 사업을 성공적으로 완수할 수 있었다.

참여 인력의 증가는 데이터 일관성에 있어 치명적인 오류를 도출할 수 있는 위험성을 가지고 있으므로 에스엠시스템즈 컨소시엄은 이를 해결하기 위해 수차례의 교육과 결과 피드 백을 통해 일관된 품질의 데이터가 구축되게 했다.

ICT 영역에서도 트렌드가 존재한다. 하드웨어와 인프라 에서 시작돼 소프트웨어와 어플라이언스로 발전되고, 이제 는 데이터와 인공지능으로 관심이 전환되고 있다. 일각에서는 데이터 구축 사업을 폄하하지만, 대부분의 데이터는 철저한 기획과 다양한 검증과정을 거쳐 성공적이고 수준 높은 데 이터로 구축, 완성된다.

거시적 관점에서, 구축된 학습용 데이터는 시대적인 관심에 따라 활용에 편중현상을 보인다. 모든 데이터가 지금 모 두 사용되지 않는다. 창의적으로, 앞날을 예견하고, 가이드에 따라 기준을 세워, 우수한 품질의 데이터를 생산 및 보관하면 필요한 시점에 해당 서비스 분야를 일시 도약시킬 수 있는 강력한 무기가 될 것이다.

에스엠시스템즈 컨소시엄의 ‘개인 특정을 위한 자필과 모사 필기체 데이터’ 구축 사업은 개인의 필체인 자필 데이터와 필체를 모사한 모사 데이터를 학습해 개인을 특정할 수 있다 는 결론을 도출한 데이터다. 최초로 구축된 필체 데이터로 관련 부분 인공지능 발전에 매우 유용하게 활용될 수 있는 데이 터라고 자부한다. 금천구청은 본 결과를 기반으로 추가 사업을 준비하고 있다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.