하이퍼커넥트, 데이터 마이닝 학회 ‘WSDM 2023’서 콘텐츠 모더레이션 기술 논문 발표
상태바
하이퍼커넥트, 데이터 마이닝 학회 ‘WSDM 2023’서 콘텐츠 모더레이션 기술 논문 발표
  • 강석오 기자
  • 승인 2023.01.20 15:06
  • 댓글 0
이 기사를 공유합니다

머신러닝 기반 ‘다중 서브 태스크 접근 방식’과 ‘트러스트 스레시’ 기술 발표
소셜 미디어의 부적절한 콘텐츠 탐지 효율 향상

[데이터넷] 글로벌 영상 기술 기업 하이퍼커넥트(대표 안상일)는 세계 최고 데이터마이닝 학회 ‘WSDM(Web Search and Data Mining) 2023’에서 부적절한 콘텐츠를 탐지하는 ‘콘텐츠 모더레이션’ 관련 기술 논문을 발표한다.

올해로 16회를 맞은 WSDM은 웹 및 소셜 웹의 검색과 데이터 마이닝을 주제로 한 정보 검색 및 자연어 처리 분야의 국제 학회다. WSDM 2023은 오는 2월 27일부터 3월 3일까지 싱가포르에서 개최되며, 하이퍼커넥트는 현지시간 3월 1일 ‘임계값 최적화를 통한 여러 하위 작업의 신뢰할 수 있는 결정: 실제 서비스 상황에서의 콘텐츠 모더레이션’ 논문을 발표한다. 특히 이번 연구는 논문 선정뿐 아니라 채택된 논문의 약 30%만 받을 수 있는 ‘오랄 프레젠테이션(oral presentation)’의 영예까지 안았다.

소셜 미디어 플랫폼은 부적절한 콘텐츠로부터 사용자를 보호하고자 콘텐츠 모더레이션 정책에 따라 머신러닝 모델을 활용해 매일 방대한 양의 콘텐츠를 처리한다. 콘텐츠 모더레이션 정책은 국가와 서비스 유형에 따라 상이하기 때문에 플랫폼에서는 각 정책에 맞춰 머신러닝 모델을 교육하고 활용해야 한다. 정책이 변경될 경우, 플랫폼은 변화한 데이터 분포에 대해 데이터 세트 레이블을 다시 지정하고 머신러닝 모델을 재학습시키는 과정에서 발생하는 비효율적인 비용을 감당해야 한다.

효율성 문제를 해결하기 위해 소셜 미디어 플랫폼은 그동안 콘텐츠 모더레이션을 미성년자 사용자 노출 여부, 부적절한 행동 등으로 세분화하고, 각 서브 태스크에 대한 예측점수를 제공하는 타사 모더레이션 서비스를 사용해왔다. 다만 각 서브 태스크의 예측점수에서 특정 정책에 대해 신뢰할 수 있는 최종 결정을 내리는 콘텐츠 모더레이션 기술에 대해서는 그동안 심도 있는 연구가 진행되지 않았다.

하이퍼커넥트의 이번 논문은 끊임없이 변화하는 콘텐츠 모더레이션 정책에 맞춰 콘텐츠 리뷰를 효율적으로 자동화할 수 있는 머신러닝 기반의 기술을 제안한다. 하이퍼커넥트는 콘텐츠에 대한 객관적인 사실들을 서브 태스크로 학습하는 ‘다중 서브 태스크 접근 방식(Multiple Subtask Approach)’과 학습한 서브 태스크를 각 콘텐츠 모더레이션 정책에 유연하게 적용해 신뢰할 수 있는 결정을 내리는 임계값 최적화 방법 ‘트러스트 스레시(TruSThresh)’를 제시한다.

콘텐츠 모더레이션의 실제 시나리오를 공식화하고 여러 서브 태스크의 최적 임계값을 검색해 비용 효율적인 방식으로 콘텐츠 모더레이션 결정을 내릴 수 있는 임계값 최적화 방법이다. 하이퍼커넥트는 광범위한 실험을 통해 해당 기술이 콘텐츠 모더레이션에서 기존 방식 대비 더 나은 성능을 보인 것을 확인했다. 또한 이 기술은 국내에서 특허 출원을 마쳤으며, 향후 미국을 포함해 글로벌 특허 출원 및 등록을 시도할 예정이다.

하이퍼커넥트 하성주 AI랩 총괄 디렉터는 “하이퍼커넥트는 사용자가 안전한 환경에서 자사 서비스를 이용할 수 있도록 다방면으로 힘써오고 있으며, WSDM 2023에서 발표할 콘텐츠 모더레이션 기술 또한 그 일환이다”며 “이번 연구 결과를 통해 소셜 미디어 플랫폼 기업들이 보다 효과적으로 어뷰징을 방지하고, 부적절한 콘텐츠에 대한 효율적인 대응이 가능할 것으로 기대한다”고 전했다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.