[AI 활용 보안 기술②] 양질의 데이터 확보해야 AI 성공
상태바
[AI 활용 보안 기술②] 양질의 데이터 확보해야 AI 성공
  • 김선애 기자
  • 승인 2018.08.01 08:01
  • 댓글 0
이 기사를 공유합니다

전 세계 정보보호 데이터셋 공유 확산…미국 보안 정보 공유 프로그램에 한국 참여 협의 중

AI는 학습을 위한 양질의 데이터를 충분히 확보하고 있어야 성공할 수 있다. 그러나 보안 분석을 위한 데이터에는 민감한 개인정보, 기밀정보 등이 포함돼 있으며, 이를 분석에 사용하는데 한계가 있기 때문에 AI가 충분한 효과를 발휘하지 못한다.

오주형 KISA 보안기술확산팀장은 “개인정보와 같은 중요정보를 보안 분석에 이용할 때 동의 받은 것, 혹은 비식별화 된 것만 이용할 수 있기 때문에 관련 산업의 발전이 더디다. 선진국이나 글로벌 기업들은 수집할 수 있는 데이터가 많고, 이미 생성된 데이터도 많다. KISA의 위협정보 공유 프로그램인 C-TAS를 통해 국내 개별 기업과 기관에서 제한적인 데이터만 수집할 수 있다는 문제를 해결해 나가고 있는 상황”이라고 말했다.

또 다른 한계로 지목되는 것이 AI 분석을 위한 데이터 수집 시 표준화된 포맷이 없다는 것이다. KISA와 C-TAS 등에서 표준 포맷에 대한 논의를 진행하고 있는 상황이다.

사이버 위협 연구 위한 데이터셋 공유 모델 ‘주목’

현재 전 세계적으로 사이버 위협 공동대응을 위해 인텔리전스를 공유하는 모델이 빠른 속도로 확산되고 있으며, 위협 연구를 위한 데이터셋을 공유하는 모델도 확산 속도를 높이고 있다. 그 대표적인 사례로 미국의 IMPACT를 들 수 있다. 국토안보부(DHS) 내 과학기술국(S&T), 사이버보안부서(CSD)에서 운영하며, 사이버 보안 연구에 필요한 데이터(1페타 이상)를 공유한다. 데이터 검색과 데이터·분석도구 매칭, 데이터 고유, 소셜 서비스 제공 등을 지원한다.

IMPCT에는 학계, 산업계, 비영리단체, 정부기관, 그리고 후주, 캐나다, 이스라엘, 일본, 네덜란드, 싱가포르, 영국 등 7개 국가가 참여해 데이터셋을 구축하고 있다. 우리나라는 한미전략회를 통해 가입을 조율하고 있으며, 조만간 정식 회원국이 될 것으로 예상하고 있다.

IMPAC에서 진행한 데이터셋 공유 사례를 소개하면, MIT 링컨 연구실에서 내부자 위협에 대한 12가지 시뮬레이션을 진행한 데이터셋, 위스콘신 주립대학에서 상위 10만개 웹사이트에서 수집된 웹 쿠키 데이터셋 등이 있다.

▲정보보호 R&D 기술공유 프로세스(자료: KISA)

현실 문제 해결 위한 AI 기반 보안 기술 대회 열려

데이터 보안 R&D를 개선하기 위한 대회도 각국에서 열리고 있다. 구글이 운영하는 카글(Kaggle)은 개방형 데이터를 공유하고 문제해결을 지원하는 플랫폼으로, 누구나 현실의 문제와 데이터를 제공할 수 있으며, 문제 해결이 뛰어난 우승자를 뽑아 포상한다. 2015년 MS가 1만868개 악성코드 샘플을 공유했으며, 참가자들은 AI 알고리즘을 활용해 악성코드를 9개 그룹으로 분류하는 대회를 개최했다.

일본에서는 일본의 기관 등이 보유한 악성코드 데이터를 공유해 분석결과를 경쟁하는 ‘MWS’를 열고 있다. JPCERT/CC, IPA, AIST, NICT 등과 일본 컴퓨터보안학회가 공동으로 대회 개최하는 이 대회는 악성코드 유포부터 감염, 확산(네트워크 트래픽 등), 분석결과 등을 도출한다. 2013년부터 악성코드 행위분석과 다크넷 모니터링 데이터를 추가한다.

우리나라에서는 삼성 AI 챌린지, 정보통신기술진흥센터(IITP) ‘AI 기술을 활용해 사회문제를 해결하기 위한 AI R&D 챌린지’ 등이 있으며, KISA에서는 ‘국내 정보보호 R&D 데이터 챌린지’를 매년 12월 개최한다. 이 대회는 정보보호 R&D 데이터셋을 활용해 악성코드·악성앱 탐지, 자동차 해킹 등의 문제를 해결하기 위한 것이다.

지난해 열린 대회에서 악성코드 탐지 1위 팀은 당일 새롭게 공개된 악성/정상 코드 1만5000개 중 88.66%를 찾아냈으며, 악성앱 탐지 분야에서는 모바일 정상/악성앱 8000천개에서 87.24% 정확도로 탐지했다. 차량 이상징후 탐지 기술 분야에서는 당일 새롭게 공개괸 차량 정상운영 공격 시도 행위를 91.44% 정확도로 탐지했다.

올해 대회는 ▲악성코드 선제대응 ▲악성코드 탐지 ▲악성앱 탐지 ▲차량 이상징후 탐지 등 4개 트랙으로 나뉘어 진행되며, 정보보호학회와 공동으로 운영한다. 9월부터 11월까지 예선을 거쳐 11월 30일부터 12월 1일까지 트랙별 본선을 치르고 12월 중 우승팀 시상식을 연다.

오주형 팀장은 “사이버보안 분야에 AI를 접목할 때 양질의 데이터 학습, 알고리즘 개발이 무엇보다 중요하다”며 “‘정보보호 R&D 데이터 챌린지’를 통해 이러한 기술 개발을 촉진할 수 있는 기반을 마련하겠다. 앞으로 스마트 TV 해킹 데이터셋 등 ICT 융합보안 실증 데이터셋으로 공유 목록을 확대할 것”이라고 밝혔다.

한편 KISA는 내년 완공을 목표로 사이버위협 빅데이터센터를 구축하고 있으며, R&D센터에서 개발한 기술을 활용해 공유하고 C-TAS를 통해 업체에 제공할 계획이다. 



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.