[머신러닝 보안관제①] ‘정답지’를 잘 준비하라
상태바
[머신러닝 보안관제①] ‘정답지’를 잘 준비하라
  • 데이터넷
  • 승인 2020.09.30 09:00
  • 댓글 0
이 기사를 공유합니다

정제된 관제 데이터 학습해야 정확한 탐지 결과 도출
소규모 범위 학습 후 단계별 확장
<정일옥 이글루시큐리티 관제기술연구팀장>

[데이터넷] 인공지능(AI)이 IT 전반에 사용되고 있으며, 보안관제에도 적용되고 있다. 머신러닝은 AI에 포함되며, 인간의 경험과 지식을 배우고 학습하는 과정이 필요하다. 진정한 의미의 AI는 아직 구현되지 않았으며, 현재 머신러닝 기술을 고도화하는 수준이라고 보는 것이 현실적이다.

보안 분야에서 머신러닝은 보안관제 분야에 활발하게 적용되고 있다. 많은 사람들이 모든 보안관제 영역에 머신러닝이 적용되고 있으며, 마치 영화 속 AI처럼 보안관제의 모든 어려움을 해결할 것 이라는 막연한 기대를 갖고 있다. 실상은 일부 보안관제 영역에 한 해 머신러닝이 적용되고 있다. 조직은 ▲보안관제 영역의 어떤 문제를 해결하기 위해 머신러닝을 도입하고자 하는지 ▲도입 후 머신 러닝을 어떻게 개선해 나갈지에 살펴봐야 한다.

빅데이터 분석 기반 관제의 한계

머신러닝은 보안 이벤트의 정·오탐을 식별하는 ‘초동 분석’ 분 야에 적용되고 있다. 이글루시큐리티의 보안관제 방법론 중 탐지 영역을 표현한 <그림> 속에서 지속적인 모니터링에 포함된 부분이다. 초동 분석 분야에 머신러닝이 적용되는 이유는 명확하다.

▲이글루시큐리티 보안관제방법론 중 탐지 영역
▲이글루시큐리티 보안관제방법론 중 탐지 영역

IDS/IPS, WAF 등 수많은 보안 장비에서 너무나 많은 이벤트가 발생하기 때문이다. 이에 대다수의 조직들은 하루 최소 10만건 이상 생성되는 이벤트에 대해, 감당할 수 있는 만큼의 경보를 선별해 분석해 왔다.

빅데이터 기반 보안관제 시스템을 활용한 이러한 경보 설정 방식 역시 한계를 가지고 있다. 경보도 감당하기 어려운 수준으로 많 지면서, 발생한 경보조차 대응하지 못하고 흘려보내는 일이 발생 했다. 또한 경보 설정의 정확성을 높이기 위해서는 상관 분석 등을 토대로 현재의 보안 상황에 맞게 각종 제어 정책을 추가·갱신해 최적의 상태로 유지해야 하는데, 이 과정에서 고도의 전문 인력과 적지 않은 시간 투입이 요구됐다.

무엇보다 가장 큰 문제는 많은 이벤트 중 알려진 공격이나 꼭 대응하고자 하는 선별된 공격에 대해서만 보안관제를 수행하고 있다는 것이다. 보안관제 요원 수, 보안관제 시스템, 처 리할 수 있는 이벤트 양 등 현재 보안관제 환경에 맞춰진 경보 설정을 통해 수많은 이벤트 중 일부만 분석하고 처리하고 있으므로, 선별되지 않은 보안 이벤트에 남아있는 알려지지 않은 위협의 흔적들을 놓칠 가능성이 있다.

준비 안 된 머신러닝 관제, 혼란 가중시켜

만일 머신러닝에게 과거에 보안 이벤트를 분석했던 결과를 알려주고 보안관제 요원 대신 머신러닝이 보안 이벤트를 예 측하게 한다면 어떨까? 일부분만 분석했던 보안 이벤트의 처리율을 100%로 끌어올리게 될 것이다.

그러나 예측 결과만 보여주는 것에서 그쳐서는 안 된다. 보안관제 요원 입장에서는 처리해야 할 이벤트가 더 많아지므 로 되레 혼란이 발생할 수 있다. 이벤트 처리 결과가 기존의 보안관제 티켓팅 프로세스와 연결될 때 비로소 초동 분석 업무의 개선이 이뤄질 수 있다.

머신러닝이 초동 분석을 수행하는 보안관제 요원을 도와 는 조력자가 되기 위해서는 학습 데이터(레이블링된 정답지)를 토대로 정·오탐을 가려내거나 사이트 환경에 따라 위험한- 덜 위험한-위험하지 않은 순으로 이벤트를 선별하는 과정이 수반돼야 한다. 머신러닝 시스템이 학습 데이터에 대한 학습 을 통해 스스로 판단 기준(모델)을 만들어 새로운 보안 이벤 트를 판단하므로, 사람이 정한 특정 조건에 따라 분석을 수행 하는 시그니처 기반 탐지와는 분명한 차이가 있다.

여기서 레이블이 돼 있는 학습 데이터(정답지)의 중요성을 실감할 수 있다. 아무리 뛰어난 머신러닝 알고리즘을 사용한다고 할지라도, 이 알고리즘이 학습하는 정답지가 잘 못 만들 어져 있다면, 머신러닝이 만든 판단 기준과 그 결과물의 수준 이 떨어질 수밖에 없다.

이것이 바로 머신러닝을 적용하고 적용한 이후에도 양질의 학습 데이터를 만들기 위해 힘을 기울이는 이유다. 머신러닝 이 의미 있는 분석을 수행하기 위해서는 잘 만들어진 정답지가 지속적으로 제공돼야 한다.

‘정답지’ 잘 만들고 관리해야

보안 이벤트에 정답을 달아주는 ‘레이블링’, 즉 정답지를 잘 만들고 관리하기 위한 방법으로 다음의 네 가지를 제안한다

  • 머신러닝 적용 사이트 분석: 머신러닝을 적용하려는 사이트에서 생성된 모든 보안 데이터, 보안 이벤트·보안 경보·보안 로그·사고처리 이벤트 등에 대한 철저한 분석이 선행돼야 한다. 사이트별로 가장 많이 들어오는 공격과 가장 위험한 공격, 이에 대한 효율적인 대응 방안이 다를 수 있기 때문이다.
    원본 형태의 로그만으로는 머신러닝이 의미 있는 분석 결과를 내놓기 어려우므로, 방대한 데이터 중 공격 특징 등의 핵심 정보를 담은 피처(feature)를 선정하고 이에 맞게 데이터를 변 환하는 (전처리)과정이 필수다.
    데이터 과학자, 보안 분석가, 알고리즘 전문가 등 각 분야 전문가들의 협력이 요구되는 작업으로 ‘탐색적 데이터 분석 (EDA)’ 기법이 많이 사용된다. 히스토그램, 산점도(Scatter plot), 상관분석(Correlation) 등의 여러 시각화 방법을 활용해 데이터 분포·변수 간 관계 등을 파악하는 형태다.
    기존의 시그니처 기반 분석 방법과는 사뭇 다른 관점에서 데이터를 분석하다 보니, 18년 동안 보안관제 분야에 몸담고 있는 필자도 깜짝 놀랄 정도의 인사이트를 얻기도 했다.
  • 보안 이벤트 처리 기준 마련: 해당 사이트에서 발생하는 보안 이벤트에 대한 명확하고 일 관적인 처리 기준을 세워야 한다. 여러 사람들이 정답을 다는 레이블링 작업을 수행하는 만큼, 이 기준을 명확히 정하고 공유하지 않는다면 분석 결과의 정확성이 떨어지는 문제가 발생 할 수 있기 때문이다.
    예를 들어 여러 사람에게 똑같은 색상지를 나눠줬을 때 어 떤 사람은 이를 파란색으로 분류하고 다른 사람은 보라색으 로 정의해 답을 달아둔다면, 이를 학습한 머신러닝은 혼란을 겪게 될 것이다.
    학습 데이터 생성 시 보안관제 전문가, 침해사고 전문가, 머신러닝 전문가, 데이터 사이언티스트 등의 관련 인력이 두루 모여 레이블의 기준을 논의하고, 모두가 합의한 상태에서 기준을 세울 필요가 있다.
    실제로 지금까지 다양한 사이트에서 머신러닝을 적용한 결과, 담당자와 전문가들 간의 적극적인 논의를 통해 레이블링 작업을 수행했던 곳에서 머신러닝 모델링 결과의 정확성이 특히 높게 나타난 것을 확인할 수 있었다.
  • 편향성 제거: 정답지에 편향(Bias)은 없는지 분석할 필요가 있다. 침입탐 지 시스템에서 생성되는 방대한 보안 이벤트에 대해 레이블을 다는 과정에는 많은 시간과 노력이 요구되는데, 무리하게 레 이블을 달다 보면 데이터 결과가 왜곡되는 편향성이 강화될 여지가 있다.
    처음부터 많은 레이블을 달기보다는 1~3개 정도의 공격 유 형에 대해 정상 이벤트와 공격 이벤트를 구분하는 레이블을 달고, 레이블된 데이터를 학습한 모델을 통해 만족할 만한 결 과가 나올 때까지 차근차근 레이블을 확장하기를 권고한다.
    판단 기준 부족할 때 해결 방법 마련: 정답지 부족 문제 해결에 초점을 맞춘 머신러닝 기법 도입 을 고려할 수도 있다. 사전 학습된 기존 머신러닝 모델의 일 부를 목적에 맞게 변형해 재학습시키는 ‘전이 학습(Transfer Learning)’과 레이블링 작업 시간을 최소화하는 ‘준지도학습(Semi-supervised Learning)’이 대표적이다.
    필자가 몸 담은 이글루시큐리티 역시 군집화된 데이터 중 일부에만 레이블을 붙이고 레이블된 데이터를 토대로 알고리즘이 나머지 데이터에 대한 판단을 내리게 하는 준지도학습 특허를 취득해 적용하고 있다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.