보안 분야에 생성형 AI가 미칠 영향

“생성형 AI, 사람-AI 간격 줄여 AI에 대한 신뢰 높일 것”
생성형 AI, 이용자 요구 따라 결과 생성
다양한 업무로 구성된 보안관제 프로세스 개선 기대

[데이터넷] 2022년 5월 미국 샌프란시스코에서 개최된 RSA 컨퍼런스에서 브루스 슈나이어(Bruce Schneier) 하버드 교수는 앞으로 벌어질 사이버 팬데믹 공격의 중심에 인공지능이 있을 것이라 전망했다. 그는 “인공지능(AI)이 해킹을 시작하면 마치 외계인처럼 행동할 것이며, 이미 조금씩 현실이 되고 있다. AI 텍스트 생성 봇은 이미 인간 담론을 압도한다”고 전망했다.

또한 그는 “AI 능력의 향상으로 그들은 더 중요한 결정을 내리는 것에 관여하고 있다. 이는 해당 시스템에 대한 공격으로 훨씬 큰 손해를 입힐 수 있다는 말이다”라며, AI를 활용한 공격의 위험성을 경고했다.

이미 이때 슈나이어 교수는 챗GPT(ChatGPT) 같은 생성형 AI 붐을 예측했던 것일까? 그 후 1년이 지난 2023년 3월 오픈에이아이 최고 경영자(CEO) 샘 알트만(Sam Altman)은 미국 방송사 ABC와의 인터뷰를 통해 “ChatGPT와 같은 인공지능 컴퓨터들이 사이버 공격에 악용될 수 있다”라고 말했다.

AI, 신뢰성과 투명성에 발이 걸리다.

<그림 1>은 AI 기술의 성장 연대기다. 1956년 AI 개념 정립부터 2021년 미국의 유명 퀴즈 프로그램 제퍼디 쇼에서 왓슨이 우승한 일, 2016년 알파고의 바둑 우승을 거쳐, 2023년은 챗GPT의 차례가 아닐까 싶다.

지금까지 정보보호 분야에서 AI가 다양하게 적용돼 왔다. 악성코드 등의 멀웨어 탐지, 보안 이벤트에 대한 정·오탐을 식별하는 보안관제, 마이터 어택(MITRE ATT&CK)과 머신러닝(ML)을 통해 공격에 대한 전술 및 단계를 예측해 주는 예방(Accurate prevention), ML과 데이터 사이언스 기법을 적용하는 위협 헌팅과 포렌식 분야 등에서 사용되고 있다. 특히 이제는 모든 분야에서 AI 내재화를 이야기하지 않으면 안 될 정도이다.

그러나 현장에서의 AI는 ‘신뢰성’, ‘투명성’이라는 장벽에 부딪히고 있다. AI에서 말하는 예측 결과에 대해서 보안 전문가들은 쉽게 믿음을 주지 않았으며, 오히려 자신의 자리를 위협하는 어린아이 혹은 세상을 잘 모르는 책상머리 헛똑똑이라고 취급했다. 이를 보완하기 위해 ‘자동화’라는 이름으로 보안 오케스트레이션·자동화 및 대응(SOAR) 시장이 성장하고, 이는 ‘SIEM-AI-SOAR’라는 구성을 만들어냈다.

어찌 보면 이는 당연한 수순이라고 말할 수 있다. 수집을 담당하는 SIEM, 분석을 담당하는 ML, 대응을 담당하는 SOAR로 나타낼 수 있다. 이게 바로 보안관제 분야에서 사용자들이 이야기하는 AI의 완성, SIEM-ML-SOAR를 원하는 것이 아닐까 싶다. 보안분야별로 각 제품의 영역이 있고, 이를 연계해 하나로 구성된 패키지가 바로 보안관제 분야에서 원하는 신뢰할 수 있는 AI라고 할 수 있다.

상호 보완적인 분류·예측 기반 AI와 설명가능 AI

현재 보안관제 분야에서 2가지 형태의 AI 모델이 서로 부족한 부분을 채우면서 적용되고 있다.

첫째는 전통적인 모델 중 하나인 분류·예측 기반의 모델 적용이다. 해당 모델의 목표는 기존의 보안관제 전문가들이 주로 수행했던 보안 이벤트에 대한 공격 유무를 판단하거나 공격 유형을 분류하는 것이다. SIEM이나 단위 보안장비에서 발생하는 공격 이벤트를 수집하고 공격 유무와 공격 유형으로 레이블 된 데이터를 머신러닝으로 학습시켜, 보안 전문가를 대신해 머신러닝이 공격 유무와 공격 유형을 분류한다.

해당 성능이 잘 나오기 위해서는 레이블 된 학습 데이터가 잘 구축돼야 한다. 이때 사용되는 데이터는 보안 전문가들이 보는 SIEM이나 침입탐지/침입방지 시스템(IDS/IPS), 웹방화벽(WAF) 등과 같은 보안장비의 이벤트와 페이로드이다. 그러나 이러한 모델은 블랙박스 기반이기 때문에, 전문가들이 예측한 결과를 쉽게 이해하거나 설명하기가 어렵다는 단점이 있다.

둘째는 SHAP(SHapley Additive exPlanations), LIME(local interpretable model-agnostic explanations) 등 예측된 결과에 대한 설명이 가능한 AI의 적용이다. 이는 앞서 언급한 분류·예측 모델의 단점을 극복하기 위해 적용한 모델이다. 이때 사용하는 방법은 통계적인 방법을 사용하거나, SHAP, LIME 등 설명 가능한 알고리즘을 사용한다. 이 방법을 통해 AI에서 예측된 결과는 그래프 등과 같이 수치화를 통한 설명이 가능하다.

기존의 방식을 깬 챗GPT

AI의 한계를 극복하기 위해 설명 가능한 AI(XAI), 믿을 수 있는 AI(Trust AI) 등을 통해 신뢰성과 투명성을 강화하고 있을 때, 2022년 11월 30일 챗GPT가 등장했으며, 2023년 3월 14일 GPT-4가 공개됐다. 챗GPT는 시작부터 강렬했다. 5일 만에 100만 유저를 돌파했고, 두 달 만에 1억 명의 월간 활성 사용자(MAU)를 확보했다. 무엇이 사람들을 챗GPT에 열광하도록 만들었을까.

사티아 나델라 마이크로소프트 CEO는 “우리는 오토파일럿(Autopilot, 자동조정)에서 코파일럿(Copilot, 부조정, 공동조정)으로 이동하고 있다”고 말했다.

즉 우리가 AI에 바라는 것은 AI가 모든 것을 처리하는 것이 아니라, 어느 정도 인간이 컨트롤이 가능한 코파일럿 형태라는 뜻이다. 챗GPT는 이러한 우리의 요구사항을 이해하고 적용하고 있다는 사실에 주목할 필요가 있 다.

생성형 AI는 인간이 설명하는 것처럼 머신러닝의 예측 결과를 숫자가 아닌 글로 설명해 준다. 이는 기존의 분류/예측 모델과 설명 가능한 AI는 해결하지 못했던 보안 전문가와 AI의 벽을 허물어준다.

앞에서 이야기한 기존 두 모델이 해당 환경에서 생성된 데이터를 기반으로 하고 있다면, 생성형 AI는 외부 데이터, 즉 대용량 언어 데이터를 기반으로 생성된 모델이라고 할 수 있다. 그렇기 때문에 생성형 AI 적용으로 로컬 데이터에 외부 데이터를 학습해 보안을 강화할 수 있다. 이는 마치 보안 분야에서의 데이터 활용이 기존의 로컬에서 수집되는 데이터(SIEM)에 외부의 위협 인텔리전스(CTI) 데이터를 연계시켜 보안을 강화하는 모델과 비슷하다고 할 수 있다. 이처럼 정보보호 분야에서 챗GPT 같은 생성형 AI는 정보보호 분야의 AI 적용에 변화를 불러일으킬 것은 확실하다.

앞으로 생성형 AI는 더 다양한 형태로 보안 분야에 스며들 수 있을 것이다. 초기에는 챗GPT와 같은 단일 AI에 대해 API 혹은 웹 인터페이스 형태로 적용이 될 것이다. 머지않아 다양한 GPT 모델이 등장할 것이며, 보안 담당자는 다양한 GPT 모델 중 하나를 선택해 사용하거나 다양한 GPT 모델을 병렬로 적용할 수 있을 것이다.

조직 내부에서 스스로 GPT 모델을 만들어 사용하게 되지 않을까 한다. 이는 보안 특성상 외부 GPT 모델을 사용하기 어려운 환경에서 적용될 수 있을 것이다. 특히 보안은 폐쇄망으로 구현되는 경우가 많기 때문에, 보안에 최적화된 GPT 모델이 개발될 것으로 기대한다.

챗GPT, 질문을 잘 해야 좋은 결과 얻어

GPT 모델을 적용할 때 조심해야 하는 부분도 있다.

첫 번째로, GPT 모델은 생성형 AI이기 때문에 잘못된 답변을 할 가능성이 있다. 챗GPT는 2021년 9월까지의 데이터를 학습했기 때문이다. 최신 데이터까지 학습했다고 가정해도 잘못된 결과를 도출할 수 있다. 이것이 검색 엔진과 챗GPT의 큰 차이라고 할 수 있다. 챗GPT는 글을 잘 쓰는 AI일 뿐, 그것이 100% 팩트라고 할 수는 없다.

<그림 2>는 챗GPT에 ‘1,111 곱하기 4,444’를 문의한 결과다. 여기서 사용된 모델은 GPT-3.5이다. 정답은 ‘4,937,284’인데, 챗GPT는 그림과 같이 4,929,844라고 대답했다. 챗GPT가 틀린 답을 내놓은 것이다. 아주 간단한 사칙연산이지만, 생성형 AI 에게는 아주 어려운 문제다.

두 번째로, 생성형 AI를 사용하기 위해서는 데이터를 생성형 AI에 보내야 한다. 보안 데이터를 그대로 보내게 되면 악용될 수 있다. 그렇기 때문에 생성형 AI에 보내는 데이터는 비식별화 과정을 거칠 필요가 있다.

마지막으로 질문을 잘해야 한다는 점이다. 챗GPT를 사용하기 위해서는 질문을 잘해야 하는데, 이때 사용되는 프롬프트는 생성형 AI 모델에게서 결과(아웃풋)를 생성하기 위한 여러분의 명령어(인풋)를 뜻한다. 앞서 말한 것처럼 고품질의 결과를 얻으려면 해당 AI 모델에 대한 이해와 함께 챗GPT에 적합한 프롬프트를 작성하는 것이 중요하다. 이를 통해 가장 효율적이고 정확한 대답을 유도할 수도 있다.

생성형 AI, 보안 분야 게임체인저가 될까

생성형 AI가 사람과 AI 사이의 간격을 줄여줄 수 있다는 점은 확실하다. 생성형 AI는 이용자의 특정 요구에 따라 결과를 생성하는 AI다. 그렇기 때문에 보안 분야처럼 정확성과 신뢰성이 요구되는 분야에서는 AI가 적합하지 않을 수 있다는 시각도 있다.

관점을 바꿔 본다면 그렇지 않을 수도 있다. AI을 적용한다는 것은 단지 하나의 모델만 적용하는 것이 아니다. 보안관제 프로세스는 다양한 상세 업무로 구성돼 있기 때문이다.

언젠가 기존의 정확성을 토대로 분류·예측모델과 AI 결과를 보안 담당자들에게 명확히 설명할 수 있는 설명형 AI, 그리고 비전문가에게 AI 결과를 설명하기 위한 생성형 AI를 활용하는 날이 오지 않을까? 이 바람이 그저 스쳐 가는 바람이 아닌, 보안 분야를 바꿀 수 있는 게임체인저가 되지 않을까 하는 바람이다.

데이터넷 다른기사 보기