[AI와 보안①] 빨라지는 AI 중심 시대…높아지는 보안위협

복잡한 의사결정 AI에 맡기며 부작용 드러나
AI 모델 공격으로 정보유출·잘못된 결정 유도

[데이터넷] AI 중심 시대가 도래했다. 그러면서 AI 부작용도 심화됐다. AI의 편향성과 불투명성 문제를 근본적으로 해결할 수 있는 뚜렷한 방법이 없으며, 범죄자가 AI를 사용해 더 지능적으로 공격을 진행하고 있다. 이에 윤리적이고 신뢰할 수 있는 AI에 대한 요구가 높아지고 있으며, AI 이용 공격을 막는 AI 기술에 대한 수요도 크게 늘고 있다. AI 보안 문제와 대응 방법을 알아본다.<편집자>

본격화되는 AI 중심 비즈니스

세계 최대 가전 전시회 ‘CES 2024’의 키워드는 ‘AI’였다. 가전제품부터 일상생활까지 AI가 스며들지 않은 곳이 없다. 특히 생성형AI로 사용자 경험이 개선되면서 편의성은 몇 차원 더 발전했다. 일반인공지능(AGI)이 현실화됐다는 분석도 있으며, 이를 이용해 상상에서나 가능했던 완전 자율화, 개인 맞춤형 서비스가 가능해질 것이라는 예측도 나온다.

본격적인 AI 시대에 들어서면서 경쟁력 강화를 위한 AI 전략 마련도 빠르게 진행되고 있다. KPMG가 전 세계 조직의 기술부문 리더를 대상으로 조사한 결과, 57%는 생성형 AI를 포함한 AI 기술이 향후 3년간 비즈니스 목표 달성에 중요하다고 답했으며, 68%는 기술의 변화가 단기 비즈니스 목표 달성에 도움이 될 것이라고 답했다.

AI가 생산성에 영향을 미쳐 경쟁력을 높인다는 전망도 있다. 가트너가 실시한 설문조사에서 26%의 CEO가 조직에 가장 큰 피해를 주는 리스크로 ‘인재 부족’을 꼽았는데, 딜로이트가 전 세계 경영진을 대상 한 조사에서는 2025년까지 AI가 노동 생산성을 37% 향상시킬 수 있다고 답했으며, 2~4년 동안 기술이 더 나은 성과를 내도록 유도할 것이라고 답해 AI를 이용한 인력부족 문제 해결에 관심이 모인다.

AI에 과도하게 의존해 문제 발생

AI를 통해 많은 혁신이 일어나지만, AI로 인해 발생하는 문제도 나열하기 어려울 만큼 많다. 근본적인 문제는 AI에 과도하게 의존한다는 사실이다. AI가 등장하면서 복잡한 의사결정을 AI에 맡기는 경향이 나타났으며, AI에게 너무 많은 권한을 부여하게 됐다.

최근 기업에서 많이 사용하는 AI 면접관의 경우, 사람 면접관이 갖고 있는 편견 없이 면접자를 평가할 수 있다고 하는데, AI 면접관이 자체적으로 갖고 있는 편향성이나 신뢰성을 검증하지 않고 AI의 판단을 믿는다는 문제가 있다.

AI 판사가 공정하지 못한 기존의 판결을 없앨 것이라는 기대가 높지만, AI가 학습하는 데이터에는 공정하지 못한 판례가 포함되며, AI의 편향성으로 인해 더 잘못된 판단을 내릴 가능성도 있다.

OWASP의 ‘가장 치명적인 LLM 취약점’에서도 이 문제를 지적했다. OWASP는 생성형 AI의 근간인 대규모 언어 모델(LLM)이 생성한 콘텐츠에 과도하게 의존하는 경향으로 인해 부정확한 정보 확산, 의사결정 과정에서 사람이 제시하는 의견과 비판적 사고 축소 등의 문제가 있다고 설명했다.

따라서 조직은 LLM이 생성한 콘텐츠에 과도하게 의존하지 말고, 콘텐츠를 검증한 후 판단해야 한다. 그러나 AI가 도출한 모든 결과를 다시 검증하는데 시간을 너무 많이 허비하게 되면 AI 도입의 의미가 없어진다. AI를 이용하는 이유는 대규모 데이터를 빠르게 계산해 시장 변화에 맞는 의사결정을 하고, 업무를 자동화해 업무량을 줄이고 인력을 효율적으로 운용하는 것이다. 이러한 이점을 상쇄할 만큼 AI를 검증하는 것이 합리적인지 생각해봐야 한다.

게다가 AI는 과정과 결과를 투명하게 설명하지 않기 때문에 AI가 도출한 결과를 검증하기 쉽지 않다. 가트너는 규제기관에서 기업이 사용하는 데이터에 대해 증명할 것을 요구할 때, AI가 도출한 결과는 이러한 요구에 적절히 대응하지 못할 수 있다고 지적했다.

오염된 데이터 학습한 AI로 리스크 높아져

AI로 인한 정보유출, 데이터 오염도 문제다. 민감한 데이터를 대규모 학습하거나 부적절한 필터링이 적용됐을 때, AI가 민감 데이터가 포함된 결과를 권한 없는 사람에게 공개할 수 있다. LLM 학습 데이터에 민감정보가 무단 활용돼 법적 문제를 겪을 수도 있다.

가트너가 IT 및 보안 경영진을 대상으로 한 설문조사에서 응답자의 42%가 생성형 AI의 데이터 개인정보 보호에 대해 우려하고 있으며, 그 다음으로 환각(14%), 보안(13), 오용(12%) 등의 순으로 답했다.

AI 학습 데이터 수집이 어렵다는 문제도 있다. AI는 정제된 대규모 데이터를 학습해야 하는데, 여기에 필요한 양질의 데이터를 확보하기가 어렵다. AI 개발사가 데이터를 직접 수집하지 못하면 전문기관으로부터 구입할 수 있는데, 이 비용 부담이 커 예산이 충분하지 않은 스타트업은 데이터 확보 단계부터 난항을 겪게 된다.

그래서 정부는 산업별, 분야별로 AI 데이터셋 구축을 위한 지원사업과 함께 공공 데이터 개방을 통해 스타트업과 중소기업이 양질의 데이터를 이용해 AI 혁신 서비스를 제공할 수 있도록 돕고 있다.

AI 관련 솔루션을 제공하는 기업에서 기업 맞춤형 LLM을 새로운 서비스 모델로 제공하고 있기도 하다. 그런데 LLM의 근간이 되는 데이터의 소스를 식별해 적법한 것인지, 목적에 맞게 설계됐는지, 공급망 취약점은 없는지 검증하기 쉽지 않으며, 공급업체가 주장하는 '신뢰성'에 의지해야 한다. AI를 사용하는 조직이 LLM을 이용해 비즈니스에 활용하는 방법에 대한 전문성이 없어 보안 문제가 생길 수도 있다.

AI 학습데이터가 오염돼 있을 가능성도 있다. 트렌드마이크로는 공격자가 데이터세트를 오염시킬 수 있는 도구를 다크웹에서 60달러부터 판매하고 있다고 공개했으며, AI 개발 기업이 비용을 줄이기 위해 타사 데이터 레이크와 외부에서 소싱된 데이터에 의존하기 때문에 보안에 더 취약해진다고 설명했다. 트렐릭스는 공격자가 LLM을 공격에 이용하고 있으며, LLM 데이터의 미세조정 절차를 조작하거나 프롬프트를 조작하려고 시도하는 것이 탐지됐다고 밝혔다.

김선애 기자 다른기사 보기