[컬럼] 현대적인 접근 방식 활용한 성공적인 데이터 분류법

[데이터넷] 데이터 분류는 데이터 손실 방지(DLP), 데이터 액세스 거버넌스 및 엔터프라이즈 디지털 권한 관리(EDRM)와 같은 데이터 보안 및 거버넌스에 대한 통제 지원에 유용하기 때문에 매우 중요하다. 또한 조직이 사용 및 리스크 수준의 맥락에서 데이터를 이해하는데 도움을 준다.

그러나 비정형 데이터(Unstructured Data)를 관리하는 것이 점점 더 어려워지고 있다. 결과적으로 정보 처리를 담당하는 개인이나 시스템이 모든 데이터를 분류, 라벨링 또는 통제하는 경우는 거의 없다.

이러한 불일관성은 데이터 보안 및 컴플라이언스에 들어가는 노력의 원동력이자 지원 수단으로 데이터 분류를 신뢰할 수 없게 만든다. 조직에는 비즈니스가 필요로 하는 완화 조치를 이해하고 해결할 수 있는 기반을 제공하는 실용적인 데이터 분류 접근 방식이 필요하다.

데이터 분류를 위해 시장에서 사용할 수 있는 두 가지 유형의 툴(tool)이 있다. 하나는 수동 툴이고, 또 하나는 자동화된 툴이다.

사용자 주도 또는 수동 툴은 데이터의 생성이나 사용 시 데이터를 분류한다. 이는 사용자 교육과 인식에 의존하며, 부재 시 데이터는 일관되지 않고 잘못 분류될 수 있다.

자동화된 툴은 민감한 데이터를 식별하고 추가로 이를 분류하기 위해 공급업체에서 제공하는 독창적인 정책 및 템플릿을 기반으로 한다. 콘텐츠 분석 외에도 위치, 액세스 그룹 및 밀접한 문서와 같은 맥락을 주요 툴로 활용한다.

자동화된 툴은 잘 알려진 표준 데이터 유형(예: 운전면허증, 주민등록번호 등)을 사용해 최상의 결과를 얻는다. 지적재산 데이터가 일관되게 잘 포맷돼 있다면(예: 계좌번호, 프로젝트 코딩 시스템 등) 자동화 시스템은 성공할 것이다.

자동화된 데이터 분류 툴에 대한 머신러닝 도입은 이러한 툴 중 일부가 동적 피드백을 지원하기 때문에 유용한 것으로 입증됐다. 이러한 툴은 보안 분석가 또는 관리자가 제공한 응답에서 학습하므로 모든 오류 검사를 신속하게 처리하는데 도움이 된다.

그러나 대부분의 툴에서 중요한 내부 또는 독점 데이터를 세세하고 안정적으로 식별하기 위해 데이터를 구현하고 조정하는 데에는 상당한 비용이 소요된다. 이러한 경우에는 사용자 주도로 데이터 분류를 고려해야 한다.

데이터, 분류만 하지 말고 풍부하게 하라
전통적인 데이터 분류 접근 방식은 항상 사용자에 의존해 왔다. 데이터 소유자와 데이터 작성자는 자신이 작성하거나 소유한 파일 혹은 문서를 분류할 책임이 있다. 여기에는 사용자 인식 교육, 데이터 분류의 중요성에 대한 교육 및 기존 데이터 분류 정책을 비롯한 몇 가지 전제 조건이 있다.

사용자의 편의를 위해 민감도 분류 체계는 종종 ‘범주’로 단순화된다. ▲제한성 ▲기밀성 ▲내부성 ▲공공성 등은 자주 사용되는 네 가지 분류 레벨이다.

이러한 접근 방식은 정보를 분류하는 사용자의 이해에 달려 있다. 그러나 인적 오류로 이어지기 쉬우며, 이로 인해 데이터의 오분류도 발생할 수 있다. 오분류는 두 가지 유형으로 나뉘며, 그 데이터는 다음과 같다.

· 과소 분류: 오류로 인해 또는 사용자가 더 낮은 단계의 분류가 작업을 더 쉽게 만든다는 것을 인식했을 경우

· 과대 분류: 사용자가 위험을 회피하거나 체계에 불편함을 느낄 때 흔히 발생하는 실수로, 데이터 액세스 및 처리가 과도하게 지출되고 어려워질 경우

전통적인 분류 체계 사용을 통해 현대의 데이터 거버넌스 법률에서 요구되는 세부 사항을 지원하지 않는다는 것을 깨닫은 보안 및 리스크 관리 리더들은 메타데이터 강화를 향한 발전적인 조치를 취해야 한다.

메타데이터는 일반적으로 데이터에 대한 데이터를 의미하므로, 이 접근 방식은 파일에 직접 추가될 수 있는 정보를 데이터에 제공한다. 이러한 접근 방식을 ‘기술적 분류(descriptive classifcation)’라고 하며, 여기서 데이터는 제어 요구 사항에 따라 분류되는 것이 아니라 데이터의 의미론적 설명에 따라 분류된다.

기술적 분류에서 사용자는 제어 요구 사항과 매핑된 데이터 설명을 설정해 설명 자체가 메타데이터를 생성하도록 한다. 이 방법의 이점은 인식 필요성, 인적 오류 및 오분류의 감소다. 또한 해당 접근 방식은 각각의 기술적 분류가 제어에 매핑되므로 제어 기반 분류에서 우수한 전환을 제공한다.

조직은 기술적 분류와 관련해 추론된 메타데이터의 이점을 얻는다. 예를 들어 인사(HR) 데이터는 개인적 및 개인적으로 민감한 데이터를 모두 포함하는 것으로 간주된다. 나아가 데이터 유출 위험이 높기 때문에 이러한 접근 방식은 조직이 정보를 쉽게 분류하고 올바른 대상만이 민감한 데이터에 접근할 수 있도록 하는 데 도움을 준다. 다만 한 가지 단점은 기술적 분류의 목록이 훨씬 길다는 것이다.

데이터 분류, 발견·강화·제어로 나눠 거버넌스 민첩성 도입해야
기존의 수동 데이터 분류 방법에는 많은 제한이 있기 때문에 자동화된 데이터 분류 기술을 제공하는 다양한 툴들을 접할 수 있다. 이러한 접근 방식을 ‘거버넌스 민첩성’이라하며, 여기에는 세 가지 단계가 포함된다.

첫 번째 단계는 정보 찾기를 포함한 발견 과정이다. 이는 사소해 보일 수 있지만 디지털 세계의 특성상 정보는 어디에나 있음에도 불구하고 IT팀은 대부분의 정보를 알지 못한다. 자동화된 데이터 분류 툴이 수행하는 대부분의 작업은 데이터 발견 기능을 제공한다.

그 다음은 이러한 발견 결과에 태그 또는 라벨을 데이터 개체에 적용하는 강화 단계다. 많은 툴은 머신러닝, 자연어처리(NLP) 및 컴퓨터 비전을 포함한 AI 중심 방법뿐 아니라 콘텐츠 검사 기능을 사용해 이 단계에 필요한 자동화를 제공한다.

마지막 단계는 이러한 태그가 문제의 파일을 적절하게 처리하기 위해 데이터 보존 및 DLP 툴 또는 콘텐츠 협업 플랫폼과 같은 제어 툴에 필요한 중요한 메타데이터를 제공하는 제어를 적용하는 것이다.

구조화되지 않은 개체에서 개인 데이터를 단순히 탐지하는 것만으로는 조직의 위험을 완화할 수 있는 충분한 맥락을 제공하지 않는다. 메타데이터 태그 또는 라벨을 개체의 개인 데이터와 연결하면 조직에서 실행 가능한 결과를 얻을 수 있으므로, 여러 제어 툴들이 위험 감소를 자동화할 수 있다. 메타데이터 보강은 데이터에 대한 풍부한 이해를 개발하고 추가 제어를 적용할 수 있도록 하는 중요한 단계다.

강석오 기자 다른기사 보기