> 뉴스 > 뉴스 > 소프트웨어
  • 트위터
  • 페이스북
  • 구플러스
  • 네이버밴드
  • 카카오스토리
     
“비정형 빅데이터 분석, 기업 경쟁력 확보 지름길”
사용자 심층 이해 가능…데이터 축적·분석 통한 경쟁력 확보 나서야
2018년 07월 23일 08:31:53 데이터넷 webmaster@datanet.co.kr

우리는 현재 빅데이터 시대에 살고 있다. 빅데이터라고 하면 소셜 데이터 분석이란 표현과 자주 혼용돼 소셜 네트워크 서비스의 데이터만을 의미하는 것으로 알고 있는 사람들도 있다. 그러나 실제로 빅데이터는 다양한 곳에 다양한 형태로 존재하는 데이터를 모두 말하며, 빅데이터는 우리가 인지하지 못한 채로 우리의 생활에 이미 깊숙이 다가와 있다.

빅데이터 분석을 통해서 과거 불가능한 것으로 여겨졌던 사용자에 대한 보다 심층적인 이해가 가능하기 때문에 기업과 정부 등에서 적절히 활용을 하면 다양한 부문에서 효과를 기대할 수 있지만, 빅데이터 수집과 분석 과정에서 문제가 될 수 있는 개인정보는 현실적인 해결책을 적용해 개인정보에 대한 침해가 되지 않도록 세밀한 주의가 필요하다. <편집자>
 

   
▲ 이문기 코난테크놀로지
데이터사이언스사업부 부장
(mklee@konantech.com)

빅데이터와 비정형 데이터의 활용

빅데이터의 데이터 증가량은 매년 폭증하고 있다. 시장조사기관 IDC에 따르면 2020년에는 44 제타바이트(Zettabyte, 1ZB=1000EB)에 이를 것으로 예측되는데, 그 중 비정형 데이터(Unstructured data)가 90%에 달할 것이라는 전망이다. 현재 이 시간에도 생산되는 디지털 데이터의 80% 이상이 비정형 데이터라는 것은 비정형 데이터 분석의 중요성과 활용 가치에 대한 잠재성을 말해준다.

비정형 데이터는 사물인터넷(IoT) 데이터, 이메일, 팩스, 이미지, 텍스트 등 다양한 형태로 존재하는데, 이번 글에서는 비정형 분석 방법론을 사용하는 비정형 텍스트 데이터에 대해 다루고자 한다.

비정형 데이터는 언론사를 통해 나오는 뉴스 데이터부터 민간 및 공공기관이 생산하는 데이터, 그리고 사용자들이 국내외 서비스를 통해 생산하는 모든 데이터를 포함해 그 양을 가늠해 볼 수 있다. 정확한 통계 수치가 나와 있지는 않지만 트위터·페이스북·인스타그램 등의 SNS, 블로그·카페, 포털 서비스, 커뮤니티, 뉴스, 공공·민간 보유 사이트 등에서 수집할 수 있는 양을 가늠해 보면 하루 약 1000만 건을 상회하는 것으로 보인다. 이런 추세라면 한 달에 약 3억 건 이상, 1년이면 약 40억 건 이상이 될 것으로 추정된다. 추정 수치는 댓글을 제외한 순수 게시글의 수다.

이 양이 정확한 것은 아니지만 데이터의 총량을 대략적으로 알고 있는 상태에서 필요한 데이터를 수집했을 때 모수에 근접한 데이터를 확보했는지를 가늠할 수 있다는 점이 중요하다. 데이터 수집에서 입맛에 맞는 데이터만 추출하게 되는 추출 오차(Selection bias)가 발생하면, 후속 분석의 결과를 신뢰하기가 어려울 수 있다는 점에 유의해야 한다.

텍스트 빅데이터에는 현재의 고객이나 잠재적 고객들이 다양한 브랜드에 대한 본인의 느낌을 가감 없이 표현한 결과가 반영돼 있다. 기업이나 기관이 운영하는 사이트에 직접 들어와서 글을 남기는 것보다 본인들이 편한 다양한 채널을 통해 다른 사람이 보든 말든 상관없이 다양한 의견들을 표출하고 있다.

한 번 작성된 글은 미래의 잠재 고객들에게 노출돼 미래 구매 의지에 긍정적 또는 부정적 영향을 미친다. 이런 이유로, 기업과 기관에서는 빅데이터 분석의 필요성에 관심을 가질 필요가 있다. 그러나 삼성경제연구소의 2012년 국내 기업 대상의 설문조사-‘빅데이터 분석과 활용’-보고서에 따르면, 실제 업무에 빅데이터 분석을 활용하는 기업은 매우 적은 것으로 알려져 있는 것은 아쉬운 점이다.

비정형 빅데이터 분석은 그동안 활용 분야를 다양하게 확대해 브랜드 및 경쟁사 분석, 위기관리, 소비자 관심사 분석을 통한 상품 개발, 마케팅 성과 측정 등에 활용되고 있다. 이미 외부 빅데이터 분석을 미래 핵심 역량이나 차별화 역량 개발을 위해 상품과 서비스 개발 및 브랜드 관리 등에 활용하고 다. 실제 비정형 빅데이터 분석에 어떤 기술들이 사용되는지 살펴보자.

비정형 빅데이터 분석 기술

주로 사용되는 비정형 빅데이터 분석 기술에는 텍스트 마이닝, 오피니언 마이닝, 소셜 네트워크 분석, 군집 분석 등이 있으며, 이 중에서 텍스트를 주요 분석 대상으로 하는 텍스트 마이닝, 오피니언 마이닝 등이 주로 사용된다.

텍스트 마이닝 기술은 임의의 텍스트에서 유의미한 단어를 추출하여, 단어의 출현 빈도, 단어 간 관계성, 단어의 동시 출현 정보 등을 파악하여 유의미한 정보를 추출하는 기술이다. 교착어라는 한국어의 특성으로 조어/활용 관계를 정확히 파악해 문장 내에서 필요로 하는 형태소(morpheme)를 제대로 추출하기 위해서는 형태소 분석이라는 한국어 자연어처리(Korean Natural Language Processing) 기술이 필요하며, NLP 분석 기술의 정확도는 이후 분석 결과의 품질에 크게 영향을 줄 수 있어 신중한 선택이 필요하다.

※ 형태소 분석 기술은 다양한 응용 시스템 개발에 사용된다.

- 자연어 검색 시스템
- 텍스트 요약(text summarization)
- 자동 질의응답 시스템(automatic question answering system)
- 기계 번역(machine translation)
- 챗봇(chatting bot)

오피니언 마이닝 기술은 평판 분석 또는 감성 분석으로도 불리며, 텍스트에 나타난 단어의 감성/뉘앙스/태도 등의 정보를 분석해 긍정/부정/중립의 감성값으로 수치화하는 기술이다. 기본적으로 한 문장에 대한 감성값을 추출하는 것으로 동작하며, 문서 단위의 감성 분석은 문서 내 다수의 문장에서의 감성분석 결과값 들을 개발사마다 고유의 집계(aggregation) 알고리즘으로 계산하는 로직을 사용한다.

최종 감성분석 결과값의 정확도는 문장 단위의 감성 분석 결과가 정확해도 문서 단위의 집계 알고리즘에 따라 영향을 받을 수 있다. 또한 한국어를 포함한 모든 언어에서 반어법이나 비꼼(sarcasm) 등의 분석은 현재 기술 수준에서는 완벽하지 않은 것으로 알려져 있다.

소셜 네트워크 분석은 양방향 연결 정보를 기반으로 하는 SNS 서비스 또는 블로그 등의 친구관계와 댓글을 주고받은 정보 등을 이용해 영향력자(influencer)를 찾아 마케팅에 활용하거나, 연결 네트워크 내의 특이성을 가진 그룹(clique)을 찾는 등의 용도로 사용된다.

군집 분석은 유사도 계산 방식에 따라 내용 기반의 군집(cluster)들을 생성하고 나눠진 해당 군집들의 특성을 세부 분석할 때 사용할 수 있다.

비정형 빅데이터 분석 위한 일반적인 분석 방법

텍스트 마이닝 기술과 오피니언 마이닝 기술을 활용한 실제 분석 결과는 정보 추출의 결과를 시각화하여 다음과 같이 표현할 수 있다. 대부분의 서비스와 제품에서 언급량 1을 어떤 방식으로 계산할지에 따라 이슈어의 출현 빈도를 단순 합하는 방식(TF: Term Frequency)을 사용하거나, 이슈어의 출현 빈도를 문서 수 기준으로 합하는 방식(DF: Document Frequency)을 사용하는 것으로 나눌 수 있다.

TF를 사용하는 경우에는 한 문서 내 반복 표현이 다수 나타나는 키워드의 언급량이 높게 계산되지만, DF를 사용하는 경우 한 문서 내 반복이 무시되고 1로 취급돼 얼마나 많은 문서(문서를 작성한 사람)에서 해당 키워드가 나타나는지를 판단하는 용도로 사용된다.
 

1) 언급량 분석

수집 채널별로 특정 이슈어에 대해 언급량의 추이를 분석하는 기법이다.

   
▲ 언급량 추이 차트

2) 언급량의 시간대별 채널 비교

특정 브랜드/이슈에 대한 시간대별 특이점을 파악하는 분석 기법이다. 특정 시간대에 몰려진 특이성을 가지는지 판단할 수 있다.

   
▲ 시간대별 채널 비교 차트

3) 감성 분석

특정 브랜드/이슈어에 대한 감성(긍정/부정/중립)값의 양을 비교 분석하는 기법이다. 동일한 조건(분석 기간, 대상 채널 등)에서의 언급량 대비 총량은 적어지는 특성이 있다. (문서에는 긍정/부정/중립도 아닌 극성이 없는 경우도 존재한다)

   
▲ 감성 분석 차트

4) 이슈어 분석

특정 브랜드/이슈어와 같이 나타나는 주요 이슈어를 추출해 비교 분석하는 기법이다. 서로 공존(co-exist)하는 이슈어는 연관돼 있다는 직관에서 출발하므로, 연관어 분석으로 표현되기도 한다. 출력되는 이슈어 들은 별도 정의된 카테고리(인명, 상품명, 장소, 조직, 법률 등)를 가지도록 해 데이터 해석이 용이하도록 한다.

   
▲ 이슈어 분석 차트

비정형 빅데이터 분석의 제약

비정형 빅데이터 분석을 통해 다양한 시도가 이뤄지고 있지만, 한두 가지 기능으로 데이터의 특성을 이해하고 인사이트를 도출하는 것은 쉬운 일이 아니다. 왜냐하면 특정한 목적으로 데이터를 수집하고 분석하는 과정이 아니라 임의의 데이터를 수집하고, 수집된 데이터의 구조와 특징을 파악하며 얻어진 정보를 토대로 가설을 세우고 데이터를 분석하는 탐색적 데이터 분석(EDA: Exploratory data analysis) 방법론을 써야 하기 때문이다. 앞서 설명한 방법은 확증적 데이터 분석(Confirmatoty Data Analysis) 방법론이라고 한다.

이를 두고 한계나 제약이라고 말할 수도 있지만, 획득한 데이터가 실험을 통해 제어되지 않은 상태에서 만들어졌으므로 데이터의 특성에 맞게 방법론을 선택하는 것이 현실적이라고 봐야 할 것이다.

다만 가설을 세우고 데이터를 분석해 검증을 거치는 과정이 순환적으로 이뤄질 수 있기 때문에 과정상의 비용이 발생한다는 점과 전체 과정에 소요되는 시간을 정확히 예측하기 어렵다는 점 등을 단점이라고 볼 수 있다.


비정형 빅데이터 분석 - 다양한 시도들

비정형 빅데이터 분석에서 인사이트를 되도록 빠른 시간 내에 도출하기 위해서는 다양한 실험과 분석을 통해 가설에 대한 중간 과정의 결과들을 빠르게 확인할 수 있어야 한다. 이를 위해 다양한 시도들이 이뤄지고 있으며, 그 중에서 몇 가지 새로운 시도들을 소개하고자 한다.
 

1) 속성 분석

특정 분석어(분석어가 없더라도)에 연관어로 나오는 단어들을 크기에 따라 시각화를 시키면, 가장 쉽게

[A] 연관어 리스트를 TOP 1~N까지 출력해 분석할 수 있고
[B] 연관어를 워드 클라우드(word cloud)로 출력하는 방식을 취할 수도 있다.

하지만 두 가지 방식 모두 특정 연관어들이 왜 출현했는지는 반복적으로 원문을 확인해 원인을 도출해야 하는 단점이 있다. 이는 분석어에 연관된 단어들을 나열하는 순서나 위치가 사람이 문서들의 세부 내용을 이해하는 것과는 다르기 때문이다.

   
▲ 1년간의 트럼프 대통령 트위터 분석 결과, 워드 클라우드

이와 다른 접근 방식으로, TPO(Time, Place, Occation) 분석이라는 마케팅의 분석 방법을 차용하고 확장해 연관어에 다음과 같은 세부 속성을 정의할 수 있다. 최종 분석 결과는 모든 연관어를 나열하는 것이 아니라, 각 세부 속성에 해당하는 연관어만을 한정해 데이터를 보는 방식을 제공한다.

- 시간(Time): 시간대, 빈도
- 장소(Place): 랜드마크, 공간, 지역, 국가
- 상황(Occation): 상황, 기념일
- 상업(Commercial): 브랜드, 색상
- 고객분류(Customer): 집단, 관계, 연령대

2) 캠페인 성과 분석

마케팅 캠페인 분석을 위한 특화된 분석 방식으로, 기존의 이슈어나 연관어를 직접 분석하는 것이 아니라 사용자를 구분해 사용자군을 만들고, 특정 캠페인 일을 중심으로 전후의 채널별 사용자군의 수치적 변화, 사용자군의 이슈어, 긍정어, 부정어 등의 변화를 분석할 수 있다.

캠페인 성과 분석이 실시간에 가능하면, 캠페인 효과의 극대화를 위해 마케팅 캠페인 전략을 실시간에 평가하고 수정할 수 있는 효율성을 제공할 수 있는 분석 방법이다.

   
▲ 캠페인 전후의 언급량/긍정어/부정어 비교
   
▲ 캠페인 전후의 채널별 사용자 유입량 분석

3) 강신호/약신호 분석

다수의 분석어를 대상으로 특정 기간 내 언급량과 기간 내 일별 언급량의 평균 증가율을 각각 Y축과 X축으로 수치화해 차트로 시각화를 하면

[A] 현재의 언급량은 적지만 빠른 상승세를 보여주는 이머징 제품과(4사분면)
[B] 높은 언급량과 급격한 증가율을 보이는 핫 트렌드 제품(1사분면)
[C] 이미 높은 언급량이 지속되는 스테디/트렌드 제품(2사분면)
[D] 관심도가 많이 떨어진 제품으로 4개 영역으로 구분을 지을 수 있다(3사분면).

이 결과를 통해 특정 회사의 제품별 온라인 인지도 상황을 세분화해 분석해볼 수 있는데, 이를 통해 마케팅 활동이 필요한 제품군에 대한 비교적 정확한 판단이 가능하다.

   
▲ 샤오미 제품군의 트렌드 분석 결과

실제 빅데이터 분석에 관심이 있지만, 아직도 비정형 빅데이터 분석의 실효성에 대한 의구심이 빅데이터 분석의 도입을 꺼리는 주요 이유로 확인되고 있다. 하지만 비정형 데이터가 폭증하고 있다는 사실은 이미 닥친 현실이므로 기업과 기관은 내부적으로 데이터를 축적하고, 외부 데이터를 확보하며, 데이터 분석을 통해 미래 핵심 역량을 축적하는 것이 남들보다 조금이라도 빨리 경쟁력을 확보할 수 있는 길이라 생각한다.

우리는 분석의 발전 과정에 있으며, 앞으로 더 많은 시도와 실험이 빅데이터 분석에 대한 긍정적 사례를 만들어 갈 수 있기를 바란다.

데이터넷의 다른기사 보기  
ⓒ 데이터넷(http://www.datanet.co.kr) 무단전재 및 재배포금지 | 저작권문의  

     

인기기사

 
가장 많이 본 기사
인사·동정·부음
전체기사의견(0)  
 
   * 200자까지 쓰실 수 있습니다. (현재 0 byte/최대 400byte)
   * 욕설등 인신공격성 글은 삭제 합니다. [운영원칙]
전체기사의견(0)
사명: (주)화산미디어 | 주소: 서울시 강남구 강남대로 124길 26 유성빌딩 2층 | 전화: 070-8282-6180 | 팩스: 02-3446-6170
등록번호: 서울아03408 | 등록년월일: 2014년 11월 4일 | 발행년월일: 2003년 12월 17일 | 사업자등록번호: 211-88-24920
발행인/편집인: 정용달 | 통신판매업신고: 서울강남-01549호 | 개인정보관리 및 청소년보호 책임자: 박하석
Copyright 2010 데이터넷. All rights reserved. mail to webmaster@datanet.co.kr