빅데이터 딛고 머신러닝 ‘쑥쑥’… IT 공룡들 경쟁 본격화
상태바
빅데이터 딛고 머신러닝 ‘쑥쑥’… IT 공룡들 경쟁 본격화
  • 오현식 기자
  • 승인 2015.04.03 13:57
  • 댓글 0
이 기사를 공유합니다

자율학습으로 편의성 ‘극대화’ … 데이터·학습시간 결과물 질 ‘좌우’

머신러닝(Machine Learning)이 뜨거운 관심을 받고 있다. 머신러닝은 학습 모델을 구축하고, 이를 기반으로 기계를 학습시킴으로써 스스로 발전할 수 있도록 하는 인공지능 기술의 하나를 말한다. 데이터를 통해 학습하고, 사람처럼 이를 이해해 스스로 문제의 답을 찾아나가는 것이 바로 머신러닝으로, 학습을 실행할 수 있는 기계는 바로 컴퓨터다.

머신러닝이 등장한 것은 최근의 일이 아니다. IT가 대중적으로 활용되기 시작하던 1980년대에도 이미 머신러닝이라는 용어가 등장, 기대와 우려를 동시에 모았다. 터미네이터, 매트릭스 등의 SF 영화 속에서 자주 표현되듯 인간과 같은 컴퓨터가 당장이라도 등장해 인간에게 도움을 줄 것이라는 기대, 혹은 인간과 같은 지능을 지니지만, 감정은 없는 똑똑한 기계가 오히려 인간을 지배할지 모른다는 우려까지 낳은 것이다.

물론 당시의 기술 수준에서 이는 기우에 불과했다. 1980년대의 기술수준으로는 초보적 단계의 머신러닝을 구현하려 해도 당시 환경에서는 상상조차 할 수 없는 엄청난 수준의 컴퓨팅 파워가 요구된 까닭이다. 따라서 머신러닝에 대한 기대는 곧 실망으로 이어졌으며, 머신러닝에 대한 관심은 빠르게 가라앉았다.

그러나 머신러닝을 활용하려는 시도가 아주 없어진 것은 아니며, 머신러닝을 현실로 구현하려는 시도는 끊임없이 이어져 왔다. 숨겨진 패턴을 추출하고, 이러한 패턴 추출 능력과 적용을 학습시킴으로써 시간과 비용이 많이 필요한 작업을 컴퓨터에게 대체할 수 있기 때문이다. 대표적인 분야가 바로 정보보안 분야다. 머신러닝 기술을 활용함으로써 다양해진 위협에 보다 효과적으로 대응할 수 있기 때문이다.

예를 들어 시만텍은 VML(Vector Machine Learning) 기술을 자사 정보유출방지(DLP) 솔루션에 탑재시킴으로써 보다 효과적으로 내부 정보 유출을 방지할 수 있도록 했다. VML 기술로 시만텍 DLP는 사용자의 이용 패턴을 파악하고, 이를 기반으로 평상시와는 다른 이상행동 발생시 관리자에게 경고하거나 차단함으로써 내부정보가 외부로 유출되지 않도록 한다.

평시 패턴과 다른 이상행동을 파악하는 것이기에 악성코드에 의한 정보유출 뿐 아니라 정상 사용자의 악의적 행위는 물론 계정 정보 유출로 인해 정상 사용자를 위장하고 들어온 공격자에 의한 정보유출까지 탐지, 차단할 수 있는 장점을 지니게 된다. 나아가 정보가 축적될수록 더 정확한 결과를 낼 수 있는 머신러닝의 특성으로 시만텍DLP는 구축 후 시간이 경과할수록 오탐없이 보다 더 정확한 탐지를 수행한다고 평가받고 있다.

시만텍DLP뿐 아니다. 머신러닝은 보안 분야에서 안티스팸에 적극적으로 활용돼 왔다. 사이버 공격의 기초적 행위 중 하나는 스팸메일을 통해 악성코드를 유입시키거나, 사용자를 악성코드가 은닉된 사이트로 유도해 감염시키는 것인데, 공격자들은 스팸메일 차단 솔루션의 탐색을 피하기 위해 온갖 방법을 동원하고 있다.

개인적인 이메일, 업무성 이메일, 광고 혹은 정보전달을 위한 이메일까지, 오늘날 유통되는 이메일은 양은 매우 커 수작업으로 걸러내기는 불가능하며, 알려진 기존 패턴은 탐지를 피하려는 공격자의 변형에 어려움을 겪고 있다. 이에 새로운 스팸메일 패턴을 효과적으로 파악하고, 탐지하기 위해 머신러닝 기술이 적극적으로 이용돼 왔다.

빅데이터 확산, 머신러닝 현실화 촉진
일찍부터 등장, 정보보안 분야 등에서 활용돼 왔던 머신러닝이 IT 시장의 총아로 떠오른 배경에는 빅데이터가 자리한다. 머신러닝의 특징 중 하나는 학습이 진행될수록 더 뛰어난 성능을 발휘한다는 점이다.
이는 더 많은 데이터 축적을 통해 더 정확한 결과를 도출하는 빅데이터와 맞닿는 부분이다. 즉, 빅데이터로 대변되는 더 많은 데이터를 담아 빠르게 분석할 수 있는 IT 기술 발전이 머신러닝을 현실화하는 직접적 배경이 되고 있는 것이다.

물론 빅데이터와 머신러닝은 다르다. 빅데이터는 대규모 데이터 저장과 처리에 대한 기술인 반면 머신러닝은 학습 모델 알고리즘을 개발, 활용하는 기술이다. 그렇지만 이 두 부분은 밀접한 관련을 지니며, 시너지 효과가 크다.

빅데이터를 효과적으로 이용하기 위해서는 정교한 모델링이 전제되는데, 머신러닝은 학습을 통해 이러한 모델링을 컴퓨터 스스로 도출해 빅데이터를 편리하게 활용할 수 있게 한다. 다시 말해 머신러닝의 활용으로, 빅데이터의 효과를 획기적으로 높일 수 있을 뿐 아니라 사용도 보다 편리하게 된다.

이러한 활용은 아직은 도달하지 못한 부분이지만, 급속도로 발전하는 IT 기술을 감안할 때 실현불가능한 일은 아니다. 실제로 머신러닝은 현실에 적용돼 주목되는 성과를 이미 도출하고 있기도 하다.

머신러닝의 현실화로 자주 이야기되는 것이 구글의 고양이 탐색이다. 2012년 구글 브레인 프로젝트에서는 구글의 슈퍼컴퓨터가 스스로 유튜브에서 이미지를 탐색해 고양이를 찾아내는데 성공했다. 이를 응용한 것이 구글 피카사(Picasa)의 인물인식이다.

구글 피카사 프로그램을 이용하면, 인물별로 그룹화할 수 있는데, 이는 사용자의 이미지에서 동일한 패턴을 가진 인물을 추출해 자동으로 분류하는 머신러닝 기술이 활용된 것이다. 구글은 또한 개인 비서 서비스인 구글 나우의 음성 인식 정확도 향상, 유튜브 영상을 추천 등에 머신러닝을 활용해 보다 개인화된 서비스를 제공하고 있다. 이외에도 구글은 검색 정확도를 높이는 데에도 머신러닝 기술을 적극적으로 활용하고 있다고 알려진다.

페이스북의 사례도 널리 알려진 머신러닝 사례다. 페이스북은 ‘팬더’라고 불리는 프로젝트 가동하고 있는데, 이는 사진에서 정확하게 인물의 성별, 헤어스타일, 옷 스타일, 얼굴 표정을 식별하는 방법에 대한 연구로, 연구결과는 페이스북이 사진을 태그하는 성능을 높이고, 타깃팅된 광고 제공 역량을 향상시키는데 활용되고 있다.

네이버도 머신러닝을 사용한 서비스 강화에 적극 나서고 있다. 예를 들어 네이버 N드라이브에서 사용자가 드라이브에 사진을 업로드하면 동물, 음식, 텍스트 등으로 카테고리를 나눠 자동으로 분류함으로써 사용자 편의성을 높이도록 하고 있는 것이다.

머신러닝의 발전에는 GPU와 같은 고성능 프로세서의 발전도 기여한다. GPU는 컴퓨터 그래픽을 처리하는 용도로 설계됐으나, 부동소수점 계산에 강한 GPU가 머신러닝에 적극적으로 연구되고 있다. 특히 부동소수점 계산에 강한 특성으로 이미지 분류, 비디오 분석, 음성 인식, 자연 언어 처리 등 자율학습에서 성과를 낼 수 있어 각광받고 있다. GPU의 대표주자인 엔비디아는 최근 타이탄 X GPU와 딥러닝 특화 소프트웨어, 개발박스를 발표하면서 머신러닝 시장 공략에 힘을 실고 있다.

IT 공룡들, 머신러닝 ‘눈독’
다른 유력 IT 기업들도 머신러닝에 적극 참여하고 있다. 대표적인 기업으로 꼽히는 IT 공룡은 IBM과 마이크로소프트다.

마이크로소프트는 2015년 2월 말 애저 클라우드에 머신러닝을 활용한 애저 머신러닝(Azure Machine Learning)을 공식 출시했다. 애저 머신러닝은 머신러닝을 서비스화해 제공하는 첫 번째 사례로 주목된다.
애저 머신 러닝은 마이크로소프트 클라우드 플랫폼인 애저를 통해 머신러닝 기술을 활용할 수 있도록 한 서비스로, 클라우드를 기반으로 머신러닝 기술을 간편하고 비용 효율적으로 활용할 수 있도록 한 점이 특징이다. 고객은 애저 머신러닝의 분석 체계와 고속 처리된 데이터를 통해 앞으로의 트렌드를 손쉽게 예측하고, 적용할 수 있다.

마이크로소프트는 애저 머신러닝 공식 버전에 클라우드 기반 API를 포함한 새로운 기능을 축하했다. 직관적이고 간편해진 웹 서비스 구축 프로세스, API를 통한 분석 모델 업데이트 지원, 파이선(Python) 및 R 지원, 테라바이트 급 데이터의 효율적인 분류 및 분석 지원을 통한 ‘빅 러닝’ 실현, 새로운 커뮤니티 갤러리 추가 등이 정식 버전에서 추가된 사항으로, 이를 통해 그동안 제공됐던 프리뷰 버전보다 편리성을 높일 수 있게 했다.

김경윤 한국마이크로소프트 상무는 “빅데이터 전문가, 데이터 사이언티스트, 애플리케이션 개발자는 물론 일반 IT 관리자나 기업 등 더 많은 사람들이 빅데이터와 머신 러닝 기술을 쉽고 간편하게 활용할 수 있도록 하는 것이 마이크로소프트의 목표”라며 “이러한 전략의 일환으로 오픈소스 지원을 확대하고 빅데이터 서비스 포트폴리오를 한층 강화했다. 보다 많은 기업들이 머신 러닝 및 빅데이터를 통해 비즈니스를 예측하고 이를 의사결정에 활용하길 기대한다”고 말했다.

이와 관련해 한국마이크로소프트는 사물인터넷(IoT)과 머신러닝을 실생활에 응용한 흥미로운 사례도 소개했다. IoT 디바이스 개발 업체 퓨처텍이 애저를 기반으로 개발, 출시한 ‘IoT 딸기재배 시스템’이 그것이다.

딸기는 온도에 매우 민감해 농작이 매우 까다로운 과일 중 하나로, 농장의 온도 조절이 딸기 품질 향상과 생산량에 있어 중요한 역할을 한다. 퓨처텍의 IoT 딸기재배 시스템은 IoT 기술을 활용해 농장의 상태를 실시간으로 모니터링하고, 최적의 온도에서 벗어나면 경작자의 모바일 기기로 알람하고, 온도 및 조명 제어 등도 모바일로 가능하게 함으로써 딸기재배에 들어가는 품을 줄일 수 있게 한다.

이 때 최적의 온도설정에 마이크로소프트 애저의 빅데이터가 활용되며, 마이크로소프트와 퓨쳐텍은 애저 머신러닝 기능을 더해 딸기는 물론 다양한 작물 재배에 응용한 스마트 재배 시스템으로 발전시켜 나갈 계획이다. 작물의 생육 데이터를 바탕으로, 수확량 예측 등은 물론 더 향상된 영농이 가능한 스마트팜을 이룰 수 있게 되는 것이다.

IBM은 왓슨에 머신러닝을 적용하고 있다. IBM이 인지기반 컴퓨팅이란 명칭으로 소개하는 왓슨은 방대한 규모의 빅데이터를 학습·분석해 자연어 기반으로 인간과 소통할 수 있는 컴퓨팅 시스템으로, 머신러닝 기술을 활용해 스스로 학습하고, 발전시키는 모델을 구축하고 있다.

IBM은 왓슨으로 인지 컴퓨팅 생태계를 조성해 새로운 IT 시대를 열어간다는 방침으로 막대한 투자를 진행하고 있는 상황이다. IBM은 2015년 왓슨에 10억달러 이상을 투자한다는 계획을 이미 밝혔으며, 파트너사, 스타트업 등과의 협업을 통해 인지 컴퓨팅 애플리케이션을 개발하는데 1억달러를 투자해 왓슨 생태계 조성을 지원할 계획이다.

IBM에 따르면, 왓슨은 전세계 25개국 이상에서 도입돼 머신러닝을 활용한 비디오 애널리틱스 기술로 피부암 진단을 가능하게 하는 등 다양한 혁신 사례를 만들어내고 있다. 국내에서는 서울시와 IBM 왓슨을 도입한 미국 드렉셀 대학이 헬스케어 활용에 대한 논의를 진행중이며, 아주대학교가 IBM 왓슨 연구소에서 개발한 지능형 솔루션을 도입에 나서는 등 왓슨에 대한 관심이 높아지고 있는 상황이다.

한국IBM은 “영어만 지원된다는 점이 국내 도입의 걸림돌이지만, 대기업 위주로 POC와 컨설팅이 진행되고 있다”며 “조만간 레퍼런스 발표도 가능할 것으로 기대한다”고 밝혔다.

국내 머신러닝 투자 ‘절실’
IBM과 마이크로소프트가 두드러진 활동을 벌이고 있지만, 야후, 넷플릭스, 트위터, 페이팔 등도 자사의 제품과 서비스에 머신러닝 기술을 활용하거나 머신러닝 기업 인수를 지속하면서 투자를 이어나가고 있다.

야후와 트위터, 드롭박스 등은 머신러닝 기술을 기반으로 이미지를 자동 분류, 추출할 수 있는 기술을 보유한 기업을 인수했으며, 세계 최대의 비디오 스트리밍 서비스를 제공하고 있는 넷플렉스도 머신러닝을 활용해 비디오 추천 서비스를 전개하고 있다. 페이팔도 부정거래방지를 위해 머신러닝 기술을 적극적으로 활용하고 있고, SAP의 경우, 머신러닝으로 범죄예측이 가능한 프로토 기술을 개발하는 등 머신러닝의 적용범위는 계속 넓어지고 있다.

머신러닝에 대한 해외의 발빠른 반응에 비해 우리나라의 머신러닝 기반은 매우 취약한 상황으로 집중적인 투자가 절실하다고 지적된다. 글로벌 공룡 기업들이 자사의 솔루션과 서비스에 머신러닝 기술을 속속 적용하고 있지만, 국내 기술은 연구소 내의 걸음마 단계에 머물고 있는 것이다.

머신러닝의 전제조건 중 하나는 시간과 데이터임은 주지의 사실이다. 스스로 학습하는 모델이기에 동일한 머신러닝 솔루션이나 서비스라면, 많은 정보의 습득과 이에 대한 학습 시간이 머신러닝으로 추출되는 질을 판가름한다. 이는 또한 머신러닝 기술 개발 이후 검증까지 많은 시간이 필요하다는 의미도 있다. 따라서 국내 소프트웨어 업계는 미래 핵심 경쟁력 중 하나로 꼽히는 머신러닝 부분의 기술력 확보를 위해 기업의 과감한 투자는 물론 정부의 강력한 지원 정책도 필요하다고 지적된다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.