AI의 시작과 끝 ‘검색’과 ‘데이터’ (2)

보유 데이터로 AI 성능 판가름…데이터 확보 전쟁 본격화

AI의 역할은 사용자의 질문에 대한 답변을 검색하는 것이고, 양질의 데이터로 많은 학습이 이뤄져야 사용자의 질문의 의도에 맞는 답변을 내놓을 가능성이 높아진다. AI 사업자들은 AI의 활용을 통해 좀 더 똑똑해질 수 있다고 이야기하지만, 실상은 사용 데이터를 모아 학습시키고, 검색할 수 있는 풀을 넓히는 과정을 돌려 말한 것에 불과하다.

알파고가 강력한 바둑 AI로 성장할 수 있었던 것도 양질의 데이터가 있었기에 가능했다. 구글 딥마인드 측은 알파고가 바둑 프로기사의 기보 16만 건을 학습하고, 이후 자체 대국을 통한 강화학습을 통해 성장했다고 밝힌 바 있다. 이를 인간이 학습하기에는 평생이 걸릴 정도의 방대한 양이지만, 점차 컴퓨팅 환경이 발전했기에 이 같은 학습이 가능했다. 기본적으로 학습된 데이터가 없으면 이후의 비지도 학습을 하는 것도 무의미하다.

그렇다면 양질의 데이터는 어떤 것을 의미할까? 이미 언급된 바 있지만, 질문의 의도에 맞는 대답을 내놓을 수 있도록 학습할 수 있는 데이터들이다. 단순히 많은 DB 또는 파일을 보유했다고 해서 이들이 학습용 데이터는 아니다. 주제에 맞게, 또 상황에 맞게 판단할 수 있는 근거가 될 수 있는 데이터야 한다.

점차 도입이 확산되고 있는 챗봇의 경우 명확한 목적이 있다. 음식 주문에 응대하거나 콜센터 상담 등이 대표적인데, 이들은 그동안 수집됐던 음식 주문 패턴 또는 콜센터 문의 내용들을 데이터로 활용해 질문에 적절한 대답을 내놓는다. 만약 주제에 적합한 문의가 아니라면 그 내용을 다시 물어보거나 그와 가장 유사한 형태의 질문의 맞는지 확인하는 절차를 반복적으로 거치면서 적절한 질문을 하도록 이끈다.

글로벌 전자상거래 기업 아마존은 자사 AI 서비스를 위해 많은 고객들로부터 3년 이상 데이터를 수집하는데 전념했다. 아마존은 AI 스피커를 출시하면서 당시 AI에 대한 언급 없이 인간의 말을 알아듣는 스피커로만 홍보했으며, 사람들이 질문하는 내역들을 수집해 다양한 질문에 대답할 수 있는 데이터들을 확보하기에 이르렀다. 그 결과 아마존의 AI 스피커는 인간의 말을 대부분 이해하고, 그에 대한 답변을 내놓을 수 있게 됐다.

AI 비서 ‘자비스’는 현실에 없다

영화 아이언맨에 등장하는 AI 비서 ‘자비스’는 AI의 가장 이상적인 형태로 여겨지지만, 실제로 이 같은 AI는 현실에 존재하지 않는다. 다만 점차 그런 AI가 나타날 수 있도록 하기 위해 많은 기업들이 노력하고 있지만, 결코 쉬운 일이 아니다.

현재 우리 주변에서 쉽게 볼 수 있는 AI의 형태는 챗봇을 제외하면 스마트폰의 음성검색이나 통신사의 AI 스피커 등이 전부다. 사람들은 AI에 많은 것을 기대하고 있지만, 아쉽게도 이들 AI가 할 수 있는 영역에는 엄연히 한계가 존재한다.

AI는 크게 두 가지 목적으로 이용되는데, 하나는 일반 상식 영역을 대상으로 하는 것과 지식을 토대로 서비스를 제공하는 것으로 나뉜다. 둘 다 인간의 질문에 대한 답변을 한다는 것은 동일하지만 내부를 들여다보면 기능적인 차이가 있음을 알게 된다.

장정훈 와이즈넛 성장기술본부 이사는 이를 커피 머신에 비유한다. 장정훈 이사는 “일반적으로 커피 머신에는 메뉴 버튼이 있으며, 사용자가 선택하는 버튼에 따라 커피를 제공한다. 그러나 만약 커피 머신에 버튼이 없고 음성 입력을 위한 마이크가 있다면 어떻게 될까? 어떤 사람은 커피를 말하겠지만, 또 어떤 사람은 커피가 아닌 콜라나 다른 것을 요구할 수 있다. 그러나 이는 커피 머신이기에 커피 이외의 주문은 받을 수 없다”고 설명했다.

사례로 든 커피 머신은 커피를 내리기 위한 목적으로 마련됐으며, 질문이 입력되면 그에 맞는 행동을 취한다. 커피 주문이 들어오면 커피를 제공하고, 다른 주문에 대해서는 행동할 수 없는 것이다. 현재 사례가 늘어나고 있는 주문형 챗봇이 이에 해당한다. 주제와 관련된 지식을 토대로 들어온 질문에 대응하고, 그에 맞춰 행동을 취한다. 어떻게 보면 ARS 전화와도 유사한 형태다.

반면 일반 상식 영역에서는 질문에 대해 100% 정확한 답변을 하지 않아도 가능한 여러 답변 중 하나를 선택해 제시할 수 있으면 된다. 가령 누군가 ‘배고파’라고 말했을 때 이 말에 답변할 수 있는 내용은 무궁무진하다. 어떤 이는 ‘집에 가’라고 할 수 있고, 또 다른 이는 ‘5만원’이라고 답할 수 있다. 어떻게 보면 내용적으로는 전혀 연관이 없어 보이는 담화지만 이것이 부자연스럽게 느껴지지는 않는다.

이처럼 일반 상식 영역의 AI는 대화를 이어나가는 것이 목적이기 때문에 질문에 대한 구체적인 답변을 필요로 하지 않는다. 비유하자면 인터넷 확산 초기에 많은 이들이 경험해본 ‘심심이’와 같은 형태가 일반 상식 영역의 AI에 해당한다. 이는 데이터와 알고리즘의 중요성이 한층 더 높으며, 학술적인 성격이 강하다. 서비스 영역보다는 일반 상식 영역이 AI로서의 가치가 높게 평가되는 이유이기도 하다.

영화 아이언맨의 ‘자비스’는 이 두 가지 영역이 섞인 형태다. 주인공의 농담에도 맞받아칠 줄 알며, 구체적인 답변과 실행을 요구할 때도 대응한다. 이는 현재 AI 기업들이 사업을 하는데 있어 가장 큰 걸림돌로 작용한다.

오창민 코난테크놀로지 인텔리전트엔진그룹장은 “AI가 시장에서 마치 트렌드처럼 여겨지면서 고객들의 수요도 점차 늘어나고 있다. 그러나 실제로 AI 기술을 이용해 구현할 수 있는 것에는 한계가 있는데, 고객들의 눈높이는 아이언맨의 ‘자비스’에 맞춰져 있어 이를 맞추는 것이 쉽지 않다”고 토로했다.

업계 관계자들은 기업들이 AI를 도입하는 것에 대해 어떠한 환경에서 활용할 것인지, 그리고 이를 위해 어떤 데이터가 있는지 등을 사전에 고려할 필요가 있다고 입을 모은다. 갖춰진 데이터도 없으면서 AI를 도입하는 것은 몸에 맞지 않는 옷을 입는 것과 마찬가지라는 이유에서다.

넓어지는 AI 활용…데이터 확보 전쟁 본격화

4차 산업혁명과 더불어 데이터가 기업 비즈니스의 중요한 자원이 되면서 AI의 중요성 또한 높아지고 있다. 아직까지는 챗봇이나 음성 스피커 등 초기 형태가 대부분이지만, 점차 다양한 산업군으로 확산되면서 그 쓰임새가 많아질 것으로 예측하고 있다.

AI 활용의 대표적인 사례로는 미래 예측이다. 과거 데이터들을 분석해 의미 있는 결과를 도출해내고, 이를 바탕으로 미래를 예측하는 것이 빅데이터 업계에서도 많이 거론되고 있다. 알파고가 기보 16만 장을 학습했듯이 인간의 힘으로 할 수 없는 범위와 영역을 점차 발전하는 컴퓨터의 힘을 빌려 처리할 수 있도록 하겠다는 취지다. 이미 고성능 슈퍼컴퓨터를 활용하고 있는 기관 및 기업에서는 그동안 인류의 힘으로 풀지 못했던 난제들을 해결하기 위해 연구를 진행하고 있다.

이를 위해 필요한 것이 데이터다. AI의 성능이 얼마나 양질의 데이터를 학습하고 활용할 수 있느냐에 따라 결정되기 때문에 AI 사업을 하거나 AI를 사업에 도입하려는 기업들은 데이터 확보를 위해 많은 노력을 기울이고 있다.

구글과 페이스북 등은 자사 서비스를 이용하고 있는 고객들의 방대한 데이터를 활용해 AI 사업을 전개하고 있다. 그 결과 구글은 알파고를 만들어내는 등 뛰어난 AI 역량을 보유한 기업으로 평가되고 있으며, 페이스북 역시 AI를 통한 챗봇 서비스나 가짜 계정 적발 등을 진행하고 있다.

국내에서도 이 같은 움직임은 본격적으로 일어나고 있다. 많은 사용자층을 확보한 네이버와 카카오도 비서 앱, 통번역 서비스, 음성 스피커 등을 내놓으면서 빠르게 시장을 선점해나가고 있으며, 이통사들도 고객 데이터들을 기반으로 하는 AI 서비스들을 잇달아 선보이고 있다.

그러나 이처럼 데이터를 확보하지 못한 기업은 어떻게 AI를 할 수 있을까? 가장 좋은 방법은 이용자 확보를 통한 데이터를 수집이다. 그러나 포털, 이동통신사처럼 많은 이용자를 모으기는 쉬운 일이 아니기에 원하는 만큼의 충분한 데이터를 얻기에는 부족할 수 있다.

두 번째는 데이터를 구매하는 것이다. 실제로 한 업체는 소셜 분석을 위해 SNS 업체로부터 관련 데이터를 구매하고 있다. 그러나 이는 적지 않은 비용이 들기 때문에 하루에도 셀 수 없이 쏟아지는 SNS 데이터를 매번 업데이트하는 것은 쉬운 일이 아니다. 또한 국내에서는 개인정보보호법 등의 이유로 데이터 거래는 극히 일부만 가능할 뿐이다.

마지막으로는 공개된 데이터의 수집이다. 인터넷에는 수많은 사람들이 생성하는 데이터들이 쏟아지고 있으며, 이를 수집해 데이터로 활용하는 것이다. 그러나 공개된 게시물이라 할지라도 엄연히 크리에이티브 커먼즈 라이선스(CCL)가 존재하며, 무단으로 프로그램 등을 사용해 데이터를 수집하는 크롤링 등은 서비스 업체에서 제한하는 내용이기도 하다.

실제로 페이스북은 자체 집계 데이터 또는 특정 기관과의 파트너십 제휴를 제외하면 데이터를 제공하거나 판매하고 있지 않다. 그러나 일부에서는 페이스북 소셜 데이터를 활용한 분석 자료 등을 내놓고 있는 것을 심심치 않게 목격할 수 있다. 페이스북 측은 페이스북 페이지를 운영하는 기업과 협약을 맺고 관련 내용에 대해 이용하는 것은 문제가 되지 않지만, 그렇지 않고 공개된 데이터를 크롤링하는 것은 이용약관을 위배하는 행위라고 설명했다. 아직은 크게 문제된 경우가 없지만, 데이터 무단 수집은 위험성을 동반하는 만큼 피해야 한다.

조급해 말고 목적 분명히 해야

머신 러닝 분야 석학들에 의하면 AI는 기업이 더 나은 제품과 서비스를 만들어내는데 도움을 줄 수 있다. 이 때문에 머지않은 미래에 AI를 도입하는 기업이 늘어나게 될 것이라는 분석이다.

AI 열풍으로 인해 자연어처리 기술을 보유한 검색 솔루션 기업들은 사업에 청신호가 들어왔다. 딥 러닝 알고리즘을 이용한 AI 스타트업들이 늘어나는 것도 이 같은 추세를 방증한다. 그러나 업계는 현재 상황에 대해 기뻐하는 것과 더불어 현재 추세를 경계하는 기색도 역력하다. 과열되는 분위기만큼 자칫하면 그 열기가 일순간에 빠져버리는 것도 가능하기 때문이다.

강락근 다이퀘스트 대표는 “아직은 AI를 하기 위한 준비가 된 곳이 이통사나 포털 등을 제외하면 많지 않다고 본다. 그렇기에 점차 큰 형태의 산업과 시장을 만들어나가는 것에 초점을 둬야 한다”며 “데이터는 특정 기업 하나만 가진 것은 아니기에 AI에 대한 노하우를 갖고 있는 업체들과 많은 교류가 필요하며, 시너지를 낼 수 있는 제휴 모델들도 고민을 해야 한다. 이 같은 모델들을 잘 만들어내는 것이 성공을 위한 밑거름이 될 것”이라고 설명했다.

오창민 코난테크놀로지 인텔리전트그룹장은 “기업이 문제를 해결할 수 있는 방안은 여러 가지가 있다고 본다. AI를 이용하든, 전통적인 룰 기반 모델이든 상황에 맞게 해결책이 들어가는 것이 최선이다. 너무 트렌드만 따라 접근하는 것은 모두에게 좋지 않은 결과가 될 것”이라며 “기업과 고객들도 AI를 마케팅적으로만 이용하는 것이 아닌, 조금 더 진중한 자세로 고민할 필요가 있다”고 당부했다.

윤현기 기자 다른기사 보기