애자일소다 ‘베이킹소다’, 강화학습 기반 의사결정 에이전트 메이커
상태바
애자일소다 ‘베이킹소다’, 강화학습 기반 의사결정 에이전트 메이커
  • 데이터넷
  • 승인 2020.11.30 13:59
  • 댓글 0
이 기사를 공유합니다

강화학습 기반 디지털 의사결정 프로세스 개발…‘비즈니스 목표 최적화’에 맞게 보상 정의

[데이터넷] AI 전문 기업 애자일소다(대표 최대우)가 강화학습 기술을 기반으로 한 의사결정 에이전트 메이커(Agent Maker) ‘베이킹소다(BakingSoDA)’를 출시했다. 이는 전 세계적으로 화두가 되고 있는 ‘최적화’ 문제를 강화학습으로 접근한 기업용 인공지능(AI) 소프트웨어로, 글로벌 시장에서도 사례가 드물다는 것이 회사 측의 설명이다. <편집자>

최적화는 여러 가지 실행 방안 중 문제 해결에 가장 적합한 길을 찾아가는 과정이다. 즉, 새로운 방향과 시행착오를 대체할 수 있는 논리적인 단계로서 주어진 조건으로 가장 적절한 계획을 세워 설계 또는 선택하는 것을 뜻한다. 머신러닝 관련 기술이 성숙되고 이를 활용할 수 있는 환경이 조성되면서, 기존 방법론 보다 월등한 성능을 보이며 주목받고 있다.

강화학습은 특정 시점에서 데이터를 기반으로 최적의 전략을 세워주는 방법론이다. 주로 게임, 자율주행에서 많은 연구가 진행되고 있지만, 최근에는 개인별로 최적화된 상품이나 서비스를 제공하거나 시스템, 하드웨어 등 자원 관리 분야에서도 탁월한 성능을 내고 있다. 이에 따라 실제 강화학습을 적용하고자 하는 분야나 시장의 수요 또한 급격히 증가하고 있다.

강화학습을 적용한 사례는 다른 머신러닝 방법론보다 상대적으로 적다. 강화학습을 최적화 문제에 적용 및 설계하기 위해서는 기술적 난이도가 높아 진입하기 쉽지 않기 때문이다. 비즈니스 도메인에 대한 이해를 비롯해 강화학습 관련 많은 지식을 필요로 하며, 프로그래밍에 대한 지식도 있어야 빠른 학습이 가능하다.

애자일소다는 적용되는 ‘환경’에서 전문가의 의사결정을 지원해 주는 ‘AI 에이전트’가 현재의 상태(State)를 인식하고, 선택 가능한 행동(Action)들을 통해 반복하면서 학습, 누적된 보상(Reward)을 극대화하는 인공지능 기술로서 강화학습이 디지털 의사결정에 가장 적합하다고 결론지었다. 이에 기업의 비즈니스를 지원할 수 있는 AI 에이전트를 생성하고 지속적으로 발전시킬 수 있도록 강화학습 기반 의사결정 AI 에이전트 메이커를 구상해 제품으로 개발, 스스로 성장해간다는 의미의 ‘베이킹소다(BakingSoDA)’로 지난 10월 정식 출시했다.

비즈니스 목표 최적화 맞춰 보상 정의
베이킹소다는 ‘비즈니스 목표의 최적화’에 맞게 보상을 정의한다. 예를 들어 고객의 대출 신용한도를 결정하는 에이전트를 만들어야 할 때 기업의 목표는 수익을 높이면서 손실은 줄이고, 고객이 한도를 최대한 소진하게 하는 것일 수 있다.

이때 강화학습 애이전트는 <그림>과 같은 구성으로 다수의 비즈니스 목표를 동시에 고려할 수 있는 보상함수를 구성하고, 각 목적들의 트레이드오프(Trade Off)를 위한 최적의 의사결정을 하도록 학습된다.

베이킹소다 주요 기능 및 기술
베이킹소다 주요 기능 및 기술

애자일소다는 국내 은행 및 카드사, 보험사, 제조기업 등의 과제를 수행하며 실제 기업의 니즈 및 어려움들을 반영해 강화학습 기반의 디지털 의사결정 프로세스를 개발하고, 베이킹소다라는 소프트웨어로 구현해냈다.

베이킹소다는 국내 최초의 강화학습 기반 소프트웨어이자 ▲기업의 강화학습 역량 내재화 ▲개발 비용 리소스 절감 ▲유지보수 시간·비용 절감 ▲이론적으로 이해하기 어려운 강화학습 알고리즘을 보다 쉽게 적용 ▲모델 개발부터 운영까지 하나의 프로세스로 일원화 등 기업이 강화학습을 활용해 비즈니스 목표를 달성하기 위한 최상의 환경을 제공할 수 있다. 또한 분석가 등 사용자 편의를 최우선에 두고 최적화·자동화를 실현한다.

특히 베이킹소다의 핵심 기능인 ‘최적 보상 함수 정의’는 사용자가 정의하는 기업의 목표(Metric) 기반으로 정의가 되는 현재 수준에서 ‘가중치 자동화’, ‘변수 자동화’ 단계들을 통해 보상함수와 최적 목적함수와 일치시키는 기능을 개발하고 있다.

또한 향후 메타러닝과 강화학습의 결합으로 훈련된 에이전트를 이용해 빠른 학습을 할 수 있도록 하는 기능과 배포된 에이전트가 운영 중 스스로 성장하고 발전할 수 있는 기능도 탑재할 예정이다.

금융·운송·제조 등 다양한 산업 분야 접목 기대
최적화는 상품이나 한도 책정과 같은 금융 분야는 물론 운송·통신·에너지·제조·공공에 이르기까지 일상을 둘러싼 모든 산업 분야에 접목될 수 있다.

현재 애자일소다는 제조·항만·공공 분야 등에서 강화학습을 적용하는 프로젝트를 진행하고 있다. 주요 사례로는 ▲로봇 제어 자동화 ▲공정 및 재고관리 최적화 ▲스케줄링 최적화 ▲최적 다이내믹 프라이싱 등이며, 이 중 비행기 티켓, 호텔, 렌트 등 실시간으로 가격이 변동되는 최적 다이내믹 프라이싱 분야는 매우 복합적이고 다양한 요인을 고려한 최적의 의사결정을 내려야 한다.

애자일소다의 강화학습 방법론 확대 적용 방안
애자일소다의 강화학습 방법론 확대 적용 방안

애자일소다는 이러한 다이내믹 프라이싱에 강화학습을 적용해 기존 대비 목표가 극대화될 수 있는 모형을 입증하려 하고 있다.

한편, 애자일소다는 금융·제조 등 다수의 최적화 프로젝트에서 강화학습 적용을 시도해왔고, 여러 도전 끝에 성공적인 결과로 강화학습 기술력과 독창성을 인정받았다. 현재는 이와 관련한 다수의 특허권을 보유하고 있으며, 세계적 권위의 인공지능 학회에서 논문이 채택되는 등 학술적·기술적으로 독보적인 가치를 인정받고 있다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.