오라클 “데이터 과학 대중화, 오라클이 앞장선다”
상태바
오라클 “데이터 과학 대중화, 오라클이 앞장선다”
  • 윤현기 기자
  • 승인 2022.03.16 16:42
  • 댓글 0
이 기사를 공유합니다

RDB 내 머신러닝 구동하는 OML 지원…신규 언어·기술 익힐 필요 없는 AI 개발 환경 제공

[데이터넷] “데이터 관리 시대에서 데이터 활용의 시대로 접어들면서 데이터 활용 가치와 활용을 위한 방법에 대한 고민이 높아지고 있다. 즉 데이터 과학에 대한 대중화를 어떻게 만들어 갈 것인지가 중요하다.”

김태완 한국오라클 부장은 16일 데이터넷TV에서 열린 ‘누구나 데이터와 인공지능을 활용할 수 있는 인공지능 대중화 시대! - 관계형 데이터베이스를 이용한 머신러닝 및 사례’ 웨비나에서 이같이 밝혔다.

그간 전통적으로 인공지능(AI)과 머신러닝을 활용하는 방법은 데이터 저장소의 데이터셋을 만들고, 이를 파일을 비롯해 특정 데이터로 뽑아낸 뒤 파이썬 혹은 R 등을 활용해 데이터를 분석하는 일련의 과정을 거치곤 했다. 그리고 결과물을 데이터베이스(DB)에 저장하는데, 그러한 과정에서 데이터가 많거나 이관 시 접근 지연이 발생하는 문제가 있다.

또 데이터가 빅데이터와 같은 환경에서 파일로 떨어지는 과정에 스키마 데이터 패러다임이 변경되는 문제가 발생하거나 메모리 제약, 단일 스레드 사용에 따른 성능 저하 문제, 데이터가 외부로 나가면서 발생할 수 있는 문제 등도 존재한다.

이런 문제들을 해결할 수 있는 방안으로 관계형 데이터베이스(RDB)에서 머신러닝을 시행하는 콘셉트가 대두되고 있으며, 오라클은 데이터베이스 머신러닝 기능을 오라클 머신러닝(OML)으로 제공하고 있다.

오라클은 RDB 내에서 머신러닝을 구현하는 OML을 제공하며, 전통적인 머신러닝에 비해 다양한 장점을 제공한다.
오라클은 RDB 내에서 머신러닝을 구현하는 OML을 제공하며, 전통적인 머신러닝에 비해 다양한 장점을 제공한다.

기업 분석 역량 강화
OML은 RDB에서 머신러닝을 수행하기 때문에 자동화가 잘 구현돼 있고, 확장성이 뛰어나며, 배포 편의성도 높다.

우선 자동화 측면에서는 DB 안에 데이터를 관리하는 다양한 기법들이 포함하고 만큼 데이터 전처리, 후처리 그리고 가공 및 활용 측면에서 많은 자동화 기능을 이용할 수 있다. 이를 통해 결과를 빠르게 확인할 수 있고, 최소한의 전문 인력만으로 머신러닝 수행이 가능하다.

RDB에서 자원을 늘리거나 확장을 할 경우에도 병렬도가 높아지고 처리 속도가 빨라지는 효과를 누릴 수 있으며, DB 안에서 모델을 생성할 경우 배포 자동화나 실시간 배포를 활용할 수도 있다.

OML은 최근 만들어진 기술이 아니다. 처음 배포된 것은 지금으로부터 20년 전인 2002년 5월이며, 최근 오라클 클라우드의 오토노머스 DB에서는 이 기술이 좀 더 강화돼 AI를 개발하기 편리한 환경을 구성하고 있다.

현재 오토노머스 DB인 ADW에는 아파치 제플린 기반 웹 UI에 대한 개발 환경이 적용돼 있으며, OML4SQL로 머신러닝을 하는 기능 파이썬으로 머신러닝을 하는 OML4Py 등이 구성돼 있어 DB에서 머신러닝을 할 수 있는 다양한 방법과 편리한 환경을 제공한다.

OML은 기본적으로 DB 안에서 머신러닝이 이뤄지기 때문에 데이터가 외부로 이동할 필요가 없다. 그렇기에 RDB 안에서 이뤄져 있던 보안 규칙이나 암호화 등 강력한 통제 기능을 발휘한다. 병렬 처리를 통해 빠른 데이터 처리와 학습이 가능한 환경을 구성할 수 있다. 이렇게 만들어진 모델은 실시간으로 배포될 수 있다.

무엇보다 데이터를 이해할 수 있는 현업과 데이터를 분석하는 분석가들이 SQL과 스토어드 프로시저(Stored Procedure)라는 익숙한 환경에서 작업을 하기 때문에 협업 환경을 구성하기 쉽고, 기존 DB 이해도가 높은 DBA나 SQL 개발자들이 머신러닝 분석가, 데이터 분석가로 전이하는데 효율적인 환경을 제공한다.

오라클은 데이터 과학 대중화를 위해 데이터에 대한 안전한 접근과 데이터 처리에 대한 자유도를 높이는 방안, AI에 대한 적정 기술을 만드는 여러 노력을 하고 있다.
오라클은 데이터 과학 대중화를 위해 데이터에 대한 안전한 접근과 데이터 처리에 대한 자유도를 높이는 방안, AI에 대한 적정 기술을 만드는 여러 노력을 하고 있다.

AI 모델 개발 효율성 높여
OML을 지원하는 알고리즘은 전통적인 머신러닝에 대한 알고리즘도 제공되며, 오라클 DB 버전이 올라갈 때마다 지속적으로 알고리즘들이 추가되고 있다. 최근 배포된 오라클 DB 21c에서는 XG부스트, 이상 탐지를 담당하는 MSET-SPRT 알고리즘, 신경망 알고리즘은 뉴럴 네트워크의 세 가지가 추가됐다.

신경망 알고리즘에는 유명한 아담 옵티마이저가 아담 솔버로 들어가 있고, 미니 배치에 대한 개념이나 ReLU 활성함수 등 컴포넌트들도 들어가 있어 신경망 모델을 이용해 기존에 있는 신경망 알고리즘을 구성하거나 학습하는 것도 가능해졌다.

OML4SQL은 SQL과 스토어드 프로시저로 이용해 학습되거나 활용된다. 따라서 기존 SQL 인터페이스로 사용하는 모든 환경에서 실행할 수 있다. 개발 환경으로 OML 노트북, 설치형에 대한 개발 환경으로 오라클 데이터 마이너를 UI 환경으로 제공하기 때문에 편리한 개발 환경과 접근성을 제공한다.

OML4SQL를 사용하면 기존 DB의 성능과 장점을 충분히 활용하면서 안전하고 효율적인 머신러닝 환경을 구성할 수 있다는 것이 가장 큰 장점이다. DB가 가진 보안적인 안정성, 데이터 처리에 대한 고속·병렬 처리 기능들을 OML4SQL뿐만 아니라 파이썬 개발자들도 누릴 수 있을 것이라는 측면에서 OML은 파이썬을 인터페이스로 하는 새로운 기능도 제공한다.

OML은 다양한 SQL과 파이썬에 대한 식을 제공하는 것 외에도 오토 ML과 배포 자동화에 대한 콘셉트도 지원한다. 전통적인 머신러닝은 시간 소모적인 여러 단계를 거쳐 학습 모델을 만들어가는 작업을 반복하게 되는데, 이런 부분들에 오토 ML을 적용하면 상당히 자동화되고 어느 정도 학습돼 있는 모델을 제공하기 때문에 AI 모델 개발의 효율성을 높일 수 있다.

OML도 오토 ML 기능을 제공한다. 별도 UI와 설정을 통해 알고리즘을 만들어 활용할 수 있는 방식을 제공하며, 오토 ML로 만들어진 모델을 배포하는 배포 프로세스도 제공한다.

김태완 부장은 “오라클은 데이터 과학의 대중화를 위해 데이터에 대한 안전한 접근과 데이터 처리에 대한 자유도를 높이는 방안 그리고 AI에 대한 적정 기술을 만드는 여러 노력을 하고 있다. 그 일환으로 R, 파이썬, UI 중심의 AI 모델 개발 환경을 만들어 서비스 중”이라며 “데이터 분석에 대한 저변 확대를 위해 지속 노력하는 한편, SQL 사용자, 스토어드 프로시저에 대한 지식이 있는 이들이 효과적으로 머신러닝 개발자, 데이터 과학자로 전이할 수 있는 토대를 마련하는 것을 목표로 삼고 있다”고 강조했다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.