효성인포메이션 ‘펜타호’, 통합 빅데이터 처리·분석 플랫폼
상태바
효성인포메이션 ‘펜타호’, 통합 빅데이터 처리·분석 플랫폼
  • 데이터넷
  • 승인 2018.09.27 11:46
  • 댓글 0
이 기사를 공유합니다

GUI 기반 손쉬운 데이터 정제·가공 지원…다양한 리포트·맞춤형 시각화 대시보드 제공

통합 ICT 인프라 솔루션 전문 기업 효성인포메이션시스템의 데이터 통합 및 분석 플랫폼 펜타호(Pentaho)는 데이터 수집 및 블렌딩부터 분석 모형 구축, 예측, 모형 업데이트, 시각화에 이르는 과정을 하나의 워크플로우로 구현한다. 정형 및 비정형 데이터를 포함하는 광범위한 데이터 소스와 오픈소스 기반의 다양한 머신러닝 분석 툴을 지원하며, 뛰어난 성능, 확장성 및 유연성을 제공한다.

펜타호는 이미 전 세계 1800여개 고객들을 확보했으며, 효성인포메이션시스템은 국내 시장에서 펜타호를 내세운 영업을 통해 기업들의 실현 가능한 비즈니스 인사이트 창출 지원을 점차 강화해나가고 있다. <편집자>

전 세계적으로 많은 기업들은 자동차, 공장 기계, 인터넷 등에서 발생하는 새로운 형태의 대량 데이터를 민첩하게 활용해 인사이트를 얻고자 빅데이터 분석에 주목하고 있다. 시장조사기관 IDC의 ‘2017년 글로벌 빅데이터 분석 적용 현황’에 대한 조사 결과에 따르면 기업들은 비즈니스 프로세스를 최적화하고, 수익을 높이며, 비즈니스 리스크를 최소화하기 위해 빅데이터 분석을 이용하고 있는 것으로 나타났다.

국내 많은 기업들은 빅데이터 활용 방안을 고심하고 있지만, 단일한 시스템에서 데이터 통합 및 분석을 수행할 수 있는 기술과 관련 전문 인력이 부족하다는 도전과제에 직면해 있다. 빅데이터에서 유용한 인사이트를 효율적으로 도출하기 위해서는 통합된 데이터 수집, 블렌딩, 분석 및 리포팅 프로세스를 구축해야 한다. 또한 방대한 양의 데이터를 빠르고 효과적으로 처리하기 위해 빅데이터 플랫폼에 머신러닝 기술을 접목해야 한다.

▲ 단일한 워크플로우로 구현되는 펜타호 데이터 처리 및 분석 플랫폼

GUI 기반 통합 빅데이터 분석 워크플로우로 사일로 제거

기업에서 대부분의 현업부서 직원들은 수학적 지식 부족으로 파이썬(Python), R 등의 오픈소스 툴을 활용해 분석 모형을 구축하는데 어려움을 겪고 있다. 기업 IT부서에서는 데이터 수집 및 블렌딩까지만 담당하기 때문에, 현업 직원들이 분석 모형을 직접 구축하지 않을 경우 사일로로 작용한다. 이에 기업들은 현업에서 IT부서의 도움 없이도 다양한 데이터를 통합 및 정제하고, 머신러닝 알고리즘에 간편하게 접근해 분석 모형까지 개발할 수 있도록 하는 플랫폼에 주목하고 있다.

펜타호의 데이터 처리 및 분석 환경은 100% 그래픽 유저 인터페이스(GUI)를 기반으로 작동해 기업 안의 모든 사용자들이 ‘드래그 앤드 드롭’만으로 모든 종류의 데이터 전환, 혼합 및 정제를 손쉽게 수행할 수 있도록 한다. 펜타호의 GUI를 통해 사용자들은 전체 데이터 플로우에서 데이터 변환을 직접 설계할 뿐만 아니라, 다양한 머신러닝 알고리즘에 직접 액세스해 분석 모형을 즉각적으로 개발할 수 있다.

▲ 빅데이터 처리 및 통합 효율성

복잡한 코딩 없이 머신러닝 분석 모형 개발

오픈소스 기반에서 개발된 펜타호는 아마존웹서비스(AWS), 하둡(Hadoop) 등 오픈소스 비정형 데이터와 MySQL, 오라클(Oracle)과 같은 정형 데이터 등을 포함한 다양한 데이터 소스와 호환된다. 또한 데이터 처리 과정을 하나의 플로우로 설계해 머신러닝 모델 개발에 적합한 형태의 데이터 세트를 준비하는데 사용할 수 있다.

데이터 블렌딩을 완료한 이후, 비즈니스 사용자들은 DSP(Data Science Pack) 및 PMI(Pentaho Machine Intelligence) 알고리즘을 정제된 데이터에 적용해 분석 모형을 개발할 수 있다. 머신러닝 모델 구현을 위한 전체 프로세스에서 데이터 준비가 80%의 시간을 차지하기도 하는데, 이는 개발자의 코딩 또는 스크립팅에 기반하기 때문이다. 하지만 PMI를 통해 데이터 분석가들은 별도의 코드 작성 없이 R, 파이썬, 위카(WEKA) 및 스파크(Spark) 등 다양한 머신러닝 알고리즘들에 직접 액세스한다.

머신러닝 알고리즘을 적용한 여러 모형들 중 최상의 분석 결과를 제공하는 모형을 선택해 예측을 수행한다. 또한 분석 모형 개발 과정에서 상호검증(Cross-validation)을 통해 데이터 세트를 검증하거나 개발된 모형을 별도로 검증해 모형의 신뢰도를 높인다.

펜타호의 GUI 기반 환경은 다양한 소스의 데이터 통합부터 머신러닝 모델 개발 및 예측에 이르는 과정을 한 눈에 살펴볼 수 있는 다이어그램 기반의 단일한 뷰를 제공한다. 또한 다양한 부서의 전문가들은 펜타호를 통해 머신러닝 분석 워크플로우를 쉽게 공유하고, 협업 결과를 빠르게 반영해 생산성을 높일 수 있다.

▲ 데이터 블렌딩 및 머신러닝 모델 개발 환경

맞춤형 시각화 리포팅

펜타호를 통해 실행한 분석 결과는 다양한 리포트 및 맞춤형 시각화 대시보드로 만들 수 있다. 이를 통해 비즈니스 사용자들이 IT 전문가의 도움 없이도 쉽게 인사이트를 발견할 수 있도록 돕는다. 특히 인터랙티브 대시보드를 통해 실시간으로 데이터를 업데이트할 수 있으며, 펜타호의 분석 데이터를 태블로(Tableau), 클릭(Qlik) 등의 기존의 시각화 플랫폼과 연동해 보다 다양한 시각화가 가능하다.

▲ 시각화 대시보드 구현

실시간 데이터 처리 기능 강화

최근 업데이트된 펜타호 8.1은 구글 클라우드(Google cloud), 마이크로소프트 애저(Microsoft Azure), 아마존웹서비스(AWS)와 같이 클라우드 톱3 벤더를 지원함으로써 하이브리드 및 멀티 클라우드 환경에 원활하게 연결해 데이터를 처리할 수 있다. 자체 엔진 또는 스파크를 활용해 실시간 데이터를 완벽하게 수집하고 처리할 수 있으며, 스트림 데이터 적재 및 추출(publish/subscribe) 메시징 시스템인 카프카(Kafka) 스트림에 연결된다.

또한 엔터프라이즈 워크로드의 스케일 아웃을 위한 워커 노드(Worker nodes)를 통해 추가 노드를 불러오고, 가용 컴퓨팅 리소스에 걸쳐 워크로드를 분산시켜 사용자들에게 높은 처리 성능을 보장한다. 적응형 실행(adaptive execution)을 통해 데이터 통합 로직 재작성 없이 워크로드에 맞는 처리 엔진을 선택할 수도 있다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.