오픈소스 빅데이터 분석 엔진 ‘아파치 타조 0.10’ 공개
상태바
오픈소스 빅데이터 분석 엔진 ‘아파치 타조 0.10’ 공개
  • 오현식 기자
  • 승인 2015.03.24 15:44
  • 댓글 0
이 기사를 공유합니다

NoSQL·클라우드 지원 강화 … 상용화 준비 완료

아파치 소프트웨어 재단(Apache Software Foundation)은 오픈소스 빅데이터 분석 엔진 ‘아파치 타조(Apache Tajo)’ 0.10 버전을 공개했다. 이번 0.10 버전은 사용자 편의성이 한층 강화됐으며, 엔터프라이즈 적용 가능한 상용화 단계에 들어섰다고 평가된다.

빅데이터 플랫폼 전문 업체인 그루터와 아파치 타조팀은 클라우드 지원과 사용자 편의성이 한층 강화된 0.10 버전을 공개했다.

아파치 타조는 대용량 데이터 웨어하우스(DW) 엔진으로, 하둡 파일 시스템(HDFS)에 저장된 데이터셋을 분석하기 위해 맵리듀스(MapReduce) 프레임워크를 사용하지 않게 한 SQL온하둡 엔진으로, 엔터프라이즈에서 널리 사용되는 표준 SQL을 사용해 하둡 및 NoSQL에 저장된 데이터를 분석할 수 있다. 타조는 국내 기업인 그루터가 개발을 주도하고 있으며 구글, NASA, 마이크로소프트, 호튼웍스 등의 글로벌 기업과 다음카카오, 라인 등의 개발자들이 참여하고 있다.

이번에 발표된 0.10 버전은 버그 수정 등을 포함한 160개 항목에 대한 해결책이 적용되었고, 새로운 기능을 추가, 발전시킨 버전이다. 새 버전은 다양한 데이터 포맷과 저장소를 지원하고, 기존 데이터 분석 도구와 쉽게 연결할 수 있도록 기능이 강화됐다.

특히 표준 데이터베이스 연결 도구인 JDBC 드라이버가 크게 개선돼 더 작은 용량의 파일 하나로 각종 비즈니스인텔리전스(BI) 도구, 오픈소스 통계 분석 소프트웨어인 R, SQL 도구 등 다양한 분석도구와 더욱 쉽게 연결할 수 있다.

JDBC 드라이버로 펜타호(Pentaho), 스팟파이어(Spotfire) 와 같이 기존에 사용하던 BI 도구에서 직접 타조에 연결, 대용량 데이터를 분산 처리하고, 그 결과를 바로 불러와 고급 분석과 시각화에 사용할 수 있게 된 것이다. 이를 통해 데이터 분석가들은 더욱 편리하게 타조를 사용할 수 있다.

클라우드 지원도 강화됐다. 아마존웹서비스(AWS)에서 제공하는 S3 저장소에 대한 처리 속도가 빨라지고, 간단한 명령으로 타조를 바로 실행할 수 있는 스크립트가 제공돼 타조 0.10버전에서는 AWS 환경에서 더욱 쉽게 하둡 및 S3 에 저장된 데이터를 분석할 수 있다.

이외에도 웹 데이터 전송에 널리 쓰이는 JSON 형식의 데이터를 별도의 변환 작업 없이 바로 SQL로 분석할 수 있는 기능이 추가되는 등 다양한 포맷의 데이터를 쉽게 처리할 수 있다. 하둡(HDFS)은 물론 NoSQL 데이터베이스인 HBase를 표준 SQL로 분석할 수 있는 기능도 추가됐다.

권영길 그루터 사장은 “아파치 타조는 기존 상용 DW를 보완하거나 대체하는 빅데이터 DW 시스템으로 여러 기업에서 이미 활용되고 있다”며 “전통적인 기업 내 IT 환경 외에도 AWS, 오픈스택과 같은 클라우드 환경에서도 빅데이터를 빠르게 분석할 수 있다”고 밝혔다.

이어 권 사장은 “기업은 타조의 도입으로 비용 대비 효과 뿐 아니라 대용량 데이터 처리에 애로사항 이었던 속도 문제를 해결함으로써 속도 문제 때문에 하둡 도입을 주저하던 기업들에게 실질적인 도움을 주어 빅데이터 분석 활성화에 큰 도움이 될 것”이라고 덧붙였다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.