아파치 스파크 3.0, 엔비디아 GPU 가속 지원
상태바
아파치 스파크 3.0, 엔비디아 GPU 가속 지원
  • 윤현기 기자
  • 승인 2020.06.25 12:38
  • 댓글 0
이 기사를 공유합니다

비용 효율적으로 데이터 분석 가능해져…GPU 병렬 프로세싱 통해 한 번에 여러 작업 수행도

[데이터넷] 엔비디아(CEO 젠슨 황)는 아파치 스파크(Apache Spark) 3.0 버전이 릴리즈됨에 따라 이제 50만 명 이상의 아파치 스파크 사용자들이 혁신적인 GPU 가속을 이용할 수 있게 됐다고 25일 밝혔다.

데이터브릭스(Databricks)는 매일 수백만 대의 가상머신(VM)에서 실행되는 클라우드 기반 엔터프라이즈 스파크 플랫폼을 제공하고 있다. 미국 현지시간 6월 22일부터 26일까지 온라인으로 진행되는 ‘스파크+AI 서밋(Spark + AI Summit)’ 컨퍼런스에서 데이터브릭스는 자사의 머신러닝용 런타임 7.0(Runtime 7.0)이 엔비디아, 그리고 기타 커뮤니티 회원들과 공동 개발한 스파크 3.0을 통해 GPU 가속기 인식 스케줄링 기능을 제공한다고 발표했다.

최근 구글 클라우드는 데이터프록 이미지 버전 2.0(Dataproc image version 2.0)에서 스파크 3.0 프리뷰를 제공한다고 알리면서, 오픈소스 커뮤니티와의 협업으로 더욱 강력해진 엔비디아 GPU 가속기를 언급했다. 엔비디아는 7월 16일 구글 클라우드와 웨비나를 개최해 데이터 사이언티스트를 위한 새로운 기능들을 소개할 예정이다.

또한, 엔비디아는 코드 변경 없이 ETL(추출, 변환, 로드) 및 데이터 전송을 가속화해 애널리틱스 성능을 엔드투엔드로 향상시키는 새로운 아파치 스파크용 오픈소스 래피즈(RAPIDS) 가속기도 공개했다. 스파크의 성능 향상은 기업들이 보다 신속하게 통찰력을 확보할 수 있도록 할 뿐 아니라, 적은 인프라 투입으로도 워크로드를 완료할 수 있어 비용절감에 도움을 준다.

가속화된 데이터 애널리틱스

데이터는 조직들이 변화하는 기회와 잠재적 위협을 탐색하는 데 필수적이지만, 이를 위해서는 데이터에 숨겨진 핵심적인 단서 해독이 필요하다. 고객이 웹사이트를 방문하거나, 고객 지원을 위해 전화 회의를 주최하거나, 혹은 일일 영업 보고서를 작성할 때마다 방대한 양의 정보가 생성된다. 인공지능(AI)이 부상하면서 데이터 애널리틱스는 기업들이 트렌드를 파악하고 변화하는 시장에서 우위를 점하는데 핵심적인 역할을 하게 됐다.

최근까지 데이터 애널리틱스는 소규모 데이터세트에 의존해 과거의 데이터와 그로부터 추출된 통찰력에 의존해왔다. 이러한 데이터는 전통적인 데이터 웨어하우스에 저장된 고도로 구조화된 데이터에서 ETL을 통해 분석됐다.

하지만, ETL은 종종 AI 기반 예측과 권고사항을 연구하는 데이터 사이언티스트들에게 병목현상으로 작용한다. 데이터 사이언티스트들의 작업 시간의 70%~90%의 비중을 차지하는 ETL은 워크플로우를 늦추고, 시간 소모적인 작업에 인력이 낭비되도록 하기 때문이다.

데이터 사이언티스트는 ETL 작업 과정에서 보다 나은 비즈니스 인텔리전스를 얻기 위해 모델을 재훈련하지 않는다. 기존의 CPU 인프라는 이런 워크로드를 수용하기 위해 효율적으로 확장 가능하지 않기 때문에 비용이 대폭 증가하는 경우도 발생한다. GPU로 가속화된 스파크를 통해 이제 의료, 엔터테인먼트, 에너지, 금융, 소매 등 다양한 산업에 걸친 기업들은 데이터 애널리틱스를 비용 효율적으로 가속화할 수 있게 됐다.

병렬 프로세싱 통한 데이터 애널리틱스

GPU 병렬 프로세싱을 통해 컴퓨터는 한 번에 여러 작업을 수행할 수 있다. 데이터센터에서 이런 기능들은 대규모로 확장돼 복잡한 데이터 애널리틱스 프로젝트를 지원한다. AI와 머신러닝 툴, 그리고 병렬 프로세싱은 데이터 집약적인 분석과 이러한 워크로드를 구동하는 ETL 파이프라인을 가속화하는 데 핵심이 된다.

예컨대, 다음 분기에는 무엇을 구입해야 할지 예측하고자 하는 소매업체의 경우, 작년도 데이터는 물론 최근 판매량에 대한 조사도 필요하다. 전문적 데이터 사이언티스트라면 날씨 모델도 추가해 우기 또는 건기에 따른 영향과 감정 분석 데이터도 통합해 어떤 트렌트가 올해 유행할지를 평가할 것이다. 분석할 데이터 소스가 방대하므로 다양한 변수가 판매에 미치는 영향을 모델링하는 속도는 매우 중요하다. 이는 바로 애널리틱스에 머신러닝이 활용되고, GPU가 핵심이 되는 이유다.

데이터 사이언티스트가 기존의 분석방법에서 복잡한 시장 요구를 효과적으로 모델링하는 AI 애플리케이션으로 전환하게 되면, CPU 기반 프로세싱은 속도나 비용에 영향을 받는다. 애널리틱스에 AI 활용이 늘어나면서 GPU로 데이터를 신속하고 효율적으로 처리할 수 있는 새로운 프레임워크에 대한 요구도 커지고 있다.

아파치 스파크를 위한 새로운 래피즈 가속기는 스파크 분산 컴퓨팅 프레임워크를 강력한 래피즈 CuDF 라이브러리에 연결해 스파크 데이터프레임(Spark DataFrame)과 스파크 SQL(Spark SQL)의 GPU 가속화를 가능하게 한다. 또한 래피즈 가속기는 스파크 노드간에 데이터를 이동하는 가장 빠른 경로를 찾아 스파크 셔플(Spark Shuffle) 작업을 가속화시킨다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.