“비정형 데이터 분석·관리, ‘데이터 레이크’로 해결” (2)

에지부터 코어까지 연결하는 플랫폼 지원…오브젝트 스토리지도 각광

[데이터넷] 데이터 레이크 구성을 위한 에코시스템은 하드웨어뿐만 아니라 다양한 소프트웨어가 결합돼야 하며, 각각의 영역에서 필요한 역할이 다르기 때문에 솔루션들은 이에 맞는 기능을 제공해야한다. 예를 들어 데이터의 소스가 될 수 있는 엣지(Edge) 영역에 수많은 IoT 장치가 있는 경우, 이 IoT 장치는 생성된 데이터를 저장하고 코어 데이터센터로 스마트하게 전송해 데이터 통합을 할 수 있어야 한다.

코어 데이터센터에서는 각각의 IoT 장치에서 전송된 데이터를 통합할 수 있는 성능과 이를 분석할 수 있을 만한 성능과 데이터 관리 기능을 제공해야한다. 또한 하이브리드 멀티 클라우드 환경을 구축하여, 데이터 레이크를 만들고 지원할 수 있어야한다. 넷앱은 다양한 엣지, 코어, 클라우드를 아우르며, 각각의 영역에 대한 성능과 기능을 갖추고 있는 데이터 스토리지 플랫폼과 솔루션을 제공하고 있다.

엣지를 위한 솔루션으로는 넷앱 온탭(ONTAP) 셀렉트(Select: Software Defined Storage)와 넷앱 스냅미러(SnapMirror) 복제 솔루션, 그리고 온탭 셀렉트 기반의 IoT 또는 모빌리티 스토리지가 있으며, 코어 데이터센터용으로는 NVMe 플래시 기반의 초고성능 데이터 스토리지 플랫폼과 스냅 미러 복제 솔루션, 그리고 오브젝트 스토리지 플랫폼이 있다.

또한 클라우드 데이터 서비스를 위한 넷앱 클라우드 볼륨 서비스(Cloud Volumes Service) 및 온탭과 데이터 동기화와 복제를 위한 넷앱 스냅 미러, 클라우드 싱크(Cloud Sync) 솔루션 등이 제공된다.

넷앱은 데이터 레이크가 빅데이터 개념보다 포괄적인 개념이며, 빅데이터가 데이터 레이크의 일부분이 돼 가고 있는 것으로 보고 있다. 즉, 빅데이터 분석을 위한 소프트웨어 및 하드웨어는 기존의 DW 기반 소프트웨어 및 하드웨어와 함께 데이터 레이크를 구성하는 하나의 요소라고 볼 수 있으며, 인공지능도 데이터 레이크를 활용하는 형태로 발전하고 있다는 것.

따라서 데이터 레이크가 모든 데이터 소스에 대한 저장과 분석을 제공해야하므로, 각각 데이터의 종류와 특성에 맞는 기술들을 분산해 적용해야 함을 강조한다. 이에 넷앱은 데이터 레이크가 1~2개의 소프트웨어 또는 하드웨어로 구성할 수 없는 거대한 유기체인 만큼, 데이터의 저장 위치에 상관없이 엣지-코어-클라우드를 모두 아우르는 데이터 흐름을 기반으로 소스→복제→집계→분석→아카이빙→클라우드와 같은 각각의 영역에 필요한 성능과 기능을 제공할 수 있는 데이터 솔루션들을 제공하는데 주력하고 있다.

하둡 연결성 확대

델EMC의 아이실론(Isilon) 플랫폼은 멀티 프로토콜, 스케일 아웃 아키텍처, 단일 볼륨, 오토 티어링 등의 주요 기술을 통해 데이터 레이크 구성을 돕는다.

멀티 프로토콜은 NFS, SMB, FTP, HTTP, Obj 등 여러 프로토콜을 통해서 데이터에 접근할 수 있는 방법을 뜻한다. 이때 중요한 것은 동일 데이터를 동시에 여러 프로토콜로 접근해야 한다는 것이다.

하둡(Hadoop)이나 AI는 분산 컴퓨팅 기반으로 구성돼 스케일 아웃 아키텍처를 활용한다. 이러한 아키텍처의 분산 컴퓨팅을 지원하기 위해서는 동일하게 스케일 아웃 분산 컴퓨팅을 기반으로 하는 스토리지가 유리하다. 각 컴퓨팅 노드를 통해 발생하는 동시성이 높은(high concurrency) IO를 처리해야 하고, 이러한 IO를 발생시키는 노드들은 요구사항에 따라 계속 늘어날 수 있기 때문이다.

만약 스케일 아웃 구조의 스토리지가 여러 개의 볼륨으로 이루어져 있다면 스케일링할 때마다 데이터 리밸런싱(re-balancing)을 위해 마이그레이션 작업이 따른다. 인프라 관리 측면에서 데이터 마이그레이션은 쉬운 작업이 아니다. 따라서 단일 볼륨은 스케일 아웃 아키텍처에서 필수 요소다.

스케일 아웃 구조의 단일 볼륨에서 오토 티어링(Auto tiering)은 경제적 효율성을 살리는 기능이다. 자주 사용하는 데이터는 고성능 장비에, 자주 사용하지 않는 데이터는 아카이빙 장비에 저장함으로써 비용 효율적인 운영이 가능하다.

델EMC의 아이실론은 멀티 프로토콜 기능을 통해 하둡을 지원한다. 하둡에서는 데이터 저장을 위해 ‘네임 노드’와 ‘데이터 노드’로 이뤄진 HDFS 파일 시스템을 사용하는데, 아이실론은 이를 지원하며, 이와 관련된 하둡 에코 시스템도 지원한다. 현재 국내 주요 대기업뿐만 아니라 중소기업에서도 아이실론을 HDFS 용도로 사용하는 경우도 있다.

델EMC 측은 현재 경쟁사 제품 중 HDFS를 네이티브(native)하게 지원하는 제품은 없으며, 이를 바꿔 말하면 아이실론 사용 고객은 하둡에서 자체 HDFS에 접속하는 것처럼 아이실론에 접속해 HDFS를 사용할 수 있다고 강조한다.

이를 통해 별도 에이전트 또는 플러그인 없이 하둡에 바로 접속이 가능하며, 장애 및 성능 병목 포인트가 되는 하둡의 네임 노드(오리지널 하둡은 액티브-패시브로 이중화 구성됨)를 액티브-액티브로 다중화해 부하 분산 및 가용성을 향상시킨다.

또한 컴퓨트 노드가 필요 없더라도 용량이 부족하면 서버를 증설해야 했지만, 아이실론을 사용하는 경우 컴퓨트 노드와 스토리지(HDFS)를 별도 증설 가능해 도입 비용을 절감할 수 있으며, 하둡의 보편적인 버전(2.x)이 3중 복제를 사용해 비효율적인 것에 비해 아이실론은 80% 이상의 용량 효율성 제공을 제공함으로써 상면 및 관리 비용을 절감할 수 있도록 한다.

안정적인 데이터 관리·보호 강점

효성인포메이션시스템이 공급하는 오브젝트 스토리지 ‘HCP(Hitachi Content Platform)’는 분산 DB 형태의 파일 관리 체계를 갖고 있어 파일이 최대 1000억개로 확장되더라도 안정적으로 관리할 수 있는 체계를 갖춘 것이 강점이다.

대부분의 스토리지가 많은 파일을 관리할 수 있게 보호 체계를 갖추고 있지만, NAS 등은 파일 관리 체계가 파일 시스템이고 일정 규모 이상 파일 개수가 증가하면 성능적인 이슈가 발생하기도 한다. 또한 데이터를 보호하고자 백업을 할 때도 읽기 성능 때문에 제대로 하지 못하거나, 백업을 하더라도 복구하는 것이 이슈가 되는 상황이 벌어지기도 한다. 이를 해결하면서 파일 체계를 안정적으로 유지시켜주는 것이 오브젝트 스토리지의 사상이다.

수백억 개의 파일들이 있을 때 운영자가 일일이 관리하는 것은 쉬운 일이 아니다. 이에 HCP는 파일 관리를 자동으로 할 수 있는 정책 기반 자동화를 제공하며, 신뢰성과 무결성도 보장하고자 파일들이 원래 저장돼 있던 상태에서 훼손됐는지 여부에 대해 꾸준히 백그라운드에서 헬스 체크를 진행한다.

애플리케이션에서 검색 시스템이 없어도 쿼리를 던지면 저장된 파일을 검색해 찾아낼 수 있으며, 중복제거와 압축 기능도 함께 제공됨으로써 올인원 데이터 플랫폼으로서의 기능을 톡톡히 제공한다.

김도진 효성인포메이션시스템 차장은 “제조 기업에서는 MES를 활용해 제품 불량에 관련된 사진을 찍어서 보관하는 경우가 많다. 만약 불량이 발생했을 시 같은 시간대에 생산된 다른 제품에서도 동일한 문제가 발생했는지 추적하기 위해 촬영된 이미지들을 확인하곤 하는데, 저장된 파일이 너무 많아 검색에 오랜 시간이 걸리거나 아예 검색을 하지 못 하는 경우도 많다”며 “HCP는 불과 0.3초 이내에 해당 파일을 찾아낼 수 있어 업체 담당자들로부터 상당히 호평을 받았다. 이처럼 대규모 파일을 운영하고 관리하는데도 HCP는 최적의 성능을 제공한다”고 설명했다.

오브젝트 스토리지는 많은 파일을 효과적으로 관리하기 위해 메타 데이터를 생성하고, 이를 원본 파일과 함께 저장한다. 실제로 사용자가 이를 묶어주지 않더라도 호출 시 따라오는 정보가 자동으로 저장된다. 그렇기에 방대한 데이터를 정형/비정형 구분 없이 통합해서 관리할 수 있다.

한편, 효성인포메이션시스템은 오는 4분기에 HCP에서 활용할 수 있는 하둡 파일 시스템용 소프트웨어를 출시할 예정이다. 이전까지 오브젝트 스토리지는 데이터를 저장하고 있다가 필요하면 하둡 파일 시스템으로 파일을 이동시켜 분석하는 형태로 운영하는 아카이빙 형태였지만, 새 소프트웨어가 출시되면 HCP에서 바로 데이터를 분석할 수 있는 운영이 가능해진다. 이를 통해 클라우데라나 호튼웍스의 데이터 노드 라이선스나 하드웨어 비용 부분도 절감할 수 있을 것으로 예상하고 있다.

라보뱅크, HCP 도입으로 효율적인 데이터 관리 실현

네덜란드 위트레흐트에 본사를 둔 라보뱅크(RABO BANK)는 5만1000여 명의 직원을 보유한 은행 및 금융 서비스 기업으로, 47개국 1000만 명 이상의 고객에게 서비스를 제공하고 있다.

라보뱅크 컴플라이언스 팀은 규제 조사에 보다 효과적이고 유연하게 작업할 수 있는 도구를 필요로 했다. 데이터가 다양한 출처, 형식 및 국가의 서로 다른 여러 사일로에 분산돼 있었는데 운영 국가마다 정부 규제가 엄격했기 때문이다. 특히 단일 중앙 포털에서 검색하기 위해 데이터에 대한 액세스 단순화를 필요로 했다.

이에 라보뱅크는 HCP를 도입하고 ‘수집 및 검색’ 데이터 플랫폼을 구축해 컴플라이언스 작업과 운영 데이터 거버넌스 및 규정 준수 변환을 시작했다.

그 결과 여러 소스의 통신 데이터를 위한 단일 중앙 수집이 가능해졌으며, HCP에 보관된 데이터는 완벽하고 포괄적이어서 각국 정부 규정 준수에 문제가 없었다. 아울러 규정 준수 작업을 위해 항상 데이터에 액세스가 가능해졌으며, 데이터 연속성 및 가용성도 향상됐다.

월터 헨드릭스(Walter Hendriks) 라보뱅크 글로벌 규정준수 관리자는 “규제 환경은 끊임없이 변화하고 있지만, HCP를 활용해 글로벌 비즈니스 단위에서 신속하고 안전하게 컴플라이언스 준수 조사를 완료할 수 있었다”며 “HCP는 라보뱅크에 유연하고 포괄적인 솔루션과 향후 규정준수 요구사항을 충족할 수 있는 능력을 제공했다”고 전했다.

오브젝트 스토리지, 비정형 데이터 관리 역량 높여

기업들은 이제까지 데이터센터에 저장하는 데이터의 아키텍처에 맞춰 데이터센터를 설계해 왔으며, 대부분 정형 시스템 환경에서 데이터를 관리했다. 이러한 정형 데이터 운영을 위한 기반 인프라로서 기업들은 고성능 및 복원성에 대한 증가하는 요구사항을 충족시키기 위해 블록 스토리지를 사용했다.

그러나 비정형 데이터의 양이 급격하게 늘어나고 있는 지금, 기업들은 기존의 블록 스토리지 기반의 정형 시스템에서 데이터베이스의 잦은 교체 및 성능 저하 문제를 해결해야 한다. 예를 들어 웹 기반 협업 플랫폼에서는 점점 더 많은 수의 사용자들이 비정형 데이터 파일을 업로드 함에 따라 데이터베이스의 용량이 매우 빠른 속도로 포화하며, 이는 파일 부하로 인한 시스템 성능 저하와 보다 많은 DB를 라이선스해야 하는 결과를 낳고 있다.

오브젝트 스토리지는 파일을 플랫(flat) 구조로 동등하게 배치해 저장하므로 효율적인 고성능을 제공한다. 또한 파일 단위의 정책 기반 관리를 통해 불필요한 데이터의 복제 또는 보존 기간이 만료돼 필요 없게 된 파일을 자동으로 정리해 줌으로써 스토리지 관리를 위한 인원과 절차를 간소화할 수 있다.

이러한 오브젝트들은 인터넷 기반의 http 프로토콜을 포함한 산업 표준 프로토콜을 활용해 접근 가능하며, 인터넷 프로토콜로 언제 어디서든 간단한 설정만으로 데이터를 이동시키고 저장할 수 있다. 또한 데이터 저장 시 메타 데이터를 함께 저장함으로써 비정형 데이터의 검색과 분석을 가능케 함으로써 비용 효율적으로 관리를 할 수 있도록 돕는다.

이로 인해 오브젝트 스토리지는 기업들이 자사의 데이터센터에서 중요하게 관리해 온 정형 데이터뿐만 아니라 앞으로 그 양이 점차 더 많아질 비정형 데이터를 효과적으로 활용하게 하는 대안이자 데이터 레이크를 구성하기 위한 요건으로 부상하고 있다.

윤현기 기자 다른기사 보기