복잡하고 어려운 데이터 분석, 클라우드가 최적 (2)
상태바
복잡하고 어려운 데이터 분석, 클라우드가 최적 (2)
  • 윤현기 기자
  • 승인 2022.02.01 11:15
  • 댓글 0
이 기사를 공유합니다

데이터 기반 가치 창출로 비즈니스 빠르게 발전·확장 가능

[데이터넷] 퍼블릭 클라우드는 데이터가 기업에 있는 것이 아니라 해당 퍼블릭 클라우드 센터에 있기 때문에 완전한 데이터 거버넌스를 가져갈 수 없다. 일례로 특정 퍼블릭 클라우드 서비스에 장애가 났을 때 해당 클라우드만 사용하던 기업이 속절없이 서비스를 못해서 손실을 입은 적도 있다. 그래서 최근 많은 기업이 멀티·하이브리드 클라우드 전략을 선호하고 있다. 비용효율화를 위해서 사용한 만큼 내면 되는 퍼블릭 클라우드 모델은 반드시 사용해야 한다. 하지만 특정 퍼블릭 클라우드에 올인했다가 서비스 장애로 인한 서비스 중단을 방지하기 위해서 두 개 이상의 퍼블릭 클라우드, 하이브리드 클라우드를 사용하고 있다.

이렇게 다수의 클라우드에 호환되며 필요에 따라 워크로드를 이동하기 쉽게 하려면 분석 환경의 틀을 표준화해야 한다. 따라서 요즘에는 분석 애플리케이션을 컨테이너화해 구동하는 추세이며, 이를 관리하는 표준 환경으로 쿠버네티스가 활용되고 있다.

쿠버네티스 클러스터는 대부분의 퍼블릭 클라우드 및 온프레미스용 솔루션을 가장 대중적으로 지원한다. 쿠버네티스 기반 컨테이너화된 분석 애플리케이션을 사용하면 필요에 따라 어떤 클라우드이든지 손쉽게 워크로드를 이동하거나, 다수의 클라우드로 워크로드를 동시에 확장하는 것이 가능하다.

클라우드 환경에서 분석에 필요한 데이터의 저장은 S3에 호환되는 오브젝트 스토리지를 활용할 수 있다. 기본적으로 데이터 거버넌스와 보안을 위해서는 온프레미스에 원본 오브젝트 스토리지를 구현해놓는다. 필요에 따라 버킷 리플리케이션과 같은 복제 방식을 통해 필요한 데이터를 퍼블릭 클라우드가 활용할 수 있도록 전달해 주거나 백업 및 재해복구를 위해 퍼블릭 클라우드를 백업 센터로 활용할 수도 있다.

오브젝트 스토리지는 기본적으로 인터넷 상에서 액세스하기 편리한 REST API 프로토콜을 사용함으로써 적절한 접근제어 관리를 통해 멀티 및 하이브리드 클라우드에서 중앙 데이터 허브 역할을 하기에 적합하다.

효성인포메이션시스템은 데이터 분석 솔루션 업체들과 지속 협력하면서 엔터프라이즈 오브젝트 스토리지 ‘HCP(Hitachi Content Platform) 포 클라우드 스케일(for Cloud Scale)’과 고성능 파일 스토리지 솔루션 ‘HCSF(Hitachi Content Software for File)’ 공급에 집중한다.

HCP 포 클라우드 스케일은 S3와 호환되는 엔터프라이즈 오브젝트 스토리지로 수십년의 기업 고객을 대상으로 판매해 온 히타치 밴타라의 데이터 거버넌스 노하우가 집대성 된 오브젝트 스토리지다. 완벽한 S3 호환으로 아마존 S3와 연동을 통한 하이브리드 클라우드 오브젝트 스토리지일 뿐만 아니라 데이터 거버넌스와 보안에도 특화된 것이 특징이다. 도커 컨테이너 기반의 소프트웨어 정의 스토리지이기 때문에 퍼블릭 클라우드에 설치해 운영도 가능하다.

HCSF는 wekaIO를 기반으로 NVMe 전용 병렬파일시스템을 통한 고성능 IO처리와 HCP와 결합하여 웜(warm)/콜드(cold) 데이터를 티어링으로 저장해 무제한 파일을 저장할 수 있는 스토리지 솔루션이다. HCP의 데이터는 퍼블릭 클라우드의 S3호환 오브젝트 스토리지와 백업 연동해 데이터 저장 영역을 타 클라우드로 확장할 수 있습니다.

효성인포메이션시스템은 국내 대형 제조기업의 ‘데이터 분석 플랫폼 구축 프로젝트’에 HCSF를 공급한 바 있다. 고객은 데이터의 수집과 활용, 관리를 위한 데이터 레이크 및 통합 운영체계를 구축하고, 대용량 데이터 증가 시 선형적으로 확장 가능한 아키텍처 설계, 고성능 데이터 자동 티어링을 통해 IT 비용 절감까지 기대하고 있습니다. 효성인포메이션시스템은 HCSF의 성공적인 레퍼런스를 기반으로 금융, 제조, 헬스케어 등 다양한 산업 분야로 시장을 확대해 나갈 계획이다.

권필주 효성인포메이션시스템 SA팀 전문위원은 “데이터 저장만으로는 데이터에서 가치를 창출할 수 없다. 데이터 허브에 데이터를 모았더라도 적절하게 태깅하고 카탈로그화하지 않으면 필요할 때 검색해서 활용하기에 어려움이 있을 수 있다”며 “효성인포메이션시스템이 공급하는 루마다 데이터 카탈로그와 같은 솔루션으로 데이터를 AI 기반으로 자동 카탈로그하고 데이터를 관리한다면, 필요할 때 필요한 데이터를 찾아 분석에 활용할 수 있어 기업의 차세대 전략 수립과 실시간 고객 대응을 위한 가치 있는 분석 결과를 가져갈 수 있을 것”이라고 말했다.

효성인포메이션시스템 HCP 포트폴리오 활용 방안
효성인포메이션시스템 HCP 포트폴리오 활용 방안

데이터 유실·사일로 방지에 최적
클라우데라는 자사 SDX(Shared Data Experience)가 클라우드 데이터 보안과 거버넌스를 손쉽게 관리해 직접 개별 데이터센터를 구축하지 않고도 철벽같은 보안과 안정성을 확보할 수 있음을 강조한다. 무엇보다 더욱 방대한 데이터를 저장할 수 있게 되면서 이를 토대로 한 데이터 레이크를 생성하고 분석해 ML 서비스를 단 몇 분 만에 클라우드 서비스를 통해 제공받을 수 있기 때문이다.

하지만 클라우드에도 관리가 필요한 부분들은 여전히 존재한다. 데이터 마이그레이션이나 확장 중에 새로운 데이터 클라우드를 추가하면서 데이터 사일로가 발생할 수 있다. 클라우데라는 클라우데라 데이터 플랫폼(CDP) 서비스를 활용하는 선택지를 제시한다.

CDP를 활용하면 기업은 데이터 파이프라인을 퍼블릭 클라우드로 쉽게 마이그레이션하거나 여러 기존 또는 신규 데이터 소스에서 데이터를 수집할 수 있는 새로운 데이터 파이프라인을 빠르게 설정할 수 있다. 즉 데이터 유실과 사일로를 방지할 수 있다.

CDP는 데이터 수집, 웨어하우징, ML 그리고 다른 AI 툴에 이르기까지 모든 것을 모듈로 확장한다. CDP는 데이터 분석에 필요한 클러스터 인프라를 AWS, 애저, 구글 클라우드, 알리바바 클라우드와의 파트너십을 통해 하이브리드 클라우드 분야의 리더로서 지속적인 실행 전략을 펼쳐왔다. 또 CDP 퍼블릭 클라우드의 ISO 27001 인증, 데이터코럴과 카제나라는 SaaS 기업의 신규 인수를 통해 클라우데라의 데이터 플랫폼 비전을 만들어 왔다.

CDP 자체가 오픈소스이므로 사용자들은 클라우데라 플랫폼에 제한되지 않는다. CDP는 데이터 라이프스타일 전반에 걸쳐 많이 사용되는 오픈소스 도구에 대한 후크가 있기 때문에 즐겨쓰는 후크가 있다면 CDP 모듈 중 하나로 교체하면 된다.

간단한 관리와 액세스 덕분에 CDP는 비용과 시간을 아낄 수 있다. 장기적이고 비용이 많이 드는 프로젝트에서도 그 이점이 크다. 더욱이 통일되어 있지 않은 데이터세트에 대한 엔지니어링과 비즈니스 분석이 탁월하다. CDP의 또 다른 큰 장점은 다른 플랫폼에 비해 데이터 과학자의 시간을 절약하고, 클라우드 컴퓨트 복원력도 뛰어나 작업하는 데이터가 유실되지 않는다는 점이다.

LG유플러스는 원활한 확장에 대한 고민을 클라우데라의 솔루션으로 해결했다. 고객이 증가하고 서비스가 다양해지면서 LG유플러스는 기하급수적으로 늘어나는 데이터 볼륨을 어떻게 더 효과적으로 관리할 것인지에 대한 고민이 생겼다.

이는 단순히 데이터 저장을 위한 인프라 확장의 문제가 아니었다. 더 효율적인 분석 그리고 언제나 전제돼야 하는 보안과 규정 준수(거버넌스)를 고려한 확장이 필요했다. LG유플러스는 클라우데라를 통해 임팔라(Impala), 쿠두(Kudu)를 적용해 유연한 확장이 가능한 데이터 저장 및 빠른 분석 기반을 갖췄다. 이 플랫폼은 40초면 10억개의 트랜잭션을 처리할 정도로 강력하다. 이를 활용하면서 LG유플러스는 데이터 속에서 새로운 통찰력을 확보하면서 더 나은 고객 경험과 만족을 제공할 수 있게 됐다.

이 외에도 인도네시아 OVO, 캘리포니아대학교 샌디에이고 캠퍼스, 엑슨모빌, 독일 머크 등 다양한 산업 분야에서 클라우데라의 데이터 플랫폼을 활용하고 있다.

“완성도 높은 애플리케이션·데이터 통합 지원”
남영지 클라우데라 코리아 이사
남영지 클라우데라 코리아 이사

클라우드, 엣지, DW 등 대부분의 플랫폼은 데이터를 기반으로 한다. 데이터 분석 시장은 결국은 데이터에 관한 것이며, 데이터가 엣지에서 AI 인사이트로 연결되는 여정을 의미한다. 엣지에서 AI로의 데이터 여정은 데이터 라이프사이클에 대한 비즈니스 가치로 모아진다. 여기에는 데이터 수집, 데이터 강화, 보고, 서비스, 예측 분석, 보안 및 거버넌스 등 단계별 데이터 주도의 비즈니스 필수 통찰력이 적용되는 산업과 시장으로 확장된다.

향후 데이터 분석 시장은 데이터의 양과 다양성, 실시간 데이터의 복잡성 관리, 독립적인 사일로에서 데이터 제거, 엣지와 클라우드에서 데이터 처리 간의 올바른 균형 조정 등과 같은 데이터 라이프사이클의 요구를 필요로 하는 산업군에서 확대될 것으로 전망한다.

클라우데라는 멀티·하이브리드 클라우드 여정에 있는 기업을 지원해 애플리케이션과 데이터가 이질적인 인프라에서 원활하게 이동할 수 있도록 완성도 높게 통합하는 동시에 모든 환경의 종합적이고 안전한 관리를 실현한다. 또 전 세계적으로 금융서비스, 보험, 정보통신, 제조 등 각 산업 분야에서 선두에 있는 고객들과 협력하고 있다. 클라우데라는 고객이 각자의 여정에서 원하는 체크포인트에 도달하도록 도와드릴 수 있음을 자신한다.

시장서 입증된 강력하고 안정된 플랫폼
AWS는 아마존 레드시프트(Amazon Redshift), 아마존 EMR(Amazon EMR), 아마존 아테나(Amazon Athena), 아마존 키네시스(Amazon Kinesis), AWS 글루(AWS Glue), AWS 레이크 포메이션(AWS Lake Formation), 아마존 퀵사이트(Amazon QuickSight), 아마존 오픈서치(Amazon OpenSearch), 아마존 세이지메이커(Amazon SageMaker) 등 데이터의 인프라에서부터 거버넌스, 빅데이터 분석, DW, 시각화, ML까지 폭 넓고 깊은 서비스를 제공하며, 서버리스 옵션은 자동 프로비저닝, 온디맨드 확장 기능을 제공해 인프라를 관리할 필요 없이 비즈니스 운영에 집중할 수 있게 한다.

AWS의 분석 서비스들은 기업이 필요한 분석 요건에 맞춰 적합한 서비스만을 선택해 블록과 같이 조립하여 사용할 수 있으며, 고객의 비즈니스를 빠르게 발전시키고 확장시킬 수 있는 기반 환경을 제공한다.

전 세계 거의 모든 산업 분야에서 수백만의 고객이 AWS를 사용하고 있으며, 나스닥(Nasdaq), 넷플릭스(Netflix), 에어비앤비(Airbnb), 에픽게임즈(Epic Games), 리프트(Lyft), 버라이즌(Verizon)과 같은 유수의 글로벌 기업 및 아모레퍼시픽, SK텔레콤, 현대백화점 등 국내 대기업 또한 AWS의 분석 서비스를 사용하고 있다.

나스닥은 하루에 300~700억개의 레코드를 평균적으로 기록하고 있으며, 특히 코로나 기간 동안에는 최대 볼륨 1130억개의 레코드를 중단 없이 기록 중으로 인사이트 도출 시간이 AWS 서비스 사용 후 최대 5시간 더 빨라졌다고 밝혔다.

현대백화점은 약 7개월에 걸쳐 AWS 기반 데이터 웨어하우스를 구축해 본격적인 운영을 시작했고, 온프레미스 방식과 비교해 30% 이상의 비용을 절감하고 서버 운영 업무를 최소화했으며 운영 편의성을 향상시킬 수 있었다. 아모레퍼시픽의 경우에는 2~3일 걸리던 고객 데이터 분석 작업을 AWS 클라우드 도입 후 1년 반 만에 1~2분으로 단축하는데 성공했다.

현재 AWS 마켓플레이스에는 50개 이상의 상품 카테고리를 통해 1만개 이상의 소프트웨어가 1600개 이상 셀러로부터 제공되고 있으며, 30만 이상의 고객들이 사용하고 있다. 한국 기업 고객들의 데이터 활용이 증가함에 따라 전통적인 기업들뿐만 아니라 클라우드 네이티브 기업들의 서비스들이 점점 더 많이 등장하는 것 역시 데이터가 가진 혁신과 성장의 잠재력을 증명하는 것이라고 설명한다. AWS는 점점 더 많은 고객들이 데이터를 활용해 보다 새롭고 혁신적인 서비스를 만들어 나갈 것으로 믿으며, 고객의 데이터 기반 혁신 과정을 총체적으로 지원하기 위해 전방위적으로 노력하고 있다.

김기영 AWS코리아 데이터 분석 솔루션즈 아키텍트는 “AWS는 단순히 강력하고 안정적인 서비스를 제공하는 것을 넘어 고객이 그러한 서비스를 잘 활용할 수 있도록 돕는 다양한 지원 프로그램을 제공하고 있다. 다양한 AWS 교육 프로그램 및 아마존의 문화와 방법론을 공유하는 디지털 혁신 워크숍과 전 세계적으로 풍부한 경험을 가진 컨설팅 인력, 고객의 AWS 서비스 사용을 돕는 전문 엔지니어 등의 지원을 통해 고객의 클라우드 여정을 처음부터 끝까지 함께 하며, 클라우드 기반 혁신을 가속화한다”고 말했다.

다양한 구축 경험 기반 최적 아키텍처
데이터를 분석하기 위한 환경은 기업의 니즈와 환경에 따라 다양하게 적용될 수 있다. 클라우드 환경이 적합할 수 있고 온프레미스 환경이 적합할 수도 있다. 오히려 둘을 혼합한 하이브리드 환경이 적합할 때도 있다. 기업 환경에 최적화된 환경이 무엇인지를 먼저 평가하고 적용하는 것이 필요하며, 무엇보다 클라우드의 가장 큰 장점은 페일 패스트(Fail Fast)를 경험하기 가장 좋은 환경에 해당한다.

클라우드 데이터 분석 수요가 늘어남에 따라 메가존클라우드도 2018년 하반기부터 관련 사업을 시작했다. 비록 데이터 분석이 이미 수십 년 전부터 진행돼 온 만큼 분석 경쟁력이 높은 전문 기업이 많을 수는 있지만, 메가존클라우드는 데이터 분석을 클라우드 기반에서 진행하고 있고 실패와 경험이 축적되면서 특정 솔루션 및 아키텍처에 종속(Lock-in)되지 않고 최적화된 아키텍처에 기반해 분석 서비스를 제공할 수 있음을 강점으로 내세우고 있다.

클라우드 환경도 AWS, GCP 등 다양한 환경을 구성할 수 있고 클라우드 네이티브 서비스뿐아니라 데이터브릭스, 스노우플레이크 등 최적화된 전문 솔루션을 활용해 데이터 분석을 진행하며, AI·ML옵스 등 최신 분석 기법을 적용해 서비스를 제공하고 있다.

또 기술적 분야의 솔루션뿐만 아니라 데이터 분석 문화의 정착을 위한 컨설팅 분야까지도 서비스 제공 범위를 확대하고 있다는 점도 메가존클라우드의 경쟁력을 한층 높이고 있다.

특히 메가존클라우드는 고객들의 온프레미스 환경을 클라우드로 전환시키기 위해 자체 개발한 마이그레이션 서비스들도 선보이고 있다. 데이터 레이크나 DW, BI 시스템을 마이그레이션하는 ‘애니 투 레드시프트(Any2R)’, 클라우드 기반 데이터 레이크 구축을 돕는 ‘데이터 레이크 125(1 to 5)’, 정보 분석 환경의 마이그레이션을 위해 기존 환경 분석 및 클라우드 적용 로드맵과 아키텍처를 정의하고 컨설팅하는 3ARC(AAARC), 실제 비즈니스에 적용 가능하고 확장 가능한 AI 서비스인 ‘큐브AI’ 등이 대표적이다.

그 외에도 협력 관계인 데이터브릭스, 그래프DB, 데이터이쿠 등의 서비스를 활용한 오퍼링도 제공하고 있다.

이처럼 다양한 솔루션과 서비스를 앞세워 메가존클라우드는 항공·리테일·헬스케어·제조·금융·보일러 등 다양한 데이터 플랫폼 구축과 AI 활용 사례를 보유하고 있다.

공성배 메가존클라우드 상무는 “클라우드 데이터 분석은 제도적 제약, 보완 이슈, 기존 시스템과의 연동 등 온프레미스 대비 개선 필요 사항이 있을 수 있으나 이는 시장이 발전하는 과정에서 자연스럽게 해결될 것으로 생각된다”며 “데이터 관점에서 클라우드는 초기에는 클라우드를 위한 데이터(Data for Cloud)였다면, 지금은 데이터를 위한 클라우드(Cloud for Data)로 진화하고 있는 것으로 보인다. 메가존클라우드는 앞으로도 데이터 분석 컨설팅 및 구축, 관련 데이터 솔루션 비즈니스 외 데이터 활용에 대한 플랫폼 비즈니스도 지속 추진할 계획”이라고 강조했다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.