“시민개발자 양성, 편리한 작업 도구·통합 데이터 플랫폼 수반돼야”
상태바
“시민개발자 양성, 편리한 작업 도구·통합 데이터 플랫폼 수반돼야”
  • 윤현기 기자
  • 승인 2023.01.10 16:57
  • 댓글 0
이 기사를 공유합니다

잇츠맨×데이터넷TV, ‘알아두면 매우 쓸모 있는 데이터 클라우드’ 웨비나 진행
스노우플레이크·데이터이쿠·한영EY, ‘누구나 쉽게 할 수 있는 데이터 분석·활용 전략’ 공유

[데이터넷] 21세기의 원유라 불리는 데이터가 폭발적으로 늘어나고 있지만, 정작 기업에서는 데이터를 활용하는 것이 쉽지 않다. 인공지능(AI)을 활용해 더 좋은 비즈니스 결과를 얻는 것이 좋은 것을 알아도 AI와 데이터를 다룰 수 있는 전문가가 턱없이 부족하고, 그동안 데이터 활용을 지원해왔던 IT 부서 담당자들 역시 갈수록 복잡해지는 인프라 관리 등 여러 업무들로 인해 현업의 요청에 제때 대응해주지 못하고 있기 때문이다.

이러한 상황을 극복하고자 현업에서 직접 데이터를 활용하고 필요한 AI 모델을 개발하는, 이른바 ‘시티즌 데이터 사이언티스트(시민개발자)’의 양성이 필요하다는 주장에 힘이 실리고 있다. 이를 위해서는 AI 모델 개발에 필요한 복잡한 과정을 도구를 활용해 단순화시키고, 각지에 흩어져 있는 데이터들을 한 곳에 모아 누구나 쉽고 빠르게 접근해 활용할 수 있는 방안도 마련해야 한다.

10일 채널온티비 <잇츠맨>과 <데이터넷TV>의 협업으로 진행된 웨비나 ‘알아두면 매우 쓸모 있는 데이터 클라우드’에서는 스노우플레이크(Snowflake)와 데이터이쿠(Dataiku), 한영EY의 데이터 전문가들이 ‘누구나 쉽게 할 수 있는 데이터 분석 및 활용 전략’을 주제로 현업에서 데이터를 쉽게 활용하고 잘 사용할 수 있는 방안을 논의했다.

남상규 EY한영 상무는 기업에서 부족한 데이터 사이언티스트 역량을 보완하기 위해 시티즌 데이터 사이언티스트 양성에 주력하고 있으나 다양한 난관에 부딪혀 어려움을 겪고 있다고 설명했다.
남상규 EY한영 상무는 기업에서 부족한 데이터 사이언티스트 역량을 보완하기 위해 시티즌 데이터 사이언티스트 양성에 주력하고 있으나 다양한 난관에 부딪혀 어려움을 겪고 있다고 설명했다.

시티즌 데이터 사이언티스트로 AI 활용 대중화
웨비나 첫 번째 주자인 남상규 한영EY 상무는 기업에서 AI를 활용하는 수준을 높이기 위해 현업 담당자들을 ‘시티즌 데이터 사이언티스트’로 양성할 필요가 있다고 주장했다. 늘어나는 AI 활용 수요 대비 데이터 사이언티스트의 수가 부족해 채용이 쉽지 않을뿐더러, 비즈니스 전문가인 현업 담당자들이 데이터 사이언스 스킬을 갖추면 보다 데이터 사이언티스트가 제안하는 AI 모델보다 더 좋은 효과를 기대할 수도 있기 때문이다.

이에 많은 기업들이 현업 담당자들에게 데이터 사이언스 교육을 시키고 있지만, 현업 담당자들은 기존 업무를 소화하면서도 새로운 스킬셋을 갖추는 것에 부담을 느껴고 있다. 특히 전문 데이터 사이언스 스킬 습득까지 5년여의 시간이 필요한 것으로 알려지면서 중도에 포기하는 사람들도 상당수다.

남상규 상무는 “데이터 사이언티스트들이 다뤄야 하는 도구들이 다양함에 따라 학습해야 하는 양도 결코 만만치 않은데, 이를 현업에서 소화하는 것은 사실상 어렵다. 그러나 최근 머신러닝(ML)을 비전문가도 직접 수행할 수 있게 도와주는 기술들이 등장하고 있으며, ‘오토ML’이 대표적이다”고 말했다.

오토ML은 AI 모델을 구현하고 운영하기 위한 각 단계들을 코딩 등 전문 지식 없이 아이콘 드래그만으로 연결하고 구현하는 기능들을 제공한다. 생성하려는 AI 모델에 필요한 학습 데이터와 예측 값을 정해주기만 하면 최적의 알고리즘을 추천해주며, 파라미터 최적화까지 자동으로 수행한다.

아울러 ‘피처 스토어’를 구축하면 학습 데이터들을 보다 편하게 활용할 수 있다. 기존에는 온프레미스 데이터 웨어하우스를 활용했다면 최근에는 클라우드를 활용하면서 속도나 비용 측면에서 이점을 얻고 있는 추세다. 필요한 데이터들을 쉽게 찾을 수 있는 데이터 카탈로그 기능들도 제공되면 그 활용도를 더욱 높일 수 있다.

우재하 데이터이쿠 코리아 이사는 데이터이쿠와 스노우플레이크 플랫폼의 결합을 통해 데이터 라이프 사이클 전 단계에 걸쳐 빈틈 없는 통합과 오케스트레이션이 가능하다고 강조했다.
우재하 데이터이쿠 코리아 이사는 데이터이쿠와 스노우플레이크 플랫폼의 결합을 통해 데이터 라이프 사이클 전 단계에 걸쳐 빈틈 없는 통합과 오케스트레이션이 가능하다고 강조했다.

엔드 투 엔드 데이터 사이언스 플랫폼 표방
웨비나 두 번째 세션 발표자로 나선 우재하 데이터이쿠 코리아 이사는 기업에서 AI/ML 역량을 내재화하기 위해 ‘ML옵스’ 환경을 갖춰야 한다고 조언하면서 엔드 투 엔드 데이터 사이언스 플랫폼인 ‘데이터이쿠’의 주요 기능에 대해 소개했다.

AI/ML을 도입했거나 도입을 고려 중인 기업들은 한두 가지의 AI 모델만 만드는 것이 아니라 기업 전반의 생산성과 효율성을 향상시키기 위해 다양한 모델을 생성하고자 하며, 이를 기업 프로세스에 임베드하는 형태를 구축하고자 한다. 그러나 사람과 기술, 프로세스의 세 가지 측면에서 나타나는 특징을 간과했기에 실패하는 경우가 많다.

사람 측면에서는 데이터 사이언티스트 확보의 어려움 외에도 여러 팀 간 협업이 쉽지 않다는 문제가 크다. 기술 측면에서는 평균적으로 12개 이상의 전문 도구를 활용해야 하는데, 이들을 연계하는 과정이 원활하지 못하다. 프로세스 측면에서는 생성한 AI 모델을 검증하고 운영 단계에 적용하기까지 약 9개월이라는 오랜 시간이 걸린다. 즉 기업에서 원하는 민첩성을 확보할 수 없다.

작업이 원하는 방향으로만 진행되는 것이 아니라 되돌아갈 때도 존재한다. 모델 작업을 끝내놓고도 다시 데이터를 보완한다든가, 실제 운영에 돌입하려 했더니 스펙과 맞지 않아 전 모델을 복원한다든지 등 다양한 돌발 상황들이 발생하면서 진척되지 않을 때도 있다. 무엇보다 한 가지 모델 개발에서도 이러할 진데, 모델들이 10개, 100개로 늘어나면 비용 증가와 더불어 더 이상 확장이 어렵게 된다.

우재하 이사는 “폭증하는 AI 모델에 대해 민첩성과 통제를 동시에 유지하려면 새로운 접근 방법이 필요하며, ML옵스가 대안이 될 수 있다”고 밝혔다.

ML옵스는 단순히 모델 라이프 사이클 관리 체계를 문서화하거나 논의하는 정도에서 그치지 않고 앞서 언급한 사람, 기술, 프로세스 측면을 지탱해줄 수 있는 플랫폼을 필요로 한다. 데이터이쿠는 데이터 준비부터 모델 구축, 시각화, 배포/운용, 모니터링 등 라이프 사이클 전 과정을 수행하면서 다양한 스킬 레벨을 가진 사람들이 참여하고 협업하는 환경을 제공하는 ‘엔드 투 엔드 데이터 사이언스 플랫폼’임을 내세운다.

데이터이쿠는 단독으로 데이터 처리 작업을 수행할 수도 있지만, 스노우플레이크와 접목되면 더 큰 효과를 얻을 수 있다. 데이터 라이프 사이클 전 단계에 걸쳐 빈틈 없는 통합과 오케스트레이션이 가능하며, 실제로 글로벌 제약 기업 노바티스는 데이터이쿠와 스노우플레이크를 동시에 사용하면서 데이터 레이크 통합을 통한 사일로 문제 해소, 프로덕션 배포·운영 역량 향상, 구성원 간 협업으로 인한 효율성 제고를 달성했다.

유다니엘 스노우플레이크 코리아 이사는 모던 데이터 스택에 적합한 최적의 플랫폼으로 스노우플레이크를 소개했다.
유다니엘 스노우플레이크 코리아 이사는 모던 데이터 스택에 적합한 최적의 플랫폼으로 스노우플레이크를 소개했다.

데이터 활용 위한 초석 제공
웨비나의 마지막은 유다니엘 스노우플레이크 코리아 이사가 효율적으로 데이터를 관리하고 활용할 수 있는 데이터 스택의 기반인 ‘모던 데이터 스택’ 개념과 이를 지원하는 스노우플레이크 플랫폼에 대해 설명했다.

데이터의 대중화로 가기 위한 첫 단추는 효율적으로 데이터를 관리하고 활용할 수 있는 데이터 스택이 기반이 돼야 한다. 이는 기술 스택에 대한 진입 장벽을 낮춰 IT 부서에 대한 의존도를 줄이고, 셀프서비스가 가능한 비즈니스 중심의 운영 모델로 전환할 수 있게 해준다.

아울러 플랫폼을 온프레미스 환경에서 클라우드로 전환해 인프라 유지 관리 부하를 줄이고, 클라우드의 무제한 리소스와 탄력적인 아키텍처를 제대로 활용할 수 있으며, 별도의 운영 관리가 필요 없는 SaaS 형식으로 사용이 가능해 플랫폼을 간결하게 유지하면서도 관리·최적화 등에 할애하는 시간을 줄여 업무에만 집중할 수 있는 환경을 만들어준다.

모던 데이터 스택은 데이터 파이프라인에서 솔루션 영역별로 최적의 솔루션을 선택해 구성할 수 있으며, 스노우플레이크는 클라우드상에서 모든 데이터를 저장하고 필요한 곳에 데이터를 공급하는 핵심적인 역할인 ‘데이터 클라우드’를 자처하고 있다.

데이터 클라우드는 기업 내 사일로처럼 분산된 모든 데이터를 단일 플랫폼으로 통합하고, 고객의 비즈니스 생태계에 있는 파트너와 협력사뿐만 아니라 타사의 데이터 콘텐츠를 실시간으로 소비할 수 있는 글로벌 데이터 공급망을 쉽게 구축할 수 있도록 돕는다.

스노우플레이크는 최적화된 스토리지, 탄력적인 성능의 엔진, 지능형 인프라로 구성된 3개 계층에서 주요 글로벌 클라우드인 아마존웹서비스(AWS), 마이크로소프트 애저(MS Azure), 구글 클라우드 플랫폼(GCP)에 동일하게 구축돼 사용자는 모든 클라우드에서 동일한 경험을 할 수 있다. 고객은 자사의 클라우드 전략에 따라 스노우플레이크의 클라우드 환경을 자유롭게 선택해 사용할 수 있으며, 멀티 클라우드 고객은 단일 플랫폼에서 클라우드를 넘나들며(cross-cloud) 데이터를 원활하게 공유할 수 있다.

강력한 데이터 처리 언어인 SQL과 파이썬을 실행하기 위해 SQL 웨어하우스, 스파크와 같은 처리 엔진을 모두 운영하며, 플랫폼 간 데이터 이동 없이 단일 플랫폼의 동일한 성능 엔진을 통해 빠르게 실행할 수 있다. 스노우플레이크 엔진 내부에 설치된 아나콘다를 통해 파이선 오픈소스 라이브러리에 대한 간편한 액세스를 제공하고, 대규모 모델 훈련 작업의 성능을 지원하는 고성능 메모리 컴퓨팅 옵션 역시 제공돼 대규모 ML 워크플로우를 원활하게 실행할 수 있다.

또 데이터 저장부터 처리에 이르기까지 강력한 거버넌스에 기반해 모든 데이터 유형과 처리 언어에 대해 일관된 방식으로 데이터를 보호하기에 고객은 보안 및 컴플라이언스 요구 사항에 타협하지 않고 데이터에 대한 대중화를 비즈니스 전 영역으로 확장시킬 수 있다.

유다니엘 이사는 “스노우플레이크 데이터 클라우드의 가치는 데이터이쿠와 같이 훌륭한 사용자 경험을 제공하는 주요 ML 플랫폼으로 쉽게 확장될 수 있어 기업 내 AI/ML의 확산과 민주화를 가속화하게끔 돕는다”고 전했다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.