머신러닝·자동화 조합으로 네트워크 엣지 혁신해야
상태바
머신러닝·자동화 조합으로 네트워크 엣지 혁신해야
  • 데이터넷
  • 승인 2020.03.20 11:51
  • 댓글 0
이 기사를 공유합니다

운영 효율성 증대·빠른 서비스 출시 뒷받침 … 경쟁 우위 확보·추가 수익 구현

[데이터넷] 지연에 민감한 애플리케이션을 지원하는 가장 좋은 방법은 애플리케이션과 데이터를 수집 지점에 최대한 가깝게 옮겨 데이터 왕복에 소요되는 전체 시간을 단축하는 것이다. 서비스 사업자들은 운영을 간소화하고, 경쟁 우위 확보를 위해 네트워크 엣지에 주목할 수밖에 없다. 머신러닝, 자동화 등을 이용해 네트워크 엣지를 현대화하는 방법을 살핀다. <편집자>

수미트 싱 주니퍼 엔지니어링 부문 부사장
수미트 싱 주니퍼 엔지니어링 부문 부사장

네트워킹의 미래에 대해 알고 싶다면 돈의 흐름을 따라가 보라. 결국 네트워크 엣지로 안내해 줄 것이다.

데이터센터에서 엣지로 이동하는 애플리케이션이 사상 최대치를 기록함에 따라 앞으로 거대한 새로운 시장 창출 기회가 생겨날 전망이다. 엣지 컴퓨팅 시장은 자율주행차, 고속거래, 콘텐츠 스트리밍, 멀티플레이어 게임 등 사물인터넷(IoT)의 빠른 도입에 힘입어 2022년까지 연평균 36.3%의 성장률을 기록할 것으로 예측된다.

이러한 애플리케이션은 공통적으로 보통 5밀리세컨드(ms: 1000분의 1초) 미만으로 정의되는 지연이 거의 없는 데이터 전송 시간이 필요하다. 새롭게 부상하는 여러 기술들에는 이 정도의 시간도 너무 높은 수치다.

낮은 지연 시간이 필요한 이유는 여러 가지가 있다. IoT 애플리케이션, 센서 및 기기들은 엄청난 양의 데이터를 수집하는데, 이 데이터는 몇 ms의 차이로 가치가 달라진다. 자율주행차 역시 효과적인 주행을 가능하게 하고 사고를 예방하기 위해 실시간 정보가 필수다.

이렇게 지연에 민감한 애플리케이션을 지원하는 가장 좋은 방법은 애플리케이션과 데이터를 수집 지점에 최대한 가깝게 옮겨 데이터 왕복에 소요되는 전체 시간을 단축하는 것이다. 금융 거래는 이제 서브밀리세컨드(Sub-millisecond, 100만분의 1초) 미만 주기로 이뤄지며, 한 증권사는 더욱 빠른 거래를 위해 플랫폼에만 1억달러 이상을 투자하기도 했다.

운영상의 과제
엣지 컴퓨팅의 성장에 따라 버라이즌, AT&T, T모바일과 같은 통신 서비스 제공사들은 큰 운영상의 어려움을 겪고 있다. 특히 엣지로의 이동은 본질적으로 기존 데이터센터를 분산시킨다.

중앙 집중형 데이터센터에 많은 수의 서버 대신 서비스 제공사의 엣지 인프라는 주로 소수의 서버를 갖춘 수천 개의 작은 사이트로 이뤄져 있다. 이러한 모든 사이트의 최대 성능을 보장하기 위해 지원이 필요하며, 이는 일반적인 IT 기업의 자원을 한계 수준까지 사용하거나 때로는 그 이상을 소진시키기도 한다.

이를 복잡하게 만드는 또 다른 요인은 최근 몇 년간 빠르게 부상하고 있는 트렌드인 가상화되고, 공유할 수 있고, 탄력적으로 할당되는 인프라에 구축된 클라우드 네이티브 애플리케이션을 위한 네트워크 기능이다. 가상화된 환경에서 각 물리적 서버는 계속 생성되고 파괴되는 수십 개의 가상머신이나 컨테이너를 인간이 효과적으로 관리할 수 있는 속도보다 훨씬 빠른 수준으로 호스팅한다.

오케스트레이션 툴은 정상적으로 작동될 때 동적 가상 환경을 자동으로 관리하지만 장애가 발생하면 여전히 사람이 개입해야하는 상황이다.

이건 정말 쉽지 않은 일이다. 열악한 성능과 서비스 중단은 서비스 제공사에게 타격을 주기 때문에 조직 내의 IT 직원들은 빠르고 효과적으로 시스템 장애를 해결해야 한다는 엄청난 압박을 받을 수밖에 없다. 문제의 근본적인 원인을 찾아내는데 필요한 정보는 대부분 존재한다. 하지만 모든 하드웨어와 소프트웨어들이 만들어내는 엄청난 양의 텔레메트리(Telemetry) 데이터를 처리하는 일은 오늘날 네트워크 운영자들이 직면하고 있는 도전 과제 중 하나다.

머신러닝과 자동화
데이터가 풍부하고, 역동적이며, 분산된 환경을 분석하기 위해서는 인공지능(AI), 특히 머신러닝이 최고의 효과를 낼 수 있다. 머신러닝의 강점은 바로 네트워크 사업자들의 역량을 훨씬 능가하는 방대한 양의 데이터에서 의미있는 패턴을 찾아내는 능력이다. 머신러닝에 기반한 툴은 경험을 기반으로 스스로 학습할 수 있고, 새로운 정보에 적응하며, 초인적인 속도와 정확성으로 인간과 동일한 작업을 수행한다.

머신러닝의 힘을 실현하기 위해 통찰력이 반드시 행동으로 이어져야만 한다. 이것이 바로 역동적이고 분리된 엣지 컴퓨팅의 중요한 도전 과제이자 자동화의 핵심 역할이다.

자동화된 툴은 머신러닝과 실시간 모니터링을 통해 얻은 정보를 사용해 실제 인간 운영자보다 훨씬 빠르고 정확하게 가상의 물리적 네트워크 기능을 프로비저닝하고, 인스턴스화하며, 환경을 구성할 수 있다. 머신러닝과 자동화의 조합은 업무시간을 상당부분 절감시켜 주며, 이는 운영의 효율성 증대와 빠른 서비스 출시로 이어져 궁극적으로 추가 수익 증대를 이끌어 낸다.

클라우드 네이티브 애플리케이션 확장
최근까지 일반적인 통신 기업의 소프트웨어 개발은 부서간 이동이 필요한 개별 단계로 이뤄져 짧게는 수개월부터 길게는 수 년까지 소요되는 일련의 긴 과정으로 구성됐다. 클라우드 네이티브 개발은 마이크로서비스, 컨테이너, 민첩한 개발, 지속적인 통합 및 구축 그리고 데브옵스(DevOps) 같은 첨단 엣지 기술에 기반한 고속의 통합적인 접근 방식을 따른다.

이는 흔히 ‘폭포수(전 단계 수행이 완료되기 전까지 다음 단계로 진행할 수 없는 순차적인 방법론)’ 방법론이라고 불리는 기존의 과정을 대부분 무용지물로 만들었다. 결과적으로 통신사들은 전례 없는 속도로 1주일에 여러 번의 서비스를 새롭게 출시할 수 있게 됐다.

엣지로의 이동은 클라우드 네이티브 애플리케이션의 확장을 위한 도전 과제이기도 하다. 몇 개의 중앙 집중형 데이터센터로 환경이 구성되는 경우, 인간 운영자는 해당 애플리케이션을 구성하는 VNF(Virtual Network Function) 또는 VNF의 적절한 성능 보장을 위해 직접 필요한 최적의 구성을 수동으로 결정할 수 있다.

그러나 이 환경은 각각 조금씩 다른 운영적인 특성을 나타내는 수천 개의 작은 사이트로 분산돼 있기 때문에 머신러닝이 반드시 필요하다. 비지도학습(Unsupervised learning) 알고리즘은 출시 전 과정에서 모든 개별 구성 요소를 실행해 출시될 현장에서 어떻게 작동하는지 평가가 가능하다. 운영 담당자는 이 접근방식을 사용해 테스트 대상 VNF가 엣지에서 원하는 운영 상태로 나타날 것이라는 높은 수준의 신뢰도를 기반으로 개발할 수 있다.

AI로 시스템 장애 해결
AI와 자동화는 클라우드 네이티브 환경 내에서 시스템 장애 해결에 상당한 가치를 더해줄 수도 있다.

엣지에서 클라우드 네이티브 애플리케이션으로 10개 인스턴스 보이스콜 처리 애플리케이션을 운영하는 서비스 공급자를 예로 들어 보자. 원격 운영자는 한 개의 VNF가 다른 9개보다 상당히 낮은 수준의 성능을 발휘하는 것을 알아차릴 수 있을 것이다.

여기서 우선 생각해 볼 수 있는 첫 번째 질문은 바로 ‘우리에게 정말 문제가 있는 것일까’다. 애플리케이션 인스턴스간의 성능 차이는 이상한 일이 아니기 때문에 이 질문에 답하기 위해서는 실제 작동 시 VNF 성능 값을 정상 범위로 결정할 필요가 있다.

인간 운영자는 지정된 시간에 많은 수의 VNF 인스턴스를 판독해야 하며, 허용되는 주요 성능 지표(KPI) 값을 계산해야 한다. 시간이 소요되고 쉽게 오류가 발생할 수 있는 이 과정은 성능에 영향을 주는 소프트웨어 업그레이드, 구성 요소 교체 및 매개 변수 변경 등에 의해 자주 반복돼야 한다.

이와 반대로 AI는 아주 짧은 시간 내에 KPI를 결정하고, 외부 개입 없이 매개 변수가 변경될 때 필요에 따라 KPI 값을 조정할 수 있다. AI가 KPI 값을 정했다면 이후 자동화가 이뤄진다. 자동화된 툴은 지속적으로 성능을 모니터링하고, 실제 값을 AI가 결정한 값과 비교하며, 성능이 저하된 VNF를 식별한다.

이후 해당 정보는 새로운 VNF를 스피닝업하거나 VNF를 새로운 물리적 서버로 이동시키는 것과 같은 교정 작업을 위해 오케스트레이터에게 전달된다. AI와 자동화의 조합은 서비스 수준 협약(SLA) 준수를 보장하고, 인간 개입의 필요성을 제거한다.

경쟁 우위 활용
서비스 제공사들이 엣지 기반의 아키텍처 채택을 가속화함에 따라 IT 기업은 네트워크 운영을 최적화하고, 저성능 VNF 문제를 해결하며, 대규모 SLA 준수를 확실하게 보장하기 위한 새로운 방법을 찾아야 한다. 이를 위해 머신러닝과 자동화의 조합 같은 AI 기술이 큰 힘이 된다.

특히 지난 몇 년간 AI가 주도하는 이러한 미래를 실현시키기 위한 몇 가지 발전이 있었다. 여기에는 분석이 가능한 정확도가 높고 빠른 주기를 가진 텔레메트리를 수집하고 처리하는 카프카(Kafka)나 레디스(Redis)와 같이 확장성이 뛰어난 메시지 버스(Message Buses), 로 텔레메트리 스트림(Raw Telemetry Stream)에서 모델을 생성하기 위한 텐서플로(TensorFlow), 파이토치(PyTorch)와 같은 AI 프레임워크 등이 있다. 이를 종합하면 운영 시스템의 운영이 표준을 준수하는지 실시간으로 판단하고, 동시에 운영 중단 시 문제점도 발견할 수 있다.

이 모든 것은 운영을 간소화하고, 서비스 제공업체에게 경쟁 우위를 가져다줄 수 있는 잠재력을 갖고 있다. 바로 네트워크 엣지에서 말이다.

* 주니퍼네트웍스는 통신 기업에게 네트워크 운영 간소화를 위한 인공지능(AI) 및 자동화 역량을 제공하고, 엣지에서 비즈니스 잠재력 극대화를 위한 자동화 활용을 지원한다. 수미트 싱 주니퍼 부사장의 이번 글은 SilliconANGLE에 기고된 바 있다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.