서비스 개선의 핵심요건, 가용성 관리
상태바
서비스 개선의 핵심요건, 가용성 관리
  • 승인 2006.05.22 00:00
  • 댓글 0
이 기사를 공유합니다

Tech Guide - ITSM
서비스 제공·개선 핵심요건 가용성 관리 중요
가용성·신뢰성·유지보수성·회복력 중요 … 기업 인지도·만족도 향상 필수 요소

IT가 기업의 핵심수단으로 등장하면서 IT는 기업의 미션크리티컬한 영역을 담보하고 있다. 따라서 IT서비스를 극대화하기 위해 무엇보다 기업의 IT자원을 보다 효율적으로 관리하는 것이 필수적이다. 한 순간의 시스템장애는 기업 비즈니스연속성에 치명타를 안겨줄 수 있기 때문이다.
이번호에서는 ITIL 서비스 딜리버리에 가용성 관리(Availability Management) 프로세스와 서비스개선의 상관관계를 소개함으로써 기업들이 서비스를 개선하고자 할 때 가이드로서의 역할을 할 수 있는 내용을 전달하고자 한다. <편집자>

한용덕

굿어스 선임
yongduk.han@goodus.co

가용성이란 일정/특정기간 동안 요구된 기능을 수행하는 컴포넌트 또는 서비스 제공 능력이다. 일반적으로 가용성은 합의된 기간 내에서 실제 고객이 서비스를 사용한 시간 비율로 표시한다. 따라서 가용성 관리는 비즈니스 요구사항에 부합하는 IT 서비스의 가용성을 만족시키기 위해 IT 서비스의 설계, 적용, 측정 및 관리하는 것이다. 가용성 관리는 왜 IT 서비스의 단절이 발생하는지, 그 이유에 대한 이해가 필요하며 서비스의 복구에 얼만큼의 시간이 소요되는지에 대해서도 인지하고 있어야 한다.

가용성 관리 목적
가용성 관리의 목적은 고객의 비즈니스 목표를 달성하기 위해 고객 요구 수준의 가용성을 유지하고 지속적으로 개선시키는 것이며 비용 효과적인 가용성 관리를 통해 IT 인프라스트럭처, IT 서비스 및 IT 지원 조직의 역량을 최적화하는 것이다.

가용성관리 구축 일반론
가용성의 계산방법은 다음과 같다.
가용성의 계산방법에서 ‘Time Agreed To’는 SLA에 명기된 서비스 제공 시간이며, ‘Actual Time’는 ‘Time Agreed To(합의된 서비스 제공 시간)-Downtime(서비스 중단 시간)’을 나타낸다. 흔히 가용성(Availability)의 척도는 9라는 숫자의 조합으로 평가된다. 그러나 가용성의 99%에 의미와 99.99%의 수치에는 엄청난 차이가 있다.
예를 들어, 어떤 시스템의 합의된 서비스 제공 시간이 1년 365일 24시간이고, 해당 서비스 제공 중 인시던트(Incident, 서비스의 정상적인 수행을 방해하거나 서비스의 퀄리티를 떨어뜨리는 이벤트)로 인한 서비스 중단 시간이 3.65일이라면 위의 계산방법에 따라 이 시스템의 가용성은 99%가 된다. 만약 이 가용성을 99.99%로 끌어올리려면 단 52분 30초만 서비스 중단 시간이 허용된다. 따라서 최근에는 SLA상에 가용성에 대한 질적/양적인 규정을 명시하기 때문에 이 계산 공식은 좀 더 세분화돼야 하며, 더 자세한 상황들이 고려돼야 한다.
그리고 일요일 새벽 6시에 장애로 인한 서비스의 중단과 월요일 아침 9시에 장애로 인한 서비스의 중단은 실제 고객이 체감하는 서비스의 수준은 다를 것이다. 따라서 실제로 고객의 서비스 활용 빈도와 시간을 맵핑해 좀더 가치있는 기간과 시간을 선정하고, 해당 시간대에 해당 서비스의 가용성을 높이는 것이 서비스의 개선에 핵심으로 발전할 것이며, SLA에서 가용성 협상의 관건이 될 것이다.

가용성 관리 조직 및 용어
이러한 가용성을 유지/확보하기 위해서는 타 팀이나, 외부공급자와 협업을 하는 경우가 많이 있다. 이런 경우 가용성을 유지하기 위한 여러 요구사항들을 타 팀에는 운영 수준 계약(OLA : Operational Level Agreement)에 명문화해야 하며, 외부공급자를 위해서는 외부 협력업체와의 계약(Underpinning Contract(UC))에서 이런 요구사항들이 문서화돼야 한다. <그림 1>은 이들 간의 관계와 어디에서 이러한 공식적인 합의서가 수립돼야 하는지를 보여주고 있다. 요구되는 가용성 수준이 비즈니스에 제공되고 있다는 것을 보장하기 위해 모든 공식적인 합의사항은 정기적으로 측정되고, 모니터링을 통해 검토될 필요가 있다.

가용성에서 사용되는 주요 용어는 다음과 같다
(1) 가용성(Availability)
가용성이란 정의된 기간 동안 IT 서비스를 수행하는 구성요소가 기능을 제대로 발휘할 수 있는 능력을 말한다. 가용성(오히려 비가용성)이 비즈니스와 사용자에 의해 인지되는 서비스 품질의 핵심 지표다. 가용성은 IT 인프라의 신뢰성, 유지보수성과 IT 지원조직의 능력에 의해 강화된다. 요약하면, 가용성은 구성요소의 가용성, 장애로부터의 회복력, 유지보수와 지원의 품질에 의존한다. 가용성의 핵심은 SLA상의 가용성 목표를 충족시키기 위해 장애 빈도를 줄이고, 인시던트가 발생한 후 서비스의 빠른 원상 복구에 있다.

(2) 신뢰성(Reliability)
중단 없는 서비스를 제공할 수 있는 능력을 말하며 전반적인 IT 서비스의 신뢰성은 IT 서비스를 제공하는 IT 인프라스트럭처내의 각 구성 요소들의 신뢰성에 의해 결정된다. 또한 신뢰도는 고객 요구에 부응하여 수행되는 시스템의 성능을 말하며 특정 시간 내에 실패 없이 운영 가능한 시스템의 시간을 백분율로 나타낸다.

(3) 유지 보수성(Maintainability)
IT 인프라스트럭처 구성요소의 운영 상태를 지속적으로 유지하거나 또는 장애 시 복구하는 능력을 의미하며, 서비스 제공성(Serviceability)은 IT 서비스 제공업체와 그들이 관리하고 있는 IT 서비스와 구성요소에 대한 가용성, 신뢰성 및 유지보수성을 보장하기 위한 계약상의 협정을 의미한다.

(4) 회복력(Resilience)
하나 혹은 하나 이상의 하부 시스템의 잘못된 기능으로 인해 발생한 IT 장애를 복구하고 서비스를 지속할 수 있는 IT 서비스의 수용 능력을 말한다.

(5) 보안(기밀성, 완전성, 가용성)
관련 데이터의 기밀성, 무결성, 가용성에 대해 다룬다.
- 기밀성(Confidentiality)
승인 받지 않고 발표하는 경우나 또는 명백한 방해요소로부터 민감한 정보를 보호하는 것. ‘민감한 내용’은 해당 조직에 따라 달라진다.
- 완전성(Integrity)
정보와 소프트웨어의 정확성과 비밀을 보호하는 것이다.
- 가용성(Availability)
정보와 핵심 IT 서비스들이 요청할 때 가용하게 하는 것. ‘핵심의 내용’은 해당 조직에 따라 달라진다.

(6) VBF(Vital Business Function)
비즈니스의 중요성을 고려한 비즈니스 프로세스 핵심 요소이다. 이 핵심 기능은 IT 서비스 내의 많은 비즈니스 기능 중에서 다른 어떠한 것보다 더 중요하게 다루어지고 지원된다. 또한 VBF에 대한 가용성은 보다 신중하게 다뤄진다.

(7) AMDB(Availability Management Database)
가용성 예측, 통계 분석 데이터, 리포트 생성 백 데이터 와 같은 가용성 관리 핵심 기능 지원에 필요한 정보들을 기록하고 저장하는 공간이다.

가용성 관리 프로세스
가용성관리 프로세스는 사업적 요구 및 사용자 만족의 핵심에 있다.
가용성 관리 리포팅 항목
가용성 관리에서 나올 수 있는 리포팅 항목은 다음과 같은 것들이 있다.
- 가용성(% Available)
- 비 가용성(% Unavailable)
서비스에 대한 가용성을 구하는 것이 힘들 경우 비 가용성 데이터를 기준으로 반대로 가용성을 구할 수 있다.
- 정상적인 서비스 지속 기간(Duration)
- 장애의 빈번도(Frequency of failure)
- 장애로 인한 서비스의 영향(Impact of failure)

가용성과 비용
비즈니스에 요구되는 가용성의 수준은 IT 서비스의 전체 비용에 영향을 미친다. 일반적으로, 비즈니스에 의해 요구되는 높은 수준의 가용성은 많은 비용을 초래한다. 이런 비용은 IT 인프라를 뒷받침하기 위해 요구되는 기본 IT 기술과 서비스의 획득만을 말하는 것은 아니다.
보다 높은 수준의 가용성을 충족시키기 위해 적절한 서비스 관리 프로세스, 시스템 관리 툴 및 상위 수준의 가용성 솔루션을 제공하기 위해 추가적인 비용이 요구된다. 비즈니스의 가용성 요구사항이 어떻게 충족될 것인지 고려할 때, IT서비스를 위해 제공되는 가용성 수준이 실제로 요구된 수준에 도달했는지와 비즈니스에 의해 비용이 적합하다는 것을 보장하는 것이 중요하다.
가용성과 비용의 관리는 새로운 서비스의 경우와 기존 서비스를 나눠 관리하는 것이 좋다. 새로운 서비스의 경우 새로운 IT 서비스가 전개되는 곳의 가용성 요구를 결정할 때 가용성 관리를 초기에 적극적으로 참여시키는 것이 꼭 필요하다. 그로 인해 가용성 관리로 하여금 요구된 수준의 가용성을 제공할 수 있도록 보장하기 위해 IT 인프라 설계에 긍정적인 영향을 미친다.
특히 가용성은 추가될 때 보다는 설계될 때 더 높은 수준의 가용성이 달성될 수 있으므로, IT 인프라 설계에 있어서 이와 같은 초기 참여는 매우 중요하다. 이를 통해 가용성 요구를 제공하기 위해 요구되는 비용을 초기에 파악할 수 있으며, 요구된 수준의 가용성을 제공하기 위해서 차후의 설계 변경에 대한 비용 및 지연을 막을 수 있다. 또한 현재 제공하는 IT 서비스는 변화하는 비즈니스 및 소비자 요구를 충족하기 위해 IT 서비스에서 제공하는 가용성 수준의 변경을 요구할 수도 있다.
그러나 이런 요구들로 이미 높은 수준의 가용성을 제공하고 있는 곳에, 불필요한 가용성의 향상을 위해 엄청난 노력과 비용을 쏟아 붓는 오류를 범할 수 있다. 가용성 관리의 핵심 활동은 IT 인프라의 가용성을 최적화할 수 있는 기회를 찾는 것이며, 이를 통해 최적화된 접근 방식으로 낮은 비용으로 높은 이익을 달성할 수 있다. 최적화된 접근방법은 보다 나은 경제적인 가치를 제공하는데 있어 현명한 첫걸음이라 할 수 있으며, 그 범위는 IT 인프라에 국한돼서는 안되고, 비즈니스 프로세스와 다른 책임 있는 엔드 투 엔드 비즈니스와의 영역까지 포함해야 한다.

인시던트 라이프 사이클
가용성 관리에 시작은 인시던트가 발생해도 고객의 만족을 이끌어 내는 것이 가능하다는 것을 인지하는 것이다. 고객 만족을 높이려면 발생한 빠른 시간 내에 정상적인 서비스 운영이 가능하도록 하는 가용성 관리가 필요하다. 이런 가용성 관리를 위해선 인시던트의 분석을 통해 인시던트 처리 과정을 효율화 할 필요가 있다. 따라서 인시던트의 분석 측면 서비스에 인시던트가 미치는 영향을 분석하기에 가장 좋은 방법은 인시던트를 ‘라이프사이클’ 관점으로 보는 것이다.

인시던트의 ‘라이프사이클’로 인시던트의 발생에서 해결까지 소요되는 시간을 단계별로 분류할 수 있다.
1) 인시던트 시작(Incident start) - 고객이 서비스의 인시던트를 처음 인지한 시점
2) 인시던트 인지(Incident detection) - 고객이 IT 조직에 인시던트 발생을 공지해 IT 조직이 인시던트를 알아차린 시점
3) 인시던트 진단(Incident diagnosis) - 발생한 인시던트의 원인을 찾아내기 위해 진단하는 시점
4) 인시던트 복구(Incident Recovery) - 인시던트를 발생시킨 원인을 해결한 시점
5) 인시던트 복원(Incident restoration) - 복구 이후 연관된 시스템과 연계해 서비스를 제공한 시점

각 단계별 총 처리 시간은 복구 시간이고, 고객이 인지하는 전체 장애시간이다. 인시던트 라이프사이클은 인시던트의 발생 기간 동안 어느 부분에서 많은 시간이 소요됐는지 보여준다. 예를 들어 60분 동안 중요한 업무를 제공하는 서비스에 인시던트가 발생했다. 그러나 인시던트를 복구하기 위한 시간은 단 5분이였고, 다른 단계에서 55분이 사용됐다면 상당히 비효율적인 업무수행 방법일 것이다.
이 관점은 실제 서비스를 복구하는데 필요한 시간보다 훨씬 많은 시간 동안 서비스를 제공하지 못하는 비효율성을 파악할 수 있고, 특정 단계에서 목표를 설정하여 효과적인 개선을 추진할 수 있으며, 이를 통해 MTTR(Mean Time To Recover, 복구하는 데 걸리는 시간)을 줄일 수 있다. 실제로 MTTR이 최소화될수록 가용성은 100%에 가깝게 된다.

가용성 관리 도입시 고려사항
가용성 관리를 도입했을 때 발생할 수 있는 문제로는 첫 번째 고객 또는 서비스 제공자의 상위 조직으로부터 지원이 없을 경우 가용성 관리를 위한 적극적인 활동에 많은 제약이 발생하게 된다. 따라서 가용성관리에 대한 비즈니스 측면에서 상위 조직의 지원을 얻는 것이 중요하다.
두 번째 가용성 관리를 지원하는 다른 프로세스의 부재로 인해 비효율적인 가용성 관리가 이뤄질 수 있다. 가용성 관리 단독으로 이뤄지는 프로세스 관리는 의미가 없으며 반드시 타 프로세스와의 협업을 통해 전체 IT 운영 프로세스가 원활히 움직일 수 있도록 하는 것이 중요하다. 세 번째로 가용성 관리를 위한 인적/물적 자원이 불충분할 경우 고객이 요구하는 충분한 가용성을 낼 수 없으므로 고객과의 커뮤니케이션을 통해 자원에 대한 투자와 지원이 필요하다. 마지막으로 가용성 관리를 지원하는 툴(NSM 솔루션)이 없을 경우 고객과의 합의가 어려우므로 공정하고도 정확한 가용성 측정이 이뤄져야 한다.

가용성 관리 도입 장점
가용성 관리를 도입했을 때 얻을 수 있는 장점으로는 조직 구성원의 업무 활동이 적극적으로 변하게 되며 가용성을 IT 서비스의 핵심 요소로서 인지하게 된다. IT 서비스의 다운 타임에 대한 비용과 가치를 기반으로 고객과 의사 결정을 하게 되며 고객의 비즈니스 성공을 위해 가용성을 더 중요시 여기게 된다. 또한 IT 서비스 제공자와 고객간에 책임을 공유하게 돼 보다 높은 비즈니스 가용성을 확보할 수 있다.
가용성은 현재 e비즈니스 세계 경제에 있어 서비스 공급의 가장 중요한 측면 중 하나이며 365일 24시간 운영 체제에 대한 요청은 이전 보다 훨씬 증가한다. 가용성 또는 가용성의 부족은 고객 만족에 큰 영향을 주며 기업의 전체 평판과 성공에 매우 빠르게 영향을 미친다. 비슷한 예로 새 자동차를 구입하는 것을 생각해 보면, 비용, 스타일, 성능, 특징들이 모두 중요하다. 그러나 차가 자주 고장난다면, 구입자는 그 회사의 다른 자동차를 다시 구입하지는 않을 것이다.
이에 따라 가용성 관리 프로세스의 우선 목적은 IT 서비스에 대한 가용성 요구사항에 대해서 비즈니스와 합의하고 이를 지속적으로 충족시켜 나가는 것을 보장하는 것이다. 비즈니스에서 기대하는 합의된 가용성 요구사항 수준에 미치지 못하는 어떠한 사항의 발생 시 이를 탐지하고 적절히 조치해 원상태로 회복시키는 것은 가용성 관리의 의무다. 기존의 IT 인프라의 최적화에 대하여 가용성 관리는 가용성 요구사항이 바뀔 때, 적은 비용으로 개선된 가용성의 수준을 제공하는 보다 핵심적인 역할을 한다.
이러한 가용성 관리의 목적과 의무, 역할을 통해 가용성 관리프로세스는 보다 효율적으로 고객의 비즈니스 기대를 충족시키기 위해 효과적인 서비스 제공과 그 서비스의 지속적인 개선을 실현하는 기본 프레임웍이 된다. 서비스 제공 및 개선에 중요한 핵심 요건인 가용성 관리의 중요성을 다시 한 번 확인하면서 본 글을 마친다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.