[Case Study] 금융결제원 고가용성(HA) 클러스터 구축
상태바
[Case Study] 금융결제원 고가용성(HA) 클러스터 구축
  • 권혁범 기자
  • 승인 2004.09.13 00:00
  • 댓글 0
이 기사를 공유합니다

A-A 구조로 안정성·효율성 동시 확보 … DBMS·NMS·SMS 연동 완료
HA 도입으로 시스템 장애 원천 봉쇄된‘무정지 시스템’ 구현

안정적이고 효율적인 전자금융서비스를 지향하는 금융결제원이 항시적인 서비스 및 비즈니스 연속성 확보를 위해 고가용성(HA) 솔루션을 도입했다. 그 결과 시스템의 어떠한 장애발생에도 지속적인 서비스 유지가 가능해졌으며, 나아가 고가용성 솔루션, DBMS, 네트워크관리, 스토리지관리 모두를 중앙집중식으로 통제관리함으로써 업무의 효율성 및 생산성도 크게 개선됐다. 이와 같은 IT 인프라의 효율화는 소수의 인원으로 많은 시스템들을 안정적으로 운영할 수 있는 밑거름이 되고 있다.
글·권혁범 기자·kino@datanet.co.kr
사진·김구룡 기자·photoi@datanet.co.kr

인터넷을 이용한 가상공간에서의 전자 금융과 상거래가 늘면서, 은행간 자금결제와 지급결제서비스 제공을 위해 설립된 금융결제원(원장 이상헌 www.kftc.or.kr)의 업무에도 많은 변화가 생겼다. e비즈니스 업무(전자거래 공인인증서비스, 인터넷지로, 전자화폐서비스, 전자외상매출채권 서비스 등)는 해마다 큰 폭으로 증가하고 있고, 전자방식의 결제 규모도 매년 비약적으로 성장하는 중이다. 지난해 금융결제원의 전자방식 결제 규모는 무려 34억2천300만건(4천87조원)에 달한다.
이와 같은 업무 변화는 보다 탄력적이고 신속한 인프라를 요구하고 있다. 업무 특성상 보안 및 무정지 환경이 무엇보다 중요하지만, 고객의 요구를 발빠르게 수용하는 동시에 비즈니스 변화에도 민첩하게 대응하는 것이 중요하기 때문이다. 결국 금융결제원은 24시간×365일 무정지 서비스가 필수인 카드VAN서비스 등의 온라인 업무에는 그대로 메인 프레임 환경을 유지하면서, 보다 유연한 전산 환경이 요구되는 DBMS 및 인터넷 서비스를 수행하는 업무는 개방형 시스템으로 전환했다.
그러나 유닉스 서버 대부분이 상호 유기적으로 연계돼 데이터 공유가 이뤄지고 있어, 과거에 비해 비즈니스적 위험(risk)과 장애(fault) 발생의 가능성은 그만큼 증가한 게 사실이다. 대외망 구간에서는 방화벽 이중화와 침입탐지시스템을 설치해 해킹, 바이러스 등에 의한 침해사고에 만반의 준비를 해놓았고, 모든 인터넷망 시스템은 L4 스위치로 로드 밸런싱을 구현해 네트워크 병목현상과 일부 시스템 결함에 대비하고 있지만, 이것만으로 완벽하게 항시적인 비즈니스상시운영체제, 즉 BCP(Busi ness Continuity Planning)를 구현했다고 자신할 수 없다.
금융결제원은 고가용성(HA) 솔루션 도입으로 이러한 골칫거리를 말끔히 해결했다. 금융결제원이 선택한 레가토소프트웨어의 ‘램(LAMM)’은 하드웨어 장애에 대한 확실한 해결책을 제공하는 동시에, 업무 효율성과 생산성까지 크게 높였다. 이에 따라 금융결제원은 지난해 10월 유류구매전용카드 시스템에 ‘램’을 추가로 적용시킨 데 이어, 올 3월 에스오일(S-OIL) 보너스카드 시스템에도 동일한 무정지 환경을 구축했다.

다운사이징으로 HA 환경 구축 ‘불가피’
전용 고가용성 솔루션이 아닌 마이크로소프트 윈도 OS의 클러스터링 기능을 이용할 때만 하더라도 금융결제원은 1년에 평균 3∼4회의 시스템 중단이 발생하고 있었다. 분석 결과 시스템의 심각한 하드웨어 장애보다는 단순한 패치 작업과 운영자가 감지하지 못한 애플리케이션 장애가 주원인인 것으로 나타났다. 금융결제원이 우선적으로 전용 고가용성 솔루션 도입을 결정한 것은 어쩌면 당연한 수순이었다.
금융결제원은 고가용성 솔루션에 대한 평가 기준으로 구축비용, 기술력, 호환성, 확장성, 사용자 편이성, 국내 레퍼런스, 그리고 커스터마이징 지원 여부 등을 내걸었다. 특히 최대한 구축비용을 절감하고 가용성 향상을 위해 액티브-스탠바이(A-S) 구조를 처음부터 배제한 만큼, 협력 업체의 경험과 노하우도 필수사항이었다.
금융결제원 e-Biz본부 VAN운영팀의 김정상 과장은 “지금도 많은 사람들이 고가용성 클러스터 구축이라고 하면 일반적으로 액티브-스탠바이 구조를 생각하는데 이러한 고정관념이 고가용성 클러스터가 활성화되지 못한 또 다른 원인이 아닌가 싶다. 이러한 액티브-스탠바이 구조의 클러스터 시스템은 안정성 면에서는 탁월하지만, 시스템의 가용성을 놓고 본다면 적극 권장할만한 구조는 아니다. 고비용을 지출하면서 구축되는 시스템을 굳이 평상시 유휴상태로 만든다는 것은 결코 바람직한 구축 방법이 아니다”라며 액티브-스탠바이 구조를 배제한 배경을 설명했다.

가용성 높고, 비용 효율적인 N:1 구조 채택
금융결제원은 이와 같은 요구 조건을 대부분 수용하는 동시에, 가격경쟁력이 뛰어난 레가토소프트웨어의 ‘램’을 최종적으로 선택했다. 물론 ‘램’이 오라클9i의 RAC을 지원하지 않는다는 결함을 가지고는 있었지만, 금융결제원의 e비즈니스 업무 시스템들은 오라클9i의 RAC을 특별히 고려하지 않고 있었기 때문에 크게 문제될 것이 없었다. 오히려 ‘램 5.0’으로 버전업되면서 통합성도 향상돼 일괄적인 원격관리가 가능해진데다, 협력 업체인 맨텍의 철저한 커스터마이징 및 기술 지원으로 기대 이상의 효과도 기대할 수 있게 됐다.
금융결제원은 지난 2001년 1단계로 신용/직불카드 DB서버와 통계DB서버를 액티브-액티브(A-A) 구조로 구축했다. 당시만 하더라도 애초의 우려대로 주위에서 ‘과연 그것이 정말 가능한가’라는 질문을 많이 했던 게 사실이다. 금융결제원 내부적으로는 최초의 시도였기 때문에 당연한 시각이고 관심이었다. 그러나 1단계 작업이 성공적으로 완료되면서 내부적인 인식도 크게 달라졌다.
이를 토대로 지난해부터 2단계 작업에 착수했다. 2단계는 다목적용 서버로 구축된 통계DB서버를 에스오일 보너스카드, 구매전용카드 등의 스탠바이서버 역할을 수행하는 N:1 구조로 재편하는 작업이다. 비록 내부 인식이 크게 나아졌다고는 해도, DB서버를 애플리케이션 서버의 스탠바이 구조로 운영한다는 사실에 이견이 없었던 것은 아니다. 하지만 성공적인 시스템 구축으로 인해 이제는 금융결제원의 타 업무 부서에서도 N:1 구조의 클러스터 환경 구축에 높은 관심을 보이고 있다.

근무환경 개선·생산성 향상 등 도입 효과 ‘톡톡’
고가용성 솔루션 도입 이후 고가용성 유지 및 재난시 복구가 가능해져 관리자의 업무 부담이 큰 폭으로 감소됐다. 이로 인해 효율적인 시스템 설계 및 구성이 가능해졌고 모든 시스템들이 유기적으로 연계되는 통합구축이 가능해지면서 신규시스템 도입시 구축비용을 절감할 수 있는 계기가 마련됐다.
김 과장은 “이는 향후 재해복구시스템을 구축하는데 상당부분 밑거름이 되어질 것이라고 생각된다. 전사적인 재해가 아니라면 내부적인 페일오버, 서비스 전이를 통해 서비스를 유지하는 솔루션 구축이 더욱 효율적일 것이다. 사소한 장애에도 재해복구센터로 서비스가 전이된다면 오히려 역효과가 발생할 수도 있다”고 말했다.
장시간 소요되는 시스템 작업으로 서비스 중단도 최소화됨에 따라, 대외 이미지 제고와 질적 서비스 향상을 거둘 수 있게 됐다. 금융결제원은 자체 조사 결과 약 1∼3분 내에 이뤄지는 서비스 전이는 고객 및 이용자들에게는 시스템 장애로 인식되지 못하는 것으로 분석했다. 그 결과 그 동안 빈번하게 이뤄지던 철야작업도 주간 시간대에 수행할 수 있게 돼, 근무환경 개선과 생산성 향상으로 이어지고 있다. 간접적으로는 시스템 구성의 개선을 통해 IT전산자원 위험 관리 역량이 강화됐고, 기술축적과 노하우를 가지게 됐다는 점도 큰 소득이다.
금융결제원은 고가용성 솔루션 도입 효과를 극대화시키기 위해 시스템관리시스템(SMS)과의 연동작업도 마쳐놓은 상태다. 그 결과 만일의 상황이 발생할 경우 SMS를 통해 즉각적으로 IT상황실 및 각 관리부서로 조기경보가 전달되며, 관리자 부재 시에도 휴대폰을 통해 장애를 통보함으로써, 신속한 장애감지 및 즉각적인 조치가 가능하다. 또한 DBMS와 고가용성 솔루션, 네트워크관리, 스토리지관리 등을 중앙집중식으로 통제관리함으로써 업무의 효율성 및 생산성을 높이고 있다. 이러한 IT인프라의 효율화는 소수의 인원으로 많은 시스템들을 안정적으로 운영할 수 있는 밑거름이 되고 있다.

I·n·t·e·r·v·i·e·w
24×365 지속되는 BCP 환경 토대 마련
고가용성 솔루션 도입 배경은.
지난 9.11 미국 테러사건으로 인해 IT의 전반적인 위기관리 실태에 대한 재점검이 강조되고, 특히 정부에서 재해복구센터를 의무화하면서 지금까지의 DR센터의 효율성에 대한 재평가가 이뤄지고 있다. 금융결제원도 이러한 대내·외부적 환경요인으로 IT인프라에 대한 개선이 요구되면서 항시적인 서비스 유지, 즉 BCP에 대한 관심이 높다.
사실 애플리케이션에 대한 새로운 요구는 24시간 내내 이용할 수 있어야 된다는 것이 지금의 IT 환경의 현실이다. 더욱이 늘어만가는 시스템의 수에 비해 운영요원은 절대적으로 부족한 입장에서 IT인프라의 개선은 절대적으로 필요하다.
먼저 각 시스템의 가용성을 분석해 본 결과 1년에 평균 3∼4회의 시스템 중단이 발생하는 것으로 파악됐는데, 중단원인으로는 시스템의 심각한 하드웨어 장애보다는 단순한 패치작업 등과 운영자가 감지하지 못한 애플리케이션 장애로 나타났다. 따라서 우선적으로 필요한 부분이 바로 시스템의 가용성 개선이었고, 그 대안은 고가용성 솔루션 도입이었다.

제품 선정 기준은.
고가용성 솔루션 도입을 위해 수많은 잡지와 신문, IT뉴스 등을 통해 많은 정보와 성공사례들을 스크랩하고 관련업체로부터 자료도 요청했었다. 이 과정에서 놀랍게도 대부분의 레퍼런스 사이트들이 우리와 비슷한 고민을 하고 있고, IT인프라 개선을 위해 엄청난 투자와 노력을 기울이고 있다는 사실을 발견했다.
다행히 우리 e비즈니스 업무 시스템들은 클러스터 구축을 위한 기본 환경, 예를 들면 운영체제, DBMS, 공유 디스크의 채널 이중화, 네트워크 등이 동일하게 통합돼 있어 물리적, 논리적 문제점이 크게 없었기에 예상보다 구축이 용이한 편이었다.
저희가 내세운 필요 조건으로는 구축비용, 기술력, 호환성, 확장성, 사용자 편이성, 국내 레퍼런스, 커스터마이징 지원 여부 등이 있었다. 레가토 ‘램’은 이러한 요구조건을 대부분 수용하고 있었고, 특히 가격경쟁력을 가지고 있으면서 솔루션 기능과 기술지원 부분이 우수했다.
물론 ‘램’이 오라클9i의 RAC을 지원하지 않는다는 결함을 가지고는 있었지만 e비즈니스 업무 시스템들은 오라클9i의 RAC을 특별히 고려하지 않고 있었기 때문에 램을 솔루션으로 선정하는데 크게 문제될 것이 없었다. 아울러 ‘램 5.0’으로 버전업되면서 통합성도 향상돼 일괄적인 원격관리가 가능하게 되고, 상당한 커스터마이징의 지원이 향상된 점도 좋은 평가를 받게 된 배경이다.

향후 확장 계획은.
현재 금융결제원은 각 부문별로 IT인프라의 안정성 제고를 위해 최선을 다하고 있다. 특히 지난 4월 새로 부임하신 이상헌 원장은 취임사에서 금융산업의 재해에 대한 인식 전환과 함께 전산시스템의 안정성과 효율적인 운영을 우선과제로 밝히고, 모든 방법을 동원해 항시적인 비즈니스 상시운영체제, 즉 BCP를 갖출 것을 당부했다.
최근 금융결제원은 IT인프라의 효율적 개선을 위해 문제점을 자체진단하고 향후 BCP 등 효율적인 재해복구센터 인프라 구축을 위해 분산·산재된 서버와 이기종 솔루션들을 통합하는 시스템통합(SI)에 대해 전반적인 검토가 이뤄지고 있다.

김정상 금융결제원 e-Biz 본부 VAN운영팀 과장


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.