정부, 행정망 먹통 원인은 ‘라우터 포트’ 불량 결론
상태바
정부, 행정망 먹통 원인은 ‘라우터 포트’ 불량 결론
  • 강석오 기자
  • 승인 2023.11.26 10:56
  • 댓글 0
이 기사를 공유합니다

다양한 시나리오 검증으로 네트워크 영역 접속지연과 이상 확인
소프트웨어 아닌 물리적인 라우터 포트 손상이 원인
행안부, 재발방지 종합대책 수립 추진

[데이터넷] 정부는 지난 17일 발생한 행정전산망 먹통 원인이 라우터 불량 때문으로, 해킹 징후는 발견하지 못했다고 공식 발표했다.

지방행정전산서비스 개편 태스크포스(TF) 고기동(행안부 차관)과 송상효(숭실대 교수) 공동 팀장은 지방행정전산서비스 장애 원인 및 향후 대책 브리핑에서 이같이 밝혔다.

지방행정전산서비스 개편 TF는 LG CNS, 네이버클라우드, 소울시스템즈 등 외부전문가 16명과 국가정보자원관리원 통신·운영·보안 부서의 소속인력 13명 등 29명으로 원인분석반을 구성해 조사에 착수했다.

송상효 숭실대 교수는 이번 장애의 중요성과 관련 시스템의 복잡성으로 인해 종합 검토가 필요했고, 충분한 검증을 통해 신중하게 결과를 설명하기 위해 원인분석 결과 발표에 시간이 오래 걸렸고, 장애 당시 남겨진 로그를 분석한 결과 장애 원인이 네트워크 영역에서 발생했을 확률이 높은 것으로 추정했다.

송 교수는 “비정상 상태가 통합검증서버의 네트워크 세션에서 확인되고, 네트워크 장비 중의 하나인 L4 장비 OS 업데이트가 전일 있었으며, L4 장비에서 비정상 상태로 전환되는 로그가 다수 반복되는 것이 확인됐기 때문이다”며 “네트워크 영역에서 문제가 발생했더라도 앞뒤로 연결된 장비나 시스템이 영향을 미쳤을 수 있어 네트워크 장비뿐 아니라 서버 로그까지 분석 대상에 포함시켜 검토와 테스트를 진행했다”고 설명했다.

해킹 가능성도 열어놓고 외부에서의 공격, 내부에 심어놓은 스파이웨어 등 다양한 상황을 가정하여 보안당국과 함께 확인했다. 최근 해외에서 나라장터 시스템에 집중 접속해 일시적인 과부하로 인한 일부 장애가 발생, 이후 보안당국과 전체 시스템에 대해 점검을 실시한 결과 해킹 징후가 보이지 않았다고 밝혔다.

T/F는 네트워크 장비의 성능 점검을 위해 구간을 나눠 반복적인 부하 테스트를 진행했고, 장애 및 접속지연이 발생한 영역을 확인하며 장애 유발의 원인을 좁혀나가는 방식을 사용했다.

이러한 분석을 반복 수행한 결과, 네트워크 장비인 라우터에서 패킷을 전송할 때 용량이 큰 패킷이 유실되는 현상을 관찰하게 됐다. 특히 1500바이트 이상의 패킷은 90%가 유실됐고, 원인은 케이블이 꽂히는 라우터 모듈의 일부 포트가 이상이 있었기 때문으로 파악됐다.

패킷이 유실됨에 따라 통합검증서버는 라우터로부터 서비스 제공에 필요한 패킷을 정상적으로 수신할 수 없었고, 지연이 중첩돼 작업을 정상적으로 수행할 수 없는 상황에 이르게 됐다는 설명이다. 이는 로그에서도 확인할 수 있었다고 부연했다.

국가정보자원관리원은 11월 18일 4시에 정상 작동하지 않았던 L4 장비를 고성능 장비로 교체하고, 교체 상태에서 기능 및 부하 테스트를 통해 안정성을 점검한 후 정부24 서비스를 오전 9시에 재개했다. 그러나 트래픽이 많지 않은 주말이라 서비스는 정상 작동했지만 일부 기능에 지연 현상이 있었다.

지연이 발생한 기능들은 주로 광주센터에 위치한 여러 시스템과 연계된 것임을 확인했고, 대전센터의 라우터 중 광주센터와 연결된 부분을 상세히 분석한 결과, 해당 포트의 불량이 발견돼 19일 오전 7시에 다른 포트로 연결을 전환함으로써 해당 지연 현상을 해소할 수 있었다.

불량 이외의 다른 오류 가능성도 배제할 수 없어 서버에 발생한 로그를 분석하고 다양한 네트워크 구간에 장비의 이상을 검증하는 테스트도 실시됐다.

통합인증서버가 존재하는 존(zone)에 함께 운영되는 서버는 물리서버 150여 대, 소프트웨어는 각각 웹서버 19식, WAS 50식, DBMS 56식이 있었다. 특히 통합인증서버는 다수의 장비와 연계돼 서비스되고 있는 상황이라 검증 대상이 많았다.

통합인증서버가 경유하는 네트워크 장비의 경우 같은 존 내에서만 라우터 2대 및 L4 스위치 4대, 국가정보통신망 영역에 라우터 8대가 있었다. 이 구간에서 이상 유무를 확인하기 위해 각 장비에서 발생 장애 시점을 로그 수집해 분석이 이뤄졌다.

장애 및 접속지연 발생 영역을 확인하며 장애 유발 원인을 좁혀나가는 일을 네트워크 부하 테스트의 경우 3차에 걸쳐 총 8회, 1차 4회, 2차 2회, 3차 2회 수행됐다.

원인분석을 위해 수행한 부하 테스트는 통합인증서버로의 트래픽 유입량을 변경하는 경우, L4를 경유하지 않는 경우, 패킷 크기를 변경하는 경우, 서비스 사용자 수를 500명 또는 1500명 등으로 다양하게 변경하는 경우, L4 장비를 경유하는 네트워크 대역 폭을 변경하는 등의 다양한 시나리오에서 네트워크 영역에서의 접속지연 및 이상 유무를 확인했다.

송 교수는 “확인 과정을 통해 라우터 불량 이외에는 다른 이상 현상은 발견하지 못했고, 결과에 대한 신뢰를 높이기 위해서 명확한 검증 과정이 필요해 상당한 시간이 소요됐다”며 “결과에 대한 재확신을 가지기 위해 당초 원인으로 지목됐던 L4 및 라우터를 이용해 장애 당시와 유사한 환경을 구현해 반복적으로 원인한 재현 가능성을 확인하는 작업을 수행한 결과, 검증 환경에서도 동일하게 라우터의 패킷 유실, 즉 장애를 유발할 수 있는 현상이 재현돼 장애 원인이 재입증됐다는 판단에 따라 결과를 발표하게 됐다”고 전했다.

장애 유발 원인으로 지목된 시스코 라우터는 2016년에 도입돼 아직 사용기한이 만료되지 않았다. 따라서 노후가 고장의 원인이라고 단정하기는 무리가 있고, 물리적인 부품 손상이기에 원인을 밝혀내기는 어렵다는 입장이다. 유지보수는 대신정보통신이 수행하고 있는 것으로 알려졌다.

네트워크 장비의 포트 불량은 가끔식 발생하는 문제지만 전체 트랜지션 레벨에서 어떤 서비스와 연관이 돼 있느냐가 중요하다. 이번 행정망 장애를 야기한 해당 포트는 전체 서비스에 영향을 미치는 역할을 해 파급도가 더욱 컸다는 것이다.

이재용 국가정보자원관리원장은 “평소 장비들의 육안 점검과 시스템을 통해 모니터링하고 있지만 내부 부품 같은 경우 예상하지 못한 고장 발생을 미리 잡아내긴 어렵다”며 “제조사들과 협의해 보다 더 선제적으로 발견하고 모니터링할 수 있는 체계를 만들도록 할 것”이라고 밝혔다.

고기동 행정안전부 차관은 재발방지 종합대책 마련을 위해 유사한 포트 불량이 있을 수 있는 노후 장비들에 대해 전수점검에 착수했고, 장애 발생 시 처리 매뉴얼 보완에 나섰다고 전했다. 또한 다양한 수단을 활용해 장애로 인한 서비스 복구 상황을 신속히 알려 국민 불편을 최소화하고, 전산장애 발생 시 신속한 복구조치가 가능한 체계를 마련한다는 계획이다.

고 차관은 “장애조치 시간 단축을 위해 장애 징후를 빨리 포착할 수 있도록 중요 서비스 시스템과 연관 장비들에 대한 통합 모니터링 체계를 구축하고, 상설 장애대응반을 구성해 중요 장애에 투입함으로써 조기에 문제를 해결할 수 있도록 하겠다. 이런 부분은 장애조치 매뉴얼에 더욱 보완하겠다”고 전했다.

이어 고 차관은 “핵심 디지털정부 서비스가 중단되는 상황에서도 행정서비스가 제공될 수 있도록 행정조치 방안을 마련하고 대응 매뉴얼을 수립할 계획이다”며 “이를 반영해 국가전산망 마비를 재난 및 사고 유형으로 명시해 예방부터 복구까지 체계적으로 관리할 것”이라고 덧붙였다.

디지털정부를 안정적 운영하기 위해 중장기적 제도개선도 추진된다. 범정부 디지털정부 위기대응체계를 확립해 개별 정보시스템의 장애 복구를 넘어 다수 정보시스템이 연계된 디지털정부 환경에 걸맞는 위기대응체계를 구축하고, 이를 총괄하는 범정부 장애 예방 대응 컨트롤타워를 보다 강화한다는 계획이다.

뿐만 아니라 공공정보화사업 추진방식을 개선하고 투자계획을 마련하고, 안정적인 디지털정부 구축·운영을 위한 역량을 높여나갈 계획이다. 국가정보자원관리원의 운영방식을 전면 재검토해 시스템 이중화, 재복구 시스템, 네트워크 구성 등의 기술 구조를 전면 검토하고, 조직 진단을 통해 조직 구성과 인사 운영 등 개선방안을 마련할 방침이다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.