지난 25일 전국적 통신 대란을 불러온 KT의 네트워크 장애는 KT의 안이함이 겹치고 겹쳐 발생한 사고로 드러났다.
과학기술정보통신부는 29일 오후 전문가로 구성된 민관합동 사고조사반의 조사 결과를 발표했다. 조사 결과에 따르면 현장 작업자의 사소한 ‘실수’가 전국의 통신망을 마비시키는 ‘재난’이 될 때까지, 최소 3번의 과실이 있었다. 다시 말해, 재난을 막을 수 있었던 3번의 기회가 있었지만 이를 모두 놓쳤다는 의미다.
➀야간작업 주간에 하다 ‘exit’ 누락
사고의 직접 원인은 외주업체 직원의 실수였다. 외주업체 직원이 교체 장비의 ‘라우팅’(네트워크 경로 설정)을 하다가 정보를 입력하는 과정에서 들어가야 할 명령어 중 ‘엑시트’(exit)라는 한 단어를 빠뜨린 것이다. 이 때문에 통상 BGP(외부 라우터와 경로 정보를 주고받는 프로토콜)에 들어가야 할 경로 정보가 IS-IS(내부 라우터 간 경로 정보를 주고받는 프로토콜)로 한 번에 몰리면서 오류가 발생했다.
통상 1만 건 내외 정보를 교환하는 IS-IS 프로토콜에 그 수십 배 규모인 BGP 정보가 엉뚱하게 전송된 결과 라우팅 경로에 오류가 발생한 것이다. 전체 스크립트(명령글)에 오류가 있는지를 확인하는 사전검증 단계가 두 차례나 있었지만, 여기서도 해당 오류가 걸러지지 않았다.
‘주간에 해야 하는 작업을 왜 야간에 했는지’에 대해 KT가 내놓은 해명은 이번 사태가 그간 누적된 안이한 태도에서 발생했음을 보여준다. 홍진배 과기정통부 정보보호네트워크정책관은 규정을 어기고 주간 작업을 진행한 이유에 대해 “협력업체 직원들과 KT 관리자에게 직접 확인한 결과, ‘야간작업을 좋아하는 사람은 없기 때문에 주간작업을 선호한 것’으로 진술했다”고 말했다.
➁사고 시각, 현장에 없던 KT 직원
➂‘실수’가 ‘재난’이 되는 것을 방지하는 시스템 부재
허성욱 과기정통부 네트워크정책실장은 “네트워크 작업을 야간에 하거나, 이런 작업을 미리 테스트하는 등의 규칙은 10여년 전부터 있었던 기본 상식”이라며 “관리자 없이 협력업체가, 그것도 주간에 이런 사고가 나왔다는 게 파란 불에 신호를 건너지 않아서 교통사고가 난 것과 같이 생각조차 못 했던 사고라 저희도 당황스러운 건 사실이다”고 말했다.