데이터 삼중화, CEO 직속 IT 엔지니어링 조직 신설. 서비스 안정화에 3배 투자.

카카오가 ‘카카오 먹통 사태’ 이후 54일만에 서비스 장애 원인을 상세하게 설명하고 이를 막기 위한 대책을 발표했다. 카카오는 다시 신뢰를 회복할 수 있을까. 카카오가 쓴 ‘서비스ㆍ기술 반성문’의 핵심을 짚어봤다.

무슨 일이야

남궁훈 전 카카오 대표(카카오 비상대책위원회 재발방지대책 공동 소위원장)는 7일 오전 카카오의 개발자 컨퍼런스 ‘이프 카카오 데브 2022’ 기조연설에서 카카오톡 먹통 사태에 대해 재차 사과했다. 그는 지난 10월 15일 서비스 장애가 발생한 지 나흘 만에 사태에 대한 책임을 지고 대표직을 사퇴, 재발방지대책을 마련하는 소위원회를 맡고 있다.

남궁 전 대표는 이날 “우리의 최우선 과제는 서비스를 안정적으로 제공하는 것이었는데, 카카오가 가장 중요한 본질을 놓쳤다는 걸 깨달았다”며 “‘카카오의 이중화’는 완성되지 않은 다리와도 같았다”고 말했다. 역대 최장 시간 서비스 장애(127시간 30분)의 배경에는 카카오의 인프라ㆍ이중화 부족이 있었다고 재차 인정했다.

카톡 먹통 재발방지, 어떻게?

이날 컨퍼런스에선 남궁 전 대표를 시작으로 이확영 원인조사 소위원장(그렙 CEO, 카카오 전 최고기술책임자), 이채영 재발방지대책 소위 부위원장(카카오 기술부문장), 고우찬 재발방지대책 공동 소위원장(카카오엔터프라이즈 부사장)이 연달아 나와 발표했다. ▶제3자가 객관적으로 규명한 사고 원인 ▶재발 방지 위한 기술 개선 사항 ▶미래 투자 혁신 계획에 대한 설명이 이어졌다. 일종의 반성문이자 향후 계획 발표문이었다.

① “이중화보다 더 센 삼중화”: 서비스 장애 이후 가장 큰 논란은 ‘카카오가 서버와 데이터 이중화를 제대로 했는지’ 여부였다. 이확영 소위원장은 “판교 데이터센터 내에서만 이중화가 돼있어서 복구가 느렸다”고 봤다. 이채영 부위원장은 “이중화 개념에 대한 적극적인 해석이 필요하다고 봤고 전체 시스템에서 철저한 이중화, 삼중화가 필요하다”고 말했다. 먹통 사태 이후 현재 카카오 데이터센터 간 이중화는 완료했으며 앞으로 ‘삼중화’를 준비하겠다는 것. 데이터센터 간 삼중화가 되면 데이터센터 중 한 곳이 재난 등으로 무력화 돼도 나머지 두 곳이 이중화 상태를 유지해 안정적으로 서비스를 할 수 있다. 데이터센터 화재 예방을 위한 ‘3중 진화 대책’도 나왔다. 고우찬 소위원장은 “2024년 경기도 안산에 완공되는 카카오 데이터센터는 화재가 나도 번지지 않게 3중으로 안전 시스템을 구축하겠다”고 강조했다.

② “CEO 직할 IT 기술 조직”: 카카오는 기술 인재도 대폭 영입할 계획이다. 이확영 소위원장은 “장애 복구를 위한 인력과 자원이 부족했다”며 “사내 커뮤니케이션과 모니터링 채널로 카카오톡과 카카오워크를 쓰고 있었는데 (장애로) 이 채널들을 쓸 수 없을 때도 중요한 사항을 전파하고 의사 결정 준비가 돼 있어야 했는데 그렇지 못했다”고 지적했다. 고우찬 소위원장은 “비상대응 계획(BCPㆍBusiness Continuity Plan) 등에 대해 외부 자문을 받으며 대규모 장애에 대비한 위원회를 신설할 것”이라고 밝혔다.

또 CEO 직할 IT 엔지니어링 전담 조직을 확대 편성하고 국내 최고 수준의 IT 엔지니어링 전문가를 적극 영입하겠다는 계획도 내놨다. 해당 조직은 고우찬 소위원장이 총괄한다. 이에 대해 남궁 소위원장은 “기존 개발자 조직과 별개로 별도의 상위 조직을 만들어 안정적인 서비스 환경을 조성하겠다는 것”이라고 강조했다.

③ 서비스 장애 예방 3배 투자: 카카오는 대규모 서비스 장애를 막기 위한 투자도 확대한다. 지난 5년 간 투자 규모의 3배를 향후 5년간 투자할 계획이다. 고우찬 소위원장은 “오늘 발표한 것을 시행하기 위해서는 연간 운영비만 몇백, 몇천억 원 정도 있어야 한다”고 설명했다. 그는 “관련 방안을 차근차근 실행해서 이번 서비스 장애로 받은 불편이 다시는 되풀이 되지 않게 하겠다”고 말했다.

이게 왜 중요해

카카오톡 출시(2010년) 13년째인 카카오는 최근 5년 간 카카오톡 기반의 수익화 사업에 역량을 집중했다. 그러다 이번 사고가 터지자 기업 전체가 흔들리는 위기를 맞았다. 사태 수습 계획을 내놓은 이날 발표의 의미는.

◦ 기술, 자랑보다 기본기 : 7일 열린 ‘이프 카카오’는 2018년부터 카카오가 매년 개최해온 컨퍼런스로 AI(인공지능), 모빌리티, 클라우드 등과 관련해 카카오가 가진 기술 역량을 업계에 과시해온 자리엿다. 그러나 올해는 컨퍼런스 첫날을 서비스 장애와 관련해 진상을 설명하고 사과하는 데 모두 할애했다. 최신 기술 과시보다 “서비스 안정을 위한 기술과 인프라를 확충하는 데 최선을 다하고 있다”는 메시지를 강조한다는 제스쳐를 취한 것.



◦ 데이터센터는 필수재 : 2024년 경기도 안산에 준공될 카카오 데이터센터는 기업의 기본기 강화의 핵심 퍼즐이다. 고우찬 소위원장은 “안산 데이터센터는 카카오의 안정적인 서비스 구현에 크게 기여할 것”이라며 “카카오의 IT 엔지니어링은 획기적으로 탈바꿈하게 될 것”이라고 강조했다. 이채영 부위원장은 “안산 외에 다른 곳에도 2024년에 데이터센터를 착공하는 것을 목표로 삼고 이에 대한 계획을 수립 중”이라고 밝혔다.

앞으로는

카카오는 피해보상 협의체를 구성해 서비스 장애로 피해를 입은 이용자들에 대한 보상 대책을 준비 중이다. 협의체는 매주 회의를 열어서비스 피해 사례 분석, 보상 기준 등을 마련하고 있다. 그러나 업계에서는 최종 보상안이 나오기까지 수개월이 걸릴 것으로 내다보고 있다. 2018년 11월 KT 아현국사에 화재가 발생했을 때도 피해자들에 대한 실질적인 보상이 이뤄지기까지 10개월 넘게 걸렸다.

현재 정부는 카카오의 폭넓은 보상을 압박하는 중이다. 전날인 6일 과학기술정보통신부와 방송통신위원회는 카카오에 대해 “국민 피해를 구제하기 위한 보상 계획을 수립해야 한다”고 권고한 바 있다.