과학기술정보통신부는 SK C&C, 판교 데이터센터 화재 및 카카오, 네이버 등 부가통신서비스 장애에 대한 조사 결과를 발표하고, SK C&C, 카카오, 네이버 3사의 개선 조치 또는 향후 조치계획 수립 관련 시정 요구를 했다고 발표했다.

지난 10월 15일 15시 19분경 SK C&C 판교 데이터센터 지하 3층 배터리실에 화재가 발생하여 소방당국 확인 시간 기준 당일 23시 45분 완전 진화되었으나, 화재 진압 시 건물 전력 차단 등 사유로 카카오, 네이버 등 입주기업 서비스에 장애가 발생하였다.

정부는 사고 직후 방송통신재난 대책본부를 구성하여 총 15회 점검회의를 통해 신속한 장애 복구를 독려하고 원인을 조사하였으며, 분석 결과에 따라 SK C&C, 카카오, 네이버 3사에 대해 책임 있는 시정 및 대책 마련 등 후속 조치를 시행하도록 할 계획이다.

이종호 과학기술정보통신부 장관은 12월 6일 브리핑에서 “이번 사고를 통해 데이터센터, 부가통신서비스 등 디지털서비스 역시 디지털 대전환 시대의 핵심 인프라로서 중요성이 높으나, 그간 디지털 서비스의 재난대비 측면에서는 미흡한 점이 있었음을 확인할 수 있었다”며 

이종호 과학기술정보통신부 장관이 12월 6일 디지털서비스 장애원인 조사 결과 발표와 대책 요구에 관해 발표하고 있다. [사진 과학기술정보통신부]
이종호 과학기술정보통신부 장관이 12월 6일 디지털서비스 장애원인 조사 결과 발표와 대책 요구에 관해 발표하고 있다. [사진 과학기술정보통신부]

“원인 조사·분석 결과를 바탕으로 유사 사고의 신속한 예방 및 재발 방지를 위해 SK C&C, 카카오, 네이버 3사에 대해 단기 조치 사항은 각 사가 선제적으로 조치하도록 하고, 중장기적으로 조치가 필요하거나 구체적 방안 마련이 필요한 사항은 향후 조치계획 등을 1개월 내에 보고하도록 할 예정”이라고 말했다.

아울러, 방송통신위원회 역시 카카오 등에 대해 피해접수 전담 창구 개설 등 실질적인 피해 구제의 방안을 수립·이행토록 하였으며, 향후 통신장애 시 실효성 있는 이용자 고지와 피해 규제를 위한 법령 등 개선방안을 마련할 계획이라고 덧붙였다.

사고 조사·분석 결과에 대해 이종호 장관은 “SK C&C 판교 데이터센터의 경우 배터리 모니터링 시스템을 갖추고 있었으나, 화재 발생 직전까지 화재와 관련된 특이 징후가 나타나지 않았던 것으로 파악되었다. 화재 발생 후 가스 소화 장비가 작동하였으나, 가스 소화가 어려운 리튬이온 배터리의 특성상 초기 진압에 한계가 있었다”며 “리튬이온 배터리가 일부 UPS와 완벽히 분리되지 않은 공간에 배치되어 있어 화재 열기 등이 UPS에 영향을 준 것으로 추정되며, 해당 UPS 작동이 중지되면서 일부 전원 공급도 중단되었다”고 설명했다.

이어 배터리 상단에 포설되어 있던 전력선이 화재로 손상되었고, 살수 진압 시 누전 등 2차 피해 우려로 전체 전력을 차단하였다. 각 UPS 그룹이 정해진 서버에 이중화된 형태로 전원을 공급하는 체계였으나, 화재로 특정 공간의 UPS들에 동시에 장애가 발생하는 경우에는 그 UPS로부터 전력을 공급받는 서버들에 대한 전력 중단이 불가피한 구조였다면서 살수가 필요한 상황에서 2차 피해가 우려되는 특정 구역이나 차단 스위치를 단시간 내에 식별할 수 없어 선제적 차단 조치가 이루어지지 못한 측면도 있었다고 설명했다.

화재 대비 매뉴얼은 있었으나 살수 상황, 발화 구역 등 실제 화재 상황 수준까지 반영한 세부 대응계획 및 모의훈련은 없었다고 덧붙였다.

이 장관은 “카카오는 서비스 기능을 5개의 레이어로 구분하고 판교 데이터센터와 기타 센터 간 동작-대기 체계, 즉 Active-Standby 체계로 이중화했으나, 이번 사고 시 Standby 시스템이 제대로 동작하지 못한 것으로 나타났다. Standby 서버를 Active로 만들기 위한 권리관리 기능인 운영 및 관리도구가 타 데이터센터에 이중화되어 있지 않아 판교 데이터센터에 Active 서버가 작동 불능이 되자 서비스 장애 복구가 지연되었다”라면서 “다른 레이어에서도 일부 서비스 구성요소가 데이터센터 간 이중화되어 있지 않아 복구에 상당 시간이 소요되었다”고 말했다.

이어 “카카오 서비스 대부분의 핵심기능이 판교 데이터센터에 집중되어 있어 판교 데이터센터 사고 시 카카오 대부분 서비스가 즉각 영향을 받았으며, 여러 서비스의 구동에 필요한 카카오인증과 같은 핵심기능도 판교 센터에 집중되어 여러 서비스에 광범위한 영향을 미친 원인이 되었다”며 “카카오는 장애 탐지·전파·복구 전반에 걸쳐 기본 프로세스를 정의하고 있으나, 각 단계별 체계화 및 자동화가 미흡했던 것으로 파악되었다. 카카오의 재난 대비 훈련 등 조치는 일부 서버, 네트워크 등 오류에 대비한 수준으로 1개의 데이터센터 전체가 일시에 불능이 되는 대형 재난상황에 대해서는 대비가 부족하였다”고 밝혔다.

피해와 관련하여 이 장관은 “카카오는 10월 19일부터 11월 6일까지 10만 5,116건의 피해를 접수하였으며, 이 중 유료 서비스에 대한 피해는 1만 4,918건, 금전적 피해를 언급한 무료 서비스는 1만 3,198건인 것으로 집계되었다”고 말했다.

아울러 이 장관은 “네이버는 데이터센터 간 이중화 조치를 하여 서비스 전체가, 서비스 자체가 중단되지는 않았으나, 타 데이터센터로 서비스 전환 과정 등에서 상품리뷰 미노출, 일부 기사 댓글 이용불가 현상 등 일부 기능에 오류가 발생하였고, 주요 서비스·기능 대부분은 정상화에 약 20분에서 12시간 정도 소요되었다”고 밝혔다.

이에 따라 이 장관은 “SK C&C, 카카오, 네이버 3사에게 1개월 이내로 주요 원인에 대해 개선 조치하거나 향후 조치계획을 수립하여 방송통신재난 대책본부에 보고하도록 행정지도할 계획”이라고 밝혔다.

이 장관은 SK C&C에 대해 데이터센터 화재 예방 및 탐지 강화를 위한 사항으로 “현재 배터리 모니터링 시스템 외에도 다양한 화재감지 시스템 구축을 검토하고, 배터리 모니터링 시스템 계측정보 등 관리 강화 방안을 수립하고, 리튬이온 배터리 화재 시 필요한 소화설비 등의 구축계획을 수립하거나 대안을 제시토록 하였다”고 밝혔다.

데이터센터 전력공급 생존성 및 대응체계 확보를 위해서 “배터리와 기타 전기설비 간 물리적 공간을 분리하고 배터리실 내에 위치한 전력선을 재배치하여 구조적 안정성을 확보하거나 대안 조치를 강구토록 하였고, 화재 등 재난 발생 구역의 전력을 개별 차단할 수 있는 방안을 마련하고, 화재 등 재난 시 재난 현장에 직접 진입하지 않고도 해당 구역의 전력 차단 등 조치를 할 수 있도록 다양한 방안을 수립하고, 현실적인 재난대응 시나리오 개발 및 세부 훈련 계획을 수립토록 하였다”고 밝혔다.

이 장관은 카카오에 대해 서비스 다중화 수준 강화를 위해 “금번 카카오 서비스 장애 복구 지연의 핵심 원인인 운영 및 관리도구를 데이터센터 간 매우 높은 수준으로 다중화하고, 핵심 기능에 대해서는 우선순위, 중요도 등을 고려하여 현재보다 높은 수준의 분산 및 다중화를 적용할 수 있는 방안을 수립토록 하였다”고 밝혔다.

재난 대비 훈련 등 조치 강화를 위해서는 “데이터센터 전소, 네트워크 마비 등 최악의 상황을 대비한 모의훈련 계획을 수립하고 모의훈련을 실시하여 보고하고, 신속한 장애 복구를 위해 서비스별 복구 목표 설정, 상시 대응조직 구성, 장애 시나리오별 복구 방안 등을 수립하며, 장애 탐지-전파-복구 전 단계의 복구체계를 재점검하여 자동화 기능 요소 발굴 등 개선방안을 수립토록 하였다”고 설명했다.

이용자 고지 및 피해 구제를 위해 이 장관은 “서비스 장애 발생 시 다양한 방식으로 신속하게 이용자에게 고지할 수 있는 체계를 구축하고, 이번 장애와 관련된 국민 피해를 구제하기 위한 원칙과 기준을 설정하고, 보상 계획을 수립토록 하였다”고 설명했다.

이어 이 장관은 “네이버에 대해 보다 철저한 장애 예방과 신속 복구를 위해 서비스별 복구 목표, 장애 시나리오별 복구 방안 등을 재점검하여 개선방안을 마련하고, 최악의 상황을 가정한 모의훈련을 실시하여 보고토록 하였다”고 밝혔다.

또한 “데이터센터와 디지털서비스의 장애가 국민 일상의 불편을 넘어 경제·사회 전반을 마비시키는 등 지대한 영향을 끼치는 만큼, 이번 사고에 원인을 제공한 사업자들은 이를 엄중히 인식하고 피해 복구 및 재발 예방에 최선의 노력을 다함으로써 디지털 서비스에 대한 국민 신뢰를 다시 한번 회복할 수 있기를 바란다”고 강조했다.

마지막으로 이 장관은 “정부는 이번 사고를 계기로 주요 디지털서비스에 대한 재난대응체계를 원점에서 재검토하고 각 사업자별 개선방안, 점검결과, 제도개선 등을 종합하여 디지털 시대에 맞는 안정성 강화방안을 마련하여 끊김없는 디지털서비스를 제공할 수 있는 확고한 디지털 위기관리 체계를 구축해 나가겠다”고 밝혔다.