카카오 데이터 센터 화재 원인과 현재 상황, 후속 보상안 논의 *네이버는 왜 멀쩡했을까?
본문 바로가기
경제·사회 & 생활 이야기/경제와 사회

카카오 데이터 센터 화재 원인과 현재 상황, 후속 보상안 논의 *네이버는 왜 멀쩡했을까?

by 학식과 구내식당 사이 2022. 10. 19.
반응형

 

 

 


22.10.15. 15:12분경 카카오톡 메시지 전송 오류가 생겼고, 차례로 계열사 관련한 모든 카카오 서비스가 먹통
*카카오뱅크는 LG CNS 데이터센터를 이용해 예외적으로 이용 가능했음

 

 

 발생한 지 하루가 지났을 때부터 기본적인 메시지 수신과 발신이 가능했고, 이틀이 지났을 때 사진 동영상 접속을 비롯한 주요 기능이 복구되기 시작됐고, 21:30이 됐을 때 주요 서비스는 정상화가 됐다.

 현재 대부분 주요 기능은 복구. 일부 서비스는 복구 진행 중 *티스토리 검색 및 기타 기능

 

 

 


 

 

 

카카오 화재 원인

 


 원인은 판교에 SK C&C 클라우드 데이터 센터에 화재가 발생했기 때문. (A동 지하 3층 전기실) 다행히 서버가 모여있는 전산실까지 불이 번지지 않았으나, 화재 진압을 위해 전원 공급을 차단하고 이 때문에 서비스가 먹통이 됐다. 

*소방당국의 1차 조사 결과는 전기실 내 서버 셧다운을 방지하기 위한 장비인 UPS에서 발화가 됐고, 랙 주변의 전기적인 요인으로 화재가 발생한 것으로 보고 있다. 

 

 이 때문에 카카오뿐만 아니라 네이버, 멜론, 티스토리, SK, 다음 등 일부 서비스도 문제가 발생했다.

 

 


 

 

이번 카카오 데이터 센터 화재의 문제점(사용자들의 불편함과 회사로서의 신뢰성)

 

 

 

1) 사용자들의 불편함

▲ 카카오의 주요 메신저 기능이 마비된 건 불편하지만, 라인, 메타, 인스타그램 DM 등으로 대체할 수 있는 플랫폼이 있었다. 다만 카카오 메신저로 문의를 받거나 일을 하던 사람들에겐 큰 이슈였다.

 하지만 진짜 문제는 메신저 외 카카오T, 카카오페이지, 멜론, 브런치, 티스토리, 카카오뱅크 등에 서비스다. 카카오뱅크의 경우 주요 서버는 다른 데이터센터에 있었기에 초반에 오류를 제외하면 금방 복구가 됐는데, 그 외 서비스는 정상화되는데 거의 하루 이틀이 걸렸다.

 

*카카오T의 경우 공유 자전거나, 킥보드를 이용하는 사람들은 결제가 되지 않아 과잉 요금 상태였고 택시 기사님들도 콜을 받기가 어려운 상황이 되어 영업에 지장이 생겼다. 카카오T를 이용한 주차는 출차가 되지 않았고 버스나 지하철 맵 이용도 어려웠다.

*멜론과 카카오페이지는 콘텐츠 이용이 불가했고, 다음은 포털 및 검색과 메일 불가했다. 

 


 


 개인적으로 더 큰 불편함은 카카오로 간편 로그인으로 이용하던 다른 서비스의 경우 로그인 자체가 불가했다는 점이다. 대표적으로 업비트가 있는데, 이미 로그인이 돼있던 사람은 상관없지만, 재로그인을 하려던 사용자들은 로그인이 안됐고 가상화폐를 거래할 수도 없었다.

 브런치와 티스토리를 이용하던 사람은 글을 쓸 수가 없었고, 나 같은 잔잔바리에겐 타격이 적지만, 블로그를 정말 업으로 하시는 분들에게 3일의 손실은 컸을 것이다.

 

 


 

 

2) 회사로서의 신뢰성

▲ 카카오는 이미 문어발식 상장으로 여론이 좋지 않은 상황이다. 모회사의 가치가 떨어져 주주들은 탐탁지 않았던 상황에서 대주주들이 주식을 팔거나, 지나친 골목상권 침해 등 카카오게임즈의 운영 문제와 문제 회피 등 크고 작은 문제들이 있었다.

 그러던 와중 데이터 센터로 카카오의 독점 문제와 그럼에도 이에 대한 대처 부실이 큰 화두가 되고 있다.

 작은 회사의 경우 자체 서버실을 두고 운영을 하지만 카카오 같은 대형 IT업계에서는 몇 천억을 들이는 것보다 필요한 만큼 대여를 데이터 센터를 대여하는 것이 더 싸기 때문에 네이버와 달리 카카오는 SK C&C에 메인 서버를 뒀던 것이다.

 물론 네이버를 비롯한 아마존 등에 큰 회사들도 자기 데이터 센터가 있고, 서브 데이터 센터에 위탁 운용을 한다. 마치 사람들이 은행이나 펀드 매니저에게 돈을 맡기는 것처럼 말이다. 이 때문에 데이터 센터 위탁 운영 자체보다는 서버 분산과 후속 조치 관련한 문제가 크다.

 

 




 카카오는 판교 SK C&C 데이터 센터에 3만 2천 여대의 서버가 있으며, 메인 데이터 센터로 삼았기에 문제가 된 것이라고 한다. 네이버의 경우 메인 서비스 서버가 춘천에 있는 자체 데이터 센터에 있고, 일부 서비스만 판교에 있었기에 이번 사태에 대해 피해도 적고 복구도 빠를 수가 있었다.

 

 

 

여기엔 3가지 문제가 있다.


1) 주요 서비스를 이중화하지 않고, 한곳에 집중시킨 점 

*특정 데이터 센터에 대한 의존도가 큼
*물론 내년 준공을 목표로 짓고 있는 게 있긴 함


2) 비상대응체계의 허술함 *미러사이트 X(정보를 그대로 복사해 관리하는데 이는 막대한 데이터 유지 비용이 있기 때문에 없을 수 있음), 핫 사이트 X(비상 상황을 대비한 백업 사이트)

3) 안전을 위해 전원 공급을 차단하여 복구가 길어진다고 했는데, 안전장치가 있기 때문에 전원을 차단한 뒤, 공급을 시작하면 복구가 신속한 편이라고 함 *그러나 복구가 길어졌고 도중에 서버를 제주로 옮겨서 진행하였기에, 제대로 관리가 됐는지에 대한 지적

 여기서 핫사이트만 제대로 관리가 됐더라도, 주요 서비스가 18시간 동안 먹통이 되진 않았을 것이라는 점이다. 즉, 대형 IT회사에 대한 후속 대처가 좋지 않았다는 점. 화재라는 게 낮은 확률이다 하더라도, 이외 여러 상황에서 서버가 다운될 수 있는 상황에 대한 대처 능력이 부족했다고 볼 수 있다.

 

++ 22.10.19. 서비스의 주요 데이터와 서비스 응용프로그램에 대한 이중화 조치는 돼 있었으나 개발자들의 주요 작업 및 운영도구가 이중화되지 못해, 서비스 복구 지연이 오래 걸렸다는게 카카오의 입장

 

++현재 4군데 데이터 센터 중 판교는 메인 센터라 피해가 컸으며, 백업 시스템을 갖추고 있는 상황인데 이중화도 마무리 짓겠다고 했음

 

 

+ 데이터 센터에 대한 문제점

 데이터 센터 내 전기 공급선이 하나로 연결돼 있어 특정 장소에 대한 전기 공급 중단만으로는 누전 위험 등을 막을 수 없었다는 것이 문제다. 발화가 발생한 곳에 전기 공급을 중단해도, 공급선이 하나라 내리면 전체가 셧다운된다.

 

 또한, 이번 화재는 11개의 배터리팩이 장착된 선반 5배가 한 세트인데, 1개의 배터리팩에서 발화가 된 뒤, 한 세트가 다 타버렸다. 스파크가 발생한 점이 핵심인데, 어떤 문제라고 단정지을 수는 없으나 여러 의견이 제시되고 있다.

 

1) 배터리를 충전할 때 리튬 이온이 음극으로 이동하며 흑연의 층간으로 들어가는데(=intercalation) 급속 충전 시 층간으로 들어가지 못하고 밖에 쌓이는 현상이 일이 발생하고, 이때 만들어진 덴드라이트가 분리막을 손상시킬 수 있다. *홍승태 대구경북과학기술원(DGIST) 에너지공학전공 교수

 분리막은 양극재와 음극재를 분리하는데, 분리막이 손상되면 양극재와 음극재가 만나 합선이 일어날 수 있다. 물리적으로 손상되도 분리막이 손상돼 스파크가 일어날 수 있다.

2) 또한, 먼지나 분진 등이 배터리 단자 주변에 쌓이고, 습기와 결합하며 전도성을 가지게 돼 문제가 발생했을 수도 있다.

즉, 리튬이온 배터리는 여러 가지 이유가 있는데, 정확한 원인 분석엔 시간이 걸린다.


 

 


 

카카오와 SK C&C의 손해보상 논의

 

 서비스가 복구가 완전히 이루어진다고 하더라도, 유료 서비스를 이용하는 등 이번 먹통으로 인해 손해가 있을 것이고, 이에 대한 보상안과 대책방안이 필요할 것이다. 이 때문에 보상안 논의가 우선적으로 이루어질 것이다.

 

▲ 카카오의 후속 대처가 독점, 대형 IT기업임에도 부실했던 것은 사실이나 원론적으로, 그리고 1차적으로 카카오와 SK C&C 사이에선 데이터 센터를 관리하는 SK C&C의 잘못이기 때문에(*카카오 외 피해를 본 업체들한테도 보상해야 함) 손해배상에 대한 논의가 이루어질 것이다.

 이번 손해배상 문제로 매출에 영향은 없을 거라고 하지만, 당분간 국회에도 불려 나갈 것이고 독점에 대한 문제와 후속 조치 등으로 카카오 주가 하락은 거의 정해진 수순이다. 아침에만 6~7% 급락


 

22.10.19.
- 카카오 대표는 이번 사태를 수습한 후에 대표직에서 물러나기로 했다.
- 유료 이용자 외 무료 이용자들에 대한 보상안도 논의

 

+ 이번 문제로 데이터 관리에 대한 문제가 지적되고 있는 상황에 대전에 있는 국가정보자원관리원에 정부 디지털 정보가 담긴 서버 1만 대에 관리 부실이 지적된 상황

 

+ 이중화, 삼중화, 사중화까지 돼있으나 문제는 백업 서버가 같은 건물 다른 층인게 문제

 

+ SK C&C처럼 건물 전체 전력이 나가면, 같은 건물이기 때문에 이중화 삼중화 작업한게 무쓸모

 

 

source : sbs

 

반응형

댓글