일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 자바
- 테슬라폰
- 유선LAN
- 상속
- 1764
- 남궁성
- 프로토콜
- 개발바닥
- 백준 2775
- 논리구성도
- modifiers
- 파이썬
- 백준 1712
- l3 스위치
- java
- 네트워크
- 자바의 정석
- network
- 인프콘
- 인터페이스
- 데이터 송수신
- TCP/IP
- 파이썬 1712
- 계층화
- 다형성
- 물리구성도
- 10866
- 역캡슐화
- AWS CLF
- aws 자격증
- Today
- Total
병훈's Blog
1015 카카오 데이터센터 장애원인 분석 / if(kakao)2022 본문
https://www.youtube.com/watch?v=v4hRiooY7Dw&t=6s
장애원인
2022년 10월 15일 오후 3시 19분 경
카카오가 이용 중인 SK C&C 판교 데이터 센터에서 화재가 발생했습니다.
이는 곧 카카오 서비스 전반의 장애로 이어졌죠.
서비스를 담당하는 서버가 이중화되어 있었음에도 불구하고 서비스 장애가 발생했고
카카오톡 메시지 수발신 등 주요 기능은 먼저 복구되었지만
10월 20일 오후 11시 모든 서비스가 복구 완료되기까지 상당한 시일이 소요되었습니다.
이중화와 위기 대응 과정에 미흡함이 있었던 것으로 드러났습니다.
먼저, 이중화 관점에서의 미흡한 점들입니다.
1. 데이터센터 간 이중화가 미흡했습니다.
데이터센터 전체에 문제가 생기더라도 다른 데이터센터의 모든 시스템이
이중화되어 있었다면 빠르게 복구가 되었을 텐데
일부 시스템이 판교 데이터센터 내에서만 이중화되어 있어서 장애복구가 늦어졌습니다.
예를 들어, 서비스를 운영하는 많은 시스템에서 사용되고 있는
캐시 서버와 오브젝트 스토리지가 완벽하게 이중화되지 않고
판교 데이터센터에만 설치되어 있어 이를 사용하는 서비스의 복구가 늦어졌습니다.
카카오 로그인이나 카카오톡의 사진 전송 기능이 여기에 속합니다.
그리고 서로 다른 데이터센터에 이중화가 되어 있는 경우에도
하나의 데이터센터에서 장애가 발생하면
다른 데이터센터로 자동 전환해주는 시스템이 작동해야 하는데
이 시스템 마저 판교 데이터센터에만 설치되어 있었습니다.
이에 따라 수동으로 전환 작업을 진행했기 때문에 복구가 지연되었습니다.
2. 사용자 서비스에 직접적으로 필요한 시스템 외에
서비스의 개발과 관리를 위한 운영 관리 도구가 필요한데
이러한 도구들의 이중화가 미흡했습니다.
상대적으로 이러한 도구들의 안정성 확보에 소홀했습니다.
예를 들어, 컨테이너 이미지를 저장하고 관리하는 시스템이나 일부 모니터링 도구 등을
화재 여파로 사용할 수 없게 되어 복구에 상당한 어려움을 겪었습니다.
3. 이중화 전환 후 가용 자원이 부족했습니다.
판교 데이터센터 전체를 대신할 만큼의 가용 자원이 확보되어 있지 않았기 때문에
판교 데이터센터에 전원이 들어와서 모든 시스템이 정상화되기 전까지 복구를 완료할 수 없었습니다.
전체 시스템의 이중화 수준은 가장 약한 시스템의 이중화 수준을 따라가기 때문에
개발 시스템의 미흡한 이중화가 전체적인 장애를 유발한 것입니다.
개별 부서나 시스템마다 다른 이중화 수준 및 체계
부족한 상면 등으로 문제가 생기지 않도록
회사 차원에서 체계적인 이중화를 준비했어야 합니다.
회사의 위기 대응 관점에서 봤을 때도
장애를 빠르게 해결하지 못한 원인을 찾을 수 있었습니다.
1. 장애 복구를 위한 인력과 자원이 부족했습니다.
운영관리 도구의 복구 인력이 부족했던 것이나
이중화에 필요한 상면의 부족은 치명적이었습니다.
평소 이중화나 장애 대응 체계를 갖추고 있었더라도
이번 서비스 장애와 같이 데이터센터 전체의 장애 상황을 가정하면, 준비가 부족했습니다.
2. 장애 대응을 위한 커뮤니케이션 채널에 혼선이 있었습니다.
카카오는 사내 커뮤니케이션과 모니터링 채널로 카카오톡과 카카오 워크를 사용하고 있습니다.
해당 채널을 쓸 수 없을 때, 중요 사항 전파 및 의사결정을 위한 커뮤니케이션 채널이 준비되어 있고
일상적으로 사용되고 있었어야 합니다.
3. 재해 초기의 컨트롤 차워 부재
카카오와 공동체, 그리고 개별 조직이 동시다발적으로 장애에 대응했습니다.
그런데, 전체적인 조율과 협업을 지원하는 전사 조직이 사전에 준비되어 있지 않았고
서비스별로 개발자들이 최선을 다했지만, 그것만으로 부족했습니다.
결론
데이터센터 간 이중화가 미흡했습니다.
시스템을 복구하기 위한 운영 도구 및 모니터링 시스템의 이중화가 미흡했습니다.
하나의 데이터센터 전체의 장애에 대응하기 위한 인력과 자원이 충분하지 않았습니다.
'잡다한 콘텐츠' 카테고리의 다른 글
알고리즘 문제풀이/코딩 테스트가 막막한 분이 있다면 (0) | 2022.12.23 |
---|---|
서울대 컴공이 말하는 알고리즘을 공부해야하는 이유 (0) | 2022.12.23 |
탁월한 30대를 위해 20대에 해야 할 것 (0) | 2022.12.23 |
"82년생부터"…규모, 업종 가리지 않고 희망퇴직 칼바람 / SBS (0) | 2022.12.15 |
테슬라는 못 이길 것 같았나...애플카 부분 자율주행으로 출시 (0) | 2022.12.14 |