이 글과 관련된 다른 글 보기
- CockroachDB in Production - CockroachDB에 대한 소개와 킹덤에서 CockroachDB를 사용한 이유 설명
- 쿠키런: 킹덤 데이터베이스 스토리지 레이어 복원기 - 엔지니어 관점 기록한 개괄적인 장애 대응 과정과 회고
- CTO가 커리어를 걸고 비트 레벨까지 내려가서 DB를 해킹했던 이야기 - CockroachDB의 소스코드를 참고하며 바이너리 파일로부터 데이터를 복구한 이야기
- 입사 첫날에 36시간 점검 경험하기 - 신규입사자의 관점에서 서술된 장애 대응 기록
- 쿠키런: 킹덤 AWS AZ 장애 아웃라인 - AWS AZ 장애로부터 서비스를 복구한 이야기
- 쿠키런: 킹덤 길드 업데이트 이후 서비스 이슈 되돌아보기 - 쿠키런: 킹덤에 길드 기능이 추가된 이후 발생한 서비스 이슈 회고
안녕하세요, 저는 데브시스터즈 서비스기술그룹 인프라셀에서 데브옵스 엔지니어로 일하고 있는 이창원입니다. 저희 팀은 데브시스터즈에서 제공하고 있는 모든 게임의 Ops와 기술적 결정에 깊게 관여하고 있습니다. 작년 저희 팀의 가장 큰 미션은 쿠키런: 킹덤을 런칭하고 안정적으로 운영하는 체계를 구축하는 것이었는데요. 당시 어떤 과정을 거쳐 쿠키런: 킹덤이 여러분께 전달되었지를 공유드리고, 이어지는 글들에서 엔지니어로서 특별히 기억에 남는 주요 사건들에 대해 전해드리고자 합니다.
이 글의 내용은 박새미님과 NDC22에서 공동 발표한 쿠키런: 킹덤, 총 56시간의 긴급 점검 회고 - 그때 그 명검은 왜 뽑아야 했는가 세션에서 다뤄진 바 있습니다. 다만, 아무래도 발표는 시간 제한을 고려해야 하는 사정이 있다보니 자세한 정보를 담지 못했다는 아쉬움이 남아 글의 형식으로 다시 한 번 풀게 되었습니다. 보다 생동감 있는 짧은(?) 버전으로 일련의 이야기를 접하고자 하는 분들은 발표 영상을 보시는 것을 권해드립니다.
