안녕하세요, 저는 데브시스터즈 기술본부 인프라셀에서 DevOps 엔지니어로 일하고 있는 이창원입니다. 이 글에서는 데브시스터즈에서 전사적으로 적용하고 있는 기술적 관점에서의 장애 대응 원칙과 방법 전문을 공개합니다.
문서에 대한 설명은 데브시스터즈 엔지니어링데이 Infra/SRE 세션에서 소개해드릴 예정입니다. 추후 영상 업로드를 기다려 주세요!
개요
이 문서는 우리가 운영하는 각종 서비스의 장애에 대한 탐지, 대응, 예방을 위해 가져야 할 자세와 방법론에 대해 서술합니다.
원칙
📌 이 원칙들은 구성원들이 상시 장애 상황을 모니터링하라는 의도에서 만들어진 것이 아니며, 꼭 필요한 순간에만 기민한 대응을 할 수 있도록 원칙과 방법을 설정한 것입니다.
📌