비즈니스 심각도 정의를 통한 장애 대응 개선

큐레이터 서비스는 인플루언서가 SNS를 활용해 상품을 소개하고, 그 경로를 통해 발생한 구매 성과에 대해 수수료를 지급받는 무신사의 공식 어필리에이트 서비스입니다. 이 블로그 글에서는 인플루언서 커머스가 성장함에 따라 발생한 비즈니스 심각도를 정의하고, 이를 바탕으로 장애 대응 우선순위를 개선한 과정을 다룹니다. 특히 '이 장애, 얼마나 심각한가요?'라는 질문을 해결하기 위한 체계적인 접근 방식에 대해 알아보겠습니다.

비즈니스 심각도를 정의하며 장애 대응의 중요성

큐레이터 서비스는 인플루언서가 자신의 콘텐츠를 통해 상품을 추천하고, 그로 인해 발생하는 수익을 통해 수수료를 받는 매우 중요한 비즈니스 모델입니다. 서비스의 비즈니스적 중요도가 커짐에 따라, 장애 대응의 우선순위를 명확히 정의하려는 필요성이 강해졌습니다. 기존에는 기술적인 지표를 기반으로 장애의 심각도를 판단했지만, 이는 비즈니스의 실제 영향을 반영하지 못했습니다. 예를 들어, 특정 페이지의 오류가 발생했더라도 수익에 직접적인 영향을 미치지 않는 경우가 있을 수 있기 때문에, 단순하게 기술적 크기만으로 판단하기 어려웠습니다.

이러한 문제를 해결하기 위해, 우리는 비즈니스 심각도를 정의하기 위한 명확한 기준을 설정했습니다. 핵심 사용자 여정(Critical User Journey)과 같은 비즈니스 모델의 기본 구조를 바탕으로, 장애의 심각도를 판단할 수 있는 기준을 마련했습니다. 즉, 장애가 비즈니스에 미치는 실질적 영향을 고려하여, 장애의 우선순위를 효율적으로 관리할 수 있는 시스템을 구축했습니다.


장애 대응 체계의 방향성 강화

비즈니스 심각도를 기반으로 한 장애 대응 우선순위를 정립함으로써 우리는 서비스 운영에서 발생하는 다양한 장애를 보다 효과적으로 관리할 수 있었습니다. 구체적으로, CSP(Critical Serving Path)를 정의하여 매출과 전환에 직결되는 경로를 구분하고, 이를 통해 장애 발생 시 반응할 수 있는 우선순위 체계를 설정했습니다.

CSP의 정의를 통해 우리는 고객의 핵심 행동과 관련된 기능에서 발생하는 장애를 직접적으로 식별할 수 있었습니다. 예를 들어, 제휴 링크의 생성, 고객 유입 트래킹, 구매 기여 측정과 같은 기능들은 장애 발생 시 신속한 대응이 필요한 핵심 경로로 설정했습니다. 이런 방식으로 장애의 심각도와 비즈니스 영향을 명확하게 연결시킬 수 있었고, 이를 통해 장애 상황에서도 고객의 핵심 경험을 보호할 수 있는 근거가 되었습니다.

또한, 장애가 발생했을 때 고객 경험과 비즈니스 영향 기준으로 우선 보호해야 할 사항을 명시적으로 정립했습니다. 이를 통해 장애가 발생하더라도 어떤 부분에서 신뢰도를 유지해야 하는지를 빠르게 판단할 수 있었습니다.


구체적인 대시보드와 알림 시스템 구축

비즈니스 심각도 정의의 마지막 단계로, 이러한 기준들을 실제 운영에 적용할 수 있도록 대시보드와 알림 시스템을 구축했습니다. 대시보드는 핵심 사용자 여정을 기준으로 기능별 SEV(Severity)를 시각화하여 각 기능의 에러율과 지연시간을 동시에 모니터링할 수 있도록 구성되었습니다. 이를 통해 장애 발생 시, 어디서 문제가 발생했는지를 신속히 파악할 수 있었습니다.

알림 시스템 또한 단순한 에러 알림을 넘어서, 문제의 유형과 심각도를 즉각적으로 반영하는 방식으로 설계했습니다. 어떤 기능에서 문제가 발생했는지, 문제의 유형이 무엇인지, 그리고 즉시 대응이 필요한 수준인지 등을 효과적으로 전달하였습니다. 이러한 마련된 시스템은 팀 전체가 장애 상황에서 빠르게 대응할 수 있도록 도움을 주었습니다.

결과적으로 이러한 접근은 장애 대응의 일관성을 강화하고, 보다 효과적으로 고객 경험을 유지하는 데 기여했습니다. 모든 팀원이 비즈니스 심각도를 이해하고 이를 기반으로 행동하게끔 하여, 장애의 서비스 품질 하락을 최소화할 수 있는 방향으로 나아갔습니다.


이번 비즈니스 심각도 정의 프로젝트를 통해, 장애 대응 방식이 기술 지표가 아닌 고객 경험을 우선시하는 방향으로 변화하게 되었습니다. 앞으로도 큐레이터 서비스는 핵심 사용자 여정을 중심으로 비즈니스와 기술 간의 일관된 기준을 지속적으로 발전시키며, 더욱 효율적인 운영 구조를 만들어 나가고자 합니다. 이를 통해 고객의 신뢰를 높이고, 무신사의 비즈니스 성장을 이끌어 갈 것입니다.

이 블로그의 인기 게시물

매크로 코딩으로 시니어 성장의 벽 넘기

무신사머니 결제 시스템 연동의 안정성 및 혁신

AI와 사람의 협업을 위한 VLMOps 어드민 구축기