2025년 첫 번째 29QA 컨퍼런스 진행 후기

2025년 29CM QE팀은 첫 번째 29QA 컨퍼런스를 성공적으로 개최하였습니다. 이번 컨퍼런스는 팀원들의 고유한 레슨 러닝을 공유하고 외부 QA 팀과의 네트워킹을 도모하는 자리가 되었으며, 다채로운 주제로 총 13개의 세션이 진행되었습니다. 이 글에서는 29QA 컨퍼런스의 진행 과정과 의미, 강연 내용을 정리해 보겠습니다. 1. 컨퍼런스 준비와 팀워크의 중요성 29QA 컨퍼런스 준비는 한 달이라는 짧은 기간 동안 이루어졌습니다. 4명의 팀원이 각각 3개 이상의 세션을 준비해 총 13개의 세션을 진행하기 위해 모든 팀원이 협력하였습니다. 이러한 팀워크는 컨퍼런스의 성공에 결정적인 역할을 했습니다. 팀원들은 각자의 강점을 살려 질 좋은 발표 자료를 만들어내기 위해 긴밀하게 소통하였고, 결국 이 모든 과정이 훌륭한 컨퍼런스로 이어졌습니다.  컨퍼런스 준비 과정에서 팀원 각각의 역할이 중요했습니다. 준비 과정에서 세션 주제를 선정하고 자료를 준비하며 시간을 조율하는 등, 참석자들에게 의미 있는 콘텐츠를 제공하기 위해 많은 노력을 기울였습니다. 팀의 마스코트인 '큐엉이'가 포함된 굿즈와 홍보 배너의 제작은 행사 분위기를 더욱 고조시켰고, 이는 단순한 발표를 넘어서 하나의 이벤트로 자리잡는 데 큰 도움이 되었습니다. 각 발표가 진행될 때마다 팀원들은 서로 응원하며 발표의 질을 더욱 높이려 했습니다. 2. 다양하고 풍부한 세션 진행 이번 29QA 컨퍼런스의 가장 큰 특징 중 하나는 총 13개의 다양한 세션이 진행되었다는 점입니다. 각 세션은 주제의 다양성 뿐만 아니라, 발표자들의 전문성과 열정이 돋보이는 시간들이었습니다. 첫 번째 세션부터 열세 번째 세션까지 각각의 발표는 현업에서의 실질적인 경험과 노하우를 바탕으로 하여 참석자들에게 큰 영감을 주었습니다.  예를 들어, '25년 자동화 유지보수 여정' 세션에서는 지난 몇 년 간의 경험을 공유하며, 실수로 인한 Fail에 대한 원인 분석과 해결 방안을 제시하는 것이 인상 깊었습...

정산 시스템 설계와 신뢰성 확보 방안

정산 시스템의 필요성에 대한 고민은 단순한 계산을 넘어 효율성과 신뢰성을 확보하는 방향으로 발전해야 합니다. MASS는 이러한 요구를 충족시키기 위해 설계되었으며, 복잡한 정산 과정을 시스템이 완벽하게 처리하도록 돕습니다. 본 기사는 정산 시스템 설계의 중요성과 함께 신뢰성 확보 방안을 짚어보겠습니다. 정산 시스템 설계의 필요성 정산 시스템을 설계하는 것은 복잡한 계산 과정을 자동화하여 오류 가능성을 최소화하기 위해 매우 중요합니다. 특히, 기존의 수기 작업과 엑셀 검증으로 인한 높은 업무 부담은 조직의 효율성을 저해하고 오류를 증가시키는 요인으로 작용해 왔습니다. MASS는 이러한 문제의식에서 출발하여, 정산이 시스템의 책임으로 이관되는 방안에 초점을 맞추었습니다. 따라서, 정산 시스템은 수작업의 부담을 덜고 실시간으로 데이터를 처리하여 파트너 업체와의 정산 결과를 투명하게 공유하기 위한 필수적인 도구로 자리잡게 되었습니다. 이로 인해, 모든 관련자는 동일한 기준의 정산 결과를 확인할 수 있으며, 이를 기반으로 논쟁의 여지를 최소화할 수 있습니다. 결국, 정산 시스템은 단순한 숫자의 집계가 아니라, 복잡한 데이터와 다양한 기준을 조율하는 중추적인 역할을 하게 됩니다. 그러므로 정산 시스템 설계를 보다 철저하게 진행하여, 모든 구성원이 신뢰할 수 있는 결과를 얻는 것이 필수적입니다. 신뢰성을 확보하는 설계 원칙 정산 시스템의 신뢰성을 확보하기 위해 MASS는 몇 가지 핵심 설계 원칙을 설정했습니다. 첫 번째로, 정합성과 멱등성 을 강조했습니다. 이는 시스템이 동일한 원천 데이터와 계산 기준을 사용할 경우, 언제 다시 계산하더라도 동일한 결과를 내도록 보장하는 것입니다. 이를 위해 모든 원천 이벤트에 대해 트랜잭션 식별자를 활용하여 중복 수신이나 재처리로 인한 오류를 방지하는 구조를 마련했습니다. 두 번째는 결정적 계산 입니다. 모든 계산 로직은 입력값에만 의존하며, 외부 요인에 의해 영향을 받지 않도록 순수 함수 형식으로 설계되었습니다. 이는 정산 ...

Redis 대역폭 초과 장애와 대응 과정 공유

안녕하세요. 29CM의 Customer Engagement Engineering 팀에서 상품 전시 영역을 책임지고 있는 김송이입니다. 2025년 겨울, 29CM 최대 규모의 블랙프라이데이 행사인 이구위크에서 발생한 Redis 대역폭 초과 장애에 대한 이야기와 그 대응 과정에 대해 공유하고자 합니다. 이 글에서는 장애의 원인 분석, 즉각적인 대응 조치, 그리고 향후 재발 방지를 위한 개선 작업에 대해 자세히 설명하겠습니다. Redis 대역폭 초과 장애: 원인 분석 과정 이구위크가 시작된 첫날, 상품 전시 화면에서 장애가 발생했습니다. 초기에는 검색 결과와 상품 리스팅을 담당하는 서버의 일부 파드가 다운되면서 트래픽을 수용하지 못하게 되었습니다. 남아있는 파드는 처리 가능한 트래픽을 초과했고 결국 Netty 이벤트 루프의 포화 상태를 초래했습니다. 여기서 주목해야 할 점은, Redis의 헬스체크 실패 로그가 나타났다는 것입니다. 시스템 메트릭을 확인한 결과, CPU와 메모리는 정상 범위에 있었지만 Redis와의 통신에 실패한 이유를 찾기 위해 네트워크 지표를 살펴보았습니다. 이 과정에서 Redis 노드 타입이 cache.r7g.large로 설정되어 있었고, 이는 기본 네트워크 대역폭이 0.937Gbps라는 것을 알게 되었습니다. 이는 하루 동안 불규칙적인 트래픽의 증가로 인해 순간적으로 이 대역폭을 초과하게 되는 상황이 발생했습니다. 결과적으로 Redis의 버스트 크레딧이 소진되면서 Throttling이 제대로 작동하게 되었고, 이로 인해 장애가 발생했습니다. 대응 과정: 즉각적인 조치 및 수정 장애가 발생한 후, 신속하게 원인을 파악하고 대응하기 위해 노력했습니다. 장애가 발생한 시간인 20:58에 크레딧이 고갈되면서 발생한 Throttling으로 인해 Redis 연결과 명령 처리에 큰 지연이 발생하였습니다. 이 시점에서 획기적인 조치를 취하기로 결심했으며, Redis 노드를 스케일업하기로 결정했습니다. 기존의 cache.r7g.larg...

QA 자동화 데이터 관리와 분석의 힘

안녕하세요, 29CM QE팀의 자동화 전문가 강보민입니다. 본 포스트에서는 QA 자동화 결과를 데이터로 관리하는 방법과 그 과정에서 얻은 분석의 힘을 중심으로, Grafana Dashboard와 주간 분석을 통해 어떻게 자동화의 신뢰성을 높였는지에 대한 이야기를 나누고자 합니다. 이 글을 통해 데이터 기반의 QA 자동화 관리의 중요성과 실제 적용 사례를 살펴보겠습니다. QA 자동화 데이터 관리의 필요성 QA 자동화는 현대 소프트웨어 개발에서 필수적인 요소로 자리잡았습니다. 자동화 테스트를 통해 반복적인 작업을 줄이고, 코드 변경에 대한 신뢰성을 확보할 수 있습니다. 그러나 이 과정에서 단순히 자동화 도구를 사용하는 것을 넘어, 데이터를 체계적으로 관리하는 것이 무엇보다 중요합니다. 정확한 데이터 관리가 뒷받침되지 않으면, 자동화 테스트의 신뢰성과 품질은 언제든지 흔들릴 수 있습니다. 29CM QE팀은 2024년부터 자동화 수행 결과를 데이터베이스(DB)에 저장하기 시작했으며, 이를 통해 Grafana Dashboard에서 다양한 데이터를 시각화하고 있습니다. 데이터에는 일별 Fail률, 평균 수행 시간, Fail 발생 시나리오 카운트 등이 포함되어 있으며, 이를 통해 실시간으로 자동화 테스트의 성과를 평가하고 분석할 수 있습니다. 더 나아가, QA 자동화 데이터 관리의 일환으로 주간 분석을 통해 성과를 지속적으로 점검하고 있습니다. 이러한 방식은 팀의 신뢰성을 높이는 데 큰 도움이 되었으며, 팀원들이 각자의 역할에 책임감을 느끼게 만들었습니다. 데이터 분석을 통한 실패 사례 개선 데이터 분석도 QA 자동화의 핵심입니다. 29CM QE팀은 Grafana Dashboard를 이용해 실패 시나리오를 분석하고, 반복되는 문제를 해결하는 데 집중하고 있습니다. 예를 들어, 특정 시나리오에서 Fail률이 급증할 경우 그 원인을 분석하고, 개선을 위한 우선순위를 정할 수 있습니다. 세부적으로, 반복적으로 발생하는 Fail 사례를 식별하기 위해 월별...

무신사 POS 시스템 내재화 성공 사례

무신사는 최근 오프라인 매장을 위한 POS 시스템을 전면 내재화하는 성공적인 여정을 거쳤습니다. 이 과정에서 기존 외부 솔루션의 의존성을 제거하고, 자체적으로 개발한 MPOS(Musinsa POS) 시스템을 도입하였습니다. 본 포스팅에서는 무신사 POS 내재화 과정을 통해 얻게 된 교훈과 앞으로의 개선 방향에 대해 자세히 살펴보겠습니다. 1. POS 시스템 내재화의 필요성 무신사는 이전에 외부 3rd party POS 솔루션에 의존하였습니다. 초기에는 해당 솔루션이 매장 운영에 큰 도움이 되었지만, 시간이 지남에 따라 온라인과의 통합 및 비즈니스 요구에 빠르게 대응하기 어려운 상황에 직면했습니다. 이로 인해 운영의 유연성이 떨어지고, 외부 업체와의 협의 과정에서 개발 지연이 발생하는 문제가 생겼습니다. 이에 따라 무신사는 POS 시스템을 전면 내재화하기로 결정했습니다. 내부적으로 모든 기능을 직접 개발함으로써 비즈니스의 빠른 성장을 지원하고, 외부 의존성을 완전히 제거하기 위한 발판을 마련하게 되었습니다. 이러한 결정은 단순히 기술적인 자부심을 뛰어넘어, 운영 비용 절감 및 개발 효율성을 높이는 데 큰 기여를 하게 됩니다. MPOS 내재화는 무신사가 지닌 기술력과 문제 해결 능력을 극대화하는 방향으로 나아가게 해주었습니다. 내부 시스템으로의 전환이 이루어진 후, 무신사는 매우 긍정적인 변화를 경험했습니다. 모든 시스템이 통합적으로 관리됨으로써 개발자들은 직접적인 문제 해결을 통해 더욱 신속하고 효율적으로 운영할 수 있게 되었고, 그 결과 대처 속도와 커뮤니케이션의 질이 눈에 띄게 향상되었습니다. 이제는 외부 업체와의 협상이 필요 없는 환경에서 독립적인 운영 리듬을 구축하게 되었습니다. 2. Electron 선택과 그 이유 MPOS 시스템의 성공적인 내재화에 있어 핵심적인 역할을 한 것은 바로 Electron이라는 기술 스택입니다. 무신사 팀은 POS 시스템의 다양한 요구사항을 충족하고, 개발 속도를 높일 수 있는 기술을 찾고 있었습니다. 그 결...

AI 인프라 구축과 지속 가능성 탐구

우리는 달에 가기로 했습니다. 무신사가 AI 인프라를 구축하고, 하이브리드 환경에서의 혁신을 통해 지속 가능성을 탐구한 여정을 담은 글입니다. AI 기술이 단순한 트렌드가 아닌 생존의 조건이 되는 시대에, 어떤 기술을 선택해야 할지, 그리고 그 과정에서 어떤 질문을 던져야 할지를 고민합니다. AI 인프라 구축의 필요성 이해하기 AI 인프라 구축은 단순히 기술을 도입하는 과정이 아닙니다. 이는 지속 가능한 운영 모델을 만드는 것이며, 비용 효율성을 극대화하는데 필수적입니다. 무신사는 AI 인프라를 구축하면서 “우리는 지금 올바른 결정을 하고 있는가?”라는 질문을 지속적으로 던졌습니다. 이렇게 질문을 통해 각 기술의 선택이 필요해진 이유를 고민하면서, 진정한 의미의 AI 인프라를 구현하고자 했습니다. AI 인프라 구축 과정에서 가장 중요한 것은 기술의 선택보다 그 선택이 이루어진 배경입니다. 예를 들어, 특정 GPU를 선정하는 과정에서 예산, 전력 소모, 배치 용이성 등을 고려해야 했습니다. 초기 설치는 RTX 4090에서 시작해 H100, H200, 그리고 블랙웰 기반 장비로 발전했습니다. 이 모든 과정에서 지속 가능한 AI 인프라를 구축하기 위한 전략과 실행이 필요했습니다. 또한, AI 인프라의 최적화를 위해 클라우드와 온프레미스 환경의 하이브리드 구조를 설계했습니다. 이는 비용 절감과 성능 향상을 동시에 이루기 위한 전략이었습니다. 예를 들어, AWS의 EKS HybridNode 기능 도입은 이러한 하이브리드 환경을 구축하는 데 큰 도움이 되었습니다. 지속 가능성을 고려한 운영 방안 AI 인프라에서 지속 가능성은 비용 관리를 넘어 모든 운영의 핵심이 됩니다. AI는 구축 후에도 지속적인 비용이 발생하는 시스템이기 때문입니다. 무신사는 AI 운영비를 효과적으로 관리하기 위해 온프레미스를 도입하였고, GPU 운영을 통해 안정적인 비용 절감을 이루었습니다. 이와 같은 접근법은 갈수록 증가하는 트래픽과 추세에 대응하기 위해 필수적이었습니다. ...

하나의 ID로 통합된 회원 시스템 구축 이야기

팀 무신사는 통합 회원 시스템을 성공적으로 런칭하며 고객 경험의 혁신을 이루어냈습니다. 고객은 이제 무신사, 29CM, 솔드아웃 플랫폼에서 하나의 ID로 간편하게 로그인하고 필요한 서비스를 이용할 수 있게 되었습니다. 이를 통해 팀 무신사는 회원 데이터의 통합 관리와 사용자 맞춤화를 실현하며, 고객에게 더욱 향상된 쇼핑 경험을 제공합니다. 무중단 전환: 고객 경험의 최우선 기준 새로운 통합 회원 시스템의 가장 큰 도전 과제 중 하나는 무중단 전환이었습니다. 수천만 명이 사용할 이커머스 시스템의 ‘심장’인 회원 시스템을 교체하면서도, 고객은 이 과정을 전혀 느끼지 못해야 했습니다. 이는 ‘엔진이 켜진 비행기의 엔진을 교체하는’ 것과 같은 복잡하고 리스크가 큰 과제였습니다. 고객이 언제 어디서든 로그인할 수 있는 환경을 보장하기 위해, 무신사는 24시간 운영되는 회원 시스템을 구축했습니다. 이 과정에서 멤버 시스템은 단순히 비즈니스 로직을 처리하지 않습니다. 실제로 주문, 혜택, 반품과 같은 이커머스의 핵심 구성 요소들과 깊이 연결되어 있습니다. 시스템 간의 데이터 불일치나 지연은 즉각적으로 큰 장애로 이어질 수 있으므로, 모든 요소가 쉽게 통합될 수 있도록 하는 아키텍처 설계가 필요했습니다. 이러한 복잡성을 극복하기 위해 팀 무신사는 ‘Core Member System’이라는 통합 시스템을 도입하여, 높은 확장성과 고가용성을 동시에 확보하게 되었습니다. 결국 통합 회원 시스템의 도입으로 고객은 편리하게 하나의 ID로 다양한 서비스에 접근할 수 있게 되었으며, 팀 무신사는 안정적인 회원 관리 환경을 구축했습니다. 이 모든 과정은 무신사가 고객 경험을 최우선으로 고려하고 있다는 증거입니다. 효율적인 데이터 관리: 통합의 핵심 통합 회원 시스템의 또 다른 중요한 성과는 효율적인 데이터 관리입니다. 기존에는 고객 데이터가 무신사와 29CM, 솔드아웃으로 각각 나뉘어져 있었습니다. 이는 사용자 맞춤형 서비스를 제공하는 데 있어 큰 제...