AI 인프라 구축과 지속 가능성 탐구
우리는 달에 가기로 했습니다. 무신사가 AI 인프라를 구축하고, 하이브리드 환경에서의 혁신을 통해 지속 가능성을 탐구한 여정을 담은 글입니다. AI 기술이 단순한 트렌드가 아닌 생존의 조건이 되는 시대에, 어떤 기술을 선택해야 할지, 그리고 그 과정에서 어떤 질문을 던져야 할지를 고민합니다. AI 인프라 구축의 필요성 이해하기 AI 인프라 구축은 단순히 기술을 도입하는 과정이 아닙니다. 이는 지속 가능한 운영 모델을 만드는 것이며, 비용 효율성을 극대화하는데 필수적입니다. 무신사는 AI 인프라를 구축하면서 “우리는 지금 올바른 결정을 하고 있는가?”라는 질문을 지속적으로 던졌습니다. 이렇게 질문을 통해 각 기술의 선택이 필요해진 이유를 고민하면서, 진정한 의미의 AI 인프라를 구현하고자 했습니다. AI 인프라 구축 과정에서 가장 중요한 것은 기술의 선택보다 그 선택이 이루어진 배경입니다. 예를 들어, 특정 GPU를 선정하는 과정에서 예산, 전력 소모, 배치 용이성 등을 고려해야 했습니다. 초기 설치는 RTX 4090에서 시작해 H100, H200, 그리고 블랙웰 기반 장비로 발전했습니다. 이 모든 과정에서 지속 가능한 AI 인프라를 구축하기 위한 전략과 실행이 필요했습니다. 또한, AI 인프라의 최적화를 위해 클라우드와 온프레미스 환경의 하이브리드 구조를 설계했습니다. 이는 비용 절감과 성능 향상을 동시에 이루기 위한 전략이었습니다. 예를 들어, AWS의 EKS HybridNode 기능 도입은 이러한 하이브리드 환경을 구축하는 데 큰 도움이 되었습니다. 지속 가능성을 고려한 운영 방안 AI 인프라에서 지속 가능성은 비용 관리를 넘어 모든 운영의 핵심이 됩니다. AI는 구축 후에도 지속적인 비용이 발생하는 시스템이기 때문입니다. 무신사는 AI 운영비를 효과적으로 관리하기 위해 온프레미스를 도입하였고, GPU 운영을 통해 안정적인 비용 절감을 이루었습니다. 이와 같은 접근법은 갈수록 증가하는 트래픽과 추세에 대응하기 위해 필수적이었습니다. ...