신뢰할 수 있는 메트릭과 실험 플랫폼, 오늘의집 XPC 재설계

헤드라인

들어가며: 실험이 흔들리지 않으려면

온라인 실험은 기능 변경의 효과를 통계적으로 증명하고, 롤아웃 여부 같은 핵심 의사결정을 데이터로 뒷받침하는 수단이다. PO, SWE, DA의 일상과 맞닿아 있으며, 정의·계측·해석 중 하나만 어긋나도 실험 결론과 결정이 쉽게 흔들린다. 오늘의집(버킷플레이스)의 XPC는 실험 라이프사이클을 트래픽 할당·데이터 수집·표준 분석·결과 공유로 묶고, 메트릭 정의와 의사결정 규칙을 시스템에 녹인 실험 플랫폼이다. 같은 데이터인데 팀마다 해석이 달라지거나 메트릭 등록·검증이 어렵던 문제를 해결하기 위해 데이터 플랫폼 팀이 Config Metric 프로젝트를 시작했다.

초기 XPC의 한계

시트 기반 관리와 휴먼 에러, 복잡하고 취약한 쿼리, 팀마다 T-Test·U-Test·Chi-Squared 등 통계 검정 방식이 제각각이었고, 정규 분석과 후속 분석의 괴리가 쌓이면서 결과 일관성이 떨어졌다. 이에 새로운 메트릭 시스템을 정의하고, 파이프라인·UI·후속 분석까지 전반 구조를 재구축하기로 했다.

Event와 Metric으로 측정 재설계

측정의 출발점은 유저 행위(Event)다. 피험자 단위로 측정하고 그룹별로 취합하는 계산을 ‘관측된 사실(Event)’과 ‘해석 방법(Metric)’으로 분리해 설계했다. Event는 YAML 기반 Event Config로 정의하고, Metric은 Event 1개 또는 2개 조합으로 Subject당 값을 정의한다. Metric Pipeline에는 Subject Level Aggregation, Slice Level Aggregation(Data Cube), Incremental Processing을 도입해 처리 시간과 리드타임을 개선했다. Z-test와 Delta Method로 통계검정을 일원화했고, 실험 디테일 페이지·후속 분석 Workspace·Metric 정의 카탈로그·AI 기능(메트릭/이벤트 생성 에이전트, 실험 결과 분석 에이전트)을 제공한다.

다음 단계: 메트릭 플랫폼으로 확장

실험 메트릭 표준화를 넘어 조직 전반의 지표 표준화로 범위를 넓힐 예정이다. 메트릭을 한 번 정의하면 대시보드, 실험 리포팅, 이상 탐지, 정기 리포트 등 여러 채널에서 같은 정의로 재사용되도록 Metric Platform을 이어갈 계획이다.