본문 바로가기

PM삐약이🐥

A/B 테스트의 구성과 P-value 1탄 | 코드스테이츠 PMB 17기 W5D4

또 다시 찾아온 금요일!

이번 주차의 마지막 세션도 야무지게 공부를 해볼까?

오늘은 A/B 테스트를 설계하는 과정에서 유의해야 하는 사항과

P-value를 통해 A/B 테스트 결과를 판단하는 방법을 공부했다. 

그럼 같이 내용을 정리해보자!

.

.

 

 

 


 

 

A/B 테스트의 구성

 

 

A/B 테스트의 구성 단계:

 

 

1단계: A/B 테스트 세팅

2단계: 테스트 대상자를 A/B 두 그룹으로 분류

3단계: 2가지 버전의 테스트 자료 제작

4단계: 테스트 자료를 A/B 그룹에 각각 제공

5단계: 각 그룹이 어떻게 반응했는지 데이터 분석 (지속시간, 전환율, 이탈률 등)

6단계: 통계적 유의성 (P-value)계산 (0.05 미만에 해당하는지)

7단계: 결과가 우수한 내용을 실전에 반영

 

 

1부터 3단계는 고객을 만나기 위한 준비 과정으로, 4단계부터 본격적으로 테스트가 시작된다. 

 


 

A/B 테스트의 구성 요소:

 

 

1) 가설 : ~하면 ~일 것이다.

2) 목표 : A/B 테스트의 목표

3) 기간 : A/B 테스트의 기간

4) 대상 : A/B 테스트를 진행할 대상 고객층(사용자 세분화 / 코호트 분석)

5) 측정 지표 : 전환율, 이탈률 등 대표적으로 측정할 지표 설정

6) 결과 : P-value와 같은 요소를 통해 통계적 유의성 계산(실제로 이 통계가 유의미한가?)

7) 결론 : 결과가 우수한 내용(측정 지표가 높은 안)을 실제로 적용

 

 

A/B 테스트의 활용

 

 

A/B 테스트는 어떤 툴을 사용할까?

 

 

웹사이트 기반 A/B 테스트를 할 수 있는 대표적인 툴:

 

Google Optimize: 구글에서 제공하는 무료 A/B 테스트 및 개인화 툴이다. 구글 애널리틱스와 연동하여 사용할 수 있으며, 시간, 장소, 장치, 행동 등에 따라 다양한 개인화 테스트도 가능하다. 다만, GA안에서 기능으로 분류되던 것이 스탠드 얼론으로 구성되어 데이터 분석 기능이 다소 부족하다.

 

Optimizely: A/B 테스트 및 개인화를 위한 통합 플랫폼으로, 앱/웹 분석이 전부 가능한 도구이다. 시간, 장소, 장치, 행동 등 다양한 기준으로 타깃팅을 설정할 수 있다. 유료 서비스이지만 테스트 설계가 용이하며, 커스텀도 가능해, 설치와 관리가 비교적 쉽다. 

 

VWO: A/B 테스트, 멀티베리얼 테스트, 개인화 및 히트맵 분석 등 다양한 기능을 제공하는 대표적인 웹사이트 최적화 툴이다. 웹사이트 전체를 대상으로 하는 테스트와 특정 부분을 대상으로 하는 테스트를 모두 지원한다.

 

Crazy Egg: 히트맵 분석, 스크롤 맵 분석, A/B 테스트, 퍼널 분석 등 다양한 기능을 제공하는 최적화 툴이다. 사용자가 가장 많이 클릭하는 영역, 더 이상 스크롤하지 않는 영역 등을 파악하여 웹사이트 최적화에 활용할 수 있다.

 

AB Tasty: A/B 테스트, 개인화, 동적 콘텐츠, 웹사이트 최적화 등 다양한 기능을 제공하는 툴이다. 사용이 쉽고 다양한 유형의 테스트를 지원하며, 강력한 보고서를 생성할 수 있다.

 

Unbounce: 랜딩 페이지를 만들고 A/B 테스트할 수 있는 툴로, 설치가 간편하고 다양한 랜딩 페이지 템플릿을 제공한다. 클릭수 증가 및 전환율 향상을 위한 다양한 기능과 인텔리전스를 제공하고 있다.

 


 

앱 서비스 기반 A/B 테스트를 할 수 있는 대표적인 툴:

 

Firebase A/B Testing: Firebase A/B Testing은 구글이 제공하는 앱 서비스 기반의 A/B 테스팅 도구이다. 앱의 여러 구성 요소를 A/B 테스트하고, 동시에 성능 데이터와 사용자 행동을 분석할 수 있다. 구글 빅쿼리와의 연계를 지원하며, 무료로 서비스를 제공한다. 

 

Optimizely: Optimizely는 앱과 웹사이트에서 A/B 테스트를 할 수 있는 종합적인 플랫폼이다. 비즈니스 목표, 예산, 유저 동선 등을 고려하여 A/B 테스트를 설계하고, 결과를 분석할 수 있다.

 

Apptimize: Apptimize는 앱 서비스 기반의 A/B 테스팅 툴 중 하나로, 비즈니스와 유저 목표에 맞춰 A/B 테스트를 설계하고 실행할 수 있다. 또한 머신러닝을 이용한 개인화 캠페인도 지원한다.

 

Leanplum: Leanplum은 모바일 앱에서 A/B 테스트, 개인화, 알림, 이벤트 추적 등을 제공하는 종합적인 마케팅 자동화 플랫폼이다. 사용자들의 행동에 맞춰 자동으로 테스트를 실행하고, 성과를 분석할 수 있다.

 

Adobe Target: Adobe Target은 웹과 앱에서 A/B 테스트를 하고, 개인화 캠페인을 구성할 수 있는 종합적인 툴이다. 머신러닝을 활용한 타겟팅, 실시간 퍼스널라이제이션, 경험 최적화 등을 지원한다.

 

이외에도 A/B 테스트 및 서비스 최적화를 위한 다양한 툴들이 있으며, 사용 목적, 예산, 사용 편의성, 지원하는 기능 등에 따라 선택하면 된다. 

 

 

서비스 개선 과정에서 A/B 테스트를 활용할 수 있는 부분:

 

랜딩페이지, 사이트 레이아웃, UI, CTA 버튼, 가이드 메시지, 제품 메시지, 푸시 알람 등 부분에서 활용할 수 있다. 

 

 

적정 모수와 P-value

 

 

A/B 테스트에서 고려해야 할 통계적 요소 중, 적정 모수와 P-value라는 것이 있다.

 

 

모수(샘플 수)가 너무 적으면 그 가설이 입증됐다고 보기 어렵기 때문에, A/B 테스트를 실행하기 전에는 적정한 샘플 수까지 계획하는 것이 필요하다, 그리고 A/B 테스트에서 이 적정한 샘플 수를 적정 모수라고 한다. 어떻게 샘플 수를 모집할 것이며, 샘플을 몇 명이나 모집할 것인지를 설계하는 것이 A/B 테스트에서는 중요하다. 

 

 

p-value는 ‘어떤 가설을 전제로, 그 가설이 맞는다는 가정하에, 내가 현재 구한 통계값이 얼마나 자주 나올 것인가’를 의미한다. A/B 테스트를 했을 때 두 그룹이 정말로 전환율에 차이가 있는 것인지, 아니면 우연한 오차로 인해 차이가 발생한 것인지 의심이 들 수 있다, 즉 두 그룹이 실제로는 차이가 없는데 관측된 값에서 차이가 발생할 확률이 있는지 확인해야 하는데, 그 확률을 계산한 것을 P-value 라고 한다. 일반적으로 P-value 가 0.05 보다 낮으면 신뢰할 수 있다고 본다. 

 

 

정리하자면, 개선 사항 검증을 하기 위해 A/B 테스트를 하는 것이고, 데이터가 신뢰할 수 있는지 보기 위해 P-value 값을 참고하는 것이다. 참고라고 한 이유는 P-value 0.05에 사로잡혀 앞으로 나아가야 할 타이밍을 놓치게 될 수도 있기 때문에, 방향에 따라 그리고 정해둔 기준에 따라 과감하게 개선해보는 것도 방법일 수 있어, 상황에 따라 선택을 하면 된다고 한다. 

 

 
 
 
A/B 테스트 수행시 고려해야 할 사항
 
 

 

1. 버튼 색깔을 과대평가하지 말자. 

 

 

버튼의 컬러만 변경해도 전환율을 높일 수 있는 것은 아니다. 그리고 버튼 컬러에 따른 변화는 일시적인 효과일 가능성이 높다. 사용자들이 해당 버튼에 익숙해지면, 전환율이 다시 떨어질 수 있다. 즉, 버튼을 통해 전환율을 개선할 수는 있지만 근본적으로 이런 버튼의 색이 아닌, 서비스 품질이나 고객 커뮤니케이션을 통해 UX를 개선해 나가야 한다는 것이다. 

 

2. 가설 없는 A/B 테스트는 인사이트를 얻을 수 없다.

 

 

가설을 정하고 테스트를 실행하면 보다 구체적인 인사이트를 얻을 수 있다. 예컨대 사람들은 눈에 띄는 곳에 있는 것을 좋아하는구나. 그럼 중요한 다른 버튼도 배치해 보자. 혹은 눈에 띄어서 배치한 것이 아니라 다른 요인이 있어서 그런 것은 아닐까? 카피라이트까지 수정해 볼까? 라는 식으로 다음 A/B 테스트를 위한 인사이트를 얻을 수 있다. A/B 테스트를 통해 정말로 검증하고자 하는 가설은 무엇인지에 대해 먼저 고민해야 한다. 

 

 

3. 통제 변수는 1개만. 

 

 

통제 변수는 1가지만 설정하고 테스트 후에 다른 변수에 대해 테스트해야 한다. 변인을 1가지만 주어야 정확하게 어떤 차이 때문인지 알 수 있다. 

 

 

4. 시간의 흐름에 따른 차이를 고려할 것.

 

 

A/B 테스트 결과는 시간에 따라 변화하는 일이 잦다. A/B 테스트를 통해 잘 설계되어 의미 있는 결과를 도출하였다고 해도, ‘앞으로도 계속 그 결과가 유효할 것이다’라고 보장할 수는 없다. 테스트하는 시즌, 계절의 변화, 시장 상황 변화, 사용자층의 변화, 사용자 취향의 변화 등 시간의 흐름에 따라 달라질 수 있는 외부 환경 요인이 다양하다. 그러므로 시간의 흐름에 따른 추이 변화, 혹은 특정 브라우저 버그, 기능 오류 등 외부 요인은 없었는지도 재차 확인해야 하고, 외부 환경 요인을 충분히 고려하여 A/B 테스트 결과를 활용하고, 일정 기간 이후 새로운 A/B 테스트를 설계해야 한다. 

 

 


 

그럼 과제글로 다시 만나자👋 

728x90