A/Bテストを誰に対して行うか、テスト期間をどう見積もるか
グーグルがGoogleオプティマイズの提供を開始してから、A/Bテストの取り組みがより普及した印象があります。改善アイデアをトライするのにはとてもよいツールである反面、いただく相談を聞くと、計画(プランニング)や仮説がおろそかだったり、計画の難しさを感じたりしているようです。
その難しい計画の要素の中から、「ターゲット」と「期間」を取り上げてみます。
誰をターゲットにA/Bテストを行うか
A/Bテストを実施するにあたって、Webサイトや該当ページに訪問するすべてのユーザーではなく一部のユーザーを対象にすべきケースは意外に多いです。
例えば、以下のような条件や組み合わせでターゲットを絞り込むことができれば、A/Bテストの精度は高くなり理想的です。
- 新規ユーザー、Webサイトの利用が浅いユーザー
- 広告経由や対象キャンペーンのユーザー
- 特定のCookieを保持するユーザー
- 非会員、会員
UIなどよく利用される箇所でA/Bテストをする場合、何度もWebサイトを利用しているリピートユーザーは、A/Bテストの各パターンの良し悪しにかかわらず「違和感」を感じて反応する可能性が考えられます。テストにふさわしいターゲットに対してテストは実施されるべきです。
仮説を立てる際、A/Bテストでどういった行動を期待するのかだけでなく、ターゲット層はどういったユーザーなのかを考えなければなりません。その際に考慮が必要なのが「トラフィックとコンバージョンの件数」と「想定されるテスト期間」です。
A/Bテストのテスト期間をどう見積もるか
そのA/Bテストはどれぐらいの期間で結果が出るかを見積もるのは、難しい問題です。特にA/Bテストの経験が少なければ感覚値も持ち合わせていません。テストのどのパターンが勝者になるのかもわからない状態です。そのような中でも組織として運用するのであれば、スケジュールを引かざるを得ないのが現実です。
テスト期間に影響を与える要素の一つは、先ほどの「トラフィックとコンバージョンの件数」です。A/Bテストで勝者が確定するには、統計上の有意差を判定するのに足りるだけの件数を蓄積するために相応の期間がまずは必要である、ということです。
そうすると、こういうことが起きます。
- ターゲットを絞り込むほど、テスト期間は長くなる
- オリジナルに対するテストパターンを増やすほど、テスト期間は長くなる
- A/Bテストよりも多変量テストの方が、テスト期間は長くなる
例外も当然ありますが、一般的には各テストパターンの1日分のサンプルサイズが小さくなるほどテスト期間は長くなります。
悩ましいのは、「A/Bテストのターゲット絞り込みやチャレンジをしたいが、そうするとテスト期間が長くなる」という点です。ここはいくつかのテストを回しながら、自分たちのビジネスやWebサイトの特性に合った「型」を見つけていくことになります。
A/Bテストのサンプルサイズや期間を見積もれるツールもいくつかあるので、試してみると良いでしょう。当然ながら「現在のCVRはどれぐらいか」「CVRをどれだけ向上させたいか」といった計画の要素が必要です。
- Sample size calculator – Optimizely
- A/B Test Duration Calculator | VWO Free Tools
- Adobe Target Sample Size Calculator
- A/B Test Sample Size Calculator – AB Tasty
- A/B Test Duration and Sample Size Calculator- Unbounce
開始数日で有意差が見られても、最低1週間は継続すべき理由
当社でもA/Bテストの有意差判定をするツールを提供しており、多くの企業様にご利用いただいています。A/Bテストのツールを利用しないようなテストでの有意差判定を、簡易的に行えます。
A/Bテストツールを利用しつつも、その結果判定を待たずにこのツールで有意差判定をされているところもあるようです。注意点を挙げておくと、「A/Bテスト開始から数日で有意差が見られたとしても、最低1週間は継続した方が良い」でしょう。
大規模サイトなどトラフィック量の多いサイトでは、A/Bテスト開始から数日で統計上の有意差が出ることがあります。しかし、曜日もしくは平日と週末でユーザー行動は変化しますし、他のキャンペーン施策の影響など通常とは異なる日が含まれている可能性があります。最低でも1週間はテストを継続すべきでしょう。かつてのGoogleオプティマイズでは結果判定の出る最短期間が2週間になっていたのも、そのような理由からだと推測します。
一方で、長すぎるテスト期間も問題です。「平均への回帰」という統計的な現象があります。A/Bテストを長期間継続しているとその差は次第に縮まっていくというものです。A/Bテストで一定のサンプルサイズを確保できていながら、1か月以上経っても傾向が見られなければ、中断して別のテストを実施した方が良いでしょう。
A/Bテストの「ターゲット」と「期間」をテーマに取り上げてみました。両者は関与し合う要素ですので、仮説と期待する行動に加えて、事前に計画することをおすすめします。