A/Bテスト

A/Bテスト（英: A/B testing）（バケットテスト、スプリットランテスト、スプリットテストとしても知られる）は、ユーザーエクスペリエンスの研究手法である^[1]。A/Bテストは、通常2つの変数（AとB）を含むランダム化実験（英語版）から構成されるが^[2]^[3]^[4]、この概念は同じ変数の複数のバリエーションにも拡張することができる。これには仮説検定または統計学の分野で使用される「二標本仮説検定（英語版）」の適用が含まれる。A/Bテストは、単一の変数 (数学)の複数のバージョンを比較する方法であり、例えば被験者のバリアントAに対する反応をバリアントBと比較し、どちらのバリアントがより効果的かを判断する^[5]。

多変量テストまたは多項テストはA/Bテストに似ているが、同時に2つ以上のバージョンをテストしたり、より多くのコントロールを使用したりする場合がある。単純なA/Bテストは、観測、準実験的（英語版）または他の非実験的（英語版）な状況（調査データ、オフラインデータ、その他のより複雑な現象で一般的）には有効ではない。

Remove ads

定義

要約

視点

「A/Bテスト」は、単一のベクトル変数（英語版）のいくつかのサンプル（例：AとB）を比較する、単純なランダム化された制御（英語版）実験の略称である^[1]。A/Bテストは、特に2つの変数のみを含む場合、最も単純な形式の制御実験と広く考えられている。しかし、テストにより多くの変数を追加することで、その複雑さは増加する^[6]。

以下の例は、単一変数のA/Bテストを示している：

ある企業が2,000人の顧客データベースを持っており、ウェブサイトを通じて売上を生み出すために割引コードを含むメールキャンペーンを作成することを決定したとする。企業は、異なるコールトゥアクション（顧客に何かをするよう促すコピーの部分 - 販売キャンペーンの場合は購入を促す）と識別用のプロモーションコードを含む2つのバージョンのメールを作成する。

1,000人に対して、「オファーは今週土曜日で終了！コードA1を使用」というコールトゥアクションを含むメールを送信する。
残りの1,000人に対して、「オファーは間もなく終了！コードB1を使用」というコールトゥアクションを含むメールを送信する。
メールのコピーとレイアウトの他の要素はすべて同一である。

その後、企業はプロモーションコードの使用を分析することで、どちらのキャンペーンの成功率が高いかを監視する。コードA1を使用したメールは5%の回答率（英語版）（メールを受け取った1,000人のうち50人がコードを使用して製品を購入）、コードB1を使用したメールは3%の回答率（受信者のうち30人がコードを使用して製品を購入）となった。したがって、企業はこの場合、最初のコールトゥアクションがより効果的であると判断し、今後の販売で使用することにする。より洗練されたアプローチでは、A1とB1の間の回答率の違いが有意であるかどうか（つまり、その違いが実際のもので、再現可能で、偶然によるものではない可能性が高いかどうか）を判断するために統計的検定を適用する^[7]。

上記の例では、テストの目的は顧客に購入を促す最も効果的な方法を決定することである。しかし、もしテストの目的がどちらのメールがより高いクリック率（英語版）—つまり、メールを受け取った後に実際にウェブサイトをクリックした人数—を生成するかを確認することであれば、結果は異なる可能性がある。

例えば、コードB1を受け取った顧客の方が多くウェブサイトにアクセスしたとしても、コールトゥアクションにプロモーションの終了日が記載されていなかったため、多くの顧客が即座に購入する緊急性を感じなかった可能性がある。したがって、テストの目的が単にどちらのメールがより多くのトラフィックをウェブサイトにもたらすかを確認することであれば、コードB1を含むメールの方が成功していた可能性が高い。A/Bテストは、売上の数、クリック率の変換、または登録/登録する人数など、測定可能な定義された結果を持つべきである^[8]。

Remove ads

一般的な検定統計量

二標本仮説検定（英語版）は、実験における2つの制御ケースによって分割されたサンプルを比較する際に適切である。Z検定は、正規性と既知の標準偏差に関する厳密な条件下で平均を比較する際に適切である。T検定は、より少ない仮定のもとで緩和された条件下で平均を比較する際に適切である。ウェルチのt検定は最も少ない仮定で済むため、メトリックの平均を最適化する二標本仮説検定で最も一般的に使用される検定である。最適化する変数の平均が最も一般的な推定量の選択であるが、他の方法も定期的に使用される。

クリック率（英語版）のような2つの二項分布の比較には、フィッシャーの正確確率検定を使用する。

さらに見る 仮定される分布, 例 ...

仮定される分布	例	標準的な検定	代替検定
正規分布	ユーザー1人あたりの平均収益	ウェルチのt検定 (対応のないt検定)	T検定
二項分布	クリック率（英語版）	フィッシャーの正確確率検定	バーナードの検定（英語版）
ポアソン分布	支払いユーザーあたりの取引数	E検定^[9]	C検定
多項分布	購入された各製品の数	カイ二乗検定	G検定
未知		マン・ホイットニーのU検定	ギブスサンプリング

Remove ads

セグメンテーションとターゲティング

要約

視点

A/Bテストは最も一般的に、全てのユーザーに対して同じバリアント（例：ユーザーインターフェース要素）を等しい確率で適用する。しかし、状況によっては、バリアントへの反応が異質である可能性がある。つまり、バリアントAが全体的に高い反応率を持っている一方で、顧客基盤の特定のセグメント内ではバリアントBがさらに高い反応率を持つ可能性がある^[10]。

例えば、上記の例では、性別による反応率の内訳は以下のようになっていた可能性がある：

さらに見る 性別, 全体 ...

性別	全体	男性	女性
総送信数	2,000	1,000	1,000
総反応数	80	35	45
バリアントA	50/ 1,000 (5%)	10/ 500 (2%)	40/ 500 (8%)
バリアントB	30/ 1,000 (3%)	25/ 500 (5%)	5/ 500 (1%)

この場合、バリアントAが全体的に高い反応率を示したが、男性に関してはバリアントBの方が実際には高い反応率を示したことがわかる。

その結果、企業はA/Bテストに基づいてセグメント化された戦略を選択し、将来的に男性にはバリアントB、女性にはバリアントAを送信することになるかもしれない。この例では、セグメント化された戦略により、期待される反応率は ${\textstyle 5\%={\frac {40+10}{500+500}}}$ から ${\textstyle 6.5\%={\frac {40+25}{500+500}}}$ に増加し、30%の上昇となる。

A/Bテストからセグメント化された結果が予想される場合、テストは当初から性別などの主要な顧客属性に対して均等に分布するように適切に設計されるべきである。つまり、テストは（a）男性対女性の代表的なサンプルを含み、（b）男性と女性を各「バリアント」（バリアントA対バリアントB）にランダムに割り当てる必要がある。これを怠ると、実験のバイアスが生じ、テストから不正確な結論が導き出される可能性がある^[11]。

このセグメンテーションとターゲティングのアプローチは、テスト結果に存在する可能性のあるより微妙なパターンを特定するために、単一の顧客属性ではなく、複数の顧客属性—例えば、顧客の年齢と性別—を含むようにさらに一般化することができる。

トレードオフ

肯定的な面

A/Bテストの結果は解釈が簡単で、ある選択肢を別の選択肢と直接比較しているため、ユーザーが何を好むかについて明確な考えを得るのに使用できる。実際のユーザー行動に基づいているため、2つの選択肢の間で何がより良く機能するかを判断する際に、そのデータは非常に有用である。

A/Bテストは、非常に具体的なデザインの質問に対する答えも提供できる。これの一例は、グーグルのハイパーリンクの色に関するA/Bテストである。収益を最適化するために、彼らはユーザーがどの色のリンクをより多くクリックする傾向があるかを確認するため、数十種類の異なるハイパーリンクの色調をテストした^[12]。

否定的な面

A/Bテストは分散 (確率論)に敏感である。標準誤差を減らし、統計的に有意な結果を得るためには、大きなサンプルサイズが必要である。人気のあるオンラインソーシャルメディアプラットフォームのように、アクティブユーザーが豊富なアプリケーションでは、大きなサンプルサイズを得ることは些細なことである。他の場合では、実験登録期間を延長することで大きなサンプルサイズを得る。しかし、マイクロソフトが考案したCUPED（Controlled-experiment Using Pre-Experiment Data）という技術を使用することで、実験開始前の分散を考慮に入れることができ、統計的に有意な結果を得るために必要なサンプル数を減らすことができる^[13]^[14]。

実験という性質上、A/Bテストを実施することは、ビジネスメトリクスに対して負の影響または影響がないなど、望ましくない結果が生じた場合、時間とリソースの無駄になるリスクを伴う。

2018年12月、13の異なる組織（Airbnb、アマゾン、ブッキングドットコム、フェイスブック、グーグル、リンクトイン、リフト、マイクロソフト、ネットフリックス、ツイッター、ウーバー、およびスタンフォード大学）からの大規模なA/Bテストの経験を持つ代表者たちが、SIGKDDエクスプロレーションズの論文で主要な課題をまとめた^[15]。これらの課題は、分析、エンジニアリングと文化、従来のA/Bテストからの逸脱、そしてデータ品質の4つの領域に分類できる。

Remove ads

歴史

A/Bテストが最初に使用された時期を明確に特定することは難しい。最初のランダム化二重盲検試験は、同種療法薬の有効性を評価するために1835年に実施された^[16]。現代のA/Bテストと比較される広告キャンペーンの実験は、20世紀初頭に始まった^[17]。広告のパイオニアであるクロード・ホプキンス（英語版）は、キャンペーンの効果を確認するためにプロモーション用クーポンを使用した。しかし、ホプキンスがサイエンティフィック・アドバタイジング（英語版）で説明したこのプロセスには、仮説検定で使用される有意性や帰無仮説などの概念は含まれていなかった^[18]。サンプルデータの有意性を評価するための現代の統計的手法は、同時期に別個に開発された。この作業は1908年にウィリアム・ゴセットによって行われ、Z検定を改良してT検定を作り出した^[19]^[20]。

インターネットの成長により、新しい母集団のサンプリング方法が利用可能になった。グーグルのエンジニアたちは、検索エンジンの結果ページに表示する最適な結果数を決定するために、2000年に最初のA/Bテストを実施した^[5]。最初のテストは、読み込み時間が遅いことによるトラブルのため失敗に終わった。その後のA/Bテスト研究はより高度になったが、基礎と基本原則は一般的に同じままであり、2011年にはグーグルの最初のテストから11年後に7,000以上の異なるA/Bテストを実施した^[5]。

2012年、マイクロソフトの従業員が検索エンジンマイクロソフト・ビングで広告見出しの表示方法を変えるテストを作成した。数時間以内に、代替フォーマットはユーザー体験メトリクスに影響を与えることなく、12%の収益増加を生み出した^[4]。今日では、マイクロソフトやグーグルなどの大手ソフトウェア企業は、それぞれ年間10,000件以上のA/Bテストを実施している^[4]。

A/Bテストは、特定の分野における哲学とビジネス戦略の変化であると主張する人もいるが、このアプローチは様々な研究伝統で一般的に使用される被験者間デザイン（英語版）と同一である^[21]^[22]^[23]。ウェブ開発の哲学としてのA/Bテストは、この分野を根拠に基づく実践へのより広範な動きと一致させる。

多くの企業が現在、関連するサンプル結果がポジティブな転換結果を改善できるという期待を持って、マーケティング決定を行う際に「設計された実験」アプローチを使用している。この分野のツールと専門知識が成長するにつれて、これはますます一般的な実践となっている^[24]。

Remove ads

応用

要約

視点

オンラインソーシャルメディア

A/Bテストは、リンクトイン、フェイスブック、インスタグラムなどの大手ソーシャルメディアサイトによって、新機能や製品などのオンライン機能に対するユーザーエンゲージメント（英語版）と満足度を理解するために使用されてきた。A/Bテストはまた、ユーザーがオフラインの時のネットワーク外部性、オンラインサービスがユーザーの行動にどのように影響するか、ユーザー同士がどのように影響し合うかなど、複雑な実験を行うためにも使用されてきた^[25]。

電子商取引

電子商取引ウェブサイトでは、パーチェスファネルは通常A/Bテストの良い候補である。なぜなら、離脱率（英語版）のわずかな減少でも、販売の大幅な増加につながる可能性があるためである^[26]。コピーテキスト、レイアウト、画像、色などの要素をテストすることで、時には大きな改善が見られることがあるが、必ずしもそうではない。これらのテストでは、2つのバージョンのどちらが好ましいかを発見することが目的であるため、ユーザーは2つのバージョンのうちの1つしか見ない^[27]。

製品価格設定

A/Bテストは、新製品やサービスが立ち上げられる際に最も難しい作業の一つである適切な価格を決定するために使用することができる。A/Bテスト（特にデジタル商品に有効）は、どの価格帯とオファリングが総収益を最大化するかを見つけ出す優れた方法である。

政治的A/Bテスト

A/Bテストは政治的キャンペーンでも使用されている。2007年、バラク・オバマの大統領選挙キャンペーン（英語版）は、オンラインでの注目を集め、有権者が大統領候補から何を見たいと考えているかを理解する方法としてA/Bテストを使用した^[28]。例えば、オバマのチームは、ユーザーがニュースレターに登録するための4つの異なるボタンをウェブサイトでテストした。さらに、チームはユーザーを引き付けるために6つの異なる付随画像を使用した。A/Bテストを通じて、スタッフは有権者を効果的に引き付け、追加の関心を集める方法を判断することができた^[28]。

HTTPルーティングとAPI機能テスト

A/Bテストは、新しいバージョンのAPIをデプロイする際に非常に一般的である^[29]。リアルタイムのユーザー体験テストのために、HTTPのレイヤー7 リバースプロキシは、HTTPネットワークトラフィックのN%が新しいバージョンのバックエンドインスタンスに向かい、残りの100-N%のHTTPトラフィックが（安定した）古いバージョンのバックエンドHTTPアプリケーションサービスに向かうように設定される^[29]。これは通常、新しいバージョンにバグがある場合、総ユーザーエージェントまたはクライアントのN%のみが影響を受け、他は安定したバックエンドにルーティングされるように、顧客の新しいバックエンドインスタンスへの露出を制限するために行われ、これは一般的なイングレス制御メカニズムである^[29]。

Remove ads

出典

Loading content...

定義

一般的な検定統計量

セグメンテーションとターゲティング

トレードオフ

肯定的な面

否定的な面

歴史

応用

オンラインソーシャルメディア

電子商取引

製品価格設定

政治的A/Bテスト

HTTPルーティングとAPI機能テスト

出典

関連項目

Wikiwand - on