P値 - Wikiwand

帰無仮説の有意性検定において、p値（ピーち、p-value^{[注 1]}）は、帰無仮説が正しいという仮定の下で、実際に観察された結果と少なくとも同じくらい極端な検定結果を得る確率である^[2]^[3]。p値が非常に小さいことは、そのような極端な観測結果は帰無仮説の下では極めて起こりにくいことを意味する。多くの定量的な分野の学術出版物では、統計的検定の p値が一般的に報告されているにもかかわらず、p値の誤った解釈や p値の誤用（英語版）が広く見られ、数学やメタサイエンスの主要な課題となっている^[4]^[5]。2016年、アメリカ統計学会（ASA）は正式な声明を発表し、「p値は、研究対象となった仮説が正しい確率や、データが偶然だけで生じた確率を測定するものではない」と述べ、「p値、すなわち統計的有意性は、効果の大きさや結果の重要性を測定するものではない」または「モデルや仮説に関する証拠」ではないとした^[6]。しかし、ASAのタスクフォースは2019年に、統計的有意性と再現性に関する声明を発表し、「p値および有意性検定は、適切に用いられ解釈された場合、データから導き出される結論の厳密性を高めることができる」と結論づけている^[7]。

Remove ads

基本概念

要約

視点

統計学では、ある研究における観測データ $X$ を表す確率変数の集合について、未知の確率分布に関するあらゆる推測を統計的仮説（statistical hypothesis）と呼ぶ。統計的検定の目的が、一つだけ述べた仮説が妥当であるかどうかを検証することであって、別の特定の仮説を検証することではない場合、そのような検定は帰無仮説検定（null hypothesis test、棄却検定とも）と呼ばれる。

定義上、統計的仮説とは、分布の何らかの特徴を指すものであり、帰無仮説とは、その特徴が存在しないというデフォルト仮説を指す。通常、帰無仮説は、関心のある母集団の何らかのパラメータ（相関や平均値の差など）が 0 であるという仮説である。その仮説は、 $X$ の確率分布を正確に特定する場合もあれば、 $X$ がある分布のクラスに属することだけを特定する場合もある。多くの場合、データは単一の数値統計（ $T$ など）に単純化され、その周辺確率分布は研究における主な関心事と密接に関連している。

p値は、選定した統計量 $T$ の観測結果の統計的有意性を定量化するために、帰無仮説検定の文脈で使用される^{[注 2]}。p値が低いほど、帰無仮説が正しい場合に、その結果を得る確率が低いことを意味する。帰無仮説を棄却できる場合、その結果は統計的に有意（statistically significant）であると見なされる。他の条件がすべて同じであれば、p値が小さいほど、帰無仮説を否定するより強い証拠と見なされる。

大まかに言えば、帰無仮説の棄却は、それとは反対の十分な証拠があることを意味する。

一例として、「ある要約統計量 $T$ が標準正規分布 ${\mathcal {N}}(0,1)$ に従う」という帰無仮説が立てられた場合、この帰無仮説を棄却するということは、(1) $T$ の平均が 0 ではない、(2) $T$ の分散が 1 ではない、(3) $T$ が正規分布に従わない、のいずれかを意味する可能性がある。同じ帰無仮説に対する異なる検定は、対立仮説に対しする感度がそれぞれ異なる。しかし、3つの対立仮説すべてが帰無仮説を棄却でき、その分布が正規分布で分散が 1であると分かっていたとしても、帰無仮説検定では、平均が非 0 の値のうち、どれが最も妥当であるかはわからない。同じ確率分布に従う独立した観測値が多ければ多いほど、その検定の精度は向上し、平均値を正確に決定し、それが 0 でないことを示す精度も高くなる。それだけでなく、この偏差の現実世界あるいは科学的な妥当性の評価に与えられる重みも高まる。

Remove ads

定義と解釈

要約

視点

定義

p値は、帰無仮説の下で、実際の検定統計量と少なくとも同じくらい極端な検定統計量が得られる確率である。未知の分布 $T$ から観測された検定統計量 $t$ を考える。この場合、p値 $p$ は、帰無仮説 $H_{0}$ が真である場合に、検定統計量が $t$ と同じくらい「極端」な値になる事前確率である。すなわち、

$p=\Pr(T\geq t\mid H_{0})$ 検定統計量の分布が右片側の場合、
$p=\Pr(T\leq t\mid H_{0})$ 検定統計量の分布が左片側の場合、
$p=2\min\{\Pr(T\geq t\mid H_{0}),\Pr(T\leq t\mid H_{0})\}$ 検定統計量の分布が両側の場合となる。もし $T$ の分布が 0 を中心に対称であれば、 $p=\Pr(|T|\geq |t|\mid H_{0})$ となる。

解釈

実践的な統計学者がもっとも避けるべきと考える過誤（主観的なもの）は第一種の過誤である。数学理論の第一の要件は、第一種の過誤を犯す確率が、あらかじめ定められた数 α（たとえば α = 0.05 や 0.01 など）に等しい（またはほぼ等しい、または超えない）ことを保証する検定基準を導き出すことである。この数字を有意水準と呼ぶ。
—Jerzy Neyman、"The Emergence of Mathematical Statistics"^[8]

有意差検定では、p値が事前に設定した閾値 $\alpha$ を下回る場合、帰無仮説 $H_{0}$ は棄却される。この $\alpha$ は、 $\alpha$ 水準または有意水準（significance level）と呼ばれる。 $\alpha$ はデータから導かれるものではなく、データを調べる前に研究者が設定する。 $\alpha$ は通常 0.05 に設定されるが、より小さな $\alpha$ 水準が使用されることもある。2018年、ダニエル・ベンジャミン率いる統計学者グループが、統計的有意性の世界標準値として 0.005 を採用する提案をした^[9]。

独立したデータセットに基づく異なる p値どうしは、たとえばフィッシャーの結合確率検定（英語版）を使用して組み合わせることができる。

分布

p値は、選定された検定統計量 $T$ の関数であるため、確率変数である。帰無仮説が $T$ の確率分布を正確に定義している場合（例： $H_{0}:\theta =\theta _{0},$ ここで $\theta$ は唯一のパラメータ）、その分布が連続的である場合、帰無仮説が真であれば p値は 0 から 1 の間の一様分布となる。 $H_{0}$ の真偽に関わらず、p値は固定値ではない。同じ検定を新しいデータで独立して繰り返した場合、通常、各反復で異なる p値が得られる。

通常、ある仮説に関連して観察される p値は 1つだけであるため、p値は有意差検定によって解釈され、p値の分布を推定する試みはなされない。p値の集合が利用可能な場合（例：同じ主題に関する一連の研究の検証）、p値の分布は p曲線（p-curve）と呼ばれることがある^[10]。p曲線は、出版バイアスや p値ハッキング（英語版）を検出するなど、科学文献の信頼性を評価するために使用されることがある^[10]^[11]。

複合仮説の分布

パラメトリック仮説検定問題では、単純仮説または点仮説とは、パラメータの値が単一の数値であると想定する仮説である。これに対し、複合仮説（composite hypothesis (en:英語版) ）では、パラメータは一連の数値によって表される。帰無仮説が複合仮説である場合（または統計量の分布が離散的である場合）、帰無仮説が真であれば、0 から 1 までの任意の数値以下となる p値を得る確率は、それらの数を依然として下回る^{[訳語疑問点]}。言い換えれば、帰無仮説が真である場合、非常に小さな p値は比較的発生しにくく、また p値が $\alpha$ より小さい場合、帰無仮説を棄却することで $\alpha$ 水準での有意差があるという状況に変わりはない^[12]^[13]。

たとえば、ある分布が正規分布で平均値 0 以下であるという帰無仮説を、平均値が 0 より大きいという対立仮説（ $H_{0}:\mu \leq 0$ 、分散は既知）に対して検定する場合、その帰無仮説は適切な検定統計量の正確な確率分布を特定しない。この例では、片側一標本 Z検定に属する Z統計量となる。理論平均値のとりうる値ごとに、Z検定統計量は異なる確率分布を持つ。このような状況では、p値は最も不利な帰無仮説の状況（通常は帰無仮説と対立仮説の境界線上にある）に基づいて定義される。この定義により、p値および α水準が相互に補完しあうことが保証される。 $\alpha =0.05$ は、p値が 0.05 を下回る場合にのみ帰無仮説が棄却されることを意味し、その仮説検定の第一種過誤率は実際に 0.05 が上限となる。

Remove ads

使用法

p値は、統計的仮説検定、特に帰無仮説の有意差検定において広く用いられている。この方法では、研究を行う前に、まずモデル（帰無仮説）と有意水準 α（一般的に0.05）が選択される。データを分析した後、p値が αより小さい場合、観察されたデータが帰無仮説と十分に矛盾していると見なされるため、帰無仮説は棄却される。しかし、これは帰無仮説が誤りであるということを証明するものではない。p値はそれ自体で仮説の確からしさを示すものではない。むしろ、p値は、帰無仮説を棄却すべきかどうかを判断する道具である^[14]。

誤用

→詳細は「p値の誤用（英語版）」を参照

アメリカ統計学会（ASA）によると、p値は誤用され、誤って解釈されることが多いことが広く認められている^[3]。特に批判されているのは、他の裏付けとなる証拠がない場合に、名目上の p値が 0.05 未満であれば対立仮説を受け入れるという慣行である。p値は、データが特定の統計モデルとどの程度矛盾しているかを評価するときに有用であるが、「研究の計画、測定の質、研究対象の現象に関する外的証拠、データ分析の基礎となる仮定の妥当性」などの状況的要因も考慮しなければならない^[3]。もう一つの懸念は、p値が帰無仮説が真である確率と誤解されることが多いことである^[3]^[15]。

一部の統計学者は、p値を放棄し^[3]、信頼区間^[16]^[17]、尤度比^[18]^[19]、ベイズ因子^[20]^[21]^[22]などの他の推論統計に焦点を当てることを提案しているが、これらの代替案の実現可能性は激しい議論されている^[23]^[24]。また、固定された有意水準の閾値を撤廃し、p値を帰無仮説に対する証拠の強さを示す連続的な指標として解釈すべきだという意見もある^[25]^[26]。また、偽陽性（すなわち、実質効果がない確率）のリスクを事前に設定した閾値（例：5%）未満に抑えるために必要な実質効果の事前確率を p値とともに報告するという提案もあった^[27]。

そうとはいえ、2019年にASAのタスクフォースが招集され、科学的研究における統計的手法の使用、特に仮説検定と p値、および再現可能性との関連性について検討された^[7]。タスクフォースは、「不確実性のさまざまな尺度は互いに補完し合うものであり、単一の尺度ですべての目的を果たすことはできない。」と述べ、その一つとして p値をあげている。また、p値は特定の値について検討する場合だけでなく、ある閾値と比較する場合にも有用な情報を提供できることを強調している。一般的に「p値および有意差検定は、適切に用いられ解釈された場合、データから導き出される結論の厳密性を高めることができる」と強調している。

算出

通常、 $T$ は検定統計量である。検定統計量は、観測されたすべての値によるスカラー関数の出力である。この統計量は、t統計量（英語版）や F統計量などの単一の数値を示す。したがって、検定統計量は、それを定義する関数と入力観測データの分布によって決まる分布に従う。

データが正規分布からの無作為抽出サンプルであると仮定される重要なケースでは、検定統計量の特性とその分布に関する仮説に応じて、異なる帰無仮説検定が開発されている。そのような検定には、分散が既知の正規分布の平均に関する仮説に対する z検定、分散が未知の正規分布の平均に関する仮説に対する適切な統計量スチューデントの t分布に基づく t検定、分散に関する仮説に対する別の統計量 F分布に基づく F検定などがある。カテゴリデータ（離散データ）などの他の特性を持つデータについては、ピアソンのカイ二乗検定 (en:英語版) のような、大規模な標本に対して中心極限定理を適用して得られる適切な統計量の正規近似に基づく帰無仮説分布と、それに基づく検定統計量が構築されることがある。

このように、p値を算出するには、帰無仮説、検定統計量（片側検定と両側検定（英語版）を行うかどうかの研究者の決定を含む）、および観測データが必要である。あるデータに対する検定統計量の算出は簡単であっても、帰無仮説に基づく標本分布の算出や、累積分布関数（CDF）の算出はしばしば難しい問題となる。今日では、この計算は統計ソフトウェアを使用して行われ、多くの場合、厳密な数式ではなく数値解析が使用されるが、20世紀前半から半ばにかけては数値表を用いており、これらの離散値から p値を内挿または外挿していた^[要出典]。フィッシャーは、p値の表を使用する代わりに、CDFを反転させ、固定 p値に対する検定統計量の値の一覧表を発表した。これは、分位関数（英語版）（逆CDF）を計算することと同じである。

Remove ads

例

要約

視点

この節は検証可能な参考文献や出典が全く示されていないか、不十分です。 (2024年4月)

→詳細は「二項検定」および「コインが公正なものかどうかの確認（英語版）」を参照

コインの公正性の検定

統計検定の一例として、コイン投げが公正か（表と裏が出る確率が等しい）、不正に偏っているか（どちらか一方の面が出る確率がより高い）を調べる実験が行われた。

実験ではコインを20回投げ、うち表が14回出た。全データ $X$ は、表（Head）あるいは裏（Tail）の20個の記号からなる。着目する統計量は、表が出た総数 $T$ である。帰無仮説は、コインは公正であり、コイン投げは互いに独立であるというものである。コインが表に偏っている可能性について実際に関心があるため、右側検定を考慮することになる。この場合、結果の p値は、20回の公正なコイン投げのうち少なくとも14回が表になる確率である。この確率は、二項係数から次のように計算できる。

{\begin{aligned}&\Pr(14{\text{ heads}})+\Pr(15{\text{ heads}})+\cdots +\Pr(20{\text{ heads}})\\&={\frac {1}{2^{20}}}\left[{\binom {20}{14}}+{\binom {20}{15}}+\cdots +{\binom {20}{20}}\right]={\frac {60\,460}{1\,048\,576}}\approx 0.058.\end{aligned}}

この確率は、表に有利な極端な結果のみを考慮した p値である。これは、片側検定（英語版）（one-tailed test）と呼ばれる。しかし、表か裏のどちらかの方向に偏り、どちらに有利になるかに関心をもつこともある。表または裏のいずれかに有利な偏差を考慮した両側 p値（two-tailed p-value）を、代わりに計算することができる。公正なコインの場合、二項分布は対称形となるため、両側 p値は単純に、前述した片側 p値の2倍となる。この両側 p値は 0.115 である。上記の例は次のように計算することができる。

帰無仮説 (H₀)：コインは公正であり、Pr(heads) = 0.5 である
検定統計量：表が出た回数
α水準（有意水準；指定した有意差の閾値）：0.05
観測値 O：20回投げ、表は14回
H₀ における観測値 O の両側 p値： 2 × min(Pr(表の回数 ≥ 14回), Pr(表の回数 ≤ 14回)) = 2 × min(0.058, 0.978) = 2 × 0.058 = 0.115

Pr(表の回数 ≤ 14回) = 1 − Pr(表の回数 ≥ 14回) + Pr(表の回数 = 14) = 1 − 0.058 + 0.036 = 0.978 となる。ただし、この二項分布は対称性があるため、2つの確率のうち小さい方を見つける計算は不要である。この例では、計算した p値は 0.05 を上回っており、コインが公正であれば、95%の確率で起こる範囲内にデータが収まることを意味する。したがって、優位水準 0.05 で帰無仮説は棄却されない。

しかし、表がもう1つ出ていた場合、p値（両側）は 0.0414（4.14%）となり、この例では、有意水準 0.05 で帰無仮説が棄却される。

多段階実験の計画

コインの公正性を検定するための多段階実験を考えると、「極端」という言葉には2つの異なる意味があることが明らかになる。実験が次のように設計されていると仮定する。

コインを2回投げる。2回とも表または裏が出た場合、実験は終了する。
そうでない場合は、さらに4回コインを投げる。

この実験には、表2回、裏2回、表5回と裏1回、...、表1回と裏5回という7種類の結果がある。いま「表3回と裏3回」という結果について p値を計算する。

検定統計量として「表/裏」を用いる場合、帰無仮説の下では、両側 p値は正確に 1、左片側 p値は正確に 19/32、右片側 p値も同様となる。

「表3回と裏3回」と同じかそれよりも低い確率の結果がすべて「少なくとも同じくらい極端」とみなされる場合、p値は正確に 1/2 となる。

しかし、何が起こってもコインを6回だけ投げると計画した場合、p値の2番目の定義から、「表3回と裏3回」の p値は正確に 1 となる。

このように、「少なくとも同じくらい極端」という p値の定義は状況に大きく依存し、実際には起こらなかったことも含め、実験者が「計画した」内容によっても異なる。

Remove ads

歴史

要約

視点

P値の算出は1700年代に遡り、人の出生時の性比（英語版）を、男女間の出生確率が等しいという帰無仮説と比較した際の、統計的有意性を算出するために使用されていた^[28]。ジョン・アーバスノット（英語版）は1710年にこの問題について研究し、1629年から1710年までの82年間のロンドンの出生記録を調査した^[29]^[30]^[31]^[32]。どの年も、ロンドンで生まれた男児の数は女児の数を上回っていた。男児と女児の出生が等しく起こると見なすと、観察された結果の確率は 1/2⁸²、つまり1/4,836,000,000,000,000,000,000,000である。これは現代の言葉で言う p値である。これは極めて小さな値であり、アーバスノットは、これを偶然ではなく神の摂理によるものだと結論づけ、「このことから、世界を支配するのは偶然ではなく、創造であるという結論が導き出される。」と述べた。現代的な言い方をすれば、彼は p = 1/2⁸² の有意水準で、男児と女児の出生が同じ確率であるという帰無仮説を棄却した。アーバスノットのこの研究と他の研究は、「… 初めて有意差検定が用いられた…^[33]」、「統計的有意性に関する推論の最初の例^[34]」であり、「…おそらくノンパラメトリック検定の最初の公表された報告…^[30]」として、特に符号検定（英語版）の最初の報告として知られている。詳細は符号検定 § 歴史（英語版）を参照のこと。

同じ疑問は後に、ピエール＝シモン・ラプラスによって取り上げられ、ラプラスは代わりにパラメトリック検定（parametric test）を行い、二項分布に基づいて男性の出生数をモデル化した^[35]。

1770年代、ラプラスは50万人近い出生統計を検討した。統計では男児の数が女児の数を上回っていた。彼は p値の計算から、極端な現象は現実のものだが説明できない効果であると結論づけた。

p値は、カール・ピアソンが、カイ二乗分布を用いた「ピアソンのカイ二乗検定」で初めて正式に導入し、大文字の P で表記した^[36]。現在では、カイ二乗分布の p値（さまざまな χ² 値と自由度）は P と表記され、Elderton (1902)で算出され、Pearson (1914:xxxi–xxxiii, 26–28, Table XII) にまとめられた。

ロナルド・フィッシャーは統計における p値の使い方を正式化し、普及させ^[37]^[38]、この問題に対する彼の研究方法において中心的な役割を果たした^[39]。フィッシャーは、影響力の大きな著書『Statistical Methods for Research Workers（研究者のための統計的方法（英語版））』（1925年）の中で、偶然に超えられる確率が20分の1となる水準 p = 0.05 を統計的有意性の限界として提案し、これを（両側検定として）正規分布に適用して、統計的有意性のための（正規分布における）2標準偏差のルールを生みだした^[40]^{[注 3]}^[41]。（参照 68-95-99.7則）

さらに、Elderton（英語版）の手法に似た数値表も算出したが、より重要なのは、χ² と p の役割が逆転したことである。つまり、χ²（および自由度 n）のさまざまな値について p を計算するのではなく、特定の p値、具体的には 0.99、0.98、0.95、0.90、0.80、0.70、0.50、0.30、0.20、0.10、0.05、0.02、0.01 に対応する χ² 値を計算した^[42]。これにより、χ² の計算値をカットオフ値と比較できるようになり（p値自体を計算し、報告するのではなく）、そして p値（特に0.05、0.02、0.01）をカットオフ値とすることが推奨された。その後、Fisher & Yates (1938) により同様の表がまとめられ、この手法が定着した^[41]。

実験の設計と解釈における p値の適用例として、フィッシャーは、次の著書『The Design of Experiments（実験計画法（英語版））』（1935年）で、p値の典型的な例として知られる「紅茶の違いのわかる婦人」の実験を紹介した^[43]。

ある女性（ミュリエル・ブリストル（英語版））が、ミルクを先にカップに注いで紅茶を足す方法と、紅茶を先にカップに注いでミルクを足す方法との違いを味で区別できると主張するのを評価するため、8つのカップが順番に彼女に提示された。4杯は一方の方法で、4杯はもう一方の方法で用意され、彼女はそれぞれのカップにどのように紅茶が入れられたかを判断するように求められた（それぞれ4杯ずつあることは知っていた）。この場合、帰無仮説は「彼女に特別な能力はない」であり、検定方法はフィッシャーの正確確率検定で、p値は $1/{\binom {8}{4}}=1/70\approx 0.014$ であった。フィッシャーは、すべてが正しく分類された場合は帰無仮説を棄却することに同意した（偶然による可能性は非常に低いと考えた）。実際の実験では、ブリストルは8つのカップをすべて正しく分類した。

フィッシャーは p = 0.05 という基準を再度述べ、その根拠を説明した^[44]。

有意水準の基準として5%を用いるのは、実験者にとって一般的であり、便利でもある。つまりこの基準に達しない結果をすべて無視し、偶然が実験結果にもたらした変動の大部分を以降の議論から排除するという意味で、実験者にとって都合が良い。

また、彼はこの閾値を実験計画にも適用し、もし6つのカップ（各3杯）しか提示されていなかった場合、分類が完全であったとしても、p値は $1/{\binom {6}{3}}=1/20=0.05$ にしかならず、この有意水準を満たすことはないだろうと指摘している^[44]。フィッシャーはまた、帰無仮説が正しいと仮定した場合、データと同程度の極端な値の長期的な比率として p値を解釈する重要性を強調した。

フィッシャーは、著書の後の版で、科学的な統計的推論における p値の使い方をネイマン・ピアソン法と明確に比較し、それを「受け入れ手順」と呼んだ^[45]。フィッシャーは、5%、2%、1%といった固定の水準は簡便であるが、正確な p値も使用でき、さらなる実験によって証拠の強さを改め、見直すことができると強調した。その一方、決定手順は明確な意思決定を必要とし、その結果、不可解な行動につながり、またその手順は過誤のコストに基づいており、科学的研究には適用できないと指摘した。

Remove ads

脚注

Loading content...

外部リンク

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

P値

基本概念

定義と解釈

定義

解釈

分布

複合仮説の分布

使用法

誤用

算出

例

コインの公正性の検定

多段階実験の計画

歴史

関連指標

脚注

推薦文献

関連項目

外部リンク

Wikiwand - on