トップQs
タイムライン
チャット
視点
正規分布
連続的変数に対する確率分布の1つ ウィキペディアから
Remove ads
正規分布(せいきぶんぷ、英: normal distribution)またはガウス分布(英: Gaussian distribution)は、確率論や統計学で用いられる連続的な変数に関する確率分布の一つである[1]。データが平均の付近に集積するような分布を表す。主な特徴としては平均値と最頻値、中央値が一致する事や平均値を中心にして左右対称である事などが挙げられる[1][2]。
![]() |
中心極限定理により、独立な多数の因子の和として表される確率変数は正規分布に従う。このことによって正規分布は統計学や自然科学、社会科学の様々な場面で複雑な現象を簡単に表すモデルとして用いられている[1]。
たとえば、実験における測定の誤差は正規分布に従って分布すると仮定され、不確かさの評価が計算されている。
正規分布の確率密度関数のフーリエ変換は再び正規分布の密度関数になることから、フーリエ解析および派生した様々な数学・物理の理論の体系において、正規分布は基本的な役割を果たしている。
確率変数 X が1次元正規分布に従う場合は と表記し、確率変数 X が n 次元正規分布に従う場合は などと表記する。
Remove ads
概要
要約
視点
平均を μ, 分散を σ2 > 0 とする(1次元)正規分布とは、確率密度関数が次の形(ガウス関数と呼ばれる)
で与えられる確率分布のことである[1][3][4]。この分布を N(μ, σ2) と表す[1][3]。(N は「正規分布」を表す英語 "normal distribution" の頭文字から取られている)[1]。
標準正規分布
特に μ = 0, σ2 = 1 のとき、この分布は(1次元)標準正規分布(または基準正規分布)と呼ばれる[5]。つまり標準正規分布 N(0, 1) は
なる確率密度関数を持つ確率分布として与えられる[1]。
再生性
正規分布は再生性を持つ[6] —— つまり確率変数 X1, …, Xn が独立にそれぞれ正規分布 N(μ1, σ12), …, N(μn, σn2) に従うならば、その線型結合 ∑aiXi もまた正規分布 N(∑aiμi, ∑ai2σi2) に従う。
確率密度関数
正規分布の確率密度関数をグラフ化した正規分布曲線は左右対称な釣鐘状の曲線であり、鐘の形に似ていることからベル・カーブ(鐘形曲線)とも呼ばれる。直線 x = μ に関して対称であり、x 軸は漸近線である。なお、曲線は σ の値が大きいほど扁平になる。
なお、中心極限定理により、巨大な n に対する二項分布とも考えることができる。
平均値の周辺の n 次モーメントは、各次数 n に対して
となることが知られている[7]。ただし(2n − 1)!! ≔ (2n − 1) ⋅ (2n − 3) ⋅ … ⋅ 3 ⋅ 1。 (odd: 奇数/even: 偶数)
多変量正規分布
→詳細は「多変量正規分布」を参照

また、多変量の統計として共分散まで込めた多次元の正規分布も定義され、平均 μ = (μ1, μ2, …, μn) の n 次元正規分布の同時密度関数は次の式で与えられる。
ここで、∑ = (σij) は分散共分散行列と呼ばれる正定値対称行列である。|Σ| は Σ の行列式。なお、A[x] は(対称)行列 A とベクトル x に対して二次形式 xTAx を意味するもの(ジーゲルの記号)とすると (x − μ)T∑−1(x − μ) = ∑−1[x − μ] と書くこともできる。
この n 次元正規分布を Nn(μ, ∑) と表す[8]。特に1次元の場合、平均 (μ) と分散共分散行列 ∑ = (σ2) は共に1次元の平均と分散を意味する1つの実数値であり、記号 N1((μ), ∑) = N1((μ), (σ2)) は単に N(μ, σ2) と書かれる(先に述べた1次元の場合の記号と同じものと理解してよい)。
歪正規分布

正規分布の拡張としては、上で示した多次元化を施した多変量正規分布の他に、歪正規分布 (Skew-Normal (SN) distribution) がある。これは三変数で表現され、そのうち1つの変数について α = 0 のときに正規分布となることから、分布を平均と分散の二変数で表現する正規分布の拡張であるといえる。φ(x) を標準正規分布の確率密度関数とする。
その累積確率密度関数は次で与えられる。
ここに "erf" は誤差関数(シグモイド関数)である。このとき、標準正規分布に対応する歪正規分布 SN(0, 1, α) の確率密度関数は次で与えられる。
これに平均のようなもの相当する変数と分散のようなものに相当する変数を加えるためにZ変換(標準化)の逆 y = ξ + ωx を施す。すると歪正規分布は一般の形になり、以下の関係が成り立つ。
Remove ads
正規分布の適用
要約
視点

正規分布が統計学上特別な地位を持つのは中心極限定理が存在するためである。中心極限定理とは、「独立同分布に従う確率変数 の値の算術平均 の確率分布は、 に標準偏差が存在するならば、 の分布の形状に関係なく、 が限りなく大きくなったとき、正規分布に収束する」という定理である[1]。このため大標本の「平均値」の統計には、正規分布が仮定されることが非常に多い。なお、「確率変数 の値」自体は、 をどれだけ増やしても、 の分布に従うだけで、正規分布に収束することはない。(たとえば、一つのサイコロを振ったときの目の分布は、サイコロをどれだけ多く振っても、1から6の均等分布である。正規分布に収束するのは、出た目の平均値の分布である。)
自然界の事象の中には正規分布に従う数量の分布をとるものがあることが知られている[9]。また、そのままでは変数が正規分布に従わない場合もその対数をとると正規分布に従う場合がある。しかしそれは必ずしも多数派というわけではない。19世紀ではさながら「正規分布万能主義」のような考え方がまかり通っていたが、20世紀以降そういった考え方に修正が見られた。今日においては社会現象、生物集団の現象等々、種別から言えば、正規分布に従うものはむしろ少数派であることが確認されている。
例えば、フラクタルな性質を持つ物は正規分布よりも、パレート分布になることが多い。人間は自然界の事象とは違って自分の意思をもっているため、たとえば、子供の成績などは決して正規分布にはならない[9]。しかし、そもそも理論上、正規分布の x の値は負の無限大から正の無限大まで取れるのに対して、多くの事象は最小値(例えば比例尺度におけるゼロ)と最大値(例えばテストにおける100点満点)が予め定まっている場合があり、そのような事象が完全な正規分布に従うとするには無理がある(その際はcensoringつまり打ち切りを考慮したり、対数正規分布を用いたりするとより正確な確率を求めることが出来る場合がある)。また、0 および自然数しかとらない離散確率分布、例えばポアソン分布や二項分布を連続確率分布である正規分布で近似することも一般的に行われている。
検定

何らかの事象について法則性を捜したり理論を構築しようとしたりする際、その確率分布がまだ分かっていない場合にはそれが正規分布であると仮定して推論することは珍しくないが、誤った結論にたどりついてしまう可能性がある。標本データが正規分布に近似しているかどうを判断するためには、尖度と歪度を調べる、ヒストグラムを見る、正規Q-Qプロットをチェックする、あるいはシャピロ–ウィルク検定やコルモゴロフ–スミルノフ検定(正規分布)を利用する方法などが一般的に行われている。
点推定
平均や分散が未知の正規分布に従うデータから、母数 θ = (μ, σ2) を推定したいことがある。これには次の推定量 がよく用いられる。正規分布 N(μ, σ2) からの無作為標本 x1, …, xn が与えられたとき、
は最小分散不偏推定量である[10]。
区間推定
点推定が1つの値を用いて母数の推定を行うのに対し、一定の区間を設けて推定することを区間推定という。
例えば、
「2022年6月の岸田内閣の支持率は59%である[11]」
という推定が点推定であるのに対し、
「2022年1月から12月まで支持率は33%から59%である[11]」
という推定は区間推定に分類される[12]。
また、推定する区間を信頼区間と呼び、水準に応じて「90%信頼区間」「95%信頼区間」「99%信頼区間」などとも呼ばれる[13]。
Remove ads
歴史
正規分布はアブラーム・ド・モアブルによって1733年に導入された[14]。この論文はド・モアブル自身による1738年出版の The Doctrine of Chances 第二版の中で、高い次数に関する二項分布の近似の文脈において再掲されている。ド・モアブルの結果はピエール=シモン・ラプラスによる『確率論の解析理論』(1812年)において拡張され、いまではド・モアブル–ラプラスの定理と呼ばれている。
ラプラスは正規分布を実験の誤差の解析に用いた。その後アドリアン=マリ・ルジャンドルによって1805年に最小二乗法が導入され[15]、1809年のカール・フリードリヒ・ガウスによる誤差論で詳細に論じられた(ガウスは1794年から最小二乗法を知っていたと主張していた)。
「ベル・カーブ」という名前は、1872年に2変数正規分布に対して「鐘形曲面」という言葉を用いた Esprit Jouffret にさかのぼる。「正規分布」という言葉はチャールズ・サンダース・パース、フランシス・ゴルトン、ヴィルヘルム・レキシスの3人によって1875年頃に独立に導入された。
統計的な意味
要約
視点

正規分布 N(μ, σ2) からの無作為標本 x を取ると、平均 μ からのずれが ±1σ 以下の範囲に x が含まれる確率は 68.27%、±2σ 以下だと 95.45%、さらに ±3σ だと 99.73% となる[1]。これは68–95–99.7則と呼ばれることもある。
正規分布は、t分布やF分布といった種々の分布の考え方の基礎になっているだけでなく、実際の統計的推測においても、仮説検定、区間推定など、様々な場面で利用される。
正規分布 N(μ, σ) に従う確率変数 X が与えられたとき Z = X − μ/σ と標準化すれば確率変数 Z は標準正規分布に従う。大学レベルの統計入門のクラスでは必ず行われているが、Z 値を求めることで標準正規分布表と呼ばれる変量に対応した確率を表す一覧表を用いて、コンピュータを使うことなく正規分布に従った事象の確率を求めることができる。
不連続値をとる確率変数についての検定の場合でも、連続変数と同様の考え方で正規分布を近似的に用いることがある。これは標本の大きさ n が大きく、かつデータの階級幅が狭いほど、近似の精度が高い。


Remove ads
標準正規分布表
要約
視点
引用元:(成実清松 & 坂井忠次 1952)
標準正規分布における確率の値をまとめた。
Remove ads
脚注
参考文献
関連項目
外部リンク
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads