单峰 - Wikiwand

數學中，單峰意味着擁有唯一的眾數。更一般地說，單峰意味着數學物件只有唯一的最大值。^[1]

單峰概率分佈

統計學中，單峰概率分佈或單峰分佈是具有單一峰值的概率分佈。「峰」指分佈的任何峰值，不僅僅是統計學中通常的眾數。

若只有一個峰，則分佈函數就是「單峰」的。除此之外都叫做「多峰」（multimodal）。^[2]圖 1展示的正態分佈、柯西分佈、T分佈、卡方分佈、指數分佈等都是單峰分佈。離散型分佈中，二項分佈和泊松分佈可視作單峰分佈，但對於某些參數可以在兩個相鄰值上產生相同的概率。

圖 2、圖 3展示了雙峰分佈。

其他定義

分佈函數的單峰性還有其他定義。

對於連續型分佈，單峰性可通過累積分佈函數（CDF）的行為定義。^[3]若CDF在 $x<m$ 時是凸的、在 $x<m$ 時是凹的，則分佈就是單峰分佈， $m$ 為眾數。需要注意的是，根據這一定義，均勻分佈也是單峰分佈^[4]，任何在一定區間內可取到最大分佈的也是單峰分佈，如梯形分佈。這一定義通常允許峰處不連續；在連續分佈中，任意單一值的概率通常都是0，而這一定義則允許在峰中存在非零概率點。

單峰的標準也可用分佈的特徵函數^[3]或拉普拉斯-斯蒂爾切斯轉換來定義。^[5]

定義單峰離散分佈的另一種方法是通過概率差序列的變號。^[6]離散分佈的概率質量函數為 $\{p_{n}:n=\dots ,-1,0,1,\dots \}$ ，若序列 $\dots ,p_{-2}-p_{-1},p_{-1}-p_{0},p_{0}-p_{1},p_{1}-p_{2},\dots$ 只有一次變號（不計入零），則稱為單峰分佈。

Remove ads

使用與結果

分佈的單峰性之所以重要，是因為它可以得到幾個重要的結果。下面給出的幾個不等式僅適用於單峰分佈，因此評估給定數據集是否來自單峰分佈非常重要。雙峰分佈條目中給出了幾種單峰測試法。

不等式

高斯不等式

高斯不等式是第一個重要結果，^[7]給出了值與峰的距離超過給定數的概率的上限，其只能用於單峰分佈。

維索尚斯基–佩圖寧不等式

第二個是維索尚斯基–佩圖寧不等式，^[8]其是柴比雪夫不等式的細化。柴比雪夫不等式保證在任何分佈中，「幾乎所有」值都「接近」均值。而維索尚斯基–佩圖寧不等式則將其細化到更接近的值，前提是分佈函數為連續單峰的。Sellke與Sellke得出了進一步的結果。^[9]

眾數、中位數與平均數

高斯在1823年也證明了單峰分佈的情形^[10]

\sigma \leq \omega \leq 2\sigma

及

|\nu -\mu |\leq {\sqrt {\frac {3}{4}}}\omega ,

其中中位數是ν，平均數是μ， ω是與眾數的均方根誤差。

對於單峰分佈，可以證明中位數ν與平均值μ在(3/5)^1/2 ≈ 0.7746個標準差的範圍內。^[11]用符號表示，

{\frac {|\nu -\mu |}{\sigma }}\leq {\sqrt {\frac {3}{5}}}

其中| . |是絕對值。

2020年，Bernard、Kazzi與Vanduffel通過推導對稱分位數均值 ${\frac {q_{\alpha }+q_{(1-\alpha )}}{2}}$ 與均值^[12]

{\frac {\left|{\frac {q_{\alpha }+q_{(1-\alpha )}}{2}}-\mu \right|}{\sigma }}\leq \left\{{\begin{array}{cl}{\frac {{\sqrt[{}]{{\frac {4}{9(1-\alpha )}}-1}}{\text{ }}+{\text{ }}{\sqrt[{}]{\frac {1-\alpha }{1/3+\alpha }}}}{2}}&{\text{for }}\alpha \in \left[{\frac {5}{6}},1\right)\!,\\{\frac {{\sqrt[{}]{\frac {3\alpha }{4-3\alpha }}}{\text{ }}+{\text{ }}{\sqrt[{}]{\frac {1-\alpha }{1/3+\alpha }}}}{2}}&{\text{for }}\alpha \in \left({\frac {1}{6}},{\frac {5}{6}}\right)\!,\\{\frac {{\sqrt[{}]{\frac {3\alpha }{4-3\alpha }}}{\text{ }}+{\text{ }}{\sqrt[{}]{{\frac {4}{9\alpha }}-1}}}{2}}&{\text{for }}\alpha \in \left(0,{\frac {1}{6}}\right]\!.\end{array}}\right.

之間的最大距離，推廣了前面的不等式。值得注意的是， $\alpha =0.5$ 時最大距離取得最小（即當對稱分位均值 $=q_{0.5}=\nu$ ），這也是選擇中位數為均值的穩健估計值的原因之一。此外，當 $\alpha =0.5$ ，邊界等於 ${\sqrt {3/5}}$ ，這時單峰分佈中位數和均值距離的最大值。