热门问题
时间线
聊天
视角
單峰
来自维基百科,自由的百科全书
Remove ads
數學中,單峰意味著擁有唯一的眾數。更一般地說,單峰意味著數學物件只有唯一的最大值。[1]
單峰機率分布


統計學中,單峰機率分布或單峰分布是具有單一峰值的機率分布。「峰」指分布的任何峰值,不僅僅是統計學中通常的眾數。
若只有一個峰,則分布函數就是「單峰」的。除此之外都叫做「多峰」(multimodal)。[2]圖 1展示的常態分布、柯西分布、T分布、卡方分布、指數分布等都是單峰分布。離散型分布中,二項分布和卜瓦松分布可視作單峰分布,但對於某些參數可以在兩個相鄰值上產生相同的機率。
圖 2、圖 3展示了雙峰分布。
分布函數的單峰性還有其他定義。
對於連續型分布,單峰性可通過累積分布函數(CDF)的行為定義。[3]若CDF在時是凸的、在時是凹的,則分布就是單峰分布,為眾數。需要注意的是,根據這一定義,均勻分布也是單峰分布[4],任何在一定區間內可取到最大分布的也是單峰分布,如梯形分布。這一定義通常允許峰處不連續;在連續分布中,任意單一值的機率通常都是0,而這一定義則允許在峰中存在非零機率點。
單峰的標準也可用分布的特徵函數[3]或拉普拉斯-斯蒂爾切斯轉換來定義。[5]
定義單峰離散分布的另一種方法是通過機率差序列的變號。[6]離散分布的機率質量函數為,若序列只有一次變號(不計入零),則稱為單峰分布。
Remove ads
分布的單峰性之所以重要,是因為它可以得到幾個重要的結果。下面給出的幾個不等式僅適用於單峰分布,因此評估給定數據集是否來自單峰分布非常重要。雙峰分布條目中給出了幾種單峰測試法。
高斯不等式是第一個重要結果,[7]給出了值與峰的距離超過給定數的機率的上限,其只能用於單峰分布。
第二個是維索尚斯基–佩圖寧不等式,[8]其是柴比雪夫不等式的細化。柴比雪夫不等式保證在任何分布中,「幾乎所有」值都「接近」均值。而維索尚斯基–佩圖寧不等式則將其細化到更接近的值,前提是分布函數為連續單峰的。Sellke與Sellke得出了進一步的結果。[9]
高斯在1823年也證明了單峰分布的情形[10]
及
對於單峰分布,可以證明中位數ν與平均值μ在(3/5)1/2 ≈ 0.7746個標準差的範圍內。[11]用符號表示,
其中| . |是絕對值。
2020年,Bernard、Kazzi與Vanduffel通過推導對稱分位數均值與均值[12]
之間的最大距離,推廣了前面的不等式。值得注意的是,時最大距離取得最小(即當對稱分位均值),這也是選擇中位數為均值的穩健估計值的原因之一。此外,當,邊界等於,這時單峰分布中位數和均值距離的最大值。
中位數和眾數θ也有類似關係:它們位於31/2 ≈ 1.732個標準差之內:
也可以證明均值和眾數相差在31/2之內:
Remove ads
Rohatgi與Szekely聲稱,單峰分布的偏度與峰度可通過不等式相聯繫:[13]
κ為峰度,γ為偏度。Klaassen、Mokveld與van Es發現,這隻適於部分情形,如眾數與均值重合的單峰分布集合。[14]
他們推導出了一個適用於所有單峰分布的較弱不等式:[14]
這個界限很銳,因為它是[0, 1]上的均勻分布和{0}處的離散分布的等權混合。
Remove ads
單峰函數
「峰」適用於數據集合機率分布,而非一般函數,所以上述定義並不適用。「單峰」的定義可擴展到實數函數。
通常定義如下:若對某值m,函數f(x)在時單調遞增、在時單調遞減,則為單峰函數。也就是說,f(x)的最大值為f(m),且沒有其他極大值。
證明單峰性通常很難。一種方法是利用定義,但這隻適用於簡單函數。還有基於導數的通用方法[15],但並不適用於每個函數。
上述情形有時被稱為強單調性。如有值m使時,函數f(x)弱單調遞增;時,函數f(x)弱單調遞減,則稱函數為弱單峰函數。這時,x存在可取到最大值f(m)的區間。楊輝三角的每一行都是弱單峰函數。
單峰函數也可以指只有一個極小值的函數。[16]例如,數值最佳化中的局部單峰抽樣經常用這樣的函數演示。可以說,這種推廣下的單峰函數具有單一局部極值。
其他推廣
若施瓦次導數均為負,則函數f(x)是「S-單峰」(常稱為「S-單峰映射」)函數,其中是臨界點。[18] 計算幾何中,單峰函數可以設計出高效的找到極值的算法。[19]
適用於向量自變數X的函數f(X)的更一般定義是,若存在可微單射X = G(Z)使f(G(Z))為凸函數,則f是單峰函數。通常,我們希望G(Z)連續可微,且有可逆雅各布矩陣。
另見
參考文獻
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads