热门问题
时间线
聊天
视角

U-统计量

来自维基百科,自由的百科全书

Remove ads

U-统计量是统计学中一类特定的、具有对称性的统计量,它在估计理论中扮演重要角色。名称中的“ U”为无偏(unbiased)之意。在初等统计学中,U-统计量与最小方差无偏估计量 (UMVUE) 有密切联系。

U-统计量的一个重要性是,对概率分布来说,其可估计参数的最小方差无偏估计量 是一个U-统计量。 [1][2] 因此通过研究U-统计量的一般性质,可以系统地了解这些估计量的统计学性质。[3]

U-统计量在非参数统计中尤其重要,不少用于估计和统计检验的统计量,在形式上都是U-统计量。U-统计量通常具有良好的渐近正态性,这方便了基于它的统计推断。 近年来,U-统计量在研究复杂的随机过程随机网络类型数据的随机性质方面,发挥了作用。[4][5][6]

目前,统计学家们对U-统计量性质的了解,几乎全都基于Hoeffding发表于1948年的经典论文[7]。在这篇论文里,Hoeffding给出了U-统计量最重要的性质——它的ANOVA分解

Remove ads

定义

定义 为一个函数,其具有对称性,即交换任意 的位置, 的值保持不变。对随机变量 ,基于 的U-统计量定义如下:

这里, 称为U-统计量的核函数(Kernel function),而核函数的维数 称为该U-统计量的度(degree)[8]

Remove ads

两样本U-统计量

定义 为一个函数,其对 分别具有对称性,即交换任意 的位置或交换任意 的位置, 的值保持不变(但不能随意交换 )。对随机变量 ,基于 的两样本U-统计量定义如下:

目前在机器学习中,最常见的情形是 ,例如能量距离最大平均差异(MMD)

Remove ads

Hoeffding的ANOVA分解定理

定理表述

Hoeffding的ANOVA分解定理是现代U-统计量理论的基础。[9]为表述该定理,定义:。 对所有 ,定义投影函数

然后定义正交化投影函数

,等等,每一个 都定义为相应的 减去之前定义过的所有 ,直至最后一个函数

Hoeffding的ANOVA分解定理的内容是:

Remove ads

分解项的性质

所有的正交化投影函数 都满足:

因此,所有的分解项之间是互不相关的[9],并且度为 的分解项之平均的阶为 .

在大多数应用中,一个U-统计量的ANOVA分解中最重要的是前一项或前两项。根据分解项的性质,可以得到如下的两项ANOVA分解式:

Remove ads

定理应用

  • U-统计量的渐近正态性是Hoeffding的ANOVA分解定理的简单推论。具体而言,有如下结论:记 ,则:

同时,分解定理也指出了应该如何正确地一阶逼近U-统计量的方差,和对其进行t-标准化

  • 由该定理出发,在不同强度的假设条件下,可以用一项或两项的Edgeworth展开来高精度地逼近U-统计量的分布。[8][10][11][12]


Remove ads

具体例子

  • 度为1的例子:令 ,则U-统计量 是样本均值。
  • 度为2的例子:令 ,则U-统计量

称为“平均成对偏差”。

  • 另一个度为2的例子:令 ,则U-统计量有如下变形:

这正是人们熟知的样本方差

  • 度为3的例子:样本偏度定义中的分子项:

展开后可以写成一个U-统计量。

  • 在机器学习中,用核函数方法进行一样本或两样本非参数统计检验时,检验统计量是一个能量距离最大平均差异(MMD),两者均为U-统计量或表达式包含两样本U-统计量。[13][14]
Remove ads

参见

参考文献

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads