此条目需要精通或熟悉相关主题的编者参与及协助编辑。 (2018年7月12日)请邀请适合的人士改善本条目。更多的细节与详情请参见讨论页。
此条目不符合维基百科的质量标准,需要完全重写。请在讨论页中讨论相关议题,并参考更优秀条目写作指南。
估计理论是统计学和信号处理中的一个分支,主要是通过测量或经验数据来估计概率分布参数的数值。这些参数描述了实质情况或实际对象,它们能够回答估计函数提出的问题。
例如,估计投票人总体中,给特定候选人投票的人的比例。这个比例是一个不可观测的参数,因为投票人总体很大;估计值建立在投票者的一个小的随机采样上。
又如,雷达的目的是物体(飞机、船等)的定位。这种定位是通过分析收到的回声(回波)来实现的,定位提出的问题是“飞机在哪里?”为了回答这个问题,必须估计飞机到雷达之间的距离。如果雷达的绝对位置是已知的,那么飞机的绝对位置也是可以确定的。
在估计理论中,通常假定信息隐藏在包含噪声的信号中。噪声增加了不确定性,如果没有不确定性,那么也就没有必要估计了。
使用估计理论的领域
有非常多的领域使用参数估计理论。这些领域包括(当然不局限于以下列出的领域):
测量参数包含噪声或者其他不确定性。通过统计概率,可以求得最优化的解,用来从数据中提取尽可能多的信息。
估计过程
估计理论的全部目的都是获取一个估计函数,最好是一个可以实现的估计函数。估计函数输入测量数据,输出相应参数的估计。
我们通常希望估计函数能最优,一个最优的估计意味着所有的信息都被提取出来了;如果还有信息没有提取出来,那就意味着它不是最优的。
一般来说,求估计函数需要三步:
- 为了实现一个预测单个或者多个参数的所期望的估计器,首先需要确定系统的模型。这个模型需要将需要建模的过程以及不确定性和和噪声融合到一起,这个模型将描述参数应用领域的物理场景。
- 在确定模型之后,需要确定估计器的限制条件。这些限制条件可以通过如Cramér-Rao不等式这样的方法找到。
- 下一步,需要开发一个估计器或者应用一个已知的对于模型有效的估计器。这个估计器需要根据限制条件进行测试以确定它是否是最优估计器,如果是的话,它就是最好的估计器。
- 最后,在估计器上运行试验或者仿真以测试性能。
当实现一个估计器之后,实际的数据有可能证明推导出估计器的模型是不正确的,这样的话就需要重复上面的过程重新寻找估计器。不能实现的估计器需要抛弃,然后开始一个新的过程。总的来说,估计器根据实际测量的数据预测物理模型的参数。
基础
为了建立一个模型,需要知道几项统计“因素”。为了保证预测在数学上是可以追踪的而不是仅仅基于“内心感受”来说这是必需的。
第一个是从大小为
的随机矢量中取出的统计采样,将它们放到一个矢量中,
.
第二,有相应的
参数
,
它需要根据概率密度函数(pdf)或者概率聚集函数(:en:probability mass function)(pmf)建立
.
参数本身还可能有一个概率分布(Bayesian statistics),需要定义epistemic probability
.
模型形成之后的目标就是预测参数,通常表示为
,其中“hat”表示预测值。
一个普通的估计器是最小均方误差(MMSE)估计器,它利用了参数估计值与实际值之间的误差

作为优化的基础。在最小均方误差估计器中误差进行取平方、最小化。
估计函数(估计子)
以下是一些相关的估计函数以及相关的主题
- 最大似然估计(Maximum likelihood estimation,简称MLE)
- 矩估计(Method of moments estimators,简称MME)
- Cramér-Rao不等式
- 最小均方差(Minimum mean squared error,简称MMSE)
- 最大后验概率(Maximum a posteriori probability,简称MAP)
- 最小方差非偏估计(Minimum variance unbiased estimator,简称MVUE)
- 最佳线性非偏估计(BLUE)
- 非偏估计,见偏差 (统计学)。
- Particle filter
- Markov chain Monte Carlo,简称MCMC
- 卡尔曼滤波
- 维纳滤波
例子:高斯白噪声中的直流增益
让我们来看一个接收到的
个独立采样点的离散信号
,它由一个直流增益
和已知方差为
(例如,
)的叠加白噪声
组成。
由于方差已经知道,所以仅有的未知参数就是
。
于是信号的模型是
![x[n]=A+w[n]\quad n=0,1,\dots ,N-1](https://wikimedia.org/api/rest_v1/media/math/render/svg/e1d88a9335e74132ddc42f3f9845e4b3a6eeb0a1)
两个可能的估计器是:
![{\hat {A))_{1}=x[0]](https://wikimedia.org/api/rest_v1/media/math/render/svg/7efe6653cd0810309227e87ae4e1506100c0ef98)
它是采样平均
这两个估计器都有一个平均值
,这可以通过代入每个估计器的期望得到
![{\mathrm {E))\left[{\hat {A))_{1}\right]={\mathrm {E))\left[x[0]\right]=A](https://wikimedia.org/api/rest_v1/media/math/render/svg/e8eea7a9306f8e8ad9ec4eba1e66d6c3b680a791)
和
![{\mathrm {E))\left[{\hat {A))_{2}\right]={\mathrm {E))\left[{\frac {1}{N))\sum _((n=0))^((N-1))x[n]\right]={\frac {1}{N))\left[\sum _((n=0))^((N-1)){\mathrm {E))\left[x[n]\right]\right]={\frac {1}{N))\left[NA\right]=A](https://wikimedia.org/api/rest_v1/media/math/render/svg/38009589e38e8b364cbf62318a2c067de3d5c02f)
在这一点上,这两个估计器看起来是一样的。但是,当比较方差部分的时候它们之间的不同就很明显了。
![{\mathrm {var))\left({\hat {A))_{1}\right)={\mathrm {var))\left(x[0]\right)=\sigma ^{2}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d5bfcf819ea5feb58537ac1b60805a06aa6ef62d)
和
![\mathrm{var} \left( \hat{A}_2 \right)
=
\mathrm{var} \left( \frac{1}{N} \sum_{n=0}^{N-1} x[n] \right)
=
\frac{1}{N^2} \left[ \sum_{n=0}^{N-1} \mathrm{var}(x[n]) \right]
=
\frac{1}{N^2} \left[ N \sigma^2 \right]
=
\frac{\sigma^2}{N}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a0235ae36ae0f2173a50fb57996b485702d8a37a)
看起来采样平均是一个更好的估计器,因为方差部分
趋向于0。
最大似然估计
使用最大似然估计继续上面的例子,噪声在一个采样点
的概率密度函数(pdf)是
![p(w[n])={\frac {1}{\sigma {\sqrt {2\pi ))))\exp \left(-{\frac {1}{2\sigma ^{2))}w[n]^{2}\right)](https://wikimedia.org/api/rest_v1/media/math/render/svg/6afa77b39956d597a829a9d79c9e00382d3599f9)
这样
的概率变为(
可以认为是
)
![p(x[n]; A) = \frac{1}{\sigma \sqrt{2 \pi)) \exp\left(- \frac{1}{2 \sigma^2}(x[n] - A)^2 \right)](https://wikimedia.org/api/rest_v1/media/math/render/svg/6dadba5522e55e1280ff3d724a17b3fb6be9d629)
由于相互独立,
的概率变为
![p({\mathbf {x));A)=\prod _((n=0))^((N-1))p(x[n];A)={\frac {1}{\left(\sigma {\sqrt {2\pi ))\right)^{N))}\exp \left(-{\frac {1}{2\sigma ^{2))}\sum _((n=0))^((N-1))(x[n]-A)^{2}\right)](https://wikimedia.org/api/rest_v1/media/math/render/svg/3f2ece3340c919b3f79fd607bf9dad576368a439)
概率密度函数取自然对数
![\ln p({\mathbf {x));A)=-N\ln \left(\sigma {\sqrt {2\pi ))\right)-{\frac {1}{2\sigma ^{2))}\sum _((n=0))^((N-1))(x[n]-A)^{2}](https://wikimedia.org/api/rest_v1/media/math/render/svg/cfd2fb56c98155b49d5e330ea4db342ee0b6de2e)
于是最大似然估计器是

对数最大似然函数取一阶导数
![{\frac {\partial }{\partial A))\ln p({\mathbf {x));A)={\frac {1}{\sigma ^{2))}\left[\sum _((n=0))^((N-1))(x[n]-A)\right]={\frac {1}{\sigma ^{2))}\left[\sum _((n=0))^((N-1))x[n]-NA\right]](https://wikimedia.org/api/rest_v1/media/math/render/svg/8a674d68209284a5a9468459f08aa06057c5c01d)
并且将它赋值为0
![0={\frac {1}{\sigma ^{2))}\left[\sum _((n=0))^((N-1))x[n]-NA\right]=\sum _((n=0))^((N-1))x[n]-NA](https://wikimedia.org/api/rest_v1/media/math/render/svg/541b7836252bb44ad16ad11bf3d1a5a77057cf29)
这就得到最大似然估计器
![{\hat {A))={\frac {1}{N))\sum _((n=0))^((N-1))x[n]](https://wikimedia.org/api/rest_v1/media/math/render/svg/3c08685bf87326e0644e61bb668cb63f20555181)
它是一个简单的采样平均。
从这个例子中,我们发现对于带有固定未知直流增益的AWGN的
个采样点来说采样平均就是最大似然估计器。
Cramér-Rao下限
为了找到采样平均估计器的Cramér-Rao下限(CRLB),需要找到Fisher information数
![{\mathcal {I))(A)={\mathrm {E))\left(\left[{\frac {\partial }{\partial \theta ))\ln p({\mathbf {x));A)\right]^{2}\right)=-{\mathrm {E))\left[{\frac {\partial ^{2)){\partial \theta ^{2))}\ln p({\mathbf {x));A)\right]](https://wikimedia.org/api/rest_v1/media/math/render/svg/44e595795eec438eca51a4c171e19d78699f62e8)
从上面得到
![{\frac {\partial }{\partial A))\ln p({\mathbf {x));A)={\frac {1}{\sigma ^{2))}\left[\sum _((n=0))^((N-1))x[n]-NA\right]](https://wikimedia.org/api/rest_v1/media/math/render/svg/4a63946819cd04e4f699945d43d31f4c3cfdfb4b)
取二阶导数

发现负的期望值是无关紧要的(trivial),因为它现在是一个确定的常数
最后,将Fisher information代入

得到

将这个值与前面确定的采样平均的变化比较显示对于所有的
和
来说采样平均都是等于Cramér-Rao下限。
采样平均除了是最大似然估计器之外还是最小变化无偏估计器(MVUE)。
这个直流增益 + WGN的例子是Kay的统计信号处理基础中一个例子的再现。
参见
|
---|
| 理论 | |
---|
| 子领域 | |
---|
| 技术 | |
---|
| 取样 |
- 混叠
- 奈奎斯特率 / 频率
- 升取样
- 降取样
- 过取样
- 欠取样
- 取样率
- 量化
|
---|
|