热门问题
时间线
聊天
视角

渐近等同分割特性

来自维基百科,自由的百科全书

Remove ads

信息论中,渐近等同分割特性AEP)是随机源输出样本的普遍性质,它是数据压缩理论中典型集概念的基础。

简言之,该定理指出:尽管随机过程可能产生多种结果序列,但实际出现的结果极大概率来自一个松散定义的集合——该集合中所有结果成为现实的可能性基本均等(这是大数定律遍历理论的推论)。尽管存在某些单个结果的概率高于此集合中的任意结果,但集合内庞大的结果数量几乎保证了最终结果必将源自该集合。克莱默大偏差定理为理解该特性提供了一种直观路径:偏离均值的程度越大,其概率随样本数量增加呈指数级衰减(这类现象由大偏差理论专门研究)。直观来说,大偏差现象可能违背等概率分配原则,但这类情况几乎不可能发生。

伪随机数生成领域,如果候选生成器的输出序列质量不确定,且根据某些统计标准,其输出序列偏离典型值过远,则会被视为随机性不足而遭到拒绝。因此,尽管典型值的定义较为宽泛,但在实际应用中,关于充分典型性的概念已逐渐兴起。

Remove ads

定义

给定一个概率空间 上的离散时间平稳遍历随机过程,渐近均分性质断言:几乎必然,对于所有离散时间平稳过程(包括遍历过程)都有时,其中(简写为)表示熵率[1]对于有限值(即 ) 平稳遍历随机过程的情况,渐近均分性质在香农-麦克米伦-布莱曼定理中使用遍历理论得以证明。对于任何独立同分布源,不论是在离散值情况下(其中仅仅是符号的)还是在连续值的情况下(其中是微分熵),该性质都可以直接使用大数定律得以证明。(见下文)渐近均分性质的定义也可以扩展到某些连续时间随机过程,这些过程在足够长的观察时间内存在一个典型集。在所有情况下,收敛性被证明是几乎必然的。

Remove ads

离散时间独立同分布源

是一个可以采用字母表中的值的独立同分布源 ,其时间序列独立同分布,。可以由弱大数定律得到依概率收敛渐近均分性质,即这是因为熵等于的期望。[1]

强大数定律断言了更强的结论,几乎必然收敛于熵, 即L1意义上的趋同表明

Remove ads

离散时间有限值平稳遍历源

下面考虑有限值样本空间的情况, 即,对于在概率空间上定义的离散时间平稳遍历过程英语Stationary ergodic process,由克劳德·香农布罗克韦·麦克米伦英语Brockway McMillan利奥·布莱曼英语Leo Breiman提出的香农-麦克米伦-布莱曼定理指出,在L1意义上收敛于熵。[2]钟开来将此定理推广到以下情况:可以在可数无穷大集合中取值,前提是熵率仍然是有限的。 [3]

证明简述[3]
  • x表示某个可测集,其中.
  • 将联合概率用nx参数化为
  • 将条件概率用ikx参数化为
  • 取条件概率在k → ∞时的极限,并将其表示为
  • 论证两种熵率存在,且对于包括平稳遍历过程X内的任何平稳过程相等.记为H.
  • 论证均为平稳遍历过程,其中i是时间指标,其样本均值几乎必然收敛到某些值,分别用表示.
  • 将概率的k阶马尔可夫近似定义为 .
  • 从有限值假设论证是有限的.
  • 的样本均值来表示,并证明其几乎必然收敛到Hk.
  • 定义概率测度
  • 的样本均值表示并证明其几乎必然收敛到H.
  • 利用过程的平稳性,论证k → ∞时.
  • 利用Lévy鞅收敛定理英语Lévy's martingale convergence theorem和有限值假设论证H = H.
  • 证明如前所述,它是有限的.
  • 通过以无穷历史为条件并迭代期望,证明.
  • 使用马尔可夫不等式和先前推导出的期望证明.
  • 类似地,证明该式等价于
  • 设对于任意β > 1,α = nβ,应用波莱尔-坎泰利引理,证明的上确界几乎肯定为非正的.
  • 通过分解前面结果中的对数,证明的上下确界分别由HHk约束.
  • 通过指出当k→∞时上限和下限趋近于H来完成证明.
Remove ads

产生独立符号的非平稳离散时间源

平稳性/遍历性/随机变量同分布的假设对于渐近均分性质的成立并非必要条件。事实上,正如直观上显而易见的那样,渐近均分性质只需要某种形式的大数定律成立,这相当具有普遍性。但在这种情况下,渐进等同分割性质的表达式需要适当推广,条件也需要精确地表述。

考虑一个产生独立符号的源,该源每个时刻可能输出不同的统计量,并且该过程的统计量完全已知,也就是说,该过程在每个时刻的边际分布是已知的。联合分布就是边际分布的乘积。然后,在以下条件下(可以放宽):对于所有i,都有,对于某些M>0,下式(AEP)成立: 其中

证明

该项证明是由马尔可夫不等式的一个简单应用导出的(应用于的二阶矩).

显然,若任意矩r>1一致有界(同样由应用于第r个矩的马尔可夫不等式导出). Q.E.D.

上述条件其实也不是必要的,但给定一个非平稳随机过程,使用上述方法检验渐进等同分割性质会比较容易。

Remove ads

应用

非平稳离散时间独立过程的渐近均分性质可以推导出非平稳源(具有独立输出符号)的信源编码定理和非平稳无记忆信道的噪声信道编码定理,还能推导出一些其他的结论。

测度论形式

是概率空间上的一个保测度映射。

如果的有限或可数划分,那么它的熵为,习惯上规定

我们只考虑熵有限的划分,亦即

的有限或可数划分,我们通过迭代映射构建一个划分序列: 其中是最小上界划分,即能细化的最低细化划分: 所处的中的集合为。例如,名称的前符号初始段。

如果我们知道落在划分的哪个元素中,令为我们可以恢复的关于的信息量(以纳特为单位): 类似地,划分以划分为条件关于的条件信息是Kolmogorov-Sinai熵(测度论熵)换句话说,根据定义,期望存在收敛。SMB定理指出,当是遍历的,在L1中收敛。[4]

定理 (遍历情形) — 是遍历的,则在L1中收敛于常数函数.

换而言之,.

特别的,由于L1收敛意味着几乎必然收敛,以概率1.

推论 (熵均分性质) — ,我们可以将划分分成两部分,“好(good)”部分和“坏(bad)”部分 .

坏的部分很小:

好的部分根据熵几乎均分:

如果𝑇不一定具有遍历性,那么基础概率空间将被分解为多个在𝑇下不变的子集。在这种情况下,我们仍能获得向某个函数的L1收敛,但该函数不再是一个常值函数。[5]

定理 (一般情形) — 是由的所有-不变子集生成的σ-代数 L1收敛至

遍历时, 是平凡的,所以函数简化为常数函数,根据定义,上式等于,根据命题,它等于

Remove ads

连续时间平稳遍历源

离散时间函数可以插值为连续时间函数。若此类插值函数f可测,则我们可将插值后的连续时间平稳过程定义为。若离散时间过程(如上文所示的独立同分布或有限值平稳遍历情形)满足渐近等同分割特性,则该特性自然地适用于通过可测插值导出的连续时间平稳过程,即其中n对应于时间τ的自由度。nH(X)/τH(X)是分别香农定义的单位时间熵和单位自由度熵。

此类连续时间平稳过程的一个重要类别是带限平稳遍历过程,其样本空间是连续函数的子集。若该过程为白过程(此时时间样本呈独立同分布),或存在T > 1/2W(其中W标称带宽)使得T间隔时间样本取值于有限集合(此时转化为离散时间有限值平稳遍历过程),则渐近等同分割特性成立。

任何时不变操作也会保留渐近均分性质、平稳性和遍历性,并且我们可以通过消除过程中有限数量的时间样本,轻松地将平稳过程转变为非平稳过程,而不会丢失渐近均分性质。

Remove ads

范畴论

格罗莫夫给出了渐近等同分割特性的范畴论定义。[6]给定测度空间P笛卡尔幂序列,,该序列允许一个渐近等价的齐性测度空间序列HN (即所有集合具有相同的测度;所有态射在自同构群下不变,因此可分解为指向终对象的态射)。

上述内容需要定义渐近等价性。该定义通过一个距离函数给出,用于度量单射对应同构之间的差异。单射对应是一个部分定义双射映射;也就是说,它是子集之间的双射。然后定义其中|S|表示集合S的测度。在下文中,默认PQ的测度取1,因此这些测度空间都是概率空间。该距离通常被称为动土距离沃瑟斯坦度量

类似地,定义其中被视为P上的计数测度。因此,此定义要求P为有限测度空间。最后,令

那么当时,单射对应是渐近等价的。

给定一个渐近等价于PN的齐次空间序列HN ,则P的熵H(P)可以取为

Remove ads

参见

注释

参考文献

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads