在信息论中,条件熵描述了在已知第二个随机变量 X {\displaystyle X} 的值的前提下,随机变量 Y {\displaystyle Y} 的信息熵还有多少。同其它的信息熵一样,条件熵也用Sh、nat、Hart等信息单位表示。基于 X {\displaystyle X} 条件的 Y {\displaystyle Y} 的信息熵,用 H ( Y | X ) {\displaystyle \mathrm {H} (Y|X)} 表示。 定义 如果 H ( Y | X = x ) {\displaystyle \mathrm {H} (Y|X=x)} 为变量 Y {\displaystyle Y} 在变量 X {\displaystyle X} 取特定值 x {\displaystyle x} 条件下的熵,那么 H ( Y | X ) {\displaystyle \mathrm {H} (Y|X)} 就是 H ( Y | X = x ) {\displaystyle \mathrm {H} (Y|X=x)} 在 X {\displaystyle X} 取遍所有可能的 x {\displaystyle x} 后取平均的结果。 给定随机变量 X {\displaystyle X} 与 Y {\displaystyle Y} ,定义域分别为 X {\displaystyle {\mathcal {X}}} 与 Y {\displaystyle {\mathcal {Y}}} ,在给定 X {\displaystyle X} 条件下 Y {\displaystyle Y} 的条件熵定义为:[1] H ( Y | X ) ≡ ∑ x ∈ X p ( x ) H ( Y | X = x ) = − ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y | x ) log p ( y | x ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( y | x ) = − ∑ x ∈ X , y ∈ Y p ( x , y ) log p ( y | x ) = − ∑ x ∈ X , y ∈ Y p ( x , y ) log p ( x , y ) p ( x ) . = ∑ x ∈ X , y ∈ Y p ( x , y ) log p ( x ) p ( x , y ) . {\displaystyle {\begin{aligned}\mathrm {H} (Y|X)\ &\equiv \sum _{x\in {\mathcal {X}}}\,p(x)\,\mathrm {H} (Y|X=x)\\&=-\sum _{x\in {\mathcal {X}}}p(x)\sum _{y\in {\mathcal {Y}}}\,p(y|x)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}\,p(x,y)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x,y)}{p(x)}}.\\&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x)}{p(x,y)}}.\\\end{aligned}}} 注意: 可以理解,对于确定的 c>0,表达式 0 log 0 和 0 log (c/0) 应被认作等于零。 当且仅当 Y {\displaystyle Y} 的值完全由 X {\displaystyle X} 确定时, H ( Y | X ) = 0 {\displaystyle \mathrm {H} (Y|X)=0} 。相反,当且仅当 Y {\displaystyle Y} 和 X {\displaystyle X} 为独立随机变量时 H ( Y | X ) = H ( Y ) {\displaystyle \mathrm {H} (Y|X)=\mathrm {H} (Y)} 。 链式法则 假设两个随机变量 X 和 Y 确定的组合系统的联合熵为 H ( X , Y ) {\displaystyle \mathrm {H} (X,Y)} ,即我们需要 H ( X , Y ) {\displaystyle \mathrm {H} (X,Y)} bit的信息来描述它的确切状态。 现在,若我们先学习 X {\displaystyle X} 的值,我们得到了 H ( X ) {\displaystyle \mathrm {H} (X)} bits的信息。 一旦知道了 X {\displaystyle X} ,我们只需 H ( X , Y ) − H ( X ) {\displaystyle \mathrm {H} (X,Y)-\mathrm {H} (X)} bits来描述整个系统的状态。 这个量正是 H ( Y | X ) {\displaystyle \mathrm {H} (Y|X)} ,它给出了条件熵的链式法则: H ( Y | X ) = H ( X , Y ) − H ( X ) . {\displaystyle \mathrm {H} (Y|X)\,=\,\mathrm {H} (X,Y)-\mathrm {H} (X)\,.} 链式法则接着上面条件熵的定义: H ( Y | X ) = ∑ x ∈ X , y ∈ Y p ( x , y ) log p ( x ) p ( x , y ) = − ∑ x ∈ X , y ∈ Y p ( x , y ) log p ( x , y ) + ∑ x ∈ X , y ∈ Y p ( x , y ) log p ( x ) = H ( X , Y ) + ∑ x ∈ X p ( x ) log p ( x ) = H ( X , Y ) − H ( X ) . {\displaystyle {\begin{aligned}\mathrm {H} (Y|X)&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x)}{p(x,y)}}\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \,p(x,y)+\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \,p(x)\\&=\mathrm {H} (X,Y)+\sum _{x\in {\mathcal {X}}}p(x)\log \,p(x)\\&=\mathrm {H} (X,Y)-\mathrm {H} (X).\end{aligned}}} 贝叶斯规则 条件熵的贝叶斯规则(英语:Bayes' rule)表述为 H ( Y | X ) = H ( X | Y ) − H ( X ) + H ( Y ) . {\displaystyle H(Y|X)\,=\,H(X|Y)-H(X)+H(Y)\,.} 证明. H ( Y | X ) = H ( X , Y ) − H ( X ) {\displaystyle H(Y|X)=H(X,Y)-H(X)} and H ( X | Y ) = H ( Y , X ) − H ( Y ) {\displaystyle H(X|Y)=H(Y,X)-H(Y)} 。对称性意味着 H ( X , Y ) = H ( Y , X ) {\displaystyle H(X,Y)=H(Y,X)} 。将两式相减即为贝叶斯规则。 推广到量子理论 在量子信息论中,条件熵都概括为量子条件熵。 参考文献Loading content...Loading related searches...Wikiwand - on Seamless Wikipedia browsing. On steroids.