半监督学习

半监督学习（英语：Semi-supervised learning）是机器学习的一个分支，它在训练时使用了少量的有标签数据（Labeled data）和大量的无标签数据（Unlabeled data）。半监督学习介于无监督学习（训练数据全部无标签）和有监督学习（训练数据全部有标签）之间。半监督学习旨在缓解训练数据中有标签数据有限的问题。

无监督学习适用的的问题往往有着大量的无标签样本，同时获得有标签样本成本较高。部分其它机器学习分支有着相同动机，但是遵从不同的假设和方法，例如主动学习（英语：Active_learning_(machine_learning)）和弱监督学习。将无标签样本和少量有标签样本同时使用时，会对学习的准确性产生极大改善。为特定问题获得有标签的数据通常需要熟练工（例如转录音频片段）或进行物理实验（例如确定蛋白质的三维结构，或者确定特定地点是否有油气）。由此，获得有标签样本的成本往往较高，获取大型的、完全标注的样本集是不可行的；同时，获取无标签的样本成本往往相对较低。此时，半监督学习具有较大的使用价值。半监督学习在机器学习和人类学习的建模方面也具有理论价值。

正式的来说，半监督学习假设有 $l$ 个独立同分布的样本 $x_{1},\dots ,x_{l}\in X$ 及对应的标签 $y_{1},\dots ,y_{l}\in Y$ ，和 $u$ 个无标签的样本 $x_{l+1},\dots ,x_{l+u}\in X$ 。半监督学习结合这些样本来获得相比于放弃无标签样本进行有监督学习或放弃有标签样本进行无监督学习更好的分类性能。

半监督学习可以是推断学习（英语：Transduction_(machine_learning)）或归纳学习。^[1]推断学习的目的是推断给定无标签样本 $x_{l+1},\dots ,x_{l+u}$ 的正确标签；归纳学习的目的是推断 $X$ 到 $Y$ 的正确映射。

直观地说，学习问题可以看成一次考试，有标签样本是为了帮助学习，由老师解答的样题。推断学习中，未解决的问题是考试题目；归纳学习中，它们是会构成考试的练习题。

对整个输入空间进行推断学习没有必要（依据Vapnik准则，也是不够谨慎的）。然而在实践中，为推断学习和归纳学习设计的算法通常交替使用。

[1]