热门问题
时间线
聊天
视角

流形正则化

来自维基百科,自由的百科全书

流形正则化
Remove ads

机器学习中,流形正则化(Manifold regularization)是一种利用数据集形状以约束应在数据集上被学习的函数的技术。在很多机器学习问题中,待学习数据不能涵盖整个输入空间。例如,人脸识别系统不需要分类所有图像,只需分类包含人脸的图像。流形学习技术假定相关数据子集来自流形,是一种具有有用属性的数学结构;且待学习函数是光滑的,即不同标签的数据不应靠在一起,即在有大量数据的区域,标签函数不应快速变化。这样,流形正则化算法便可利用无标数据,通过推广的吉洪诺夫正则化推断哪些区域允许待学习函数快速变化,哪些区域不允许。流形正则化算法可将监督学习算法推广到半监督学习转导,因为当中有无标数据。流形正则化技术已被应用于医学成像、大地成像与物体识别等领域。

Thumb
标记数据(黑、白圆圈)稀疏时,流形正则化可利用无标数据(灰色圆圈)将数据分类。无大量标记点时,监督学习算法智能学习非常简单的决策边界(上图)。基于邻点很可能属于同一类的假设,决策边界应避开含大量未标记点的区域。这也就是一种半监督学习
Remove ads

流形正则器

动机

流形正则化是正则化的一种。正则化是通过惩罚复杂解,以减少过拟合、确保问题良置的一系列技术。具体说,流形正则化扩展了应用于再生核希尔伯特空间(RKHSs)的吉洪诺夫正则化。在RKHS的标准吉洪诺夫正则化下,学习算法试图从函数的假设空间中学习函数f。假设空间是RKHS,就是说与K相关联,于是候选函数f都有范数,代表候选函数在假设空间中的复杂度。算法会考虑候选函数的范数,以惩罚复杂函数。

形式化:给定一组有标训练数据,其中,以及损失函数V。基于吉洪诺夫正则化的学习算法将试图求解

其中超参数,用于控制算法对简单函数与更能拟合数据的函数的偏好。

Thumb
嵌入3维空间的2维流形(左)。流形正则化试图学习在展开流形上光滑的函数(右)。

流形正则化在标准吉洪诺夫正则化的环境正则项(ambient regularizer)上增加了第二个正则化项——内蕴正则项(intrinsic regularizer)。在流形假设下,数据不是来自整个输入空间X,而是来自非线性流形。流形(即内蕴空间)的几何用于确定正则化范数。[1]

Remove ads

拉普拉斯范数

内蕴正则项有很多选择。如流形上的梯度,可以衡量目标函数的光滑程度。光滑函数应在输入数据密集处变化较慢,即梯度与边际概率密度(marginal probability density)(随机选定的数据点落在x处的概率密度)呈负相关。这就为内蕴正则项提供了合适的选择:

实践中,由于边际概率密度未知,无法直接计算范数,但可根据数据进行估计。

基于图的拉普拉斯范数

将输入点间距解释为图,图的拉普拉斯矩阵就可帮助估计边际分布。假设输入数据包括个有标例子(输入x与标签y的点对)、u个无标例子(无对应标签的输入)。定义W为图的边权重矩阵,是数据点间的距离。定义D为对角矩阵,其中L是拉普拉斯矩阵。则,随着数据点数增加,L将收敛于拉普拉斯-贝尔特拉米算子,其是梯度散度[2][3]则若f在数据处的值向量,,则就可估计内蕴范数:

随着数据点数增加,的经验定义会收敛到已知时的定义。[1]

Remove ads

基于图的方法解正则化问题

用权重作为环境正则项和内蕴正则项,最终的待解表达式变为

与其他核方法类似,可能是无限维空间。因此,若正则化表达式无法明确求解,就不可能在整个空间中搜索解;相反,表示定理表明,在选择范数的特定条件下,最优解必须是以每个输入点为中心的核的线性组合:对某些权重

利用这结果,可在的可能选择定义的有限维空间中搜索最优解[1]

Remove ads

拉普拉斯范数的泛函方法

图拉普拉斯之外的想法是利用邻域估计拉普拉斯量。这种方法类似于局部平均法,但众所周知处理高维问题时扩展性很差。事实上,图拉普拉斯函数会受到维数灾难影响。[2] 幸运的是,通过更先进的泛函分析,可利用函数的预期光滑性进行估算:由核导数估计拉普拉斯算子的值,其中表示对第一个变量第j个坐标的偏导数。[4] 这第二种方法与无网格法有关,同PDE中的有限差分法形成对比。

Remove ads

应用

选择适当的损失函数V、假设空间,流形正则化可推广到各种可用吉洪诺夫正则化表达的算法。两个常用例子是支持向量机和正则化最小二乘法。(正则化最小二乘包括岭回归;相关的LASSO、弹性网正则化等算法可被表为支持向量机。[5][6])这些算法的推广分别称作拉普拉斯正则化最小二乘(LapRLS)和拉普拉斯支持向量机(LapSVM)。[1]

拉普拉斯正则化最小二乘(LapRLS)

正则化最小二乘(RLS)是一类回归分析算法:预测输入x的值,目标是使预测值接近数据的真实标签。RLS的设计目标是在正则化的前提下,最大限度减小预测值与真实标签之间的均方误差。岭回归是RLS的一种形式,一般来说RLS与结合了核方法的岭回归是一样的。[来源请求]在吉洪诺夫正则化中,损失函数V的均方误差是RLS问题陈述的结果:

根据表示定理,解可写作在数据点求值的核的加权和:

可得

其中K定义为核矩阵,Y是标签向量。

为流形正则化添加拉普拉斯项,得到拉普拉斯RLS的表达:

再根据流形正则化的表示定理,可知

这就得到了向量的表达式。令K是上述核矩阵,Y是数据标签向量,J分块矩阵

解是

[1]

LapRLS已被用于传感器网络、[7] 医学成像[8][9] 物体检测、[10] 光谱学[11] 文档分类[12] 药物-蛋白质相互作用、[13] 压缩图像与视频等问题。[14]

Remove ads

拉普拉斯支持向量机(LapSVM)

支持向量机(SVMs)是一系列算法,常用于数据分类。直观说,SVM在类间画出边界,使最接近边界的数据尽量远离边界。这可直接表为线性规划问题,但也等同于带铰链损失的吉洪诺夫正则化,即

[15][16]

将内蕴正则化项加进去,就得到了LapSVM问题的陈述:

同样,表示定理允许用在数据点得值的核表示解:

将问题重写为线性规划问题、求解对偶问题就可得到。令K是核矩阵、J是分块矩阵,则解可写作

其中是对偶问题的解

Q的定义是

[1]

LapSVM已被应用于大地成像、[17][18][19] 医学成像、[20][21][22] 人脸识别、[23] 机器维护、[24] 脑机接口等问题。[25]

Remove ads

局限

  • 流形正则化假定不同标签的数据不在一起,这样就能从无标数据中提取信息。但这只适用于一部分问题。根据数据结构不同,可能要用不同的半监督或转导学习算法。[26]
  • 某些数据集中,函数的内蕴范数可能非常接近环境范数:例如,若数据由位于垂直线上的两类组成,则内蕴范数将等于环境范数。这时,即便数据符合光滑分离器假设,无标数据也无法对流形正则化学习到的解产生影响。与联合训练相关的方法已用于解决这一限制。[27]
  • 若有大量无标数据,则核矩阵K将变得极大,计算时间可能非常久。这时在线算法与流形的稀疏近似可能有所帮助。[28]
Remove ads

另见

参考文献

外部链接

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads