热门问题
时间线
聊天
视角
流形正则化
来自维基百科,自由的百科全书
Remove ads
机器学习中,流形正则化(Manifold regularization)是一种利用数据集形状以约束应在数据集上被学习的函数的技术。在很多机器学习问题中,待学习数据不能涵盖整个输入空间。例如,人脸识别系统不需要分类所有图像,只需分类包含人脸的图像。流形学习技术假定相关数据子集来自流形,是一种具有有用属性的数学结构;且待学习函数是光滑的,即不同标签的数据不应靠在一起,即在有大量数据的区域,标签函数不应快速变化。这样,流形正则化算法便可利用无标数据,通过推广的吉洪诺夫正则化推断哪些区域允许待学习函数快速变化,哪些区域不允许。流形正则化算法可将监督学习算法推广到半监督学习和转导,因为当中有无标数据。流形正则化技术已被应用于医学成像、大地成像与物体识别等领域。

Remove ads
流形正则器
流形正则化是正则化的一种。正则化是通过惩罚复杂解,以减少过拟合、确保问题良置的一系列技术。具体说,流形正则化扩展了应用于再生核希尔伯特空间(RKHSs)的吉洪诺夫正则化。在RKHS的标准吉洪诺夫正则化下,学习算法试图从函数的假设空间中学习函数f。假设空间是RKHS,就是说与核K相关联,于是候选函数f都有范数,代表候选函数在假设空间中的复杂度。算法会考虑候选函数的范数,以惩罚复杂函数。
形式化:给定一组有标训练数据,其中,以及损失函数V。基于吉洪诺夫正则化的学习算法将试图求解
其中是超参数,用于控制算法对简单函数与更能拟合数据的函数的偏好。

流形正则化在标准吉洪诺夫正则化的环境正则项(ambient regularizer)上增加了第二个正则化项——内蕴正则项(intrinsic regularizer)。在流形假设下,数据不是来自整个输入空间X,而是来自非线性流形。流形(即内蕴空间)的几何用于确定正则化范数。[1]
Remove ads
内蕴正则项有很多选择。如流形上的梯度,可以衡量目标函数的光滑程度。光滑函数应在输入数据密集处变化较慢,即梯度与边际概率密度(marginal probability density)(随机选定的数据点落在x处的概率密度)呈负相关。这就为内蕴正则项提供了合适的选择:
实践中,由于边际概率密度未知,无法直接计算范数,但可根据数据进行估计。
将输入点间距解释为图,图的拉普拉斯矩阵就可帮助估计边际分布。假设输入数据包括个有标例子(输入x与标签y的点对)、u个无标例子(无对应标签的输入)。定义W为图的边权重矩阵,是数据点间的距离。定义D为对角矩阵,其中。L是拉普拉斯矩阵。则,随着数据点数增加,L将收敛于拉普拉斯-贝尔特拉米算子,其是梯度的散度。[2][3]则若是f在数据处的值向量,,则就可估计内蕴范数:
随着数据点数增加,的经验定义会收敛到已知时的定义。[1]
Remove ads
用权重作为环境正则项和内蕴正则项,最终的待解表达式变为
与其他核方法类似,可能是无限维空间。因此,若正则化表达式无法明确求解,就不可能在整个空间中搜索解;相反,表示定理表明,在选择范数的特定条件下,最优解必须是以每个输入点为中心的核的线性组合:对某些权重
利用这结果,可在的可能选择定义的有限维空间中搜索最优解。[1]
Remove ads
图拉普拉斯之外的想法是利用邻域估计拉普拉斯量。这种方法类似于局部平均法,但众所周知处理高维问题时扩展性很差。事实上,图拉普拉斯函数会受到维数灾难影响。[2] 幸运的是,通过更先进的泛函分析,可利用函数的预期光滑性进行估算:由核导数估计拉普拉斯算子的值,其中表示对第一个变量第j个坐标的偏导数。[4] 这第二种方法与无网格法有关,同PDE中的有限差分法形成对比。
Remove ads
应用
选择适当的损失函数V、假设空间,流形正则化可推广到各种可用吉洪诺夫正则化表达的算法。两个常用例子是支持向量机和正则化最小二乘法。(正则化最小二乘包括岭回归;相关的LASSO、弹性网正则化等算法可被表为支持向量机。[5][6])这些算法的推广分别称作拉普拉斯正则化最小二乘(LapRLS)和拉普拉斯支持向量机(LapSVM)。[1]
正则化最小二乘(RLS)是一类回归分析算法:预测输入x的值,目标是使预测值接近数据的真实标签。RLS的设计目标是在正则化的前提下,最大限度减小预测值与真实标签之间的均方误差。岭回归是RLS的一种形式,一般来说RLS与结合了核方法的岭回归是一样的。[来源请求]在吉洪诺夫正则化中,损失函数V的均方误差是RLS问题陈述的结果:
根据表示定理,解可写作在数据点求值的核的加权和:
解可得
其中K定义为核矩阵,,Y是标签向量。
为流形正则化添加拉普拉斯项,得到拉普拉斯RLS的表达:
再根据流形正则化的表示定理,可知
这就得到了向量的表达式。令K是上述核矩阵,Y是数据标签向量,J是分块矩阵:
解是
LapRLS已被用于传感器网络、[7] 医学成像、[8][9] 物体检测、[10] 光谱学、[11] 文档分类、[12] 药物-蛋白质相互作用、[13] 压缩图像与视频等问题。[14]
Remove ads
支持向量机(SVMs)是一系列算法,常用于数据分类。直观说,SVM在类间画出边界,使最接近边界的数据尽量远离边界。这可直接表为线性规划问题,但也等同于带铰链损失的吉洪诺夫正则化,即:
将内蕴正则化项加进去,就得到了LapSVM问题的陈述:
同样,表示定理允许用在数据点得值的核表示解:
将问题重写为线性规划问题、求解对偶问题就可得到。令K是核矩阵、J是分块矩阵,则解可写作
其中是对偶问题的解
Q的定义是
LapSVM已被应用于大地成像、[17][18][19] 医学成像、[20][21][22] 人脸识别、[23] 机器维护、[24] 脑机接口等问题。[25]
Remove ads
局限
Remove ads
另见
参考文献
外部链接
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads