热门问题
时间线
聊天
视角
降維
来自维基百科,自由的百科全书
Remove ads
在機器學習和統計學領域,降維(dimensionality reduction)是指在某些限定條件下,降低隨機變量個數,得到一組「不相關」主變量的過程[1]。 降維可進一步細分為變量選擇和特徵提取兩大方法。
變量選擇
變量選擇假定數據中包含大量冗餘或無關變量(或稱特徵、屬性、指標等),旨在從原有變量中找出主要變量。現代統計學中對變量選擇的研究文獻,大多集中於高維回歸分析,其中最具代表性的方法包括:
特徵提取
特徵提取可以看作變量選擇方法的一般化:變量選擇假設在原始數據中,變量數目浩繁,但只有少數幾個真正起作用;而特徵提取則認為在所有變量可能的函數(比如這些變量各種可能的線性組合)中,只有少數幾個真正起作用。有代表性的方法包括:
- 主成分分析(PCA)
- 因子分析
- 核方法(教科書中稱為「Kernel method」或「Kernel trick」,常與其他方法如PCA組合使用)
- 基於距離的方法,例如:
- 多維尺度分析
- 非負矩陣分解
- 隨機投影法(理論依據是約翰遜-林登斯特勞斯定理)
參見
參考文獻
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads