热门问题

时间线

聊天

视角

降維

来自维基百科，自由的百科全书

Remove ads

在機器學習和統計學領域，降維（dimensionality reduction）是指在某些限定條件下，降低隨機變量個數，得到一組「不相關」主變量的過程^[1]。降維可進一步細分為變量選擇和特徵提取兩大方法。

變量選擇

變量選擇假定數據中包含大量冗餘或無關變量（或稱特徵、屬性、指標等），旨在從原有變量中找出主要變量。現代統計學中對變量選擇的研究文獻，大多集中於高維回歸分析（英語：High-dimensional_statistics），其中最具代表性的方法包括：

Lasso算法 (Robert Tibshirani提出)
Elastic net regularization（英語：Elastic net regularization） (鄒暉（英語：Hui Zou）和Trevor Hastie（英語：Trevor Hastie）提出)
SCAD (范劍青和李潤澤提出)
SURE screening (范劍青和呂金翅提出)
PLUS (張存惠提出)

特徵提取

特徵提取可以看作變量選擇方法的一般化：變量選擇假設在原始數據中，變量數目浩繁，但只有少數幾個真正起作用；而特徵提取則認為在所有變量可能的函數(比如這些變量各種可能的線性組合)中，只有少數幾個真正起作用。有代表性的方法包括：

主成分分析(PCA)
因子分析
核方法(教科書中稱為「Kernel method」或「Kernel trick」，常與其他方法如PCA組合使用)
基於距離的方法，例如：
- 多維尺度分析
- 非負矩陣分解（英語：Non-negative_matrix_factorization）
- 隨機投影法（英語：Random projection）(理論依據是約翰遜-林登斯特勞斯定理)

參見

參考文獻

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

Remove ads