热门问题
时间线
聊天
视角
譜聚類
来自维基百科,自由的百科全书
Remove ads
在多元變量統計中,譜聚類(英語:spectral clustering)技術利用數據相似矩陣的譜(特徵值),在對數據進行降維後,以較少的維度進行聚類。相似矩陣作為輸入,提供了對數據集中每一對點相對相似性的定量評估。
![]() | 此條目可參照英語維基百科相應條目來擴充。 (2022年1月1日) |
在圖像分割中,譜聚類被稱為基於分割的物體分類。
算法
- 基本算法
- 計算拉普拉斯矩陣 (或歸一化的拉普拉斯矩陣)
- 計算前 個特徵向量(這些特徵向量對應 的 個最小的特徵值)
- 考慮由這 個特徵向量組成的矩陣,矩陣的第 行定義了圖節點 的特徵
- 根據這些特徵對圖節點進行聚類(例如使用k-均值聚類)
大型圖的(歸一化)拉普拉斯矩陣通常是病態的(ill-conditioned,即高條件數),這會減緩迭代求解的收斂速度。預處理(Preconditioning)可以加速收斂。通過首先確定結構,然後對群落進行聚類,譜聚類可以成功應用於大型圖。[1]
譜聚類與非線性降維密切相關,局部線性嵌入(Locally-linear embedding)等降維技術可用於減少噪聲或異常值的誤差。[2]
Remove ads
軟體
有不少大型開源項目實現譜聚類,包括Scikit-learn[3](使用帶有多網格預處理(multigrid method)或ARPACK的LOBPCG算法),MLlib(使用冪迭代法,Power iteration method)進行偽特徵向量聚類[4],以及R[5]。
和其它聚類算法的關係
譜聚類算法它可以在核聚類方法的背景下進行描述,這顯示了它與其他方法的相似之處。[6]
加權核K-means問題與譜聚類問題的目標函數相同,可以通過多級方法直接優化。
參考資料
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads