獨立成份分析

From Wikipedia, the free encyclopedia

獨立成份分析
Remove ads

獨立成份分析(參見英文ICA)係統計學訊號處理上嘅一種技術,用嚟將一個由多個變數影響嘅訊號分解做互相加埋一齊嘅子成份。例如經典嘅雞尾酒會問題,就係講緊想要由多支咪高峰收到嘅混合聲音訊號之中,分離出每一個講話者本來把聲。

用 ICA 嚟處理影片:最頂嗰行係四段原先影片,中間嗰行係四段混合影片用嚟做演算法嘅輸入,最底嗰行係四段重構嘅影片。

形式化噉講,ICA 假設觀察到嘅數據係由幾個互相無統計依賴性嘅來源訊號線性混合而成。分析嘅目標係估計出一個解混矩陣 W,計出

當中 s 同 x 係向量,前者為來源訊號而後者就係實際探測到嘅訊號。

呢種分析喺多個領域上都有用,例如神經科學上做神經造影噉,諸如腦電圖功能磁振造影等嘅分析方法,都會運用呢種分析,篩走手上數據入便嘅雜訊

Remove ads

背景概念

内文:雜訊

用各種架生探測訊號嗰陣,時會遇到一個問題:好多時,接收到嘅訊號係由多個子成份疊加埋一齊而成嘅,除咗想要嘅訊號之外仲包含咗好多唔想要嘅雜訊

呢個效應可以用雞尾酒會效應嘅概念嚟諗:想像阿明身處喺一個嘈雜嘅環境,例如佢要出席酒會,阿明周圍嘅出席者喺度各自傾偈,同時佢要聽另一位出席者阿偉講嘢,喺任一時間點,佢對耳仔接收到嘅都係由好多個唔同子成份疊加組成嘅—有阿偉把聲、出席者 A 把聲、出席者 B 把聲、出席者 C 把聲... 等,阿明聽阿偉講嘢,想要嘅訊號係阿偉把聲,而其餘嘅聲就係雜訊。但係單憑日常觀察已經可知,人腦有能力由咁多子成份之中抽一個出嚟集中處理,即係阿明能夠由咁混亂嘅眾多訊號之中抽一個出嚟[1][2]

喺概念上,獨立成份分析做嘅就係攞住一啲混雜嘅訊號,從中搵返來源訊號出嚟。


Thumb
ICA 做嘅嘢,可以用類似噉嘅干涉圖嚟想像:最頂嘅線,係佢底下嗰兩條波動加埋一齊而成嘅。ICA 牽涉到攞住最頂嘅線,將佢拆開變返做加埋一齊形成佢嘅線。


Remove ads

形式表達

形式化啲講,獨立成份分析個諗頭如下。

想像擺兩個人喺一間房裡便,間房同外界隔絕,冇外界嘅聲可以進入。然後擺兩個咪高峰喺房內兩個唔同位置,叫兩個人分別開始講嘢,兩個咪高峰會分別量度到兩個會隨時間變化嘅訊號,叫佢哋做 x1 同 x2 而 t 代表時間,每一個量度到嘅訊號,都係兩個來源疊加埋而成嘅結果,可以噉樣表達[3]

當中兩個 s 為兩個訊號來源(講嘢者嘅聲)而啲 a 係權重[註 1]。權重值可以受好多因素影響,譬如係咪高峰同講嘢者之間嘅距離有幾遠。研究者好可能希望能夠做到以下嘅嘢:

齋靠接收到嘅訊號 x1 同 x2,搵返兩個原先嘅訊號(s1 同 s2)出嚟。

獨立成份分析包含一系列嘅統計做法同埋演算法,能夠由實際度到、充滿雜訊嘅訊號嗰度,搵返原來嘅訊號出嚟。電腦好多時會對來源訊號作出一啲假設,例如假設佢哋會以線性嘅方式砌埋一齊形成最終訊號... 等等。假若呢啲假設係有返咁上下合理,獨立成份分析就能夠達致搵出原先嘅訊號。

縱使來源訊號嘅數量有三個或以上,都可以用同樣嘅道理嚟諗。以矩陣向量方式表達嘅話,可以得出噉嘅獨立成份模型

當中 為表示眾訊號同眾來源嘅向量,而 為表示權重嘅矩陣。同樣嘅資訊,可以用加總嚟表達[3]

由於 為已知,假如研究者能夠搵出 係乜,佢就可以得知其逆轉矩陣 ,掉一掉條式:

能夠由數據嗰度計返 嘅值出嚟[註 2]

Remove ads

事前準備

建立獨立成份模型嘅時候,分析者時會作以下呢啲假設。實際郁手做獨立成份分析前,要 checkcek1 吓呢啲假設係咪成立[4]

  • 獨立:唔同來源之間無統計依賴性[註 3],好似想像中雜訊同真實訊號間嘅關係噉。呢點係 ICA 嘅根本假設[5]:2.1,至於統計依賴性呢樣嘢要點衡量,可以睇吓相互資訊最小化嘅諗法。
  • 分佈:ICA 假設啲來源訊號唔跟常態分佈[6],不過唔會假設佢哋跟咩特定嘅分佈[註 4][註 5]。有關要點樣評估某啲變數係咪呈常態,可以睇睇峰度等嘅概念;資訊理論上嘅概念亦可以用嚟評估分佈有幾呈常態,噉係由於假設方差平均值恆定,資訊熵喺常態分佈下會最大化,詳情可以睇睇資訊負熵嘅概念[7]
  • 線性:唔同來源嘅訊號結合嗰陣,以線性組合方式結合。
  • 實際訊號嘅數量:實際訊號嘅數量最少要有 N 個,當中 N 為來源嘅數量。

由呢度可見,獨立成份分析同因素分析有明顯差異:兩種分析法都係講緊潛在變數,不過因素分析唔會假設潛在變數彼此無統計依賴性,而且容許啲潛在變數跟常態分佈[8]

此外,郁手做分析前,亦有必要對數據做一啲事前處理,確保數據適合用獨立成份分析嚟行[9]:包括要做中心化,即係同每個變數,計其減咗平均值之後嘅值,令到所有變數嘅期望值變成零,噉樣做嘅目的是為咗簡化計算[註 6];亦要做白化,即係攞住度到嘅數值做主成分分析(PCA)或者類似嘅分析,經過線性變換,確保呢啲成份之間冇統計相關等。呢兩個步驟加埋,有助確保獨立成份分析或其他統計演算法穩定運行。

模型估計

做分析嘅人要估計模型,成日都會用最大似然估計等嘅方法。

應用研究

睇埋:訊號處理

有好多訊號處理相關嘅應用都會使用獨立成份分析嚟清除雜訊。雜訊泛指一啲唔想要嘅訊號。

譬如係腦電圖(EEG)同功能磁振造影(fMRI)等嘅神經造影技術噉。神經造影技術係一系列技術,能夠製作影像嚟描述腦部嘅活動,係腦神經學神經內科等學科嘅重要工具。現實表明,神經造影錄到嘅訊號通常都唔係單純嚟自真正嘅腦活動,而係會摻雜咗好多雜訊,諸如係斬眼同埋個頭郁嚟郁去等,都會擾亂神經造影量度到嘅訊號,有干擾分析結果之虞。因此,研究人員有必要對數據做一啲處理,當中一種常見嘅做法就係用獨立成份分析,分解出數據中邊啲係雜訊,邊啲係真正想量度嘅訊號,用獨立成份分析做咗分解之後,研究人員就可以用眼睇,判斷邊啲成份係雜訊,然後將之剔除,再重組其餘部份,得出「乾淨」嘅訊號,跟住佢哋就可以做進一步嘅分析。[10]


Thumb
上圖係一幅腦電數據,幅圖右手邊嗰忽到有好強嘅異常電活動,好可能係雜訊。雜訊嘅常見成因可以係量度用嘅電極黐得唔夠實呀噉。


Remove ads

另見

引咗

註釋

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads