源-滤波器模型

源-濾波器模型將語音表示為生源（如聲帶）和線性聲濾波器（聲道）的組合。雖然這只是近似，但由於其相對簡單，被廣泛用於語音合成與分析等多個領域。它還與線性預測有關。該模型的發展在很大程度上要歸功於Gunnar Fant、Ken Stevens等人，他們對語音聲學分析和語音合成的基礎模型做出了重大貢獻。^[1]千葉勉和梶山正登首次提出了元音的語言聲學特徵與聲道形狀之間的關係，Fant的成果正是建立在他們的研究之上。^[1]

使用源-濾波器模型的一個重要前提是聲源和濾波器的獨立性。^[1]這時，該模型應更準確地稱為「獨立源-濾波器模型」。^{[來源請求]}

歷史

1942年，千葉勉和梶山正登在《元音：其性質與構造》中發表了對元音聲學和聲道的研究成果。通過使用放射攝影技術創建聲道模型，他們可以預測不同元音的共振峰頻率，建立了兩者間的關係。先鋒語音科學家Gunnar Fant在《語音產生的聲學原理》中，利用千葉勉和梶山正登的聲道攝影研究來解釋自己的俄語語音數據，建立了源-濾波器模型。^[2]

應用

不同音素可在不同程度上根據聲源特性和頻譜形狀加以區分。濁音素（如元音）至少有一個聲源，主要是周期性聲門激勵，時域上可以用脈衝序列近似表示，在頻域上可以用諧波近似表示；濾波器則取決於舌位和圓唇等因素。^[3]而[s]、[f]等擦音則至少有一個聲源，因為口腔或咽的收縮處會產生湍流。[z]、[v]等濁擦音則有兩個聲源，一個在聲門，一個在聲門上的收縮處。

語音合成

在實現語音合成的源-濾波器模型時，聲源或激勵信號通常被模擬為周期性脈衝串、用於濁語音或清語音的白噪聲。在最簡單的情況下，聲道濾波器近似於全極濾波器（all-pole filter），其係數通過線性預測獲得，以最小化待重現語音信號的均方誤差。然後，將激勵信號與濾波器響應進行卷積，即可生成合成語音。

模擬人聲的產生

言語過程的聲源是聲帶，收縮時可產生周期性聲波，放鬆時可產生非周期性（白噪聲）聲波。^[4]濾波器則是聲道的其他部分，可以通過對咽、口腔和鼻腔的發生動作改變形狀。^[3]Fant將聲源和濾波器分別粗略地比作發聲態和調音。聲源產生振幅不同的諧波，通過聲道，經過縮放後產生語音。^[4]

源-濾波器模型

歷史

應用

語音合成

模擬人聲的產生

另見

參考文獻

Wikiwand - on