热门问题
时间线
聊天
视角
时频谱
来自维基百科,自由的百科全书
Remove ads
时频谱(英语:Spectrogram)又称声谱图(voicegram),是一种描述波动的各频率成分如何随时间变化的热图。利用傅里叶变换得到的传统的2维频谱可展示复杂的波动是如何按比例分解为简单波的叠加(分解为频谱),但是无法同时体现它们随时间的变化。能对波动的时间变量与频率分布同时进行分析的常用数学方法是短时距傅里叶变换,但是直接绘成3维图像的话又不便于在纸面上观察和分析。时频谱在借助时频分析方法的基础上,以热图的形式将第3维的数值用颜色的深浅加以呈现。

Remove ads
定义与格式
标准的时频谱是一个具有两个几何维度的图形:一个轴表示时间,另一个轴表示频率;第三个维度(特定频率在特定时间的振幅)由图像中每个点的强度或颜色表示。[1]
格式有许多变化:
时频分析
时频分析是频谱分析的推广,比频谱分析更加直观。在分析一段随时间而变化的信号时,若单纯以离散(或离散-时间)傅立叶转换(Discrete (Time) Fourier Transform),我们能得到信号的所有频率资讯,但是却缺乏时间的资讯。以语音信号为例,若以离散傅立叶转换分析(DFT/FFT),可以得知该段声音中有哪些频率出现,却无法得知该频率出现的时间点。但若以时频分析(利用短时距傅立叶变换,STFT)来分析语音信号,我们会在每个取样时间点上乘上一个窗函数,再做离散傅立叶转换,因此在这段短时间中,我们就具有该信号的频率成分,即可得知在该段时间中,语音信号的频率为何,最后将整段信号做时频分析,就可以得到该信号的时频分布图
时频谱即是描绘信号的时间和频率分布的热图,显示时频分析的结果
窗函数
矩形窗(Rectangular window):
- 最简单的窗函数,在所需区段内为1,区段外为0
- 会在区段边界产生不连续,导致频域出现振铃效应
- 主瓣最窄但旁瓣电平高[2]
汉宁窗(Hann window):
汉明窗(Hamming window):
布莱克曼窗(Blackman window):
- 使用更多余弦项的广义窗函数
- 提供更好的旁瓣抑制(约-74 dB)
- 主瓣比汉宁窗和汉明窗宽约50%[2]
Remove ads
窗的大小和形状可以改变。较小(较短)的窗将在时间上产生更准确的结果,但会牺牲频率表示的精确度。较大(较长)的窗将提供更精确的频率表示,但会牺牲时间表示的精确度。[1]
进阶时频分析方法
除了基于短时距傅立叶变换的时频谱外,还有其他时频分析方法可以提供不同的时频表示。
连续小波变换(Continuous Wavelet Transform, CWT)是一种时频变换,特别适合分析非平稳信号。[5]
CWT通过将信号与一组小波进行卷积来实现,这些小波由母小波(mother wavelet)经过平移和膨胀生成。数学上,CWT定义为:[6]
其中:
- 是小波系数
- 是尺度参数(与频率成反比)
- 是时间平移参数
- 是母小波
- 表示复共轭
尺度图(Scalogram)是CWT的绝对值平方作为时间和频率函数的图形表示,类似于STFT的时频谱。[5]
CWT相对于STFT的优势:
常用的母小波包括:
- Morlet小波:常用于时频分析
- Haar小波:最简单的小波
- Daubechies小波系列
- 墨西哥帽小波[5]
Remove ads
维格纳-维尔分布(Wigner-Ville distribution, WVD)是另一种时频表示方法,定义为:[8]
WVD的特点:
- 实值函数
- 提供高时频分辨率
- 存在交叉项干扰,对多分量信号会产生虚假的时频成分[6]
为减少交叉项,发展了多种平滑WVD的变体,如伪维格纳分布(Pseudo Wigner-Ville Distribution)和Choi-Williams分布。[6]
应用领域
时频谱广泛应用于语音识别、音乐分析和声学研究中。在早期,模拟时频谱被应用于研究鸟类叫声等动物声音。[1]当代数字时频谱的使用对于研究动物叫声中的频率调制(FM)特别有用,FM啁啾、宽带点击音和社交谐波的区别特征最容易通过时频谱可视化。[1]
时频谱对于协助克服言语缺陷和对严重耳聋人群进行言语训练也很有用。[9]
在基于深度学习的语音合成中,首先由序列到序列模型预测时频谱(或梅尔尺度的时频谱),然后将时频谱馈送到神经声码器以生成合成的原始波形。[1]
梅尔时频谱(Mel spectrogram)是一种特殊的时频谱,使用梅尔刻度代替线性频率刻度,并使用分贝刻度代替线性振幅来表示颜色。[10]
梅尔尺度基于人类感知语音的研究发现,使其适合表示语音期间产生的声音的声学信息。[11]
梅尔时频谱在深度学习中的应用:
时频谱在多个领域都有应用:
限制与信号重建
从时频谱的公式可以看出,时频谱不包含关于其所表示信号的精确甚至近似相位的信息。因此,无法反转该过程并从时频谱生成原始信号的副本。[1]
然而,在精确初始相位不重要的情况下,可能可以生成原始信号的有用近似值。例如:
- 分析与重合成声音时频谱仪(Analysis & Resynthesis Sound Spectrograph)是一个尝试执行此操作的电脑程序[1]
- Pattern Playback是20世纪40年代末在哈斯金斯实验室设计的早期语音合成器,将语音声学模式图片(时频谱)转换回声音[1]
实际上,时频谱中确实存在一些相位信息,但它以另一种形式出现,即时间延迟(或群延迟),这是瞬时频率的对偶。[15]
参见
参考资料
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads
