时频谱

语音情感识别: 将音频样本转换为梅尔时频谱图像,然后用于训练<a href="/zh-hans/articles/%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C" title="卷积神经网络" class="wl">卷积神经网络 (CNN)模型 [ 12 ]
自动语音识别: 梅尔时频谱提供比原始音频或MFCC更丰富的特征表示 [ 13 ]
音频分类: 深度学习模型利用梅尔时频谱作为输入来识别和分类各种声音 [ 14 ]

时频谱（英语：Spectrogram）又称声谱图（voicegram），是一种描述波动的各频率成分如何随时间变化的热图。利用傅里叶变换得到的传统的2维频谱可展示复杂的波动是如何按比例分解为简单波的叠加（分解为频谱），但是无法同时体现它们随时间的变化。能对波动的时间变量与频率分布同时进行分析的常用数学方法是短时距傅里叶变换，但是直接绘成3维图像的话又不便于在纸面上观察和分析。时频谱在借助时频分析方法的基础上，以热图的形式将第3维的数值用颜色的深浅加以呈现。