梅尔刻度 - Wikiwand
For faster navigation, this Iframe is preloading the Wikiwand page for 梅尔刻度.

梅尔刻度

维基百科,自由的百科全书

本条目存在以下问题,请协助改善本条目或在讨论页针对议题发表看法。 此条目包含过多行话或专业术语,可能需要简化或提出进一步解释。 (2013年4月26日)请在讨论页中发表对于本议题的看法,并移除或解释本条目中的行话。 此条目翻译品质不佳。 (2013年4月26日)翻译者可能不熟悉中文或原文语言,也可能使用了机器翻译,请协助翻译本条目或重新编写,并注意避免翻译腔的问题。明显拙劣的机器翻译请改挂((d|G13))提交删除。 此条目需要编修,以确保文法、用词、语气、格式、标点等使用恰当。 (2017年12月1日)请按照校对指引,帮助编辑这个条目。(帮助、讨论)
梅尔与赫兹的对应图
梅尔与赫兹的对应图
A440  Play 帮助·信息. 440 Hz = 549.64 mels
A440 关于这个音频文件 Play. 440 Hz = 549.64 mels

梅尔刻度(又称Mel尺度,英语:Mel scale)是一种非线性刻度单位,表示人耳对等距音高(pitch)变化的感官,基于频率定义,由Stanley Smith Stevens英语StevensJohn Volkman英语Volkman 和Newman于1937年命名。[1]

梅尔刻度与线性的频率刻度赫兹(Hz)之间可以进行近似的数学换算。一个常用的将赫兹转换为梅尔的公式是:[2]

其参考点定义是将1000Hz,且高于人耳听阈值40分贝以上的声音信号,定为1000mel。在频率500Hz以上时,人耳每感觉到等量的音高变化,所需要的频率变化随频率增加而愈来愈大。这样的结果是,在赫兹刻度500Hz往上的四个八度(一个八度即为两倍的频率),只对应梅尔刻度上的两个八度Mel的名字来源于单词melody,表示这个刻度是基于音高比较而创造的。

历史和其他公式

历史上,存在各种各样的转换公式.[3] 在O'Shaugnessy的书中的常用公式可以表示为不同的对数底:

对应的逆向公式是:

自从Steinberg于1937年出版的基于最小可觉差音高的刻度曲线和表格[4] 后,还有许多其他曲线,如Fletcher和Munson在1937年[5] ,Fletcher在1938年[6] ,Steven于1937年[1] 以及 Stevens 和 Volkmann于1940年[7] 用了各种实验方和分析途径。

在1949年,Koenig发表了一个基于独立的线性部分和对数部分的近似值,在1000Hz发生断裂。[8]

Gunnar Fant与1949年发表了当前流行的线性\对数公式,但是有1000Hz的角频率(corner frequency)。[9] Fant于1968年发表了该公式的另一种不基于对数的形式:[10][11]

1976年,Makhoul and Cosell发表了现在流行的版本,在700Hz处出现角频率。[12] Ganchev等人指出:"700Hz的公式,相比于Fant等人的1000Hz的公式,能够在1000Hz以下更近似于Mel刻度,代价是超过1000Hz时误差增大了。"[13] 但是当频率超过7K hz时,700Hz的版本表现的更好.

这些公式的数据由Beranek于1949年制成表格,数据来源于Stevens和Volkman的曲线:[14]

Beranek 等制表(1949),数据来源于Stevens 和 Volkman(1940)
Hz 20 160 394 670 1000 1420 1900 2450 3120 4000 5100 6600 9000 14000
mel 0 250 500 750 1000 1250 1500 1750 2000 2250 2500 2750 3000 3250

具有625Hz截断频率的公式由Lindsay和Norman于1977年提出;[15] 该公示没有出现在该书1972年第一版中:

大多数的公式能够保证1000 mel对应1000Hz。截断频率(break frequency),如700Hz、1000Hz或625Hz,是这些公式中唯一的自由参数。一些非MEL听觉频率尺度(auditory-frequency-scale)公式使用了相同的形式,但截断频率低得多,不一定能保障映射1000mel到1000Hz,例如1990年Glasberg & Moore的ERB-rate刻度使用的是228.8Hz[16] ,1990年Greenwood 的 cochlear frequency–place map 使用 165.3 Hz.[17]

Umesh等人对其他形式的梅尔刻度进行了研究。根据从这些曲线上计算的数据,他们指出,传统的含有对数区域和线性区域的公式,以及其他形式的公式,都不符合Stevens和Volkman的曲线:[18]

Umesh 等制表(1999),数据来源于Stevens 和 Volkman(1940)
Hz 40 161 200 404 693 867 1000 2022 3000 3393 4109 5526 6500 7743 12000
mel 43 257 300 514 771 928 1000 1542 2000 2142 2314 2600 2771 2914 3228

参考文献

  1. ^ 1.0 1.1 Stevens, Stanley Smith; Volkman; John; & Newman, Edwin B. A scale for the measurement of the psychological magnitude pitch. Journal of the Acoustical Society of America. 1937, 8 (3): 185–190. (原始内容存档于2013-04-14). 
  2. ^ Douglas O'Shaughnessy. Speech communication: human and machine. Addison-Wesley. 1987: 150 [2013-04-26]. ISBN 978-0-201-16520-3. (原始内容存档于2015-03-19). 
  3. ^ W. Dixon Ward. Musical Perception. Jerry V. Tobias (编). Foundations of Modern Auditory Theory 1. Academic Press. 1970: 412. no one claims yet to have determined 'the' mel scale. 
  4. ^ John C. Steinberg. Positions of stimulation in the cochlea by pure tones. Journal of the Acoustical Society of America. 1937, 8 (3): 176–180. 
  5. ^ Harvey Fletcher and W. A. Munson. Relation Between Loudness and Masking. Journal of the Acoustical Society of America. 1937, 9: 1–10. 
  6. ^ Harvey Fletcher. Loudness, Masking and Their Relation to the Hearing Process and the Problem of Noise Measurement. Journal of the Acoustical Society of America. 1938, 9 (4): 275–293. 
  7. ^ Stevens, S., and Volkmann, J. The Relation of Pitch to Frequency: A Revised Scale. American Journal of Psychology. 1940, 53 (3): 329–353. 
  8. ^ W. Koenig. A new frequency scale for acoustic measurements. Bell Telephone Laboratory Record. 1949, 27: 299–301. 
  9. ^ Gunnar Fant (1949) "Analys av de svenska konsonantljuden : talets allmänna svängningsstruktur", LM Ericsson protokoll H/P 1064
  10. ^ Fant, Gunnar. (1968). Analysis and synthesis of speech processes. In B. Malmberg (Ed.), Manual of phonetics (pp. 173-177). Amsterdam: North-Holland.
  11. ^ Jonathan Harrington and Steve Cassidy. Techniques in speech acoustics. Springer. 1999: 18 [2013-04-26]. ISBN 978-0-7923-5731-5. (原始内容存档于2015-03-19). 
  12. ^ John Makhoul and Lynn Cosell, LPCW: An LPC vocoder with linear predictive spectral warping, ICASSP 1976 (IEEE), 1976, 1: 466–469 [2013-04-26], (原始内容存档于2013-07-31) 
  13. ^ T. Ganchev, N. Fakotakis, and G. Kokkinakis, Comparative evaluation of various MFCC implementations on the speaker verification task,, Proceedings of the SPECOM-2005, 2005: 191–194 [2013-04-26], (原始内容存档于2012-10-15) 
  14. ^ Beranek, Leo L. (1949). Acoustic measurements. New York: McGraw-Hill.
  15. ^ Lindsay, Peter H.; & Norman, Donald A. (1977). Human information processing: An introduction to psychology (2nd ed.). New York: Academic Press.
  16. ^ B.C.J. Moore and B.R. Glasberg, "Suggested formulae for calculating auditory-filter bandwidths and excitation patterns" Journal of the Acoustical Society of America 74: 750-753, 1983.
  17. ^ Greenwood, D. D. (1990). A cochlear frequency–position function for several species—29 years later. The Journal of the Acoustical Society of America, 87, 2592–2605.
  18. ^ Umesh, S. and Cohen, L. and Nelson, D., Fitting the mel scale, Proc. ICASSP 1999 (IEEE), 1999: 217–220, ISBN 0-7803-5041-3 

外部链接

参见

{{bottomLinkPreText}} {{bottomLinkText}}
梅尔刻度
Listen to this article