主要内容

光谱描述符

音频工具箱™提供一套功能描述形状,有时被称为音色的音频。这个例子定义了方程用于确定光谱特性,列举了常见的使用每一个功能,并提供例子,这样您就可以获得直觉的光谱描述符描述。

光谱描述符是广泛应用于机器和深度学习应用,和感知分析。光谱描述符已被应用于各种应用程序,包括:

  • 说话人识别和识别(21]

  • 声场景识别(11][17]

  • 乐器识别(22]

  • 音乐体裁分类16][18]

  • 情绪识别(19][20.]

  • 语音活动检测(5][7][8][10][12][13]

频谱质心

频谱质心(spectralCentroid)是由未加权求和(frequency-weighted和规范化的1]:

μ 1 = k = b 1 b 2 f k 年代 k k = b 1 b 2 年代 k

在哪里

  • f k 是赫兹的频率对应于本吗 k

  • 年代 k 在本是光谱值吗 k 。幅度谱和功率谱都是常用的。

  • b 1 b 2 乐队边缘,在垃圾箱,计算频谱质心。

频谱质心代表光谱的“重心”。它是作为的迹象亮度(2),是常用的音乐分析和类型分类。例如,观察跳跃在相对应的质心高的帽子在音频文件。

(音频、fs) = audioread (“FunkyDrums-44p1-stereo-25secs.mp3”);音频= sum(音频、2)/ 2;重心= spectralCentroid(音频、fs);次要情节(2,1,1)t = linspace(0,大小(音频,1)/ fs,大小(音频,1));情节(t)、音频)ylabel (“振幅”次要情节(2,1,2)t = linspace(0,大小(音频,1)/ fs,大小(重心,1));情节(t,质心)包含(“时间(s)”)ylabel (“重心(Hz)”)

图包含2轴对象。坐标轴对象1 ylabel振幅包含一个类型的对象。坐标轴对象2包含时间(s), ylabel质心(Hz)包含一个类型的对象。

频谱质心也常用分类演讲有声的或无声的(3]。例如,区域的质心跳跃无声的演讲。

(音频、fs) = audioread (“Counting-16-44p1-mono-15secs.wav”);重心= spectralCentroid(音频、fs);次要情节(2,1,1)t = linspace(0,大小(音频,1)/ fs,大小(音频,1));情节(t)、音频)ylabel (“振幅”次要情节(2,1,2)t = linspace(0,大小(音频,1)/ fs,大小(重心,1));情节(t,质心)包含(“时间(s)”)ylabel (“重心(Hz)”)

图包含2轴对象。坐标轴对象1 ylabel振幅包含一个类型的对象。坐标轴对象2包含时间(s), ylabel质心(Hz)包含一个类型的对象。

光谱扩散

光谱传播(spectralSpread)是频谱质心(周围的标准差1]:

μ 2 = k = b 1 b 2 ( f k - - - - - - μ 1 ) 2 年代 k k = b 1 b 2 年代 k

在哪里

  • f k 是赫兹的频率对应于本吗 k

  • 年代 k 在本是光谱值吗 k 。幅度谱和功率谱都是常用的。

  • b 1 b 2 乐队边缘,在垃圾箱,计算光谱扩散。

  • μ 1 是频谱质心。

光谱传播代表光谱的“瞬时带宽”。它是用作语气的主导地位的象征。例如,增加音调发散和减少传播的音调收敛。

fs = 16 e3;语气= audioOscillator (“SampleRate”fs,“NumTones”2,“SamplesPerFrame”,512,“频率”(2000、100));时间= 5;numLoops =地板(持续时间* fs / tone.SamplesPerFrame);信号= [];i = 1: numLoops信号=(信号;基调());如果我< numLoops / 2的基调。频率=基调。频率+ (0,50);其他的基调。频率=基调。频率- [0,50];结束结束传播= spectralSpread(信号、fs);次要情节(2,1,1)谱图(信号,圆(fs * 0.05),圆(fs * 0.04), 2048年,fs,“桠溪”次要情节(2,1,2)t = linspace(0,大小(信号,1)/ fs,大小(传播,1));情节(t,传播)包含(“时间(s)”)ylabel (“传播”)

图包含2轴对象。坐标轴对象1包含时间(s), ylabel频率(赫兹)包含一个类型的对象的形象。坐标轴对象2包含时间(s), ylabel传播包含一个类型的对象。

光谱偏态

偏态光谱(spectralSkewness)从三阶矩计算1]:

μ 3 = k = b 1 b 2 ( f k - - - - - - μ 1 ) 3 年代 k ( μ 2 ) 3 k = b 1 b 2 年代 k

在哪里

  • f k 是赫兹的频率对应于本吗 k

  • 年代 k 在本是光谱值吗 k 。幅度谱和功率谱都是常用的。

  • b 1 b 2 乐队边缘,在垃圾箱,计算光谱偏态。

  • μ 1 是频谱质心。

  • μ 2 是光谱扩散。

光谱对称绕质心偏态措施。在语音学、偏态光谱通常被称为光谱倾斜并与其他光谱时刻使用区分发音部位(4]。对于谐波信号,它表明更高的相对强度和较低的谐波。例如,在四音信号,有一个积极的基调低时斜主导和负偏态分布上语气时占据主导地位。

fs = 16 e3;时间= 99;语气= audioOscillator (“SampleRate”fs,“NumTones”4“SamplesPerFrame”fs,“频率”,500,2000,2500,4000,“振幅”[0,0.4,0.6,1]);信号= [];i = 1:信号持续时间=(信号;基调());基调。振幅=基调。振幅+ (0.01,0,0,-0.01);结束偏态= spectralSkewness(信号、fs);t = linspace(0,大小(信号,1)/ fs,大小(偏态,1))/ 60;次要情节(2,1,1)谱图(信号,圆(fs * 0.05),圆(fs * 0.04),圆(fs * 0.05), fs,“桠溪”,“权力”33)视图([-58])次要情节(2,1,2)情节(t,偏斜度)包含(的时间(分钟))ylabel (“偏斜”)

图包含2轴对象。坐标轴对象1包含时间(分钟),ylabel频率(赫兹)包含一个对象类型的表面。坐标轴对象2包含时间(分钟),ylabel偏态包含一个类型的对象。

谱峰态

谱峰态(spectralKurtosis)从四阶矩计算1]:

μ 4 = k = b 1 b 2 ( f k - - - - - - μ 1 ) 4 年代 k ( μ 2 ) 4 k = b 1 b 2 年代 k

在哪里

  • f k 是赫兹的频率对应于本吗 k

  • 年代 k 在本是光谱值吗 k 。幅度谱和功率谱都是常用的。

  • b 1 b 2 乐队边缘,在垃圾箱,计算谱峰度。

  • μ 1 是频谱质心。

  • μ 2 是光谱扩散。

谱峰度衡量平坦,或同时指出,其质心的位置。相反,它是用于指示的peakiness频谱。例如,白噪声的语音信号,增加峰度减少,表明多峰的光谱。

[audioIn, fs] = audioread (“Counting-16-44p1-mono-15secs.wav”);noiseGenerator = dsp.ColoredNoise (“颜色”,“白色”,“SamplesPerFrame”大小(audioIn 1));噪音= noiseGenerator ();噪音=噪音/ max (abs(噪音));斜坡= linspace(0为元素个数(噪音)';噪音=噪音。*坡道;audioIn = audioIn +噪声;峰度= spectralKurtosis (audioIn, fs);t = linspace(0,大小(audioIn 1) / fs,大小(audioIn, 1));次要情节(2,1,1)情节(t, audioIn) ylabel (“振幅”)t = linspace(0、大小(audioIn, 1) / fs,大小(峰度,1));次要情节(2,1,2)情节(t,峰态)包含(“时间(s)”)ylabel (“峰度”)

图包含2轴对象。坐标轴对象1 ylabel振幅包含一个类型的对象。坐标轴对象2包含时间(s), ylabel峰度包含一个类型的对象。

谱熵

谱熵(spectralEntropy)光谱的peakiness措施6]:

= - - - - - - k = b 1 b 2 年代 k 日志 ( 年代 k ) 日志 ( b 2 - - - - - - b 1 )

在哪里

  • f k 是赫兹的频率对应于本吗 k

  • 年代 k 在本是光谱值吗 k 。幅度谱和功率谱都是常用的。

  • b 1 b 2 乐队边缘,在垃圾箱,计算谱熵。

谱熵在有声/无声的决定已被成功地用于自动语音识别(6]。因为熵是一个障碍,区域的言论表示低熵的地区相比,无声的演讲。

[audioIn, fs] = audioread (“Counting-16-44p1-mono-15secs.wav”);熵= spectralEntropy (audioIn, fs);t = linspace(0,大小(audioIn 1) / fs,大小(audioIn, 1));次要情节(2,1,1)情节(t, audioIn) ylabel (“振幅”)t = linspace(0、大小(audioIn, 1) / fs,大小(熵,1));次要情节(2,1,2)情节(t,熵)包含(“时间(s)”)ylabel (“熵”)

图包含2轴对象。坐标轴对象1 ylabel振幅包含一个类型的对象。坐标轴对象2包含时间(s), ylabel熵包含一个类型的对象。

谱熵也被用于区分语音和音乐7][8]。例如,比较直方图熵的演讲中,背景音乐和音频文件。

fs = 8000;[演讲,speechFs] = audioread (“彩虹- 16 - 8 mono - 114 secs.wav”);演讲=重新取样(演讲、fs、speechFs);演讲= speech. / max(演讲);(音乐、musicFs) = audioread (“rockguitar - 16 - 96立体声- 72 secs.flac”);音乐= sum(音乐,2)/ 2;音乐=重新取样(音乐、fs musicFs);音乐= music. / max(音乐);[背景,backgroundFs] = audioread (“Ambiance-16-44p1-mono-12secs.wav”);背景=重新取样(背景、fs、backgroundFs);背景= background. / max(背景);speechEntropy = spectralEntropy(演讲、fs);musicEntropy = spectralEntropy(音乐、fs);backgroundEntropy = spectralEntropy(背景、fs);图h1 =直方图(speechEntropy);持有h2 =直方图(musicEntropy);h3 =直方图(backgroundEntropy);h1。归一化=“概率”;h2。归一化=“概率”;h3。归一化=“概率”;h1。BinWidth = 0.01;h2。BinWidth = 0.01;h3。BinWidth = 0.01;标题(“谱熵”)传说(“演讲”,“音乐”,“背景”,“位置”,“西北”)包含(“熵”)ylabel (“概率”)举行

图包含一个坐标轴对象。坐标轴对象与标题谱熵,熵包含,ylabel概率直方图类型的对象包含3。这些对象代表演讲、音乐、背景。

光谱平坦

光谱平坦(spectralFlatness)测量光谱的几何平均数的比值光谱的算术平均值(9]:

平面度 = ( k = b 1 b 2 年代 k ) 1 b 2 - - - - - - b 1 1 b 2 - - - - - - b 1 k = b 1 b 2 年代 k

在哪里

  • 年代 k 在本是光谱值吗 k 。幅度谱和功率谱都是常用的。

  • b 1 b 2 乐队边缘,在垃圾箱,计算谱平坦。

光谱平坦表明peakiness的光谱。高光谱平坦表示噪声,而较低的频谱平坦表明音调。

(音频、fs) = audioread (“waveguideloopone - 24 - 96立体声- 10 - secs.aif”);音频= sum(音频、2)/ 2;噪音=(2 *兰特(元素个数(音频),1)1)。* linspace(0、0.05、元素个数(音频))';音频=音频+噪声;平面度= spectralFlatness(音频、fs);次要情节(2,1,1)t = linspace(0,大小(音频,1)/ fs,大小(音频,1));情节(t)、音频)ylabel (“振幅”次要情节(2,1,2)t = linspace(0,大小(音频,1)/ fs,大小(平面度,1));情节(t,平面度)ylabel (“平坦”)包含(“时间(s)”)

图包含2轴对象。坐标轴对象1 ylabel振幅包含一个类型的对象。坐标轴对象2包含时间(s), ylabel平坦包含一个类型的对象。

光谱平坦也被成功地应用于歌声检测(10)和音频场景识别(11]。

光谱波峰

光谱波峰(spectralCrest)措施的比值光谱的最大光谱的算术平均值(1]:

佳洁士 = 马克斯 ( 年代 k ϵ ( b 1 , b 2 ] ) 1 b 2 - - - - - - b 1 k = b 1 b 2 年代 k

在哪里

  • 年代 k 在本是光谱值吗 k 。幅度谱和功率谱都是常用的。

  • b 1 b 2 乐队边缘,在垃圾箱,计算光谱波峰。

光谱峰值表明peakiness的光谱。高光谱波峰表示更多的音调,而较低的频谱波峰表示更多的噪音。

(音频、fs) = audioread (“waveguideloopone - 24 - 96立体声- 10 - secs.aif”);音频= sum(音频、2)/ 2;噪音=(2 *兰特(元素个数(音频),1)1)。* linspace(0、0.2、元素个数(音频))';音频=音频+噪声;佳洁士= spectralCrest(音频、fs);次要情节(2,1,1)t = linspace(0,大小(音频,1)/ fs,大小(音频,1));情节(t)、音频)ylabel (“振幅”次要情节(2,1,2)t = linspace(0,大小(音频,1)/ fs,大小(波峰,1));情节(t,嵴)ylabel (“佳洁士”)包含(“时间(s)”)

图包含2轴对象。坐标轴对象1 ylabel振幅包含一个类型的对象。坐标轴对象2包含时间(s), ylabel波峰包含一个类型的对象。

谱通量

谱通量(spectralFlux)是一种测量光谱随时间的变化(12]:

通量 ( t ) = ( k = b 1 b 2 | 年代 k ( t ) - - - - - - 年代 k ( t - - - - - - 1 ) | p ) 1 p

在哪里

  • 年代 k 在本是光谱值吗 k 。幅度谱和功率谱都是常用的。

  • b 1 b 2 乐队边缘,在垃圾箱,计算谱通量。

  • p 是一种常态的类型。

谱通量发病通常被用于检测(13)和音频分割(14]。例如,鼓的节拍追踪对应于高光谱通量。

(音频、fs) = audioread (“FunkyDrums-48-stereo-25secs.mp3”);音频= sum(音频、2)/ 2;通量= spectralFlux(音频、fs);次要情节(2,1,1)t = linspace(0,大小(音频,1)/ fs,大小(音频,1));情节(t)、音频)ylabel (“振幅”次要情节(2,1,2)t = linspace(0,大小(音频,1)/ fs,大小(通量,1));情节(t,通量)ylabel (“通量”)包含(“时间(s)”)

图包含2轴对象。坐标轴对象1 ylabel振幅包含一个类型的对象。坐标轴对象2包含时间(s), ylabel通量包含一个类型的对象。

光谱斜率

光谱斜率(spectralSlope)措施的数量减少的光谱15]:

= k = b 1 b 2 ( f k - - - - - - μ f ) ( 年代 k - - - - - - μ 年代 ) k = b 1 b 2 ( f k - - - - - - μ f ) 2

在哪里

  • f k 是赫兹的频率对应于本吗 k

  • μ f 是平均频率。

  • 年代 k 在本是光谱值吗 k 。幅度谱是常用的。

  • μ 年代 是均值谱值。

  • b 1 b 2 乐队边缘,在垃圾箱,计算光谱斜率。

光谱斜率已被广泛用于演讲分析,特别是在建模议长压力(19]。斜率是声带的谐振特性直接相关,也被应用于演讲者识别(21]。音色的光谱斜率是一个社会重要的方面。光谱斜率歧视已被证明发生在儿童早期发展(20.]。光谱斜率时最为明显能量较低的共振峰的能量远远大于较高的共振峰。

(女,femaleFs) = audioread (“FemaleSpeech-16-8-mono-3secs.wav”);女= female. / max(女);femaleSlope = spectralSlope(女,femaleFs);t = linspace(0,大小(女,1)/ femaleFs大小(femaleSlope, 1));次要情节(2,1,1)谱图(女,圆(femaleFs * 0.05),圆(femaleFs * 0.04),圆(femaleFs * 0.05), femaleFs,“桠溪”,“权力”次要情节(2,1,2)情节(t, femaleSlope)标题(“女性演讲者”)ylabel (“坡”)包含(“时间(s)”)

图包含2轴对象。坐标轴对象1包含时间(s), ylabel频率(赫兹)包含一个类型的对象的形象。坐标轴对象与标题2女议长,包含时间(s), ylabel斜率包含一个类型的对象。

光谱减少

光谱减少(spectralDecrease)代表的数量减少,而强调的斜坡低频率(1]:

减少 = k = b 1 + 1 b 2 年代 k - - - - - - 年代 b 1 k - - - - - - 1 k = b 1 + 1 b 2 年代 k

在哪里

  • 年代 k 在本是光谱值吗 k 。幅度谱是常用的。

  • b 1 b 2 乐队边缘,在垃圾箱,计算光谱减少。

光谱减少不如光谱斜率在演讲中经常使用文学,但它是常用的,随着坡,在音乐的分析。特别是,光谱已经被证明可以减少执行以及功能仪器识别(22]。

(吉他,guitarFs) = audioread (“rockguitar - 16 - 44 - p1 -立体声- 72 secs.wav”);吉他=意味着(吉他,2);[鼓,drumsFs] = audioread (“RockDrums-44p1-stereo-11secs.mp3”);鼓=意味着(鼓,2);guitarDecrease = spectralDecrease(吉他,guitarFs);drumsDecrease = spectralDecrease(鼓、drumsFs);t1 = linspace(0,大小(吉他,1)/ guitarFs大小(guitarDecrease, 1));t2 = linspace(0,大小(鼓,1)/ drumsFs大小(drumsDecrease, 1));次要情节(2,1,1)情节(t1, guitarDecrease)标题(“吉他”)ylabel (“减少”轴([0 10 -0.3 - 0.3])次要情节(2,1,2)情节(t2, drumsDecrease)标题(“鼓”)ylabel (“减少”)包含(“时间(s)”轴([0 10 -0.3 - 0.3])

图包含2轴对象。坐标轴对象1标题吉他,ylabel减少包含一个类型的对象。坐标轴对象2标题鼓,包含时间(s), ylabel减少包含一个类型的对象。

光谱滚边点

光谱滚边点(spectralRolloffPoint音频信号的带宽的)措施确定给定的频率本总能量的百分比存在(12]:

滚边 = 这样的 k = b 1 | 年代 k | = κ k = b 1 b 2 年代 k

在哪里

  • 年代 k 在本是光谱值吗 k 。幅度谱和功率谱都是常用的。

  • b 1 b 2 乐队边缘,在垃圾箱,计算光谱滚边点。

  • κ 指定的能量阈值,通常95%或85%。

转化为赫兹之前返回的spectralRolloffPoint

光谱滚边点被用来区分语音浊音和清音的,语音/音乐歧视(12),音乐流派分类16)、声场景识别(17),和音乐情绪分类(18]。例如,观察不同均值和方差的演讲,滚边点摇滚吉他,木吉他,一个声场景。

大调的= 5;从每个文件%剪辑出5秒。[演讲,fs1] = audioread (“SpeechDFT-16-8-mono-5secs.wav”);演讲=演讲(1:min(结束,fs1 *大调的));[electricGuitar, fs2] = audioread (“rockguitar - 16 - 44 - p1 -立体声- 72 secs.wav”);electricGuitar =意味着(electricGuitar, 2);%转换为比较mono。electricGuitar = electricGuitar (1: fs2 *大调的);[acousticGuitar, fs3] = audioread (“SoftGuitar-44p1_mono-10mins.ogg”);acousticGuitar = acousticGuitar (1: fs3 *大调的);[acousticScene, fs4] = audioread (“MainStreetOne-16-16-mono-12secs.wav”);acousticScene = acousticScene (1: fs4 *大调的);r1 = spectralRolloffPoint(演讲、fs1);r2 = spectralRolloffPoint (electricGuitar fs2);r3 = spectralRolloffPoint (acousticGuitar fs3);r4 = spectralRolloffPoint (acousticScene fs4);t1 = linspace(0,大小(演讲,1)/ fs1、大小(r1, 1));t2 = linspace (0, (electricGuitar 1) / fs2大小,大小(r2, 1));t3 = linspace (0, (acousticGuitar 1) / fs3大小,大小(r3, 1));t4 = linspace (0, (acousticScene 1) / fs4大小,大小(r4, 1)); figure plot(t1,r1) title(“演讲”)ylabel (“滚边点(Hz)”)包含(“时间(s)”轴([0 5 0 4000])

图包含一个坐标轴对象。坐标轴对象与标题的演讲中,包含时间(s), ylabel滚边点(Hz)包含一个类型的对象。

图绘制(t2, r2)标题(“摇滚吉他”)ylabel (“滚边点(Hz)”)包含(“时间(s)”轴([0 5 0 4000])

图包含一个坐标轴对象。坐标轴对象与标题摇滚吉他,包含时间(s), ylabel滚边点(Hz)包含一个类型的对象。

图绘制(t3, r3)标题(木吉他的)ylabel (“滚边点(Hz)”)包含(“时间(s)”轴([0 5 0 4000])

图包含一个坐标轴对象。坐标轴对象标题原声吉他,包含时间(s), ylabel滚边点(Hz)包含一个类型的对象。

图绘制(t4、r4)标题(“声场景”)ylabel (“滚边点(Hz)”)包含(“时间(s)”轴([0 5 0 4000])

图包含一个坐标轴对象。坐标轴对象与标题声场景,包含时间(s), ylabel滚边点(Hz)包含一个类型的对象。

引用

[1]彼得斯,G。“大量的音频声音特性描述(相似性和分类)小心”项目。Technical Report; IRCAM: Paris, France, 2004.

[2]灰色,约翰M。,和John W. Gordon. “Perceptual Effects of Spectral Modifications on Musical Timbres.”《美国声学学会杂志》上。北京大学出版社63年版,1978,第1493 - 1500页。

[3]Raimy,埃里克和查尔斯·e·凯恩斯。语音学和音系学的部分。新泽西州霍博肯:约翰威利& Sons Inc ., 2015。

[4]Jongman Allard, et al。“英语摩擦音的声学特征。”《美国声学学会杂志》上。北京大学出版社108年版,2000,第1252 - 1263页。

[5]美国张、郭y和张问:“强大的语音活动检测功能设计基于谱峰度。”第一次国际研讨会教育技术和计算机科学,2009年,页269 - 272。

[6]Misra, H。,S. Ikbal, H. Bourlard, and H. Hermansky. "Spectral Entropy Based Feature for Robust ASR."2004年IEEE国际会议音响、演讲和信号处理

[7]a . Pikrakis t Giannakopoulos, Theodoridis。“计算高效的广播录音语音/音乐鉴别器。”国际会议上音乐信息检索和相关活动,2006年。

[8]Pikrakis,。,et al. “A Speech/Music Discriminator of Radio Recordings Based on Dynamic Programming and Bayesian Networks.”IEEE多媒体。问题5卷。10日,2008年,页846 - 857。

[9]约翰斯顿,法学博士”变换编码的音频信号通过感知噪声标准。”IEEE在选定地区通讯》杂志上。问题2卷。6日,1988年,页314 - 323。

[10]雷纳,伯纳德,et al。”在歌声减少假阳性的检测。”2014年IEEE国际会议音响、演讲和信号处理(ICASSP),2014年。

[11]y Petetin, c . Laroche和a . Mayoue“深神经网络音频场景识别,”2015年23日欧洲信号处理会议(EUSIPCO),2015年。

[12]Scheirer E。和m . Slaney。”建设和评估一个健壮的Multifeature语音/音乐鉴别器。”1997年IEEE国际会议音响、演讲和信号处理,1997年

[13]美国迪克逊,“开始检测再现。”国际会议上数字音频效果。120卷,2006年,页133 - 137。

[14]Tzanetakis G。和p·库克。“Multifeature音频分割浏览和注释”。学报1999年IEEE车间音频和声学信号处理的应用,1999年。

[15]我们,亚历山大。介绍音频内容分析应用于信号处理和音乐信息。皮斯卡塔韦,新泽西:IEEE出版社,2012年。

[16],道,m .注资。“音乐流派分类与分类。”IEEE国际会议音响、演讲和信号处理,2005年

[17]Eronen A.j。,V.t. Peltonen, J.t. Tuomi, A.p. Klapuri, S. Fagerlund, T. Sorsa, G. Lorho, and J. Huopaniemi. "Audio-Based Context Recognition."IEEE音频、语音和语言处理。问题1卷。14日,2006年,页321 - 329。

任[18]、Jia-Min吴学识渊博,Jyh-Shing罗杰张成泽。“自动音乐情绪分类基于音色和调制特性。”IEEE情感计算。问题3卷。6日,2015年,页236 - 246。

[19]汉森,约翰·h·L。Sanjay Patil。“压力下的演讲:分析、建模和识别”。在计算机科学的课堂讲稿。4343卷,2007年,页108 - 137。

[20]曾荫权,克里斯汀·D。,和Laurel J. Trainor. "Spectral Slope Discrimination in Infancy: Sensitivity to Socially Important Timbres."婴儿的行为和发展。问题2卷。25日,2002年,页183 - 194。

[21]没吃,H.a。,F. Beaufays, L.p. Heck, and M. Weintraub. "Robust Text-Independent Speaker Identification over Telephone Channels."IEEE语音和音频处理。问题5卷。7日,1999年,页554 - 568。

[22]Essid, S。,G. Richard, and B. David. "Instrument Recognition in Polyphonic Music Based on Automatic Taxonomies."IEEE音频、语音和语言处理。问题1卷14日,2006年,页68 - 80。