主要内容

光谱描述符

Audio Toolbox™提供了一套描述形状的函数,有时称为音色,音频。此示例定义用于确定频谱功能的方程,引用每个功能的常见用途,并提供示例,以便您可以获得关于光谱描述符描述的内容的直觉。

光谱描述符广泛用于机器和深度学习应用以及感知分析。频谱描述符已应用于一系列应用程序,包括:

  • 发言人识别和识别[21.

  • 声场景识别[11.] [17.

  • 仪器识别[22.

  • 音乐类型分类[16.] [18.

  • 情绪识别[19.] [20.

  • 语音活动检测[5] [7] [8] [10.] [12.] [13.

光谱质心

谱心(Spectralcentroid.)为由未加权和归一化的频率加权和[1]:

μ 1 σ. k b 1 b 2 f k 年代 k σ. k b 1 b 2 年代 k

在哪里

  • f k 是Hz的频率对应于箱 k

  • 年代 k 光谱值在bin处吗 k 。幅度谱和功率谱都是常用的。

  • b 1 b 2 是波段边缘,在箱子里,在上面计算光谱质心。

光谱质心代表光谱的“重心”。它被用作指示亮度(2]并且通常用于音乐分析和类型分类。例如,观察与音频文件中的高帽子相对应的质心中的跳转。

[音频,fs] = audioread(“FunkyDrums-44p1-stereo-25secs.mp3”);音频= sum(音频、2)/ 2;Centroid = Spectralcentroid(音频,FS);Subplot (2,1,1) t = linspace(0,size(audio,1)/fs,size(audio,1));情节(t)、音频)ylabel ('振幅')子图(2,1,2)t = linspace(0,大小(音频,1)/ fs,尺寸(质心,1));绘制(t,质心)xlabel('时间'')ylabel('质心(Hz)'

图中包含2个轴对象。轴对象1包含类型线的对象。axis对象2包含一个类型为line的对象。

频谱质心也常用于将言论分类为浊音或清[3.].例如,质心跳跃在清音语音的区域。

[音频,fs] = audioread(“Counting-16-44p1-mono-15secs.wav”);Centroid = Spectralcentroid(音频,FS);Subplot (2,1,1) t = linspace(0,size(audio,1)/fs,size(audio,1));情节(t)、音频)ylabel ('振幅')子图(2,1,2)t = linspace(0,大小(音频,1)/ fs,尺寸(质心,1));绘制(t,质心)xlabel('时间'')ylabel('质心(Hz)'

图中包含2个轴对象。轴对象1包含类型线的对象。axis对象2包含一个类型为line的对象。

光谱传播

光谱差异(光谱覆盖)是谱质心周围的标准偏差[1]:

μ 2 σ. k b 1 b 2 f k - μ 1 2 年代 k σ. k b 1 b 2 年代 k

在哪里

  • f k 是Hz的频率对应于箱 k

  • 年代 k 光谱值在bin处吗 k 。幅度谱和功率谱都是常用的。

  • b 1 b 2 频带边缘,在箱中,用于计算光谱差异。

  • μ 1 是光谱质心。

光谱扩展表示光谱的“瞬时带宽”。它被用作语气的主导地位的指示。例如,随着音调频道分叉和减少随着音调的汇集而增加,扩展增加。

fs = 16e3;TONE =探声器('采样率',fs,“NumTones”2,'samplesperframe'512,'频率',[2000,100]);持续时间= 5;numloops =楼层(持续时间* fs / tone.samplesperframe);信号= [];为了i = 1:numloops信号= [信号;音()];如果i 别的基调。频率=基调。频率- [0,50];结尾结尾传播= spectralSpread(信号、fs);次要情节(2,1,1)谱图(信号,圆(fs * 0.05),圆(fs * 0.04), 2048年,fs,'yaxis')子图(2,1,2)t = linspace(0,尺寸(信号,1)/ fs,尺寸(传播,1));绘图(T,Spread)Xlabel('时间'')ylabel('传播'

图中包含2个轴对象。轴对象1包含类型图像的对象。axis对象2包含一个类型为line的对象。

光谱偏斜

光谱偏斜(Spectralswess.)从三阶时刻计算[1]:

μ 3. σ. k b 1 b 2 f k - μ 1 3. 年代 k μ 2 3. σ. k b 1 b 2 年代 k

在哪里

  • f k 是Hz的频率对应于箱 k

  • 年代 k 光谱值在bin处吗 k 。幅度谱和功率谱都是常用的。

  • b 1 b 2 是带边,在箱子里,在上面计算光谱偏度。

  • μ 1 是光谱质心。

  • μ 2 光谱差异。

光谱偏移测量质心周围的对称性。在语音学中,谱偏斜通常被称为光谱倾斜并与其他光谱矩一起用于区分关节的位置[4].对于谐波信号,它表示较高和更低的谐波的相对强度。例如,在四色调信号中,当较低的色调是主导的时,存在正偏斜,并且当上调占主导地位时是负偏振。

fs = 16e3;持续时间= 99;TONE =探声器('采样率',fs,“NumTones”4'samplesperframe',fs,'频率',[500,2000,2500,4000],'振幅'[0, 0.4, 0.6, 1]);信号= [];为了i = 1:持续时间信号= [信号;音()];TONE.AMPLUTY = TONE.AMPLUTY + [0.01,0,0,-0.01];结尾偏态= spectralSkewness(信号、fs);t = linspace(0,大小(信号,1)/ fs,大小(偏态,1))/ 60;次要情节(2,1,1)谱图(信号,圆(fs * 0.05),圆(fs * 0.04),圆(fs * 0.05), fs,'yaxis''力量'视图([-58 33])subplot(2,1,2) plot(t,skewness) xlabel('时间(分钟)')ylabel('歪斜'

图中包含2个轴对象。axis对象1包含一个类型为surface的对象。axis对象2包含一个类型为line的对象。

光谱峰度

光谱峰氏症(spectralKurtosis)从第四阶时刻计算[1]:

μ 4 σ. k b 1 b 2 f k - μ 1 4 年代 k μ 2 4 σ. k b 1 b 2 年代 k

在哪里

  • f k 是Hz的频率对应于箱 k

  • 年代 k 光谱值在bin处吗 k 。幅度谱和功率谱都是常用的。

  • b 1 b 2 频带边缘,在箱中,用于计算光谱峰度。

  • μ 1 是光谱质心。

  • μ 2 光谱差异。

谱峰度测量谱在其质心周围的平坦度或非高斯度。相反,它被用来表示光谱的峰度。例如,当语音信号上的白噪声增加时,峰度降低,表明频谱的峰度较低。

[AudioIn,FS] = audioread(“Counting-16-44p1-mono-15secs.wav”);noiseGenerator = dsp。ColoredNoise (“颜色”“白色”'samplesperframe'大小(audioIn 1));噪音= noiseGenerator ();噪音=噪音/ max (abs(噪音));斜坡= linspace(0为元素个数(噪音)';噪音=噪音。*坡道;audioIn = audioIn + noise;峰度= spectralKurtosis (audioIn, fs);t = linspace(0,大小(audioIn 1) / fs,大小(audioIn, 1));子图(2,1,1)绘图(t,audioin)ylabel('振幅')T = LINSPACE(0,尺寸(AUDION,1)/ FS,尺寸(Kurtosis,1));子图(2,1,2)图(T,Kurtosis)Xlabel('时间'')ylabel('kurtosis'

图中包含2个轴对象。轴对象1包含类型线的对象。axis对象2包含一个类型为line的对象。

光谱熵

光谱熵(光谱产物)测量光谱的膨胀[6]:

- σ. k b 1 b 2 年代 k 日志 年代 k 日志 b 2 - b 1

在哪里

  • f k 是Hz的频率对应于箱 k

  • 年代 k 光谱值在bin处吗 k 。幅度谱和功率谱都是常用的。

  • b 1 b 2 是带边,在箱子里,在上面计算光谱熵。

频谱熵已成功用于浊音/清晰的决策以进行自动语音识别[6].因为熵是一种无序度的度量,所以浊音语音区域的熵比浊音语音区域的熵要小。

[AudioIn,FS] = audioread(“Counting-16-44p1-mono-15secs.wav”);熵= Spectralentropy(AudioIn,FS);t = linspace(0,大小(audioIn 1) / fs,大小(audioIn, 1));子图(2,1,1)绘图(t,audioin)ylabel('振幅')T = Linspace(0,尺寸(AudioIn,1)/ FS,尺寸(熵,1));子图(2,1,2)图(t,熵)xlabel('时间'')ylabel('熵'

图中包含2个轴对象。轴对象1包含类型线的对象。axis对象2包含一个类型为line的对象。

光谱熵也被用来区分语音和音乐[7] [8].例如,比较语音,音乐和背景音频文件的熵的直方图。

fs = 8000;[演讲,speechFs] = audioread ('rainbow-16-8-mono-114secs.wav');语音=重新取样(语音,FS,SpeemFS);语音=演讲./max(speech);[音乐,musicfs] = audioread(“rockguitar - 16 - 96立体声- 72 secs.flac”);音乐= SUM(音乐,2)/ 2;音乐=重组(音乐,FS,Musicfs);音乐= music./max(music);[背景,backgroundfs] = audioread('Ambiance-16-44p1-mono-12secs.wav');背景=重新取样(背景、fs、backgroundFs);背景= background. / max(背景);speechEntropy = spectralEntropy(演讲、fs);musicEntropy = spectralEntropy(音乐、fs);backgroundEntropy = spectralEntropy(背景、fs);图h1 =直方图(speechEntropy);持有h2 =直方图(博士博士);H3 =直方图(背景下);H1.Normalization =.'可能性';h2.normalization =.'可能性';h3.normalization =.'可能性';H1.BinWidth = 0.01;h2.binwidth = 0.01;h3.binwidth = 0.01;标题('光谱熵') 传奇('演讲'“音乐”“背景”'地点'“西北”)xlabel('熵')ylabel('可能性') 抓住离开

图中包含一个轴对象。以光谱熵为标题的轴对象包含3个直方图类型的对象。这些物体代表语言,音乐,背景。

光谱平整度

光谱平整度(光谱污点)测量频谱的几何平均值与频谱算术平均值的比率[9]:

平坦 π k b 1 b 2 年代 k 1 b 2 - b 1 1 b 2 - b 1 σ. k b 1 b 2 年代 k

在哪里

  • 年代 k 光谱值在bin处吗 k 。幅度谱和功率谱都是常用的。

  • b 1 b 2 频带边缘,在箱中,用于计算光谱平整度。

光谱平坦度是光谱峰的指示。较高的光谱平直度表示噪声,而较低的光谱平直度表示音调。

[音频,fs] = audioread('wavoguideloopone-24-96-stereo-10secs.aif');音频= sum(音频、2)/ 2;噪音=(2 *兰特(元素个数(音频),1)1)。* linspace(0、0.05、元素个数(音频))';音频=音频+噪声;平面度= spectralFlatness(音频、fs);Subplot (2,1,1) t = linspace(0,size(audio,1)/fs,size(audio,1));情节(t)、音频)ylabel ('振幅')子图(2,1,2)T = Linspace(0,尺寸(音频,1)/ FS,尺寸(平整度,1));绘制(T,平整度)Ylabel(“平坦”)xlabel('时间''

图中包含2个轴对象。轴对象1包含类型线的对象。axis对象2包含一个类型为line的对象。

谱平坦度也被成功地应用于歌声检测[10.]和音频场景识别[11.].

光谱嵴

光谱嵴(光谱)测量光谱的最大值与频谱算术平均值的比率[1]:

波峰 最大限度 年代 k ϵ ( b 1 b 2 1 b 2 - b 1 σ. k b 1 b 2 年代 k

在哪里

  • 年代 k 光谱值在bin处吗 k 。幅度谱和功率谱都是常用的。

  • b 1 b 2 是在箱子里的波段边缘,在上面计算光谱波峰。

光谱嵴是谱的峰值的指示。较高的光谱嵴表示更多的音调,而较低的光谱嵴表示更多噪声。

[音频,fs] = audioread('wavoguideloopone-24-96-stereo-10secs.aif');音频= sum(音频、2)/ 2;噪声=(2 * rand(numel(音频),1)-1)。* linspace(0,0.2,numel(音频))';音频=音频+噪声;Crest = Spectralcrest(音频,FS);Subplot (2,1,1) t = linspace(0,size(audio,1)/fs,size(audio,1));情节(t)、音频)ylabel ('振幅') subplot(2,1,2) t = linspace(0,size(audio,1)/fs,size(crest,1));情节(t,嵴)ylabel (“佳洁士”)xlabel('时间''

图中包含2个轴对象。轴对象1包含类型线的对象。axis对象2包含一个类型为line的对象。

谱通量

光谱通量(Spectralflux)是一种尺寸随时间的频谱变异性[12.]:

助势 t σ. k b 1 b 2 | 年代 k t - 年代 k t - 1 | p 1 p

在哪里

  • 年代 k 光谱值在bin处吗 k 。幅度谱和功率谱都是常用的。

  • b 1 b 2 是波段边缘,在箱子里,在上面计算光谱通量。

  • p 是标准类型。

光谱通量普遍用于开始检测[13.音频分割[14.].例如,鼓声轨道中的节拍对应着高光谱通量。

[音频,fs] = audioread('funkydrums-48-stereo-25secs.mp3');音频= sum(音频、2)/ 2;通量= spectralFlux(音频、fs);Subplot (2,1,1) t = linspace(0,size(audio,1)/fs,size(audio,1));情节(t)、音频)ylabel ('振幅')子图(2,1,2)t = linspace(0,尺寸(音频,1)/ fs,尺寸(助焊剂,1));绘制(T,助焊剂)ylabel(“助流”)xlabel('时间''

图中包含2个轴对象。轴对象1包含类型线的对象。axis对象2包含一个类型为line的对象。

光谱斜率

光谱斜率(spectralSlope)测量频谱的减少量[15.]:

σ. k b 1 b 2 f k - μ f 年代 k - μ 年代 σ. k b 1 b 2 f k - μ f 2

在哪里

  • f k 是Hz的频率对应于箱 k

  • μ f 为平均频率。

  • 年代 k 光谱值在bin处吗 k 。通常使用幅度谱。

  • μ 年代 是平均光谱值。

  • b 1 b 2 是波段边缘,在箱子里,在上面计算光谱斜率。

光谱斜率已广泛使用语音分析,特别是在造型扬声器应力中的应用[19.].斜率与声音折叠的共振特性直接相关,并且还应用于扬声器识别[21.].谱斜率是音色的一个重要方面。光谱斜率辨别已被证明发生在儿童早期发育中[20.].当低共振峰的能量远大于高共振峰的能量时,谱斜率最为明显。

[女性,Femalefs] = audioread(“FemaleSpeech-16-8-mono-3secs.wav”);女性=女性./max(female);Femaleslope = Spectralslope(女性,雌性);t = linspace(0,尺寸(雌性,1)/雌性,尺寸(Femaleslope,1));子图(2,1,1)频谱图(粉体,粉丝(Femerefs * 0.05),圆形(Femerefs * 0.04),圆形(Femalefs * 0.05),Femalefs,'yaxis''力量')子图(2,1,2)绘图(T,Femaleslope)标题('女演讲者')ylabel(“坡”)xlabel('时间''

图中包含2个轴对象。轴对象1包含类型图像的对象。带有标题女扬声器的轴对象2包含类型线的对象。

光谱减少

光谱减少(光谱易碎)表示光谱的降低量,同时强调较低频率的斜率[1]:

减少 σ. k b 1 + 1 b 2 年代 k - 年代 b 1 k - 1 σ. k b 1 + 1 b 2 年代 k

在哪里

  • 年代 k 光谱值在bin处吗 k 。通常使用幅度谱。

  • b 1 b 2 频带边缘,在箱中,用于计算光谱减少。

光谱减小比语音文献中的光谱斜率更频繁地使用,但通常使用斜率在音乐分析中。特别地,已经示出了光谱减少以便在仪器识别中执行良好的特征[22.].

[吉他,吉他] = audioread(“rockguitar - 16 - 44 - p1 -立体声- 72 secs.wav”);吉他=卑鄙(吉他,2);[鼓,鼓声] = audioread('Rockdrums-44p1-stereo-11secs.mp3');鼓=平均值(鼓,2);guitardecrease = spectraldecrease(吉他,吉他);Drumsdecrease = Spectraldefrease(鼓,鼓声);T1 = Linspace(0,尺寸(吉他,1)/吉他,尺寸(颈蜜蜂,1));T2 = Linspace(0,尺寸(桶,1)/桶,尺寸(鼓式饲料,1));子图(2,1,1)绘图(T1,GUITARDEAREEASE)标题('吉他')ylabel(“减少”)轴([010-0.3 0.3])子图(2,1,2)图(T2,鼓声泄炸物)标题('鼓')ylabel(“减少”)xlabel('时间'')轴([0 10 -0.3 0.3])

图中包含2个轴对象。带有标题吉他的轴对象1包含类型线的对象。带有标题鼓的轴对象2包含类型线的对象。

光谱滚边点

光谱促升光点(spectralrolloffpoint.)通过确定存在总能量的给定百分比的频率仓来测量音频信号的带宽[12.]:

滚下 观点 这样的 σ. k b 1 | 年代 k | κ σ. k b 1 b 2 年代 k

在哪里

  • 年代 k 光谱值在bin处吗 k 。幅度谱和功率谱都是常用的。

  • b 1 b 2 是在箱子里的波段边缘,在上面计算光谱滚动点。

  • κ 是指定的能量阈值,通常为95%或85%。

在它被返回之前被转换为Hzspectralrolloffpoint.

频谱卷口点用于区分浊音和清音语音,语音/音乐鉴别[12.],音乐类型分类[16.[声学场景识别[17.]和音乐情绪分类[18.].例如,观察语音、摇滚吉他、原声吉他和原声场景的滚动点的不同均值和方差。

dur = 5;%从每个文件剪辑5秒。[演讲,fs1] = audioread ('speemdft-16-8-mono-5secs.wav');演讲=演讲(1:min(结束,fs1 *大调的));[electricGuitar, fs2] = audioread (“rockguitar - 16 - 44 - p1 -立体声- 72 secs.wav”);电气电动仪=平均值(电气电动仪,2);%转换为mono进行比较。电气电动仪=电动仪(1:FS2 * DUR);[Acousticguitar,FS3] = audioread('softguitar-44p1_mono-10mins.ogg');acousticGuitar = acousticGuitar (1: fs3 *大调的);[acousticScene, fs4] = audioread ('Maintreetone-16-16-Mono-12secs.wav');acousticScene = acousticScene (1: fs4 *大调的);r1 = spectralRolloffPoint(演讲、fs1);r2 = spectralRolloffPoint (electricGuitar fs2);r3 = spectralRolloffPoint (acousticGuitar fs3);r4 = spectralRolloffPoint (acousticScene fs4);t1 = linspace(0,大小(演讲,1)/ fs1、大小(r1, 1));t2 = linspace (0, (electricGuitar 1) / fs2大小,大小(r2, 1));t3 = linspace (0, (acousticGuitar 1) / fs3大小,大小(r3, 1));t4 = linspace (0, (acousticScene 1) / fs4大小,大小(r4, 1)); figure plot(t1,r1) title('演讲')ylabel('升降点(Hz)')xlabel('时间'')轴([0 5 0 4000])

图中包含一个轴对象。具有标题语音的轴对象包含类型线的对象。

图绘制(t2, r2)标题('摇滚吉他')ylabel('升降点(Hz)')xlabel('时间'')轴([0 5 0 4000])

图中包含一个轴对象。带有标题岩吉他的轴对象包含类型线的对象。

图绘制(t3, r3)标题(木吉他的)ylabel('升降点(Hz)')xlabel('时间'')轴([0 5 0 4000])

图中包含一个轴对象。带标题声吉他的轴对象包含类型线的对象。

图绘制(t4、r4)标题('声学场景')ylabel('升降点(Hz)')xlabel('时间'')轴([0 5 0 4000])

图中包含一个轴对象。具有标题声场景的轴对象包含类型线的对象。

参考文献

[1] PEETERS,G.“CUIDADO项目中的声音描述(相似性和分类)的大量音频功能。”技术报告;Ircam:巴黎,法国,2004年。

格雷,约翰·M·戈登和约翰·w·戈登。《频谱变化对音乐音色的知觉效应》美国声学学会杂志。卷。63,第5号,1978年,第1493-1500页。

[3] Raimy,Eric和Charles E. Cairns。语音和语音学的细分。John Wiley & Sons Inc., 2015。

[4] Jongman,Allard等。“英语摩托儿的声学特征。”美国声学学会杂志。2000年第108卷第3期1252-1263页。

[5] S.张,Y. Guo和Q. Zhang,“基于光谱峰度的强大语音活动检测特征设计”。第一国际教育技术与计算机科学研讨会,2009年,第269-272页。

[6] Misra,H.,S. ikbal,H. Bourlard和H. Hermansky。“坚固ASR的光谱熵的特征。2004 IEEE关于声学,语音和信号处理国际会议

A. Pikrakis, T. Giannakopoulos和S. Theodoridis。一种计算效率高的无线电录音语音/音乐鉴别器。国际音乐信息检索和相关活动会议, 2006年。

[8] Pikrakis,A.等人。“基于动态规划和贝叶斯网络的无线电记录的语音/音乐鉴别器。”IEEE多媒体汇刊。2008年第5期,第10卷,第846-857页。

[9] Johnston,J.D.“使用感知噪声标准转换音频信号的编码。”IEEE CHINESS关于通信领域。第6卷,第2期,1988,314-323页。

[10] Lehner, Bernhard等,《关于减少唱歌声音检测中的假阳性》2014年IEEE声学,语音和信号处理国际会议(ICASSP),2014年。

Y. Petetin, C. Laroche和A. Mayoue,《音频场景识别的深度神经网络》,2015年第23届欧洲信号处理会议(EUSIPCO),2015年。

[12] Scheirer,E.和M. Slaney。“强大的多因素语音/音乐鉴别器的构建和评估。”1997 IEEE关于声学,语音和信号处理国际会议,1997年

[13] S. Dixon,“发病检测重新审视”。国际数字音频效果会议。卷。120年,2006年,第133-137页。

[14] Tzanetakis,G.和P. Cook。“用于浏览和注释的多地点音频分段。”1999年IEEE研讨会上的信号处理对音频和声学的应用程序,1999年。

[15] Lerch,Alexander。信号处理和音乐信息中的音频内容分析应用介绍。Piscataway,NJ:Ieee Press,2012。

[16] Li, Tao, M. Ogihara。《音乐体裁分类与分类学》我国际声学、语音和信号处理会议,2005年

Eronen, a.j., v.t. Peltonen, j.t. Tuomi, a.p. Klapuri, S. Fagerlund, T. Sorsa, G. Lorho, J. Huopaniemi。“以听力上下文识别。”IEEE在音频,语音和语言处理中的交易。卷。14,第1,2006号,第321-329页。

[18]任,贾敏,明菊武和jyh-shing roger jang。“基于Timbre和调制功能的自动音乐情绪分类。”IEEE关于情感计算的交易。卷。6,第3,2015,第236-246页。

约翰·h·L·汉森和桑杰·帕蒂尔。"压力下的言语:分析,建模和识别"计算机科学课堂讲稿。卷。4343,2007,pp。108-137。

[20]曾荫权,克里斯汀D.和Laurel J. Trainer。“婴儿期的光谱斜率歧视:对社会重要的时间表的敏感性。”婴儿行为和发展。卷。25,第2,2002号,第183-194页。

[21] Murthy,H.a.,F. Beaufays,L.P.Heck,和M. Weintraub。“通过电话渠道稳健的独立文本扬声器识别。”IEEE演讲和音频处理的交易。1999年第7卷第5期554-568页。

埃西德,S, G.理查德和B.大卫。《基于自动分类的复调音乐乐器识别》。IEEE在音频,语音和语言处理中的交易。第14卷,第1,2006号,第68-80页。