主要内容gydF4y2Ba

gtccgydF4y2Ba

提取伽玛酮倒谱系数、能量对数、δ和δ - δgydF4y2Ba

描述gydF4y2Ba

例子gydF4y2Ba

多项式系数gydF4y2Ba= gtcc (gydF4y2BaaudioIngydF4y2Ba,gydF4y2BafsgydF4y2Ba)gydF4y2Ba返回音频输入的伽玛通倒频谱系数(GTCCs),采样频率为gydF4y2BafsgydF4y2Ba赫兹。gydF4y2Ba

例子gydF4y2Ba

多项式系数gydF4y2Ba= gtcc (gydF4y2Ba___gydF4y2Ba,gydF4y2Ba名称,值gydF4y2Ba)gydF4y2Ba使用一个或多个指定选项gydF4y2Ba名称,值gydF4y2Ba对参数。gydF4y2Ba

例子gydF4y2Ba

[gydF4y2Ba多项式系数gydF4y2Ba,gydF4y2BaδgydF4y2Ba,gydF4y2BadeltaDeltagydF4y2Ba,gydF4y2Ba疯狂的gydF4y2Ba) = gtcc (gydF4y2Ba___gydF4y2Ba)gydF4y2Ba还返回与每个数据窗口相对应的样本中的delta、delta-delta和位置。gydF4y2Ba

例子gydF4y2Ba

全部折叠gydF4y2Ba

使用默认设置获取音频文件的伽玛通倒谱系数。策划的结果。gydF4y2Ba

[audioIn, fs] = audioread (gydF4y2Ba“Counting-16-44p1-mono-15secs.wav”gydF4y2Ba);(多项式系数,~,~,loc) = gtcc (audioIn fs);t = loc. / fs;情节(t,多项式系数)包含(gydF4y2Ba“时间(s)”gydF4y2Ba)标题(gydF4y2Ba“Gammatone Cepstral系数”gydF4y2Ba)传说(gydF4y2Ba“包厢”gydF4y2Ba,gydF4y2Ba' 0 'gydF4y2Ba,gydF4y2Ba' 1 'gydF4y2Ba,gydF4y2Ba' 2 'gydF4y2Ba,gydF4y2Ba“3”gydF4y2Ba,gydF4y2Ba“4”gydF4y2Ba,gydF4y2Ba“5”gydF4y2Ba,gydF4y2Ba“6”gydF4y2Ba,gydF4y2Ba“7”gydF4y2Ba,gydF4y2Ba“8”gydF4y2Ba,gydF4y2Ba“9”gydF4y2Ba,gydF4y2Ba“十”gydF4y2Ba,gydF4y2Ba“11”gydF4y2Ba,gydF4y2Ba“12”gydF4y2Ba,gydF4y2Ba...gydF4y2Ba“位置”gydF4y2Ba,gydF4y2Ba“northeastoutside”gydF4y2Ba)gydF4y2Ba

图中包含一个坐标轴。标题为“伽玛通倒谱系数”的轴包含14个线型对象。这些对象代表logE, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12。gydF4y2Ba

读入音频文件。gydF4y2Ba

[audioIn, fs] = audioread (gydF4y2Ba“Turbine-16-44p1-mono-22secs.wav”gydF4y2Ba);gydF4y2Ba

使用在ERB尺度上等距的过滤器计算20 GTCCgydF4y2Bahz2erb (62.5)gydF4y2Ba和gydF4y2Bahz2erb (12000)gydF4y2Ba.计算系数使用50毫秒周期Hann窗口与25毫秒重叠。用对数能量替换第0个系数。使用时域滤波。gydF4y2Ba

(多项式系数,~,~,loc) = gtcc (audioIn fs,gydF4y2Ba...gydF4y2Ba“NumCoeffs”gydF4y2Ba, 20岁,gydF4y2Ba...gydF4y2Ba“FrequencyRange”gydF4y2Ba(62.5, 12000),gydF4y2Ba...gydF4y2Ba“窗口”gydF4y2Ba,损害(圆(0.05 * fs),gydF4y2Ba“周期”gydF4y2Ba),gydF4y2Ba...gydF4y2Ba“OverlapLength”gydF4y2Ba而圆(0.025 * fs),gydF4y2Ba...gydF4y2Ba“LogEnergy”gydF4y2Ba,gydF4y2Ba“替换”gydF4y2Ba,gydF4y2Ba...gydF4y2Ba“FilterDomain”gydF4y2Ba,gydF4y2Ba“时间”gydF4y2Ba);gydF4y2Ba

策划的结果。gydF4y2Ba

t = loc / fs;情节(t,多项式系数)包含(gydF4y2Ba“时间(s)”gydF4y2Ba)标题(gydF4y2Ba“Gammatone Cepstral系数”gydF4y2Ba)传说(gydF4y2Ba“包厢”gydF4y2Ba,gydF4y2Ba' 1 'gydF4y2Ba,gydF4y2Ba' 2 'gydF4y2Ba,gydF4y2Ba“3”gydF4y2Ba,gydF4y2Ba“4”gydF4y2Ba,gydF4y2Ba“5”gydF4y2Ba,gydF4y2Ba“6”gydF4y2Ba,gydF4y2Ba“7”gydF4y2Ba,gydF4y2Ba“8”gydF4y2Ba,gydF4y2Ba“9”gydF4y2Ba,gydF4y2Ba“十”gydF4y2Ba,gydF4y2Ba“11”gydF4y2Ba,gydF4y2Ba“12”gydF4y2Ba,gydF4y2Ba“13”gydF4y2Ba,gydF4y2Ba...gydF4y2Ba“14”gydF4y2Ba,gydF4y2Ba“15”gydF4y2Ba,gydF4y2Ba“16”gydF4y2Ba,gydF4y2Ba“17”gydF4y2Ba,gydF4y2Ba“18”gydF4y2Ba,gydF4y2Ba“19”gydF4y2Ba,gydF4y2Ba“位置”gydF4y2Ba,gydF4y2Ba“northeastoutside”gydF4y2Ba);gydF4y2Ba

图中包含一个坐标轴。标题为“伽玛通倒谱系数”的轴包含20个线型对象。这些对象代表对数,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19。gydF4y2Ba

读入音频文件并将其转换为频率表示。gydF4y2Ba

[audioIn, fs] = audioread (gydF4y2Ba“彩虹- 16 - 8 mono - 114 - secs.wav”gydF4y2Ba);赢得=损害(1024gydF4y2Ba“周期”gydF4y2Ba);S = stft (audioIngydF4y2Ba“窗口”gydF4y2Ba,赢了,gydF4y2Ba“OverlapLength”gydF4y2Ba, 512,gydF4y2Ba“中心”gydF4y2Ba、假);gydF4y2Ba

要提取伽玛酮倒谱系数,调用gydF4y2BagtccgydF4y2Ba与频域音频。忽略log-energy。gydF4y2Ba

多项式系数= gtcc(年代,fs,gydF4y2Ba“LogEnergy”gydF4y2Ba,gydF4y2Ba“忽略”gydF4y2Ba);gydF4y2Ba

在许多应用中,GTCC观测数据被转换为摘要统计数据,用于分类任务。绘制一个伽玛通倒谱系数的概率密度函数,观察其分布。gydF4y2Ba

nbins = 60;coefficientToAnalyze =gydF4y2Ba4gydF4y2Ba;直方图(多项式系数(:,coefficientToAnalyze + 1), nbins,gydF4y2Ba“归一化”gydF4y2Ba,gydF4y2Ba“pdf”gydF4y2Ba)标题(sprintf (gydF4y2Ba“系数% d”gydF4y2Ba, coefficientToAnalyze))gydF4y2Ba

图中包含一个坐标轴。标题为系数4的坐标轴包含一个直方图类型的对象。gydF4y2Ba

输入参数gydF4y2Ba

全部折叠gydF4y2Ba

输入信号,指定为矢量、矩阵或三维阵列。gydF4y2Ba

如果“gydF4y2BaFilterDomaingydF4y2Ba'被设置为gydF4y2Ba“频率”gydF4y2Ba(默认)gydF4y2BaaudioIngydF4y2Ba可以是实的,也可以是复杂的。gydF4y2Ba

  • 如果gydF4y2BaaudioIngydF4y2Ba为实数时,它被解释为时域信号,并且必须是列向量或矩阵。矩阵的列被视为独立的音频通道。gydF4y2Ba

  • 如果gydF4y2BaaudioIngydF4y2Ba是复杂的,它被解释为频域信号。在这种情况下,gydF4y2BaaudioIngydF4y2Ba必须是一个gydF4y2BalgydF4y2Ba——- - - - - -gydF4y2Ba米gydF4y2Ba——- - - - - -gydF4y2BaNgydF4y2Ba数组,gydF4y2BalgydF4y2Ba为DFT点的个数,gydF4y2Ba米gydF4y2Ba是个别光谱的数量,和gydF4y2BaNgydF4y2Ba为单个通道的数量。gydF4y2Ba

如果“gydF4y2BaFilterDomaingydF4y2Ba'被设置为gydF4y2Ba“时间”gydF4y2Ba,然后gydF4y2BaaudioIngydF4y2Ba必须是实列向量或矩阵。矩阵的列被视为独立的音频通道。gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba
复数的支持:金宝appgydF4y2Ba是的gydF4y2Ba

输入信号的采样率(Hz),指定为一个正标量。gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

名称-值对的观点gydF4y2Ba

指定可选的逗号分隔的对gydF4y2Ba名称,值gydF4y2Ba参数。gydF4y2Ba的名字gydF4y2Ba参数名和gydF4y2Ba价值gydF4y2Ba为对应值。gydF4y2Ba的名字gydF4y2Ba必须出现在引号内。可以以任意顺序指定多个名称和值对参数gydF4y2BaName1, Value1,…,的家gydF4y2Ba.gydF4y2Ba

例子:gydF4y2Ba多项式系数= gtcc (audioIn、fs“LogEnergy”,“替换”)gydF4y2Ba返回采样的音频输入信号的伽玛通倒谱系数gydF4y2BafsgydF4y2Ba赫兹。对于每个分析窗口,第一个系数gydF4y2Ba多项式系数gydF4y2Ba向量被输入信号的对数能量代替。gydF4y2Ba

在时域应用的窗口,指定为逗号分隔的对,由gydF4y2Ba“窗口”gydF4y2Ba一个实向量。向量中的元素数必须在该范围内gydF4y2Ba1、大小(gydF4y2BaaudioIngydF4y2Ba1)]gydF4y2Ba.向量中的元素数也必须大于gydF4y2BaOverlapLengthgydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

相邻窗口之间重叠的样本数,指定为由逗号分隔的对组成gydF4y2Ba“OverlapLength”gydF4y2Ba和一个范围为[0,gydF4y2Ba元素个数(gydF4y2Ba窗口gydF4y2Ba)gydF4y2Ba).如果未指定的,gydF4y2BaOverlapLengthgydF4y2Ba默认为gydF4y2Ba轮(0.02 *gydF4y2BafsgydF4y2Ba)gydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

为每个数据窗口返回的系数数,指定为逗号分隔对,由gydF4y2Ba“NumCoeffs”gydF4y2Ba和一个范围为[2,gydF4y2BavgydF4y2Ba].gydF4y2BavgydF4y2Ba是有效的密码带数。如果未指定的,gydF4y2BaNumCoeffsgydF4y2Ba默认为gydF4y2Ba13gydF4y2Ba.gydF4y2Ba

有效频带的数量定义为ERB步长(ERBgydF4y2BaNgydF4y2Ba)在滤波器组的频率范围内。滤波器组的频率范围为gydF4y2BaFrequencyRangegydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

要应用筛选的域,指定为逗号分隔的对,由gydF4y2Ba“FilterDomain”gydF4y2Ba和gydF4y2Ba“频率”gydF4y2Ba或gydF4y2Ba“时间”gydF4y2Ba.如果未指定的,gydF4y2BaFilterDomaingydF4y2Ba默认为gydF4y2Ba频率gydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba字符串gydF4y2Ba|gydF4y2Ba字符gydF4y2Ba

伽玛通滤波器组的频率范围(Hz),指定为逗号分隔对,由gydF4y2Ba“FrequencyRange”gydF4y2Ba以及一个两元素的行向量,其值在[0,gydF4y2BafsgydF4y2Ba/ 2)。如果未指定的,gydF4y2BaFrequencyRangegydF4y2Ba默认为gydF4y2Ba(50,gydF4y2BafsgydF4y2Ba/ 2)gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

用于计算加窗输入样本的离散傅里叶变换(DFT)的箱数。FFT长度必须大于或等于gydF4y2Ba窗口gydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

应用于离散余弦变换之前的非线性校正类型,具体为gydF4y2Ba“日志”gydF4y2Ba或gydF4y2Ba“立方根”gydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba字符gydF4y2Ba|gydF4y2Ba字符串gydF4y2Ba

用于计算delta和delta-delta值的系数数,指定为由逗号分隔的对组成gydF4y2Ba“DeltaWindowLength”gydF4y2Ba和一个大于2的奇数。如果未指定的,gydF4y2BaDeltaWindowLengthgydF4y2Ba默认为gydF4y2Ba9gydF4y2Ba.gydF4y2Ba

函数是用gydF4y2BaaudioDeltagydF4y2Ba函数。gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

日志能源使用情况,指定为逗号分隔对组成gydF4y2Ba“LogEnergy”gydF4y2Ba和gydF4y2Ba“添加”gydF4y2Ba,gydF4y2Ba“替换”gydF4y2Ba,或gydF4y2Ba“忽略”gydF4y2Ba.如果未指定的,gydF4y2BaLogEnergygydF4y2Ba默认为gydF4y2Ba“添加”gydF4y2Ba.gydF4y2Ba

  • “添加”gydF4y2Ba这个函数把能量的对数加到系数向量上。系数向量的长度是1 +gydF4y2BaNumCoeffsgydF4y2Ba.gydF4y2Ba

  • “替换”gydF4y2Ba——函数用信号的对数能量替换第一个系数。系数向量的长度是gydF4y2BaNumCoeffsgydF4y2Ba.gydF4y2Ba

  • “忽略”gydF4y2Ba——函数不计算或返回日志能量。gydF4y2Ba

数据类型:gydF4y2Ba字符gydF4y2Ba|gydF4y2Ba字符串gydF4y2Ba

输出参数gydF4y2Ba

全部折叠gydF4y2Ba

伽玛通倒谱系数,返回为angydF4y2BalgydF4y2Ba——- - - - - -gydF4y2Ba米gydF4y2Ba矩阵或一个gydF4y2BalgydF4y2Ba——- - - - - -gydF4y2Ba米gydF4y2Ba——- - - - - -gydF4y2BaNgydF4y2Ba数组,地点:gydF4y2Ba

  • lgydF4y2Ba——音频信号被分割成的分析窗口的数量。输入的大小,gydF4y2Ba窗口gydF4y2Ba,gydF4y2BaOverlapLengthgydF4y2Ba控制这个尺寸:gydF4y2BalgydF4y2Ba地板=((大小(gydF4y2BaaudioIngydF4y2Ba1)−元素个数(gydF4y2Ba窗口gydF4y2Ba))) / (gydF4y2Ba元素个数(窗口)gydF4y2Ba−gydF4y2BaOverlapLengthgydF4y2Ba) + 1gydF4y2Ba.gydF4y2Ba

  • 米gydF4y2Ba——每帧返回的系数数。这个值由gydF4y2BaNumCoeffsgydF4y2Ba和gydF4y2BaLogEnergygydF4y2Ba.gydF4y2Ba

    当gydF4y2BaLogEnergygydF4y2Ba设置为:gydF4y2Ba

    • “添加”gydF4y2Ba——该函数将对数能量值附加到系数向量上。系数向量的长度是1 +gydF4y2BaNumCoeffsgydF4y2Ba.gydF4y2Ba

    • “替换”gydF4y2Ba——函数用信号的对数能量替换第一个系数。系数向量的长度是gydF4y2BaNumCoeffsgydF4y2Ba.gydF4y2Ba

    • “忽略”gydF4y2Ba——函数不计算或返回日志能量。系数向量的长度是gydF4y2BaNumCoeffsgydF4y2Ba.gydF4y2Ba

  • NgydF4y2Ba——输入通道数(列)。这个值是gydF4y2Ba大小(gydF4y2BaaudioIngydF4y2Ba,2)gydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

从一个分析窗口到另一个分析窗口的系数变化,返回为gydF4y2BalgydF4y2Ba——- - - - - -gydF4y2Ba米gydF4y2Ba矩阵或一个gydF4y2BalgydF4y2Ba——- - - - - -gydF4y2Ba米gydF4y2Ba——- - - - - -gydF4y2BaNgydF4y2Ba数组中。的gydF4y2BaδgydF4y2Ba数组的大小和数据类型与gydF4y2Ba多项式系数gydF4y2Ba数组中。看到gydF4y2Ba多项式系数gydF4y2Ba的定义gydF4y2BalgydF4y2Ba,gydF4y2Ba米gydF4y2Ba,gydF4y2BaNgydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

的变化gydF4y2BaδgydF4y2Ba值,作为gydF4y2BalgydF4y2Ba——- - - - - -gydF4y2Ba米gydF4y2Ba矩阵或一个gydF4y2BalgydF4y2Ba——- - - - - -gydF4y2Ba米gydF4y2Ba——- - - - - -gydF4y2BaNgydF4y2Ba数组中。的gydF4y2BadeltaDeltagydF4y2Ba数组的大小和数据类型与gydF4y2Ba多项式系数gydF4y2Ba和gydF4y2BaδgydF4y2Ba数组。看到gydF4y2Ba多项式系数gydF4y2Ba的定义gydF4y2BalgydF4y2Ba,gydF4y2Ba米gydF4y2Ba,gydF4y2BaNgydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

在每个分析窗口中最后一个样本的位置,作为具有相同行数的列向量返回gydF4y2Ba多项式系数gydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

算法gydF4y2Ba

全部折叠gydF4y2Ba

的gydF4y2BagtccgydF4y2Ba函数将整个数据分割成重叠的部分。每个分析窗口的长度由gydF4y2Ba窗口gydF4y2Ba.分析窗口之间的重叠长度由gydF4y2BaOverlapLengthgydF4y2Ba.确定伽玛通倒谱系数的算法依赖于指定的滤波域gydF4y2BaFilterDomaingydF4y2Ba.默认的过滤域是frequency。gydF4y2Ba

频域滤波gydF4y2Ba

伽玛通倒谱系数是从语音信号中提取的常用特征,用于识别任务。在语音的源-滤波模型中,倒谱系数被理解为表示滤波器(声道)。声道的频率响应相对平稳,而浊音源可以建模为脉冲序列。因此,可以通过语音片段的频谱包络来估计声道。gydF4y2Ba

伽matone倒谱系数的激励思想是基于对耳蜗的理解,将声道的信息(平滑谱)压缩成少量的系数。虽然没有计算系数的硬性标准,但基本步骤由图所示。gydF4y2Ba

默认的伽玛通滤波器组是由伽玛通滤波器在ERB尺度上在50到8000赫兹之间线性间隔组成的。滤波器组由gydF4y2BadesignAuditoryFilterBankgydF4y2Ba.gydF4y2Ba

在第零伽玛通倒谱系数中所包含的信息常常用对数能量加以增加或被对数能量所代替。对数能量的计算取决于输入域。gydF4y2Ba

如果输入是时域信号,则对数能量计算公式如下:gydF4y2Ba

日志gydF4y2Ba EgydF4y2Ba =gydF4y2Ba 日志gydF4y2Ba (gydF4y2Ba 总和gydF4y2Ba (gydF4y2Ba xgydF4y2Ba 2gydF4y2Ba )gydF4y2Ba )gydF4y2Ba

如果输入是频域信号,则对数能量计算公式如下:gydF4y2Ba

日志gydF4y2Ba EgydF4y2Ba =gydF4y2Ba 日志gydF4y2Ba (gydF4y2Ba 总和gydF4y2Ba (gydF4y2Ba |gydF4y2Ba xgydF4y2Ba |gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba /gydF4y2Ba FgydF4y2Ba FgydF4y2Ba TgydF4y2Ba lgydF4y2Ba egydF4y2Ba ngydF4y2Ba ggydF4y2Ba tgydF4y2Ba hgydF4y2Ba )gydF4y2Ba

时域滤波gydF4y2Ba

如果gydF4y2BaFilterDomaingydF4y2Ba被指定为gydF4y2Ba“时间”gydF4y2Ba,gydF4y2BagtccgydF4y2Ba函数使用gydF4y2BagammatoneFilterBankgydF4y2Ba应用时域滤波。基本步骤gydF4y2BagtccgydF4y2Ba算法概述通过图表。gydF4y2Ba

的gydF4y2BaFrequencyRangegydF4y2Ba及抽样率(gydF4y2BafsgydF4y2Ba属性的名称-值对输入在过滤器组上设置gydF4y2BagtccgydF4y2Ba函数。伽玛通滤波器组中滤波器的数量定义为gydF4y2Bahz2erbgydF4y2Ba(gydF4y2BaFrequencyRangegydF4y2Ba(2)−)gydF4y2Bahz2erbgydF4y2Ba(gydF4y2BaFrequencyRangegydF4y2Ba(1))gydF4y2Ba这大致相当于每0.9毫米在耳蜗中放置一个伽玛通过滤器。gydF4y2Ba

伽玛通滤波器组的输出是多通道信号。函数的指定将伽马通滤波器组的每个通道输出缓冲到重叠分析窗口中gydF4y2Ba窗口gydF4y2Ba和gydF4y2BaOverlapLengthgydF4y2Ba参数。计算了数据各分析窗口的能量。通道的STE被连接起来。然后,连接的信号通过一个对数函数,并使用离散余弦变换(DCT)转换到倒谱域。gydF4y2Ba

使用与伽玛通滤波器组输出相同的缓冲方案,计算原始音频信号的对数能量。gydF4y2Ba

兼容性的考虑gydF4y2Ba

全部展开gydF4y2Ba

行为在R2020b中改变gydF4y2Ba

未来版本中的行为改变gydF4y2Ba

参考文献gydF4y2Ba

[1]邵阳,金兆章,王德良,sondararajan Srinivasan。“基于听觉的鲁棒语音识别特征”。gydF4y2Ba声学、语音和信号处理国际会议gydF4y2Ba.2009.gydF4y2Ba

[2] Valero, X.和F.别名。“伽玛通倒谱系数:非语音音频分类的生物学启发特征”。gydF4y2BaIEEE多媒体汇刊gydF4y2Ba.第14卷,第6期,2012,1684-1689页。gydF4y2Ba

扩展功能gydF4y2Ba

C / c++代码生成gydF4y2Ba
使用MATLAB®Coder™生成C和c++代码。gydF4y2Ba

介绍了R2019agydF4y2Ba