pitchnn

与深度学习神经网络估计音高

自从R2021a

所有的页面崩溃

语法

f0 = pitchnn (audioIn fs)

f0 = pitchnn (audioIn、fs、名称,值)

(f0、loc) = pitchnn (___)

(f0 loc激活)= pitchnn (___)

pitchnn (___)

描述

例子

f0= pitchnn (audioIn,fs)随着时间的推移返回基本频率的估计audioIn与采样率fs。列的输入被视为个人渠道。

f0= pitchnn (audioIn,fs,名称,值)使用一个或多个指定选项名称,值参数。例如,f0 = pitchnn (fs, audioIn ConfidenceThreshold, 0.5)设置阈值的每个值的信心f0来0.5。

(f0,疯狂的)= pitchnn (___)返回时间值,疯狂的,与每个基本频率估计。

(f0,疯狂的,激活)= pitchnn (___)返回的激活绉pretrained网络。

pitchnn (___)没有输出参数的情节基本频率估计。

例子

全部折叠

下载绉网络

这个示例使用:

打开生活的脚本

下载并解压缩音频工具箱绉™模型。

类型绉在命令窗口。如果音频绉工具箱模型没有安装,那么函数提供了一个链接到网络权值的位置。下载模式,点击链接和MATLAB文件解压到一个位置路径。

另外,执行这些命令下载并解压缩绉模型到你的临时目录中。

downloadFolder = fullfile (tempdir,“crepeDownload”);loc = websave (downloadFolder,“https://ssd.mathworks.com/金宝appsupportfiles/audio/crepe.zip”);crepeLocation = tempdir;crepeLocation解压(loc)目录(fullfile (crepeLocation,“绉”))

通过输入检查安装是否成功绉在命令窗口。如果安装了网络,那么函数返回DAGNetwork(深度学习工具箱)对象。

绉

ans = DAGNetwork属性:层:[34×1 nnet.cnn.layer.Layer]连接:[33×2表]InputNames:{“输入”}OutputNames:{“音高”}

距估计与`pitchnn`

这个示例使用:

打开生活的脚本

绉网络需要你进行预处理音频信号生成缓冲,重叠,规范化的音频帧,可以作为网络的输入。这个例子演示了pitchnn功能为您执行这些步骤。

读入一个音频信号估计。可视化和听音频。有九个口头话语音频剪辑。

[audioIn, fs] = audioread (“SingingAMajor-16-mono-18secs.ogg”);soundsc (audioIn fs) T = 1 / f;t = 0:师:(长度(audioIn) * t - t;情节(t, audioIn);网格在轴紧包含(“时间(s)”)ylabel (“Ampltiude”)标题(“在一个主要唱歌”)

使用pitchnn函数产生音高估计使用绉网络ModelCapacity设置为小和ConfidenceThreshold禁用。调用pitchnn没有输出参数块球场估计。如果你叫pitchnn之前下载的模型中,一个错误输出到命令窗口有一个下载链接。

pitchnn (audioIn fs,“ModelCapacity”,“小”,“ConfidenceThreshold”,0)

满怀信心的阈值残疾,pitchnn提供了一个音高估计为每一帧。增加了ConfidenceThreshold来0.8。

pitchnn (audioIn fs,“ModelCapacity”,“小”,“ConfidenceThreshold”,0.8)

调用pitchnn与ModelCapacity设置为完整的。有九个主要音高估计分组,每组对应的九直言不讳的言论。

pitchnn (audioIn fs,“ModelCapacity”,“全部”,“ConfidenceThreshold”,0.8)

调用光谱图和比较的频率内容与音高估计信号pitchnn。使用一个帧的大小250年样品和重叠的225年样品或90%。使用4096年DFT变换点。

光谱图(fs audioIn, 250225年,4096年,“桠溪”)

输入参数

全部折叠

`audioIn`- - - - - -输入信号
列向量|矩阵

输入信号,指定为一个列向量或矩阵。如果您指定一个矩阵,pitchnn把矩阵的列作为单独的音频通道。

数据类型:单|双

`fs`- - - - - -采样率(赫兹)
积极的标量

输入信号的采样率Hz,指定为一个积极的标量。

数据类型:单|双

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:pitchnn (fs, audioIn OverlapPercentage, 50)设置连续音频帧重叠到50百分比。

`OverlapPercentage`- - - - - -重叠连续音频帧之间的比例
`85年`(默认)|非负的标量范围(0100)

重叠比例连续音频帧,指定为一个标量范围(0100)。

数据类型:单|双

`ConfidenceThreshold`- - - - - -信心阈值
`0.5`(默认)|负的标量范围在[0,1)

信心阈值的每个值f0指定为一个标量范围在[0,1)。

禁用阈值,设置这个参数0。

请注意

如果相应的最大价值激活向量是不到“ConfidenceThreshold”,f0是南。

数据类型:单|双

`ModelCapacity`- - - - - -模型的能力
`“全部”`(默认)|`“小”`|`“小”`|`“媒介”`|`“大”`

模型能力,指定为“小”,“小”,“媒介”,“大”,或“全部”。

提示

“ModelCapacity”控制底层的深度学习神经网络的复杂性。模型的能力越高,越的节点数量和层模型。

数据类型:字符串|字符

输出参数

全部折叠

`f0`——基本频率估计
N——- - - - - -C数组

在赫兹基本频率估计,作为一个返回N——- - - - - -C数组,N基本频率估计的数量和吗C通道的数量吗audioIn。

数据类型:单

`疯狂的`——时间值
`1`——- - - - - -N向量

每一个时间值f0估计,作为一个返回1——- - - - - -N向量,N是基本频率估计的数量。时间值对应于最近的样品用于计算估计。

数据类型:单|双

`激活`——绉网络激活
N——- - - - - -`360年`——- - - - - -C矩阵

激活的绉网络,作为一个返回N——- - - - - -360年——- - - - - -C矩阵,N从网络和生成的帧的数量吗C通道的数量吗audioIn。

数据类型:单|双

引用

[1]Kim Jong钟旭,贾斯汀班子,彼得·李和胡安-帕布鲁贝罗。“绉:卷积表示音高估计。“在2018年IEEE国际会议音响、演讲和信号处理(ICASSP),161 - 65。卡尔加里,阿瑟:IEEE 2018。https://doi.org/10.1109/ICASSP.2018.8461329。

扩展功能

GPU数组
加速代码运行在一个图形处理单元(GPU)使用并行计算工具箱™。

这个函数完全支持GPU数组。金宝app有关更多信息,请参见运行在GPU MATLAB函数(并行计算工具箱)。

版本历史

介绍了R2021a

另请参阅

绉|crepePostprocess|crepePreprocess

pitchnn

语法

描述

例子

下载绉网络

距估计与pitchnn

输入参数

audioIn- - - - - -输入信号列向量|矩阵

fs- - - - - -采样率(赫兹)积极的标量

名称-值参数

OverlapPercentage- - - - - -重叠连续音频帧之间的比例85年(默认)|非负的标量范围(0100)

ConfidenceThreshold- - - - - -信心阈值0.5(默认)|负的标量范围在[0,1)

ModelCapacity- - - - - -模型的能力“全部”(默认)|“小”|“小”|“媒介”|“大”

输出参数

f0——基本频率估计N——- - - - - -C数组

疯狂的——时间值1——- - - - - -N向量

激活——绉网络激活N——- - - - - -360年——- - - - - -C矩阵

引用

扩展功能

GPU数组加速代码运行在一个图形处理单元(GPU)使用并行计算工具箱™。

版本历史

另请参阅

距估计与`pitchnn`

`audioIn`- - - - - -输入信号
列向量|矩阵

`fs`- - - - - -采样率(赫兹)
积极的标量

`OverlapPercentage`- - - - - -重叠连续音频帧之间的比例
`85年`(默认)|非负的标量范围(0100)

`ConfidenceThreshold`- - - - - -信心阈值
`0.5`(默认)|负的标量范围在[0,1)

`ModelCapacity`- - - - - -模型的能力
`“全部”`(默认)|`“小”`|`“小”`|`“媒介”`|`“大”`

`f0`——基本频率估计
N——- - - - - -C数组

`疯狂的`——时间值
`1`——- - - - - -N向量

`激活`——绉网络激活
N——- - - - - -`360年`——- - - - - -C矩阵

GPU数组
加速代码运行在一个图形处理单元(GPU)使用并行计算工具箱™。