主要内容

pitchnn

与深度学习神经网络估计音高

自从R2021a

    描述

    例子

    f0= pitchnn (audioIn,fs)随着时间的推移返回基本频率的估计audioIn与采样率fs。列的输入被视为个人渠道。

    f0= pitchnn (audioIn,fs,名称,值)使用一个或多个指定选项名称,值参数。例如,f0 = pitchnn (fs, audioIn ConfidenceThreshold, 0.5)设置阈值的每个值的信心f00.5

    (f0,疯狂的)= pitchnn (___)返回时间值,疯狂的,与每个基本频率估计。

    (f0,疯狂的,激活)= pitchnn (___)返回的激活pretrained网络。

    pitchnn (___)没有输出参数的情节基本频率估计。

    例子

    全部折叠

    下载并解压缩音频工具箱绉™模型。

    类型在命令窗口。如果音频绉工具箱模型没有安装,那么函数提供了一个链接到网络权值的位置。下载模式,点击链接和MATLAB文件解压到一个位置路径。

    另外,执行这些命令下载并解压缩绉模型到你的临时目录中。

    downloadFolder = fullfile (tempdir,“crepeDownload”);loc = websave (downloadFolder,“https://ssd.mathworks.com/金宝appsupportfiles/audio/crepe.zip”);crepeLocation = tempdir;crepeLocation解压(loc)目录(fullfile (crepeLocation,“绉”))

    通过输入检查安装是否成功在命令窗口。如果安装了网络,那么函数返回DAGNetwork(深度学习工具箱)对象。

    ans = DAGNetwork属性:层:[34×1 nnet.cnn.layer.Layer]连接:[33×2表]InputNames:{“输入”}OutputNames:{“音高”}

    绉网络需要你进行预处理音频信号生成缓冲,重叠,规范化的音频帧,可以作为网络的输入。这个例子演示了pitchnn功能为您执行这些步骤。

    读入一个音频信号估计。可视化和听音频。有九个口头话语音频剪辑。

    [audioIn, fs] = audioread (“SingingAMajor-16-mono-18secs.ogg”);soundsc (audioIn fs) T = 1 / f;t = 0:师:(长度(audioIn) * t - t;情节(t, audioIn);网格包含(“时间(s)”)ylabel (“Ampltiude”)标题(“在一个主要唱歌”)

    使用pitchnn函数产生音高估计使用绉网络ModelCapacity设置为ConfidenceThreshold禁用。调用pitchnn没有输出参数块球场估计。如果你叫pitchnn之前下载的模型中,一个错误输出到命令窗口有一个下载链接。

    pitchnn (audioIn fs,“ModelCapacity”,“小”,“ConfidenceThreshold”,0)

    满怀信心的阈值残疾,pitchnn提供了一个音高估计为每一帧。增加了ConfidenceThreshold0.8

    pitchnn (audioIn fs,“ModelCapacity”,“小”,“ConfidenceThreshold”,0.8)

    调用pitchnnModelCapacity设置为完整的。有九个主要音高估计分组,每组对应的九直言不讳的言论。

    pitchnn (audioIn fs,“ModelCapacity”,“全部”,“ConfidenceThreshold”,0.8)

    调用光谱图和比较的频率内容与音高估计信号pitchnn。使用一个帧的大小250年样品和重叠的225年样品或90%。使用4096年DFT变换点。

    光谱图(fs audioIn, 250225年,4096年,“桠溪”)

    输入参数

    全部折叠

    输入信号,指定为一个列向量或矩阵。如果您指定一个矩阵,pitchnn把矩阵的列作为单独的音频通道。

    数据类型:|

    输入信号的采样率Hz,指定为一个积极的标量。

    数据类型:|

    名称-值参数

    指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

    R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

    例子:pitchnn (fs, audioIn OverlapPercentage, 50)设置连续音频帧重叠到50百分比。

    重叠比例连续音频帧,指定为一个标量范围(0100)。

    数据类型:|

    信心阈值的每个值f0指定为一个标量范围在[0,1)。

    禁用阈值,设置这个参数0

    请注意

    如果相应的最大价值激活向量是不到“ConfidenceThreshold”,f0

    数据类型:|

    模型能力,指定为“小”,“小”,“媒介”,“大”,或“全部”

    提示

    “ModelCapacity”控制底层的深度学习神经网络的复杂性。模型的能力越高,越的节点数量和层模型。

    数据类型:字符串|字符

    输出参数

    全部折叠

    在赫兹基本频率估计,作为一个返回N——- - - - - -C数组,N基本频率估计的数量和吗C通道的数量吗audioIn

    数据类型:

    每一个时间值f0估计,作为一个返回1——- - - - - -N向量,N是基本频率估计的数量。时间值对应于最近的样品用于计算估计。

    数据类型:|

    激活的绉网络,作为一个返回N——- - - - - -360年——- - - - - -C矩阵,N从网络和生成的帧的数量吗C通道的数量吗audioIn

    数据类型:|

    引用

    [1]Kim Jong钟旭,贾斯汀班子,彼得·李和胡安-帕布鲁贝罗。“绉:卷积表示音高估计。“在2018年IEEE国际会议音响、演讲和信号处理(ICASSP),161 - 65。卡尔加里,阿瑟:IEEE 2018。https://doi.org/10.1109/ICASSP.2018.8461329。

    扩展功能

    版本历史

    介绍了R2021a