主要内容

openl3Features

(删除)提取OpenL3特性

    openl3Features函数将在未来的版本中被删除。使用openl3Embeddings代替。有关更多信息,请参见兼容性的考虑

    描述

    例子

    嵌入的= openl3Features (audioIn,fs)随着时间的推移返回OpenL3功能嵌入的音频输入audioIn与采样率fs。列的输入被视为个人渠道。

    例子

    嵌入的= openl3Features (audioIn,fs,名称,值)使用一个或多个指定选项名称,值参数。例如,嵌入= openl3Features (fs, audioIn OverlapPercentage, 75)适用75%重叠连续帧用来创建音频嵌入。

    这个函数需要音频工具箱™和深度学习工具箱™。

    例子

    全部折叠

    下载并解压缩音频工具箱OpenL3™模型。

    类型openl3Features在命令行中。如果音频OpenL3工具箱模型没有安装,功能提供了一个链接到网络权值的位置。下载模式,点击链接。将文件解压缩到一个位置在MATLAB的道路。

    另外,执行以下命令来下载并解压缩OpenL3模型到你的临时目录中。

    downloadFolder = fullfile (tempdir,“OpenL3Download”);loc = websave (downloadFolder,“https://ssd.mathworks.com/金宝appsupportfiles/audio/openl3.zip”);OpenL3Location = tempdir;OpenL3Location解压(loc)目录(fullfile (OpenL3Location,“openl3”))

    读入一个音频文件。

    [audioIn, fs] = audioread (“MainStreetOne-16-16-mono-12secs.wav”);

    调用openl3Features函数与音频采样率提取OpenL3功能嵌入的音频。

    featureVectors = openl3Features (audioIn, fs);

    openl3Features512 -元素函数返回一个矩阵的特征向量。

    [numHops, numElementsPerHop numChannels] =大小(featureVectors)
    numHops = 111
    numElementsPerHop = 512
    numChannels = 1

    创建一个10秒粉红噪声信号,然后提取OpenL3特性。的openl3Features函数从梅尔谱图提取特征有90%的重叠。

    fs = 16 e3;大调的= 10;audioIn = pinknoise(大调的* fs, 1“单一”);特点= openl3Features (audioIn, fs);

    随着时间的推移情节OpenL3特性。

    冲浪(特性,“EdgeColor”,“没有”)视图([65])轴包含(“功能指数”)ylabel (“帧”)包含(“特征值”)标题(“OpenL3特性”)

    减少解决OpenL3特性随着时间的推移,指定百分比梅尔·色之间的重叠。策划的结果。

    overlapPercentage =10;特点= openl3Features (audioIn fs,“OverlapPercentage”,overlapPercentage);冲浪(特性,“EdgeColor”,“没有”)视图([65])轴包含(“功能指数”)ylabel (“帧”)zlabel (“特征值”)标题(“OpenL3特性”)

    输入参数

    全部折叠

    输入信号,指定为一个列向量或矩阵。如果您指定一个矩阵,openl3Features把矩阵的列作为单独的音频通道。

    数据类型:|

    输入信号的采样率Hz,指定为一个积极的标量。

    数据类型:|

    名称-值参数

    指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

    R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

    例子:openl3Features (audioIn fs,‘SpectrumType’,‘mel256’)

    比例连续重叠谱图,指定为一个标量范围(0100)。

    数据类型:|

    光谱类型生成的音频和作为神经网络的输入,指定为“mel128”,“mel256”,或“线性”

    请注意

    SpectrumType您选择控制网络中使用的光谱图。看到openl3openl3Preprocess为更多的细节。

    数据类型:字符|字符串

    输出的音频嵌入长度,指定为“512”“6144”

    数据类型:|

    音频内容类型的神经网络训练,指定为“env”“音乐”

    ContentType:

    • “env”当你想要使用一个模型训练的环境数据。

    • “音乐”当你想要使用一个训练有素的音乐数据模型。

    数据类型:字符|字符串

    输出参数

    全部折叠

    音频数据的紧凑表示,作为一个返回N——- - - - - -l——- - - - - -C数组,地点:

    • N——代表了音频信号缓冲帧的数量划分,取决于的长度audioIn“OverlapPercentage”

    • l——代表了音频嵌入长度。

    • C——代表输入通道的数量。

    数据类型:

    引用

    [1]克莱默,杰森,et al。“看,听,和了解更多:设计选择音频嵌入的深处。”InICASSP 2019年IEEE国际会议音响、演讲和信号处理(ICASSP),2019岁的IEEE 3852 - 56页。DOI.org (Crossref),doi: 10.1109 / / ICASSP.2019.8682475。

    扩展功能

    版本历史

    介绍了R2021a

    全部展开