人工智能的音频

数据集管理、标签和扩充;音频分割和特征提取,演讲,和声学的应用程序

音频工具箱™提供音频功能开发机器和深度学习解决方案,演讲,和声学应用包括说话人识别、语音命令识别,语音分离,声场景识别,去噪,和许多更多。金宝搏官方网站

使用audioDatastore摄取大量的音频数据集和过程文件并行。
使用信号贴标签机建立音频数据集通过注释手动和自动录音。
使用audioDataAugmenter创建随机增加管道的内置或自定义信号处理方法和合成音频数据集。
使用audioFeatureExtractor提取不同的特性而共享中间计算的组合。

音频工具箱还提供了访问第三方api用于语音合成和语音识别,和它包括pretrained模型,这样您就可以执行转移学习分类的声音,嵌入和提取特征。使用pretrained网络需要深度学习工具箱™。

类别

应用程序
人工智能工作流应用于音频应用程序
数据集管理和标签
摄取、创建和标签大型数据集
特征提取
梅尔光谱图、MFCC音高,光谱描述符
数据增加
增加管道、改变音高和时间、延伸时间、控制体积和噪音
分割
检测和隔离的演讲和其他声音
Pretrained模型
转移学习,合理的分类、功能嵌入pretrained音频深度学习网络
语音转录和合成
使用pretrained模型或第三方api用于语音合成和语音识别
代码生成和GPU的支持金宝app
生成可移植的C / c++ /墨西哥人的功能和使用gpu来部署或加速处理

特色的例子

聪明的演讲者在仿真软件模型金宝app

模型仿真软件的智能扬声器系统金宝app^®包含语音命令识别和实时运行。

开放模式

使用深度学习训练语音命令识别模型

火车一个深度学习模型,检测音频语音命令的存在。

打开生活的脚本

语音命令识别与英特尔MKL-DNN代码生成

部署特征提取和一个卷积神经网络(CNN)的语音命令识别英特尔®处理器。生成特征提取和网络代码,使用MATLAB®编码器™和英特尔®数学内核库深层神经网络(MKL-DNN)。在本例中,生成的代码是一个MATLAB可执行(墨西哥人)函数,也就是通过MATLAB脚本显示预测语音命令以及时域信号和听觉谱图。音频预处理和网络训练的详细信息,请参阅使用深度学习语音命令识别。

打开生活的脚本

语音命令识别代码生成树莓π

部署特征提取和一个卷积神经网络(CNN)的语音命令识别覆盆子π™。生成特征提取和网络代码,使用MATLAB编码器™,MATLAB®支持包树莓π硬件,手臂®计算库。金宝app在本例中,生成的代码是一个可执行文件在你的树莓π,叫做通过MATLAB脚本显示预测语音命令信号和听觉谱图。之间的交互MATLAB脚本和可执行文件在你的树莓π是使用用户数据报协议(UDP)处理。音频预处理和网络训练的详细信息,请参阅使用深度学习语音命令识别。

打开生活的脚本

关键字定位在噪音使用MFCC和LSTM网络

识别关键字在嘈杂的演讲中使用深度学习网络。特别是,示例使用双向长短期记忆(BiLSTM)网络和mel频率cepstral系数(MFCC)。

打开生活的脚本

降噪演讲使用深度学习网络

降噪使用深度学习网络的语音信号。这个例子比较了两种类型的网络应用于相同的任务:完全连接,卷积。

打开生活的脚本

鸡尾酒会使用深度学习网络的源分离

使用深度学习网络隔离一个语音信号。

打开生活的脚本

火车生成对抗网络(GAN)合成声音

培训和使用生成对抗网络(GAN)来产生声音。

打开生活的脚本

说话者识别使用沥青和MFCC

使用机器学习识别人们基于特征提取记录演讲。

打开生活的脚本

演讲者验证使用i-Vectors

演讲者验证或认证,确认演讲者的身份的任务就是他们声称。演讲者验证多年来一直是一个活跃的研究领域。早期的性能突破是使用高斯混合模型和通用背景模型(GMM-UBM)[1]在声学特性(通常mfcc)。例如,看到演讲者使用高斯混合模型验证。的一个主要困难GMM-UBM系统涉及intersession可变性。联合因子分析(时装周)分别提出了弥补这种可变性建模inter-speaker可变性和通道或会话变化[2][3]。然而,[4]发现通道因素在日本足球协会也包含关于扬声器的信息,并提出结合通道和扬声器空间总变化空间。Intersession可变性当时补偿利用后台程序,如线性判别分析(LDA)和在类协方差归一化(WCCN),后跟一个评分,如余弦相似性得分。[5]提出更换的余弦相似性得分概率LDA (PLDA)模型。[11]和[12]提出了一种方法来Gaussianize i-vectors PLDA因此做高斯假设,称为G-PLDA或简化PLDA。 While i-vectors were originally proposed for speaker verification, they have been applied to many problems, like language recognition, speaker diarization, emotion recognition, age estimation, and anti-spoofing [10]. Recently, deep learning techniques have been proposed to replace i-vectors with d-vectors or x-vectors [8] [6].

打开生活的脚本

端到端深语音分离

使用一个端到端的深度学习网络非特定人语音分离。

打开生活的脚本