语音界面:下个世纪的触摸屏

人工智能和信号处理如何结合起来追踪声音的DNA


其引人注目的口号是“思考的信号处理”(Signal processing that thought)。总部位于美国的初创公司Yobe Inc.开发了一款软件,可以在任何听觉环境中准确追踪声音的“DNA”,这为人类开始与名为Alexa、Siri和谷歌的虚拟助手对话以简化生活带来了令人兴奋的可能性。

但是Yobe不仅仅是一家语音公司。虽然语音已经成为一款“杀手级应用”,但Yobe本质上是一家信号处理公司,而人的声音只是众多听觉信号中的一个 它的强大的技术可以隔离、识别、跟踪和利用。

Yobe的技术利用人工智能和信号处理去除语音信号中的背景噪声。

“一年半前,我们的战略赌注是亚马逊将占领市场,所以我们转向了语音服务。我们成功地将三条研究线结合在一起,及时地利用了声音海啸。如今,在我们生活的世界里,与联网设备通话是一种常见的功能。”

肯·萨顿,约贝总裁,首席执行官,联合创始人

“下个世纪的触摸屏”

让语音成为我们与智能设备互动的主要方式,这一想法不仅仅是为了方便不用手的命令或使用方便;这是更直观的东西。

这是更人性化。

“如果你问我‘为什么是声音?或者更好的是,“我们为什么要跟我们的设备通话?”我会反问你一个问题:“两种众生之间最自然的联系是什么?”’答案当然是语言,”萨顿说。

“到目前为止,我们与机器互动的方式都是人工的,因为这些机器无法听到我们的声音。与某物交流的自然方式是与它交谈。这不是 一个进化.我们真的回到了基础——这些基础将具有深远的影响。

“声音将成为下个世纪的触摸屏。”

一系列的声学突破

在萨顿大胆预测的背后,有几项声学突破。S. Hamid Nawab,首席科学家和James Fairey,高级顾问/音频创新-已经在信号处理,人工智能和广播演播室方法论领域取得了成就。

这些创新在过去的30年发生完全独立研究字段时,萨顿把好幽默有尽可能多的共同点西班牙语,意第绪语,和Vulcan-not只会增加深度约在“一夜之间”的成功故事,但也是一个窗口如何辉煌,决心,祝你好运,命运可以交织在一起,从而产生改变游戏规则的创新。

纳瓦布博士的实验室是了解约贝科技故事的好地方。

在30年杰出的职业生涯中,Nawab博士运用了他对信号处理和人工智能的先进理解——这两个高度专业化的领域和技能研究一系列信号类型,包括肌电信号,这些生物医学标记测量肌肉收缩时的电流。

约贝在嘈杂环境(如人群)中使用每个人独有的生物特征识别器来识别个人的声音。

Nawab博士开发了独特的人工智能信号处理算法来分解这些肌电信号,分离它们,以便更好地理解和测量它们与单个肌肉反应的关系。Nawab能够有效地从多个信号发出的嘈杂环境中分离出单个的肌电信号。

与纳瓦布的开创性工作并行的是,菲尔里,这位音乐混音业务和广播工作室制作的终身大师,正在努力解决一个贴近他内心的问题:他患有自闭症的儿子讨厌在封闭的环境中听音乐。

Fairey自己承担起了控制声波的责任,以一种他儿子能够接受的方式来呈现它们。

“詹姆斯偶然发现的,”萨顿回忆道,“是一份他儿子认可的音频文件。然而,由此产生的声音是我从未听过的;就像3D或高清音频一样。出乎意料的是,当我们压缩它时——有效地减少了文件中的数据量——一些违反直觉的事情发生了,它听起来甚至更好。”

仙女偶然发现了一种信号修复技术。操纵信号通常会损害它们,这是许多原因之一,例如,MP3文件听起来很细小或空洞,以及为什么语音处理方案听起来很人工。金宝搏官方网站

“当你听一段经过激烈处理的信号剪辑时,你通常会听到影响音质的伪音。它听起来不会很自然,因为你已经破坏了你真正想保存的潜在信号。”

肯·萨顿,约贝总裁,首席执行官,联合创始人

将手工工作室过程自动化的工作,是Hamid Nawab博士的人工智能和信号处理世界的交叉点。在围绕约贝的广播演播室技术和方法努力创造IP之后,萨顿发现,它们能够修复被侵略性信号处理“撕裂”的信号——这是纳瓦布博士和其他在信号处理领域的科学家面临的一个挑战。

“我们的广播演播室信号修复方法允许Yobe使用大量激进的人工智能驱动的信号处理科学,这是nawab博士的领域 最终,同时在后面原谅我们,因为我们可以post产生信号,把它带回它真正的声音,”Sutton说。“这也使我们能够更深入地了解信号本身,识别其DNA,并将其与其单独的来源和意义联系起来。”在语音应用中,我们可以将重点从基本的语音识别(计算机可以理解所说的内容)转移到说话者识别(计算机也可以理解谁在说话)。”

纳瓦布博士和肯·萨顿在波士顿约贝总部为一名软件开发人员提供咨询。

Yobe专有的信号处理、人工智能和广播演播室技术的组合由一个主内收推理模块监督,该模块以精确的测量,一帧一帧地应用每个学科。借助这项技术,Yobe正在提高语音应用程序在嘈杂环境中的性能。这些是我们说话的真实环境:开着的窗户,周围的声音,以及我们周围不和谐的谈话声。

换句话说,这是一个“鸡尾酒会问题”,信号处理世界用这种方式来构建一个基本的、长期存在的挑战:在真实世界的嘈杂声中分离出一个单一的声音。

Sutton说道:“语音识别领域中有很多工作都是在受控的、无菌的环境中完成的,而这并不是我们人类生活、工作、娱乐和交谈的地方。“我们采取了不同的方法,并取得了回报。”

话虽如此,莎顿还是很乐意不去谈论约贝在鸡尾酒派对上的成就。他非常尊重他人的努力,不会把太多功劳揽在自己身上,他更喜欢说:“我们想出了一种独特的管理和处理方法。”

这种方式正在引领新一代的应用程序和功能,使我们与机器的对话更安全、更安全、更高效。它还确保了下个世纪的触摸屏能够在现实世界中很好地运行,而不仅仅是在隔音的房间里。

约一分之三的方法

Yobe的突破性应用结合了三个不同的研究学科:

  • 信号处理:识别、分离和跟踪单个声音的“DNA”
  • 人工智能:教应用程序识别单个声音的DNA
  • 广播演播室技术:将被人工智能探索破坏的信号恢复到原来的状态

MATLAB的因素

构建结合信号处理、人工智能和演播室广播技术的应用程序 需要 一个特殊的开发环境,Yobe在MATLAB中找到了一个®从MathWorks。

“MathWorks在我们的过程中一直是一个很好的合作伙伴,在一些不同的方面帮助我们,”Sutton说。MATLAB在信号处理领域无处不在:它主导着大学课程,也是像Hamid这样的信号处理人员喜欢设计的地方。这不仅使我们更容易开发我们的解决方案,也促进了与该领域的同事分享知识。金宝搏官方网站我们可以描述我们所做的,人们也能理解。MATLAB提供了一个‘得到它’的因素。”

Nawab博士说:“MATLAB是多学科软件开发的理想工具。“MATLAB的设计使我们能够在竖井中垂直开发我们的解决方案,然后将这些竖井组合在一起。从软件开发框架的角度来看,我们的解决方案构建起来很像乐高积木。基于我们的解决方案所需要的功能,MATLAB使我们能够很容易地移动和丢弃这些块。”

萨顿说:“作为公司的首席执行官,我的一些职责是筹集资金和发展业务。“MATLAB为我们的新概念提供了一个极好的演示环境,在它成为商业级别之前很久。MATLAB使我们能够演示科学在其发展的每个阶段,帮助我们分享我们的进步,并为我们正在创造的东西建立兴奋。这对我们的企业发展至关重要。”

面板的导航

生物技术

而儿童肺炎

将医疗危机转变为拯救生命的工程挑战

面板的导航

人工智能

陷入困境:

农民依靠人工智能提高产量