语音接口:下个世纪的触摸屏

人工智能和信号处理如何结合起来追踪声音的DNA


其引人注目的口号是“思考的信号处理”(Signal processing that thought)。总部位于美国的初创公司Yobe Inc.开发了一款软件,可以在任何听觉环境中准确追踪声音的“DNA”,这为人类开始与名为Alexa、Siri和谷歌的虚拟助手对话以简化生活带来了令人兴奋的可能性。

但是Yobe不仅仅是一家语音公司。虽然语音已经成为一款“杀手级应用”,但Yobe本质上是一家信号处理公司,而人的声音只是众多听觉信号中的一个 它的强大的技术可以隔离,识别,跟踪并良好使用。

Yobe的技术使用AI和信号处理来从语音信号中删除背景噪声。

“一年半前我们基于战略赌注,亚马逊将成为市场的战略赌注。我们同时将三行研究恰到好处,以利用语音海啸。现在我们生活在与连接设备交谈的世界中是一个常见的能力。“

肯·萨顿,约贝总裁,首席执行官,联合创始人

“下个世纪的触摸屏”

让语音成为我们与智能设备互动的主要方式,这一想法不仅仅是为了方便不用手的命令或使用方便;这是更直观的东西。

这更有人类。

“If you ask me ‘Why voice?’ or better yet, ‘Why are we talking to our devices?’ I’ll ask you a question in return: ‘What is the most natural interface between two sentient beings?’ The answer, of course, is speech,” says Sutton.

“到目前为止,我们与机器互动的方式都是人工的,因为这些机器无法听到我们的声音。与某物交流的自然方式是与它交谈。这不是 一个进化.我们真的回到了基础——这些基础将具有深远的影响。

“声音将成为下个世纪的触摸屏。”

一系列声音突破

在萨顿大胆预测的背后,有几项声学突破。S. Hamid Nawab,首席科学家和James Fairey,高级顾问/音频创新-已经在信号处理,人工智能和广播演播室方法论领域取得了成就。

The fact that these innovations occurred over the course of 30 years in completely separate research fields—which Sutton likens with good humor to having as much in common as Spanish, Yiddish, and Vulcan—not only adds depth to Yobe’s “overnight” success story, but also a window into how brilliance, determination, good luck, and fate can intertwine to result in game-changing innovation.

开始了解Yobe Technology Story的好地方是Nawab博士的实验室。

在一个杰出的30年职业生涯中,Nawab博士利用他对信号处理和人工智能的先进了解 - 两个高度专业的领域和技能研究一系列信号类型,包括肌电信号,这些生物医学标记测量肌肉收缩时的电流。

Yobe在嘈杂的环境中识别各个声音,例如人群,使用每个人唯一的生物识别标识符。

Nawab博士开发了独特的AI信号处理算法,以分解这些EMG信号,隔离它们,因此可以更好地理解和测量它们与个体肌肉反应的关系。Nawab能够从多个信号触发的嘈杂环境中有效地将单独的EMG信号分开。

与Nawab的开创性作品平行,一生,一位终身的音乐混合业务和收音机工作室的生产,正在努力解决他的心脏靠近的问题:他自闭式儿子在封闭环境中听音乐的厌恶。

Fairey自己承担起了控制声波的责任,以一种他儿子能够接受的方式来呈现它们。

“嘲笑的詹姆斯偶然发现了”萨顿召回“,是一个与儿子一起传球的音频文件。但是,由此产生的声音就像我听过的那样;它就像类固醇上的3D或高清音频。出乎意料的是,当我们压缩它 - 有效地减少文件上的数据量 - 违反直觉发生的事情,它听起来更好。“

仙女偶然发现了一种信号修复技术。操纵信号通常会损害它们,这是许多原因之一,例如,MP3文件听起来很细小或空洞,以及为什么语音处理方案听起来很人工。金宝搏官方网站

“当你听一段经过激烈处理的信号剪辑时,你通常会听到影响音质的伪音。它听起来不会很自然,因为你已经破坏了你真正想保存的潜在信号。”

肯·萨顿,约贝总裁,首席执行官,联合创始人

将手工工作室过程自动化的工作,是Hamid Nawab博士的人工智能和信号处理世界的交叉点。在围绕约贝的广播演播室技术和方法努力创造IP之后,萨顿发现,它们能够修复被侵略性信号处理“撕裂”的信号——这是纳瓦布博士和其他在信号处理领域的科学家面临的一个挑战。

“我们的广播演播室信号修复方法允许Yobe使用大量激进的人工智能驱动的信号处理科学,这是nawab博士的领域 最终,同时在后面原谅我们,因为我们可以post产生信号,把它带回它真正的声音,”Sutton说。“这也使我们能够更深入地了解信号本身,识别其DNA,并将其与其单独的来源和意义联系起来。”在语音应用中,我们可以将重点从基本的语音识别(计算机可以理解所说的内容)转移到说话者识别(计算机也可以理解谁在说话)。”

Nawab博士和Ken Sutton在波士顿的Yobe总部咨询了一个软件开发商。

Yobe专有的信号处理、人工智能和广播演播室技术的组合由一个主内收推理模块监督,该模块以精确的测量,一帧一帧地应用每个学科。借助这项技术,Yobe正在提高语音应用程序在嘈杂环境中的性能。这些是我们说话的真实环境:开着的窗户,周围的声音,以及我们周围不和谐的谈话声。

换句话说,这是一个“鸡尾酒会问题”,信号处理世界用这种方式来构建一个基本的、长期存在的挑战:在真实世界的嘈杂声中分离出一个单一的声音。

Sutton说道:“语音识别领域中有很多工作都是在受控的、无菌的环境中完成的,而这并不是我们人类生活、工作、娱乐和交谈的地方。“我们采取了不同的方法,并取得了回报。”

话虽如此,莎顿还是很乐意不去谈论约贝在鸡尾酒派对上的成就。他非常尊重他人的努力,不会把太多功劳揽在自己身上,他更喜欢说:“我们想出了一种独特的管理和处理方法。”

这种方式正在引领新一代的应用程序和功能,使我们与机器的对话更安全、更安全、更高效。它还确保了下个世纪的触摸屏能够在现实世界中很好地运行,而不仅仅是在隔音的房间里。

约一分之三的方法

Yobe的突破性应用结合了三个不同的研究学科:

  • 信号处理:识别,分离和跟踪单个声音的“DNA”
  • 人工智能:教学应用识别个人声音的DNA
  • 广播演播室技术:将被人工智能探索破坏的信号恢复到原来的状态

matlab因素

构建结合信号处理、人工智能和演播室广播技术的应用程序 需要 一个特殊的开发环境,yobe在matlab中找到了一个®来自MathWorks。

“MathWorks在我们的过程中一直是一个很好的合作伙伴,在一些不同的方面帮助我们,”Sutton说。MATLAB在信号处理领域无处不在:它主导着大学课程,也是像Hamid这样的信号处理人员喜欢设计的地方。这不仅使我们更容易开发我们的解决方案,也促进了与该领域的同事分享知识。金宝搏官方网站我们可以描述我们所做的,人们也能理解。MATLAB提供了一个‘得到它’的因素。”

Nawab博士说:“MATLAB是多学科软件开发的理想工具。“MATLAB的设计使我们能够在竖井中垂直开发我们的解决方案,然后将这些竖井组合在一起。从软件开发框架的角度来看,我们的解决方案构建起来很像乐高积木。基于我们的解决方案所需要的功能,MATLAB使我们能够很容易地移动和丢弃这些块。”

“作为公司的首席执行官,我的一些职责是资本提高和业务发展,”萨顿说。“MATLAB在商业级之前为我们的删除概念提供了一个极好的演示环境。MATLAB使我们能够在其发展的各个阶段进行演示 - 帮助我们分享我们的进步并为我们创造的内容构建兴奋。这对我们来说至关重要,让我们的冒险前进。“

面板的导航

生物技术

而儿童肺炎

将医疗危机转变为拯救生命的工程挑战

面板的导航

人工智能

Cyborg鼓手和AI团队创造了不可能的音乐:

为专业鼓手设计机器人假肢

面板的导航

人工智能

进入杂草:

农民依靠人工智能来提升生产