语音界面:下个世纪的触摸屏

人工智能和信号处理是如何结合起来追踪声音的DNA的


With its compelling tagline, “Signal processing that thinks,” Boston, Mass.-based startup Yobe Inc. has created software that can accurately track a voice’s “DNA” in any auditory environment, opening up exciting possibilities in a world where humans have begun talking to virtual assistants named Alexa, Siri, and Google to simplify their lives.

但Yobe不仅仅是一家语音公司。虽然语音已成为“杀手级应用”,但Yobe的核心是一家信号处理公司,而人声只是众多听觉信号中的一种 它的强大的技术可以隔离、识别、跟踪和利用。

Yobe的技术使用AI和信号处理来从语音信号中删除背景噪声。

“一年半前,我们的战略赌注是亚马逊将占领市场,所以我们转向了语音服务。我们成功地将三条研究线结合在一起,及时地利用了声音海啸。如今,在我们生活的世界里,与联网设备通话是一种常见的功能。”

Ken Sutton,Yobe总裁、首席执行官兼联合创始人

“下个世纪的触摸屏”

使语音的想法是我们与我们的智能设备互动的主要方式不仅仅是关于无人驾驶命令或易用性的便利性;这是更直观的东西。

这是更人性化。

“如果你问我‘为什么是声音?或者更好的是,“我们为什么要跟我们的设备通话?”我会反问你一个问题:“两种众生之间最自然的联系是什么?”’答案当然是语言,”萨顿说。

“到目前为止,我们与机器互动的方式都是人工的,因为这些机器听不到我们的声音。与某些东西交流的自然方式是与它交谈。这不是。” 进化.我们真的回到基础知识 - 这些基础知识会产生深远的影响。

“声音将是下个世纪的触摸屏。”

一系列的声学突破

在萨顿大胆预测的背后是他和他的Yobe联合创始人——首席科学家s.Hamid Nawab博士和高级顾问/音频创新詹姆斯·费里(James Fairey)——在信号处理、人工智能和广播演播室方法学领域取得的几项声波突破。

这些创新在过去的30年发生完全独立研究字段时,萨顿把好幽默有尽可能多的共同点西班牙语,意第绪语,和Vulcan-not只会增加深度约在“一夜之间”的成功故事,但也是一个窗口如何辉煌,决心,祝你好运,命运可以交织在一起,从而产生改变游戏规则的创新。

纳瓦布博士的实验室是了解约贝科技故事的好地方。

在30年杰出的职业生涯中,Nawab博士运用了他对信号处理和人工智能的先进理解——这两个高度专业化的领域和技能 设置很少在同一个人身上研究一系列信号类型,包括肌电信号,即测量肌肉收缩时电流的生物医学标记。

约贝在嘈杂环境(如人群)中使用每个人独有的生物特征识别器来识别个人的声音。

Nawab博士开发了独特的人工智能信号处理算法来分解这些肌电信号,分离它们,以便更好地理解和测量它们与单个肌肉反应的关系。Nawab能够有效地从多个信号发出的嘈杂环境中分离出单个的肌电信号。

与纳瓦布的开创性工作并行的是,菲尔里,这位音乐混音业务和广播工作室制作的终身大师,正在努力解决一个贴近他内心的问题:他患有自闭症的儿子讨厌在封闭的环境中听音乐。

Fairey把它拿到了自己以操纵声波,以找到一种方式以他的儿子有利地感知的方式展示他们的方式。

“詹姆斯偶然发现的,”萨顿回忆道,“是一份他儿子认可的音频文件。然而,由此产生的声音是我从未听过的;就像3D或高清音频一样。出乎意料的是,当我们压缩它时——有效地减少了文件中的数据量——一些违反直觉的事情发生了,它听起来甚至更好。”

Fairey偶然发现了一种信号修复技术。操纵信号通常会损坏信号,这是许多原因之一,例如,MP3文件可能听起来很小或很空洞,以及为什么语音处理解决方案听起来很假。金宝搏官方网站

“在侦听被激发信号处理的剪辑时,通常会听到对音质产生负面影响的伪影。它不会是自然的声音,因为你损坏了你真正想要保留的底层信号。“

Ken Sutton,Yobe总裁、首席执行官兼联合创始人

自动化手动工作室过程的工作是故事与哈米德·纳瓦布博士的人工智能和信号处理世界的交汇点。在努力围绕Yobe的广播演播室技术和声音增强和信号修复方法创建IP后,Sutton发现他们能够修复被“撕裂”的信号通过积极的信号处理——这是纳瓦布博士和信号处理领域其他科学家面临的一个挑战。

“我们的广播演播室信号修复方法允许Yobe使用大量积极的人工智能驱动的信号处理科学,这是Nawab博士的前沿领域 终止在后面宽容我们的同时,因为我们可以发布发出信号以使其恢复到真实的声音,“Sutton说。“这也使我们能够深入了解信号本身,识别其DNA,并将其与其个人来源和意义联系起来。在启用语音的应用程序的情况下,我们可以将针从基本的语音识别(计算机理解所说的话)移动到发言人识别(计算机也明白谁在说它)。“

纳瓦布博士和肯·萨顿在波士顿约贝总部为一名软件开发人员提供咨询。

Yobe的信号处理,人工智能和广播工作室技术的专有组合由主诱导推理模块监督,该模块恰好应用于右侧测量,音频框架的右侧测量,音频帧。伴随着这项技术,Yobe正在提高嘈杂环境中启用语音应用的表现。这些是我们说的真实环境:具有开放窗口,环境声音的人,以及我们周围全部的谈话。

换句话说,它是“鸡尾酒会问题”,信号处理世界的方式框架其基本,长期挑战之一:在现实世界的声音画布的咔哒声中隔离单一的声音。

“在语音识别空间中的工作是如此多的工作,并且已经在受控,无菌环境中完成,这不是我们作为人类的生活,工作,戏剧和谈话,”Sutton说。“我们采取了不同的方法,它已经付款。”

尽管如此,萨顿还是很高兴不讨论尤比在鸡尾酒会问题上的成就。他非常尊重他人的努力,不想获得太多的赞扬,相反,他更愿意说:“我们想出了一种独特的管理和处理方式。”

这种方式正在引领新一代的应用程序和功能,使我们与机器的对话更安全、更安全、更高效。它还确保了下个世纪的触摸屏能够在现实世界中很好地运行,而不仅仅是在隔音的房间里。

Yobe的三合一方法

Yobe的突破性应用结合了三个不同的研究学科:

  • 信号处理:识别、分离和跟踪单个声音的“DNA”
  • 人工智能:教应用程序识别单个声音的DNA
  • 广播演播室技术:将人工智能探测破坏的信号恢复到原始状态

MATLAB的因素

构建结合信号处理、人工智能和演播室广播技术的应用程序 需要 一个特殊的开发环境,Yobe在MATLAB中找到了一个®从MathWorks。

萨顿说:“在我们的过程中,MathWorks一直是一个很好的合作伙伴,以几种不同的方式帮助我们。”。“MATLAB在信号处理领域无处不在:它主宰着大学课程,也是像哈米德这样的信号处理人士喜欢设计的地方。这不仅使我们更容易开发解决方案,而且有助于与该领域的同事共享知识。我们可以描述我们所做的事情和人们所得到的。MATLAB提供一个‘得到它’的因素。”金宝搏官方网站

Nawab博士说:“MATLAB是多学科软件开发的理想选择,在多学科软件开发中,多条线融合在一起。”。“MATLAB的设计使我们能够垂直地在各个筒仓中开发我们的解决方案,然后将这些筒仓组合在一起。从软件开发框架的角度来看,我们的解决方案的构建非常类似于乐高积木。MATLAB使我们能够根据我们的解决方案所需的功能,轻松地将这些积木移动到我们需要的方式和位置.”

萨顿说:“作为公司的首席执行官,我的一些职责是筹集资金和发展业务。“MATLAB为我们的新概念提供了一个极好的演示环境,在它成为商业级别之前很久。MATLAB使我们能够演示科学在其发展的每个阶段,帮助我们分享我们的进步,并为我们正在创造的东西建立兴奋。这对我们的企业发展至关重要。”

面板导航

生物技术

抗击儿童肺炎

将医疗危机转变为拯救生命的工程挑战

面板导航

人工智能

电子鼓手和人工智能团队创造了人类不可能的音乐:

为专业鼓手设计机器人假肢

面板导航

人工智能

陷入困境:

农民依靠人工智能提高产量