语音界面:下个世纪的触摸屏

AI和信号处理如何聚集在一起以跟踪声音的DNA


其引人注目的口号是“思考的信号处理”(Signal processing that thought)。总部位于美国的初创公司Yobe Inc.开发了一款软件,可以在任何听觉环境中准确追踪声音的“DNA”,这为人类开始与名为Alexa、Siri和谷歌的虚拟助手对话以简化生活带来了令人兴奋的可能性。

但yobe不仅仅是一个语音公司。虽然声音已经成为“杀手应用程序”,但舍舍·埃比斯在它的心脏中是一个信号处理公司,而人类的声音只是许多听觉信号之一 它的强大的技术可以隔离、识别、跟踪和利用。

Yobe的技术利用人工智能和信号处理去除语音信号中的背景噪声。

“一年半前,我们的战略赌注是亚马逊将占领市场,所以我们转向了语音服务。我们成功地将三条研究线结合在一起,及时地利用了声音海啸。如今,在我们生活的世界里,与联网设备通话是一种常见的功能。”

Ken Sutton,Yobe总裁,首席执行官和Cofounder

“下个世纪的触摸屏”

让语音成为我们与智能设备互动的主要方式,这一想法不仅仅是为了方便不用手的命令或使用方便;这是更直观的东西。

这是更人性化。

“如果你问我‘为什么是声音?或者更好的是,“我们为什么要跟我们的设备通话?”我会反问你一个问题:“两种众生之间最自然的联系是什么?”’答案当然是语言,”萨顿说。

“我们一直与机器互动的方式,直到现在是人为的,因为这些机器已经无法听到我们。与某事物沟通的自然方式是与之交谈。这不是 演变.我们真的回到了基础——这些基础将具有深远的影响。

“声音将成为下个世纪的触摸屏。”

一系列的声学突破

萨顿大胆预测后面的几个声音突破他和他的yobe联合创始人博士。S. Hamid Nawab,首席科学家和James Fairey,高级顾问/音频创新 - 在信号处理,人工智能和广播工作室方法中制作。

这些创新在过去的30年发生完全独立研究字段时,萨顿把好幽默有尽可能多的共同点西班牙语,意第绪语,和Vulcan-not只会增加深度约在“一夜之间”的成功故事,但也是一个窗口如何辉煌,决心,祝你好运,命运可以交织在一起,从而产生改变游戏规则的创新。

纳瓦布博士的实验室是了解约贝科技故事的好地方。

在30年杰出的职业生涯中,Nawab博士运用了他对信号处理和人工智能的先进理解——这两个高度专业化的领域和技能很少居住在同一个人中 - 研究一系列信号类型,包括EMG信号,这些生物医学标记测量肌肉收缩期间的电流。

约贝在嘈杂环境(如人群)中使用每个人独有的生物特征识别器来识别个人的声音。

Nawab博士开发了独特的人工智能信号处理算法来分解这些肌电信号,分离它们,以便更好地理解和测量它们与单个肌肉反应的关系。Nawab能够有效地从多个信号发出的嘈杂环境中分离出单个的肌电信号。

与纳瓦布的开创性工作并行的是,菲尔里,这位音乐混音业务和广播工作室制作的终身大师,正在努力解决一个贴近他内心的问题:他患有自闭症的儿子讨厌在封闭的环境中听音乐。

Fairey自己承担起了控制声波的责任,以一种他儿子能够接受的方式来呈现它们。

“詹姆斯偶然发现的,”萨顿回忆道,“是一份他儿子认可的音频文件。然而,由此产生的声音是我从未听过的;就像3D或高清音频一样。出乎意料的是,当我们压缩它时——有效地减少了文件中的数据量——一些违反直觉的事情发生了,它听起来甚至更好。”

Fairey偶然发现了一种用于信号修复的技术。操纵信号通常损害它们,这是众多原因之一,例如,MP3文件可以听起来如此透明或空心,以及为什么语音处理解决方案听起来人为。金宝搏官方网站

“当你听一段经过激烈处理的信号剪辑时,你通常会听到影响音质的伪音。它听起来不会很自然,因为你已经破坏了你真正想保存的潜在信号。”

Ken Sutton,Yobe总裁,首席执行官和Cofounder

自动化手册工作室进程的工作是故事与哈米德Nawab博士的AI和信号处理世界相交。After working diligently to create IP around Yobe’s broadcast studio technology and methodology for both sound enhancement and signal repair, Sutton found that they were able to repair signals that have been “ripped apart” by aggressive signal processing—a problem that had been a challenge for Dr. Nawab and other scientists in the field of signal processing.

“我们的广播工作室信号修复方法允许yobe使用大量的攻击性AI驱动信号处理科学 - Nawab博士的领域 - 在前面 结尾,同时在后面原谅我们,因为我们可以post产生信号,把它带回它真正的声音,”Sutton说。“这也使我们能够更深入地了解信号本身,识别其DNA,并将其与其单独的来源和意义联系起来。”在语音应用中,我们可以将重点从基本的语音识别(计算机可以理解所说的内容)转移到说话者识别(计算机也可以理解谁在说话)。”

纳瓦布博士和肯·萨顿在波士顿约贝总部为一名软件开发人员提供咨询。

Yobe专有的信号处理、人工智能和广播演播室技术的组合由一个主内收推理模块监督,该模块以精确的测量,一帧一帧地应用每个学科。借助这项技术,Yobe正在提高语音应用程序在嘈杂环境中的性能。这些是我们说话的真实环境:开着的窗户,周围的声音,以及我们周围不和谐的谈话声。

换句话说,这是一个“鸡尾酒会问题”,信号处理世界用这种方式来构建一个基本的、长期存在的挑战:在真实世界的嘈杂声中分离出一个单一的声音。

Sutton说道:“语音识别领域中有很多工作都是在受控的、无菌的环境中完成的,而这并不是我们人类生活、工作、娱乐和交谈的地方。“我们采取了不同的方法,并取得了回报。”

也就是说,萨顿就像在鸡尾酒会问题方面讨论yobe的成就就像不开心。他尊重他人的努力太多了,以吸取太多的信用,更喜欢说,“我们已经提出了一种管理和处理它的独特方式。”

这种方式现在导致新一代的应用程序和能力,使我们的对话与机器更安全,更安全,更高效。它还确保了下个世纪的触摸屏在现实世界中运行良好,而不仅仅是在隔音室。

yobe的三种方法

yobe的突破性应用结合了三个不同的研究学科:

  • 信号处理:识别、分离和跟踪单个声音的“DNA”
  • 人工智能:教应用程序识别单个声音的DNA
  • 广播工作室技术:通过AI探索对其原始状态进行恢复信号

MATLAB的因素

建立信号处理,人工智能和工作室广播技术的应用程序 需要 一个特殊的开发环境,Yobe在MATLAB中找到了一个®从MathWorks。

“MathWorks在我们的过程中是一个很好的伙伴,以几种不同的方式帮助我们,”Sutton说。“Matlab在信号处理空间中的无处不在:它占主导地位的大学课程,并是信号处理像汉米德喜欢的人的信号。这不仅可以让我们更容易开发我们的解决方案,还可以促进与该领域的同事的知识共享。金宝搏官方网站我们可以描述我们的所作所为。Matlab提供“获得它的因素”。

“Matlab非常适合多学科软件开发,其中许多股线被融入其中,”Nawab博士说。“MATLAB的设计使我们能够在筒仓中垂直开发我们的解决方案,然后将这些筒仓带在一起。从软件开发框架的角度来看,我们的解决方案建立了很多像乐高块。Matlab使我们很容易移动和删除这些块我们需要以及我们所需的功能,我们需要的是我们想要的解决方案的功能。“

萨顿说:“作为公司的首席执行官,我的一些职责是筹集资金和发展业务。“MATLAB为我们的新概念提供了一个极好的演示环境,在它成为商业级别之前很久。MATLAB使我们能够演示科学在其发展的每个阶段,帮助我们分享我们的进步,并为我们正在创造的东西建立兴奋。这对我们的企业发展至关重要。”

面板的导航

生物技术

战斗童年肺炎

将医疗危机转变为拯救生命的工程挑战

面板的导航

AI.

陷入困境:

农民依靠人工智能提高产量