语音界面:下世纪的触摸屏

人工智能和信号处理如何结合起来追踪声音的DNA


其引人注目的口号是“思考的信号处理”(Signal processing that thought)。总部位于美国的初创公司Yobe Inc.开发了一款软件,可以在任何听觉环境中准确追踪声音的“DNA”,这为人类开始与名为Alexa、Siri和谷歌的虚拟助手对话以简化生活带来了令人兴奋的可能性。

但是Yobe不仅仅是一家语音公司。虽然语音已经成为一款“杀手级应用”,但Yobe本质上是一家信号处理公司,而人的声音只是众多听觉信号中的一个 它的强大的技术可以隔离、识别、跟踪并充分利用。

Yobe的技术使用人工智能和信号处理去除语音信号中的背景噪声。

“一年半前,基于亚马逊将进入该市场的战略赌注,我们转向了语音。我们成功地将三个研究领域结合在一起,及时利用语音海啸。现在,我们生活在一个与连接的设备通话是一种共同能力的世界。”

肯·萨顿,约贝总裁,首席执行官,联合创始人

“下个世纪的触摸屏”

让语音成为我们与智能设备交互的主要方式的想法不仅仅是免提命令的便利性或易用性;它更直观。

它更人性化。

萨顿说:“如果你问我‘为什么是语音?’或者更好的是‘为什么我们要和我们的设备说话?’,我会反过来问你一个问题:‘两个众生之间最自然的接口是什么?’答案当然是语音。”。

“到目前为止,我们与机器互动的方式都是人工的,因为这些机器无法听到我们的声音。与某物交流的自然方式是与它交谈。这不是 一个进化.我们真的在回归基础,这些基础将产生深远的影响。

“声音将成为下个世纪的触摸屏。”

一系列音速突破

在萨顿大胆预测的背后,有几项声学突破。S. Hamid Nawab,首席科学家和James Fairey,高级顾问/音频创新-已经在信号处理,人工智能和广播演播室方法论领域取得了成就。

这些创新在30年的时间里发生在完全不同的研究领域,萨顿将这些领域与西班牙语、意第绪语和瓦肯语的共同点与幽默相提并论,这一事实不仅加深了尤比“一夜之间”的成功故事,也为了解才智、决心、好运、,命运可以交织在一起,导致改变游戏规则的创新。

纳瓦布博士的实验室是了解Yobe技术故事的好地方。

在杰出的30年职业生涯中,纳瓦布博士运用了他对信号处理和人工智能这两个高度专业化的领域和技能的先进理解研究一系列信号类型,包括肌电信号,这些生物医学标记测量肌肉收缩时的电流。

Yobe使用每个人独有的生物识别码识别嘈杂环境(如人群)中的个人声音。

纳瓦布博士开发了独特的人工智能信号处理算法来分解这些肌电信号,分离它们,以便更好地理解和测量它们与个体肌肉反应的关系。Nawab能够有效地将单个肌电信号从多个信号发射的噪声环境中分离出来。

在纳瓦布开创性工作的同时,终身精通音乐混音业务和广播工作室制作的费尔利正在努力解决一个他内心深处的问题:他患有自闭症的儿子讨厌在封闭环境中听音乐。

Fairey自己承担起了控制声波的责任,以一种他儿子能够接受的方式来呈现它们。

“詹姆斯偶然发现的,”萨顿回忆道,“是一个和他儿子一起通过测试的音频文件。然而,产生的声音是我从未听过的声音;它就像类固醇上的3D或HD音频。出乎意料的是,当我们对其进行压缩,有效地减少了文件中的数据量时,发生了一些违反直觉的事情,听起来甚至更好。”

仙女偶然发现了一种信号修复技术。操纵信号通常会损害它们,这是许多原因之一,例如,MP3文件听起来很细小或空洞,以及为什么语音处理方案听起来很人工。金宝搏官方网站

“当你听一段经过激烈处理的信号剪辑时,你通常会听到影响音质的伪音。它听起来不会很自然,因为你已经破坏了你真正想保存的潜在信号。”

肯·萨顿,约贝总裁,首席执行官,联合创始人

将手工工作室过程自动化的工作,是Hamid Nawab博士的人工智能和信号处理世界的交叉点。在围绕约贝的广播演播室技术和方法努力创造IP之后,萨顿发现,它们能够修复被侵略性信号处理“撕裂”的信号——这是纳瓦布博士和其他在信号处理领域的科学家面临的一个挑战。

“我们的广播演播室信号修复方法允许Yobe使用大量激进的人工智能驱动的信号处理科学,这是nawab博士的领域 最终,同时在后面原谅我们,因为我们可以post产生信号,把它带回它真正的声音,”Sutton说。“这也使我们能够更深入地了解信号本身,识别其DNA,并将其与其单独的来源和意义联系起来。”在语音应用中,我们可以将重点从基本的语音识别(计算机可以理解所说的内容)转移到说话者识别(计算机也可以理解谁在说话)。”

Nawab博士和Ken Sutton在位于波士顿的Yobe总部与一名软件开发人员协商。

Yobe专有的信号处理、人工智能和广播演播室技术的组合由一个主内收推理模块监督,该模块以精确的测量,一帧一帧地应用每个学科。借助这项技术,Yobe正在提高语音应用程序在嘈杂环境中的性能。这些是我们说话的真实环境:开着的窗户,周围的声音,以及我们周围不和谐的谈话声。

换句话说,这是一个“鸡尾酒会问题”,信号处理世界用这种方式来构建一个基本的、长期存在的挑战:在真实世界的嘈杂声中分离出一个单一的声音。

Sutton说道:“语音识别领域中有很多工作都是在受控的、无菌的环境中完成的,而这并不是我们人类生活、工作、娱乐和交谈的地方。“我们采取了不同的方法,并取得了回报。”

话虽如此,莎顿还是很乐意不去谈论约贝在鸡尾酒派对上的成就。他非常尊重他人的努力,不会把太多功劳揽在自己身上,他更喜欢说:“我们想出了一种独特的管理和处理方法。”

这种方式正在引领新一代的应用程序和功能,使我们与机器的对话更安全、更安全、更高效。它还确保了下个世纪的触摸屏能够在现实世界中很好地运行,而不仅仅是在隔音的房间里。

约一分之三的方法

Yobe的突破性应用结合了三个不同的研究学科:

  • 信号处理:识别、分离和跟踪单个声音的“DNA”
  • 人工智能:教学中识别单个声音DNA的应用
  • 广播演播室技术:将被人工智能探索破坏的信号恢复到原来的状态

MATLAB因子

构建结合信号处理、人工智能和演播室广播技术的应用程序 要求 一个特殊的开发环境,可以在MATLAB中找到®来自MathWorks。

“MathWorks在我们的过程中一直是一个很好的合作伙伴,在一些不同的方面帮助我们,”Sutton说。MATLAB在信号处理领域无处不在:它主导着大学课程,也是像Hamid这样的信号处理人员喜欢设计的地方。这不仅使我们更容易开发我们的解决方案,也促进了与该领域的同事分享知识。金宝搏官方网站我们可以描述我们所做的,人们也能理解。MATLAB提供了一个‘得到它’的因素。”

Nawab博士说:“MATLAB是多学科软件开发的理想工具。“MATLAB的设计使我们能够在竖井中垂直开发我们的解决方案,然后将这些竖井组合在一起。从软件开发框架的角度来看,我们的解决方案构建起来很像乐高积木。基于我们的解决方案所需要的功能,MATLAB使我们能够很容易地移动和丢弃这些块。”

萨顿说:“作为公司的首席执行官,我的一些职责是筹资和业务发展。”。“早在我们的初出茅庐的概念进入商业级别之前,MATLAB就为其提供了一个极好的演示环境。MATLAB使我们能够在科学发展的每个阶段演示科学,帮助我们分享我们的进步,并为我们正在创造的东西建立兴奋感。这对我们推动我们的企业向前发展至关重要。”

面板的导航

生物技术

而儿童肺炎

将医疗危机转变为拯救生命的工程挑战

面板的导航

人工智能

进入杂草:

农民依靠人工智能来提高产量