康奈尔大学生物声学科学家开发了一个分析大数据的高性能计算平台

挑战

从海洋、田野、森林和丛林获得的大量声学数据中探测和分类动物声音

解决方案

利用MATLAB、并行计算工具箱、MATLAB并行服务器,开发声学数据分析的高性能计算平台

结果

  • 节省了多年的开发时间
  • 分析时间从几周减少到几个小时
  • 以前未处理的数据以天为单位进行分析

“MATLAB的高性能计算使我们能够处理以前从未分析过的大数据。我们将学到的知识转化为对人类活动如何影响生态系统健康的理解,从而对人类在海洋和陆地上的行为做出负责任的决定。”

克里斯托弗·克拉克博士,康奈尔大学
生物声学研究计划使用的一种声学分析设备来收集大型须鲸和其他海洋哺乳动物的数据。照片由迪米特里·波尼拉基斯提供。

30多年来,科学家们通过记录海洋、丛林、森林和其他自然环境中的动物声音来研究当地的动物种群。他们利用这些结果来评估人造噪音对自然环境的影响,监测濒危动物种群,调查动物交流。被动声学监测系统持续记录声音,产生tb级的数据。由于缺乏必要的先进算法和处理能力,科学家往往无法处理哪怕是1%的数据。

康奈尔大学鸟类学实验室的生物声学研究项目(BRP)的科学家们用MATLAB分析了大量的声学数据®、并行计算工具箱™和MATLAB并行服务器™。该项目由海军研究办公室(Office of Naval Research)和国家海洋伙伴计划(National Oceanic Partnership Program)提供的一笔拨款资助,由康奈尔大学(Cornell)的两名主要研究人员领导:资深科学家、BRP主任克里斯托弗·克拉克(Christopher Clark)博士和BRP首席数据科学家彼得·杜根(Peter Dugan)博士。

“MATLAB和MATLAB并行计算工具为我们提供了灵活性,可以动态地改进和调整我们用来处理大型声学数据集的算法,”克拉克博士说。“如果我们使用c++或类似的语言,我们将无法快速移动或探索许多场景。”

挑战

分析声学数据的研究人员必须应对来自天气、其他动物以及附近机器和车辆的噪音。动物声音在一个物种中个体间的差异是一个更复杂的问题。这两个因素——噪声和可变性——增加了误报和漏报的数量,降低了检测算法的准确性。

处理BRP正在收集的数百兆兆字节的数据是另一个挑战。一个典型的项目需要处理数年的原始声学数据——多达10tb——记录在多个频道上。每个频道都能捕捉到数以亿计的事件——当数据被视为光谱图时,这些声音就会脱颖而出。在小的、高质量的样本上测试的算法,如果应用到更大的、更嘈杂的数据集上,往往会大大降低准确性。

最后,BRP分析工具必须服务于广泛的研究计划、环境和变化的需求。“对我们最初研究问题的回答往往会带来全新的探索途径,我们需要能够应对这些需求的突然变化,”克拉克博士说。

解决方案

BRP数据科学家使用MATLAB开发了高性能计算(HPC)软件来自动处理声学数据。

他们开始了一个探测分类项目,通过收集他们想要探测的动物的音频片段,动物环境中的背景噪声片段,以及存档的声学数据的mat文件。在MATLAB中,他们开发了新的或改进了现有的算法,这些算法可以检测存档数据中的音频序列,类似于剪辑目录中的音频序列。

这些算法使用图像处理工具箱™和信号处理工具箱™支持的模式匹配、边缘检测、连接区域分析、卷积和其他技术,以及模糊逻辑工具箱™和深度学习工具箱™支持的机器学习技术。金宝app

为了评估算法的准确性,研究人员使用统计数据和机器学习工具箱™来计算接收机工作特性(ROC)和其他性能曲线。

在使用并行计算工具箱对小数据集上的算法进行了调试和优化之后,科学家们使用MATLAB并行服务器对64个工作集群上的完整归档数据集运行这些算法。

BRP团队开发了一个MATLAB接口,使研究人员能够指定算法、数据集和处理器数量。

BRP与Marinexplore和Kaggle社区合作,赞助了一项全球竞赛,240多名参与者提交了检测和分类北大西洋露脊鲸向上接触呼叫的算法。BRP利用他们的MATLAB高性能计算平台来识别最精确的算法,这将有助于防止船只与鲸鱼的碰撞。

除了检测和分类算法外,BRP还使用MATLAB进行噪声分析和声学建模,其中捕获和模拟了海洋或陆地环境的时间频散效应。

结果

  • 节省了多年的开发时间。杜根博士说:“一项对预计成本的研究表明,如果我们不得不自己做这件事,我们将需要三年时间、100万美元和大量外部帮助来开发我们所需要的那种高性能计算平台。”“使用并行计算工具箱和MATLAB并行服务器,我们用了不到三个月的时间开发了这个平台。”

  • 分析时间从几周减少到几个小时。“我们的一个算法花了19周处理了90天的数据,”杜根博士说。“使用并行计算工具箱和MATLAB并行服务器,我们在8小时内完成了对集群的相同分析。”

  • 以前未处理的数据以天为单位进行分析。“一个数据集捕捉了10万小时的声音。它是如此之大,以至于我们之前只处理了不到1%的数据,估计需要一年或更长的时间来处理剩下的数据,”杜根博士说。“在我们的MATLAB高性能计算平台上,我们用不同的检测算法在两天内处理了6次数据。”

康奈尔大学是世界上提供校园范围内的MATLAB和Simulink的1300所大学之一。金宝app有了校园范围的许可证,研究人员、教师和学生可以访问一个通用的产品配置,在最新版本中,可以在任何地方使用——在教室、在家里、在实验室或在现场。下载188bet金宝搏