用户故事

康奈尔生物声学科学家开发了用于分析大数据的高性能计算平台

挑战

从海洋、田野、森林和丛林获得的大量声学数据中检测和分类动物的声音

解决方案

利用MATLAB、并行计算工具箱和MATLAB并行服务器开发高性能声学数据分析计算平台

结果

  • 节省数年的开发时间
  • 分析时间从几周缩短到几小时
  • 以前未处理的数据以天为单位分析

“MATLAB的高性能计算使我们能够处理以前未分析的大数据。我们将所学转化为对人类活动如何影响生态系统健康的理解,为人类在海洋和陆地上所做的负责任的决策提供信息。”

克里斯托弗·克拉克博士,康奈尔大学
生物声学研究项目用于收集大型须鲸和其他海洋哺乳动物数据的声学分析设备。图片由Dimitri Ponirakis提供。

30多年来,科学家们通过记录海洋、丛林、森林和其他自然环境中的动物声音来研究当地动物种群。他们利用这些结果来评估人为噪音对自然环境的影响,监测濒危动物种群,并调查动物交流。被动声学监测系统持续记录声音,产生tb级的数据。由于缺乏必要的先进算法和处理能力,科学家往往连1%的数据都无法处理。

康奈尔鸟类学实验室生物声学研究项目(BRP)的科学家们用MATLAB分析了大量的声学数据®、并行计算工具箱™和MATLAB并行服务器™。该项目由海军研究办公室和国家海洋伙伴计划的拨款资助,由来自康奈尔大学的两位主要研究人员领导:BRP的高级科学家兼主任克里斯托弗·克拉克博士和BRP的首席数据科学家彼得·杜根博士。

Clark博士说:“MATLAB和MATLAB并行计算工具使我们能够灵活地动态改进和适应我们用于处理大型声学数据集的算法。”“如果我们使用c++或类似的语言,我们将无法快速移动或探索如此多的场景。”

挑战

分析声学数据的研究人员必须应对来自天气、其他动物以及附近机器和车辆的噪音。动物声音在同一物种内个体之间的变异性是一个进一步的问题。噪声和可变性这两个因素增加了假阳性和假阴性的数量,降低了检测算法的准确性。

处理BRP正在收集的数百tb的数据是另一个挑战。一个典型的项目包括处理多年的原始声学数据,最高可达10tb,由多个通道记录。每个频道可能会捕捉到数亿个事件——当数据被视为频谱图时,这些声音会脱颖而出。在小的、高质量的样本上测试的算法,在应用于更大的、更嘈杂的数据集时,往往不那么准确。

最后,BRP分析工具必须服务于广泛的研究计划、环境和不断变化的需求。克拉克博士说:“对我们最初研究问题的答案往往会导致新的探索途径,我们需要能够处理这些需求的突然变化。”

解决方案

BRP数据科学家使用MATLAB开发了用于自动处理声学数据的高性能计算(HPC)软件。

他们开始一个检测分类项目,收集他们想要检测的动物的音频片段,动物环境中的背景噪音片段,以及存档的声学数据的mat文件。他们在MATLAB中开发新的或改进现有算法,以检测存档数据中的音频序列,类似于剪辑目录中的音频序列。

该算法使用了模式匹配、边缘检测、连通区域分析、卷积等由图像处理工具箱™和信号处理工具箱™支持的技术,以及由模糊逻辑工具箱™和深度学习工具箱™支持的机器学习技术。金宝app

为了评估算法的准确性,研究人员使用统计和机器学习工具箱™来计算接收器工作特征(ROC)和其他性能曲线。

在使用并行计算工具箱对小数据集上的算法进行调试和优化后,科学家们使用MATLAB并行服务器在64 worker集群上对完整的归档数据集运行它们。

BRP团队开发了一个MATLAB接口,使研究人员能够指定算法、数据集和处理器数量。

BRP与Marinexplore和Kaggle社区合作,赞助了一场全球比赛,240多名参与者提交了检测和分类北大西洋露脊鲸向上接触叫声的算法。BRP使用他们的MATLAB高性能计算平台来确定最准确的算法,这将用于帮助防止船只与鲸鱼相撞。

除了检测和分类算法外,BRP还使用MATLAB进行噪声分析和声学建模,在其中捕获和模拟海洋或陆地环境的时间和频率色散效应。

结果

  • 节省数年的开发时间.杜根博士说:“一项对预计成本的研究表明,如果我们必须自己做这件事,将需要3年时间、100万美元,以及大量的外部帮助来开发我们所需的高性能计算平台。”“利用并行计算工具箱和MATLAB并行服务器,我们在不到三个月的时间里开发了这个平台。”

  • 分析时间从几周缩短到几小时.杜根博士说:“我们的一种算法花了19周时间来处理90天的数据。”“使用并行计算工具箱和MATLAB并行服务器,我们在8小时内完成了对我们集群的相同分析。”

  • 以前未处理的数据以天为单位分析.“一个数据集捕捉了10万小时的声音。它是如此之大,以至于我们之前只处理了不到1%的数据,估计需要一年或更长时间才能处理剩下的数据,”杜根博士说。“利用我们的MATLAB高性能计算平台,我们在两天内使用不同的检测算法对数据进行了六次处理。”

康奈尔大学是全球1300所提供MATLAB和Simulink校园访问的大学之一。金宝app有了校园范围的许可,研究人员、教师和学生可以访问最新版本的产品的公共配置,以便在任何地方使用——在教室、在家里、在实验室或在现场。下载188bet金宝搏