技术文章和通讯

用机器学习从脑电数据预测癫痫发作

作者:伦敦大学学院Gareth Jones


大约20-40%的癫痫发作对抗惊厥药物没有反应。因此,癫痫患者无法知道在驾驶、游泳或从事其他可能导致癫痫发作特别危险的活动时是否会发生癫痫发作。

最近的卡格尔竞赛通过挑战参与者开发能够从人类颅内脑电图(EEG)记录中预测癫痫发作的算法来解决这个问题(图1)。

图1所示。Kaggle提供的颅内脑电图数据。

由美国国家卫生研究院(MNWorksWord)、美国癫痫学会和墨尔本大学赞助,该竞赛吸引了来自世界各地的478支队伍和646名参赛者。

我在MATLAB中开发的算法®个人得分最高,整体排名第三。

脑电数据的存取与预处理

EEG数据来自墨尔本大学的一项长期研究。

在这项研究中,通过16个手术植入电极采集15名癫痫患者的颅内EEG记录,这些电极在400Hz下采样数月。在最初的研究中,研究人员无法可靠地预测大约50%的受试者的癫痫发作。

Kaggle竞赛的参与者从三名受试者那里获得了近100G的脑电图数据。每个10分钟长的片段包含发作前扣押前记录的数据,或发作间期在没有发生癫痫发作的长时间内记录的数据。我们的工作是开发算法,将以前看不见的片段分为发作前或发作间期。

Kaggle的竞争对手可以免费使用MATLAB,但不需要使用MATLAB。我很早就决定使用MATLAB。比赛数据以MAT文件形式提供,便于在MATLAB中访问。此外,在我所有的研究工作中,我使用MATLAB进行数据收集和分析。

我开始连接任何连续的10分钟长的片段(图2)。然后,我将所有数据划分为时间段或窗口,长度从50秒到400秒不等。尝试各种历元长度是很重要的,因为从数据中看不出数据中可能存在什么时间尺度的预测特征,或者它们随时间变化的速度有多快。

图2.MAT文件中的EEG数据分为连续的时间段。

提取特征并确定最佳机器学习模型

与许多数据分析竞赛不同,缉获预测竞赛提供了利用原始数据而不是现成表格的机会。除了重新参考外,所提供的数据没有经过任何额外的预处理。数据的非结构化特性使我能够通过执行自己的预处理和特征提取来充分利用这些数据。

我在MATLAB中工作,从数据中提取特征,我可以用来训练机器学习模型。具体来说,我开发了算法,针对每个历元计算频带功率、每个信道的汇总统计信息(包括平均值、标准差、均方根、偏度和峰度),以及时域和频域信道对之间的相关性。通过使用Parallel Computing Toolbox™同时处理不同核上的训练和测试数据,我将处理时间缩短了近一半。

因为我在业余时间为比赛开发算法,而不是作为主要的研究活动,所以我想尽快开发一个解决方案。我在其他环境中有监督机器学习的经验,但选择使用统计和机器学习工具箱中的分类学习器应用程序™ 快速搜索我提取的特征的最佳分类模型类型。在几分钟内,该应用程序自动训练和评估了基于决策树、判别分析、支持向量机、逻辑回归、最近邻和使用增强树的集成方法的模型。用Python或R语言构建和测试所有这些机器学习模型需要几天甚至几周的开发时间。金宝app

提高预测精度

接下来,我着手改进分类学习器应用程序识别的两个最有前途的机器学习模型的性能:二次支持向量机和随机欠采样(RUS)增强树。我测试了各种特征和历元长度,最终确定80秒、160秒和240秒历元长度对分类最重要(图3)。因为我使用的是多个训练集和测试集,所以我必须管理和命名表示各种功能和历元长度组合的多个表金宝app。我使用MATLAB中新的String类以编程方式为这些表生成标签。String类消除了我以前用于generati的一块复杂代码ng标签。

图3。显示特征和历元长度相对重要性的图。

在本地数据上测试机器学习算法后,我将它们提交给Kaggle竞赛网站,该网站根据一组未公开的测试数据运行它们。通过计算接收器工作特性曲线(AUC)下的面积对算法进行评分,这是评估二进制分类器和竞赛官方评分标准的常用方法。该评分结果发布在经常更新的公共排行榜上,以便参赛者可以看到他们的算法相对于竞赛中其他算法的表现。

为了进一步提高算法的准确性,我尝试了其他几种技术,包括超参数优化。我使用的最有效的技术之一是通过结合SVM和RUS增强树模型来实现集成分类器。对两个模型的预测进行平均后,准确度有了显著提高,使得集成分类器的得分高于其单独的任何一个组件模型。结果如下:

仅支持向量机:~0.65 AUC
仅俄罗斯:~0.72 AUC
SVM和RUS集成:~0.80 AUC

更好的癫痫治疗的早期步骤

大多数参赛者训练了三个独立的机器学习模型,每个癫痫患者一个。我创建了一个适用于所有三位患者的通用模型,因为我觉得在临床实践中,该解决方案比需要从每位患者收集EEG数据的解决方案更有效。临床上,一个关键目标(和难点)是创建模型,该模型可以在患者之间进行概括,并对看不见的个体进行预测,而不是为每个患者训练单独的分类器。竞争中产生的模型在预测新患者方面的有效性还有待观察。作为将竞争算法纳入临床研究的第一步,墨尔本大学的研究者正在使用未作为竞争的一部分的数据进行提交的算法的进一步评估。

除了竞赛对癫痫研究的潜在好处外,我个人也从这次参赛机会中受益匪浅。对我来说,这场比赛是一种非常有吸引力的学习新技能的方式,同时有可能推进一个将惠及全球数百万癫痫患者的领域的研究。

关于作者

加雷斯·琼斯博士是伦敦大学学院脑科学系的研究员。他的研究重点是利用心理物理学、电生理学和计算建模来探索哺乳动物整合感觉信息能力的皮层机制。

2017年出版-93132v00

查看相关功能的文章

查看相关行业的文章