使用机器学习预测从脑电数据癫痫发作

通过加雷思·琼斯,伦敦大学学院

大约有癫痫发作的20〜40%的人不给抗惊厥药物反应。因此,癫痫患者的个体无法知道当他们驾驶,游泳或从事其他活动,将使扣押特别危险会发生癫痫的方法。

最近Kaggle比赛通过挑战参与者开发能预测人类颅内脑电图(EEG)记录(图1)癫痫发作的算法解决了这个问题。

由Kaggle提供图1颅内EEG数据。

MathWorks公司主办,美国国立卫生研究院(NINDS),美国癫痫协会,和墨尔本大学的比赛吸引了478队和来自世界各地的646级的竞争对手。

我在MATLAB开发的算法®拿下个人参与者之间的最高和第三高在竞争中的整体。

访问和预处理脑电图数据

脑电图数据由墨尔本大学进行了长期的研究得出。

在这项研究中,颅内脑电图记录从15名癫痫患者通过以400Hz采样数月16个手术植入电极收集。在最初的研究中,研究人员无法可靠地预测癫痫发作对考试科目的约50%。

Kaggle参赛者从三个测试对象收到近100千兆字节的EEG数据。各10分钟长的段无论是包含preictal数据,癫痫发作之前记录,或者发作数据,在其中没有惊厥发作很长时间的录制。我们的工作是开发能以前看不到的部分作为任何preictal或发作分类算法。

Kaggle竞争对手都给了MATLAB自由出入,但不是必须使用MATLAB的。我很早就我会用MATLAB决定。比赛数据是在MAT文件中提供的,因此很容易在MATLAB访问。另外,我用MATLAB在我所有的研究工作,收集和分析数据。

我开始通过连接任何顺序10分钟长的片段(图2)。余则所有的数据划分成时期,或窗口,具有不同长度从50秒至400秒。尝试各种划时代的长度,因为那不是在什么时间尺度预测功能可能存在于数据中的数据,或有多快,他们可能会随时间而改变明显是很重要的。

在MAT文件图2. EEG数据分成连续的时期。

提取特征并确定最佳机器学习模型

不像许多数据分析竞赛,扣押预测竞争提供了机会,与原始数据,而不是现成的表格的工作。除了重新引用,提供的数据没有进行任何额外的预处理。数据的非结构化性质让我通过执行自己的预处理和特征提取,以充分利用这些数据。

我曾在MATLAB来提取数据功能,我可以用它来训练机器学习模型。具体而言,我开发的算法,对于每个历元,计算的每个信道(包括平均值,标准偏差,均方根,偏度和峰度),和信道对之间的相关性在时间和频率域中的频带功率,汇总统计。我用并行计算工具箱™能够同时处理不同内核的训练和试验数据的处理时间几乎减半。

因为我正在为我的业余时间竞争算法,而不是作为一个主要的研究活动,我想开发一个解决方案,尽快。我有监督的机器在其他环境中学习经验,而是选择了使用统计和机器学习工具箱™分类学习应用程序快速搜索的最佳分类模型类型我已经提取的特征。在短短的几分钟内,根据决策树,判别分析,支持向量机,回归,最近的邻居,并用提高树木集成方法的应用程序已经自动训练和评估模型。金宝app它会采取我的天,如果不是时间的发展星期来构建和测试在Python或R.所有这些机器学习模型

提高预测精度

接下来,我开始着手改善由分类学习应用程序确定的两个最有前途的机器学习模型的性能:二次支持向量机和随机欠(RUS)提高树木。金宝app我测试各种特征和历元的长度,最终识别80秒,160秒和240秒的时期长度作为最重要的分类(图3)。因为我是用多个训练和测试组的工作,我必须管理并命名代表的功能和划时代的长度不同的组合了大量的表。我使用了新的String类在MATLAB中编程生成的表标签。String类消除复杂的代码块,我以前曾用于产生标签。

图3.图,显示的特征和历元长度相对重要性。

本地数据测试机器学习算法后,我提交了他们的Kaggle竞赛网站,跑他们对一组未公开的测试数据。算法是由工作特性曲线(AUC),这是用于评价二元分类和竞争的官得分度量的共同量度接收机下计算的区域评分。这个评分的结果对频繁更新公开排行榜公布,使参赛者能看到多么好他们的算法是在竞争中他人进行相对的。

为了进一步提高我的算法的准确性,我试过其他一些技术,包括超参数优化。其中一个我用过的最有效的方法是通过将SVM实现综合识别和RUS推进树模型。平均两个模型的预测导致精度显着提高,使综合识别得分比任何其组件模型的更高独立。结果如下:

SVM单独:〜0.65 AUC
RUS孤单:〜0.72 AUC
SVM和RUS合奏:〜0.80 AUCÇ

的早期步骤争取更好癫痫管理

大多数选手训练的三个独立的机器学习模型,每个癫痫患者。我创建了一个工作了三个病人,因为我觉得,在临床实践中,该解决方案将更有效率比一个需要EEG数据从每个患者采集的一个总的模型。临床上,一个关键目标(和困难)是创建模型,可以跨越患者概括,并提出看不见个人的预测,而不是单独训练分类为每一个病人。这还有待观察在竞争中产生的模型的有效性如何在预测新的病人。作为迈向结合竞争算法进入临床研究的第一步,墨尔本大学的研究人员正在进行的使用,没有能够得到作为比赛的一部分数据提交算法进一步评估。

除了竞争的潜在好处癫痫的研究,我个人从参与的机会中获益。对我来说,竞争是学习新的技能,而这将惠及全球数以百万计的癫痫患者的潜在领域研究推进深深吸引人的方式。

关于作者

加雷思·琼斯博士是副研究员脑科学在伦敦大学学院任教。他的研究重点是利用心理物理学,电和计算模型,探讨潜在的哺乳动物的整合感觉信息的能力皮质机制。

2017年发布 - 93132v00


查看文章的相关能力

查看文章为相关行业