技术文章及通讯

用机器学习筛选多源数据以获得更安全的电池材料

奥斯汀·d·森德克著,斯坦福大学


2016年6月14日,喷气推进实验室研究人员为救援灾区人员而制造的类猿机器人RoboSimian在实验室爆炸并起火。次年,一家大型手机制造商在接到火灾和爆炸报告后,发布了全球召回新款平板电脑的通知。从那以后,类似事件的报道层出不穷。在每一起事故中,锂离子电池都被认定为根本原因。

这些电池的问题在于它们的液体电解质,如果电池供电的设备不能足够快地冷却,液体电解质往往会蒸发或起火。研究人员正在寻找具有良好离子导电性和电化学稳定性的固体电解质材料,以取代这些具有潜在危险的液体电解质,但研究进展缓慢。通过实验或模拟评估一种候选材料可能需要数周的时间,材料项目数据库中有超过12000种含锂晶体固体可能是有希望的候选材料——更不用说成千上万或数百万种尚未编入目录的材料了。

使用MATLAB开发的机器学习模型®在美国,我和同事们发现了大海捞针:在我们分析的12000多种固体电解质中,找到了少量特殊的固体电解质。在一组已知的良好电解质及其原子结构的训练下,我们的MATLAB模型识别有前途的新材料的可能性似乎比随机猜测高出三倍以上,比在该领域工作的斯坦福研究生高出两倍。

锂离子电池基础:液体电解质的问题

在锂离子电池中,锂离子在电池充放电过程中通过电解质迁移。由于水与锂发生反应,电池制造商使用有机溶剂而不是水性溶剂作为电解质。这就是问题所在:与水不同,汽油、发胶和洗甲水等有机液体通常是易燃且不稳定的。

除了安全问题,液体电解质至少还有两个缺点。首先,用它们来制造更高电压的电池是很困难的,因为随着电压的增加,它们往往会击穿。其次,他们没有采取什么措施来防止一种被称为树突增长这是导致电池过早死亡的主要原因。总之,这些缺点为寻找合适的固态电解质提供了令人信服的动机。

从多个来源组合数据

在Evan Reed教授的指导下,我们开始从三个来源收集数据:材料项目数据库、已发表的论文和无机晶体结构数据库(ICSD),这是一个实验验证原子结构的在线数据库。

首先,我们在材料项目数据库中确定了所有12,831个含锂固体。在筛选结构稳定性、化学稳定性和低电子导电性后,我们排除了92%以上的初始集合。此外,我们还收集了地球上这些材料的丰度及其预计成本的信息。最初的筛选给我们留下了300多种稳定的候选材料,只要它们的锂电导率足够快,就可能成为有前途的固体电解质材料。为了实现这一点,我们转向了机器学习。[1]

我们首先梳理了科学文献,找到了40种固体晶体材料,研究人员已经对这些材料的晶体结构进行了表征,并测量了室温下的离子电导率。这40种材料中约有三分之一具有足够的离子导电性,可以作为有用的电池电解质,尽管这些材料都存在稳定性问题,阻碍了它们在固态电池中被采用。这40种快速和缓慢锂导电材料的混合将作为机器学习算法的训练集,以快速预测新材料中的锂导电行为。

然后我们从ICSD下载了这40种材料的原子结构。利用这些数据,我们计算了20个特征,这些特征表征了每个晶体中的局部原子排列和化学性质,这些特征基于结构中原子的位置、质量、电负性和原子半径。这些计算均在MATLAB中完成。我们选择的20个特征包括原子指标,如每个原子的体积,锂键离子性,锂邻居的数量,以及最小阴离子-阴离子分离距离。我们认为这20个特征可能与离子电导率相关,这是基于我们的直觉或以前的文献报道。我们发现,在将机器学习应用于如此小的数据集时,使用这种“智能”特征(即基于材料物理预先存在的知识的特征)是必不可少的。

选择机器学习模型

下一个问题是:这20个特征的哪个组合最能预测训练数据?由于我们的训练集相对较小,只有40种材料和20个特征,以及MATLAB提供的建模的易用性和灵活性,我们能够考虑超过10,000,000种特征和模型的可能组合。

统计和机器学习工具箱™使探索这些众多的模型变得容易,包括最小二乘回归、稳健回归、局部加权最小二乘、支持向量机、逻辑回归和多类分类。我们为每个我们想要测试的机器学习算法训练了一个模型,然后根据我们的训练数据验证了算法的准确性。

单独使用原子特征训练的模型没有一个对离子电导率提供足够的预测能力,但多特征模型可以。最终,我们确定了一个具有五个特征的最佳逻辑回归模型,该模型能够以低至10%的交叉验证误差对训练集材料进行分类。这对我们来说是有意义的,因为逻辑回归分类器往往在像我们这样的小型训练集上表现良好。这个逻辑回归分类器将给出一个二元预测:这种材料是否表现出足够的锂导电性,可以用作固体电解质材料?我们训练过的模型在10次预测中有9次是准确的。

然后,我们将这个训练过的模型用于剩余的300多种候选材料(图1)。

图1。由机器学习模型识别的候选人。

图1。由机器学习模型识别的候选人。

分类器使我们能够消除这些候选材料中的93.3%,从最初的12,831个候选材料中只剩下21个。一旦模型被训练好,这个筛选步骤只需要几秒钟就能完成。总而言之,我们通过筛选过程淘汰了99.8%的候选材料。

结果及下一步

为了测试预测的有效性,我们使用精确但缓慢的基于量子物理的模拟来模拟这些材料中的锂传导。[2]到目前为止,我们发现,当我们遵循基于机器学习模型的建议时,我们发现新的锂离子导电材料的速度比我们使用简单的试错方法快三倍。我们甚至通过给模型和一组斯坦福材料科学博士生提供相同的随机抽取的材料列表来测试模型与人类直觉的区别。该模型在识别好的锂导体方面的准确度是学生的两倍,而预测的时间不到学生的千分之一。

我们的模型确定的一些候选材料是完全出乎意料的。这些材料的原子结构是如此复杂,以至于我们没有科学的直觉来帮助我们确定这些材料是否具有足够的离子导电性。当结果证明它们确实像模型预测的那样导电时,它有助于验证我们的直觉。我们现在可以将我们所学到的知识整合到我们的MATLAB机器学习模型的未来版本中,我们希望随着更多实验数据的报告,该模型将得到改进。我们发现的一种材料非常令人兴奋,我们申请了专利,并立即找到了一个感兴趣的公司合作伙伴,获得专利许可,并继续研究这种材料。

我们继续进行一些这样的测试,包括在斯坦福大学,以及与外部组织合作,对个别候选材料进行研究。在不久的将来,这些候选材料中的一种可能被证明是固体电解质,取代锂离子电池中的液体电解质,使电池组爆炸成为历史。

斯坦福大学是全球近1000所提供MATLAB和Simulink校园访问的大学之一。金宝app有了总学术人数(TAH)许可,研究人员、教师和学生就可以访问最新版本的通用产品配置,以便在任何地方使用——在教室、在家里、在实验室或在现场。下载188bet金宝搏

作者简介

Austin D. Sendek是斯坦福大学应用物理系的博士候选人,与材料科学与工程系的Evan Reed教授合作。他的研究兴趣包括基于机器学习和人工智能概念的新计算方法的开发和部署,以加速储能应用材料的设计。

2018年出版的

参考文献

  1. 阶数,公元等等。”超过12000种固体锂离子导体材料的整体计算结构筛选。”能源环境。科学。(2016)。doi: 10.1039 / C6EE02697D。https://pubs.rsc.org/en/content/articlehtml/2017/ee/c6ee02697d

  2. 阶数,公元等等。”机器学习辅助发现了许多新的固体锂离子电解质材料。”arXiv: 1808.02470(2018)。https://arxiv.org/abs/1808.02470

查看相关行业的文章