技术文章和通讯

利用机器学习筛选多源数据以获得更安全的电池材料

斯坦福大学奥斯汀·d·森德克(Austin D. Sendek)著


2016年6月14日,喷气推进实验室研究人员制造的用于救援灾区人员的类人猿机器人RoboSimian在实验室中爆炸并起火。第二年,一家大型手机制造商在接到火灾和爆炸的报告后,发布了一项全球召回其新款平板电脑的通知。从那时起,类似的事件发生了很多次。在每个案例中,锂离子电池都被认为是根本原因。

这些电池的问题在于它们的液体电解质,如果电池供电的设备不能足够快地冷却,它们往往会蒸发或着火。研究人员正在寻找具有良好离子导电性和电化学稳定性的固体电解质材料,以取代这些具有潜在危险的液体电解质,但研究进展缓慢。通过实验或模拟来评估一种单一的候选材料可能要花费数周的时间,而且在材料项目数据库中有超过12000个含锂晶体固体可能是有希望的候选材料——更不用说还没有编目的成千上万种材料了。

使用MATLAB开发的机器学习模型®在美国,我和同事们发现了大海捞针:从我们分析的1.2万种以上的电解质中,只有少数特殊的固体电解质。在一组已知的良好电解质及其原子结构的训练下,我们的MATLAB模型似乎比随机猜测更有可能识别出有前途的新材料,比在该领域工作的斯坦福研究生的可能性高出两倍。

锂离子电池基本原理:液体电解质的问题

在锂离子电池中,锂离子在电池充电和放电时通过电解液迁移。由于水与锂发生反应,电池制造商使用有机溶剂而不是水基溶剂作为电解液。这就是问题所在:与水不同,汽油、发胶和指甲油等有机液体除油剂通常易燃且不稳定。

除了安全问题,液体电解质至少还有两个缺点。首先,用它们来制造更高电压的电池是困难的,因为当驱动它们的电压增加时,它们往往会分解。其次,他们几乎没有阻止一种被称为树突增长这是电池导致过早死亡的主要原因。综上所述,这些缺点为寻找一种合适的固态电解质提供了强有力的动力。

从多个来源组装数据

在埃文·里德教授的监督下,我们首先收集了三个来源的数据:材料项目数据库、已发表论文和无机晶体结构数据库(ICSD),这是一个实验验证的原子结构在线数据库。

首先,我们在材料项目数据库中确定了所有的12831个含锂固体。经过结构稳定性、化学稳定性和低电导率的筛选,我们排除了92%以上的初始集。此外,我们还编制了有关地球资源丰富程度和预测成本的资料。这一初步筛选为我们留下了超过300种稳定的候选材料,如果它们的锂电导率足够快,这些材料可能是有前途的固体电解质材料。为了做到这一点,我们转向了机器学习。[1]

我们首先梳理科学文献,找到40种固态晶体材料,研究人员已经对其晶体结构进行了表征,并测量了室温下的离子电导率。这40种材料中约有1 / 3的离子导电性足以成为有用的电池电解质,尽管这些材料都存在稳定性问题,阻碍它们被用于固态电池。这40种快、慢锂导电材料的混合物将作为机器学习算法的训练集,用于快速预测新材料中的锂导电行为。

然后我们从ICSD下载了这40种材料的原子结构。利用这些数据,我们根据结构中原子的位置、质量、电负性和原子半径,计算了20个表征每个晶体中局部原子排列和化学性质的特征。这些计算都是在MATLAB中进行的。我们选择的20个特征包括原子度量,如每个原子的体积、锂键离子性、锂邻居的数量和最小阴离子分离距离。根据我们的直觉或文献中以前的报告,我们认为这20个特征可能与离子导电性有关。我们发现,在将机器学习应用于如此小的数据集时,使用这样的“智能”特征,即基于先前存在的材料物理知识的特征是必不可少的。

选择机器学习模型

下一个问题是:这20个特征的哪一个组合最能预测训练数据?由于我们的训练集相对较小,只有40种材料和20种特性,再加上MATLAB在建模方面提供的轻松和灵活性,我们能够考虑超过1000万种可能的特征和模型组合。

统计学和机器学习工具箱™使探索这些众多模型变得容易,包括最小二乘回归、稳健回归、局部加权最小二乘、支持向量机、逻辑回归和多类分类。我们为每个要测试的机器学习算法训练一个模型,然后根据我们的训练数据验证算法的准确性。

没有一个单独使用原子特征训练的模型能够提供足够的离子电导率预测能力,但多特征模型提供了足够的预测能力。最终,我们确定了一个具有五个特征的最优逻辑回归模型,该模型能够对训练集材料进行分类,交叉验证误差仅为10%s、 由于logistic回归分类器往往在像我们这样的小训练集上表现良好。该logistic回归分类器将给出一个二元预测:这种材料是否具有足够的锂导电性,可以用作固体电解质材料?我们的训练模型准确地预测了10次中的9次。

然后我们将这个训练过的模型放在300多个剩余的候选材料上(图1)。

图1所示。由机器学习模型识别的候选人。

分类器使我们排除了93.3%的候选材料,从最初的12,831个候选材料中只剩下21个潜在的候选材料。一旦模型被训练,这个筛选步骤只需要几秒钟就能完成。总而言之,我们在筛选过程中淘汰了99.8%的候选人。

结果和下一步

为了测试预测的有效性,我们使用精确但缓慢的基于量子物理的模拟来模拟这些材料中的锂导电。[2]到目前为止,我们已经发现,当我们遵循基于机器学习模型的建议时,我们发现新的锂离子导电材料的速度是使用简单的试错方法的三倍。我们甚至通过给模型和一组斯坦福材料科学的博士生随机抽取相同的材料列表来测试这个模型与人类直觉的对抗。该模型在识别优良锂导体方面的准确性是学生的两倍,同时在不到千分之一的时间内做出预测。

我们的模型确定的一些候选材料是完全出乎意料的。这些材料的原子结构是如此复杂,以至于我们没有科学直觉来帮助我们确定这些材料是否具有足够的离子导电性。当结果证明它们确实像模型预测的那样有行为时,这有助于验证我们的直觉。现在,我们可以将我们所学到的内容整合到MATLAB机器学习模型的未来版本中,我们预计随着更多实验数据的报告,该模型将得到改进。我们发现的一种材料是如此令人兴奋,我们为它申请了专利,并立即找到了一个感兴趣的合作伙伴,授权该专利,并继续研究该材料。

我们继续进行一些这样的测试,无论是在斯坦福,还是与外部团体合作,他们正在对个人候选人材料进行研究。在不久的将来,这些候选材料中的一种可能被证明是固体电解质,它可以取代锂离子电池中的液体电解质,使爆炸电池组成为历史。

斯坦福大学是全球近1000所提供MATLAB和Simulink校园访问的大学之一。总学术人数(TAH)许可证、研究人员、教员和学生可以访问最新版本的通用产品配置,以便在教室、家中、实验室或现场的任何地方使用。下载188bet金宝搏金宝app

关于作者

Austin D. Sendek是斯坦福大学应用物理系的博士候选人,与材料科学与工程系的Evan Reed教授合作。他的研究兴趣包括基于机器学习和人工智能概念的新计算方法的开发和部署,以加速能源存储应用材料的设计。

2018年出版的

工具书类

  1. 阶数,公元对12000多种固态锂离子导体材料进行整体计算结构筛选。”能源环境。科学。(2016).doi: 10.1039 / C6EE02697D。https://pubs.rsc.org/en/content/articlehtml/2017/ee/c6ee02697d

  2. 阶数,公元机器学习辅助发现了许多新的固体锂离子电解质材料。”arXiv: 1808.02470(2018).https://arxiv.org/abs/1808.02470

查看相关行业的文章