用户故事

奥克兰科技大学和奥克兰大学的研究人员用机器学习分析乳制品加工数据

挑战

确保新西兰牛奶加工厂持续生产高质量奶粉

解决方案

使用MATLAB对来自多个工厂的数据进行预处理和对齐,对数据进行分析和可视化,开发能够预测粉末功能特性的机器学习模型

结果

  • 识别并纠正关键工艺缺陷
  • 多个机器学习分类器在小时评估
  • 易于处理的大型数据集;手工流程自动化

“与我们的行业合作伙伴坐下来,当他们看到我们使用MATLAB的生产率和我们分析和绘制数据的速度有多快时,看到他们惊讶得目瞪口呆,真是太棒了。我们的结果使他们能够确认他们缺乏证据的假设,并为流程改进激发了新的想法。”

大卫·威尔逊,工业信息和控制中心

对三家粉末加工厂和6年数据的工厂过程变量进行主成分分析的3D图。分析表明,尽管生产相同规格的产品,每个工厂都存在于一个完全独立的操作空间中。下载188bet金宝搏


工业信息与控制中心(I2C2)是奥克兰理工大学和奥克兰大学的联合研究机构。它的建立是为了改进新西兰乳制品和其他出口行业的过程模拟和控制。

该研究所的工业合作伙伴之一是中国最大的奶粉生产商恒天然(Fonterra)。在最近的一个项目中,我2C2研究人员开发了机器学习模型,帮助恒天然优化产品质量和简化生产流程。

使用MATLAB®和Statistics and Machine Learning Toolbox™,研究人员分析了从新西兰多个生产设施收集的数据,以基于工艺条件预测奶粉的功能特性。

“MATLAB的广度是我们用于统计分析的其他环境所无法比拟的,”I2C2也是奥克兰理工大学电气与电子工程系副教授。“有了MATLAB,我们可以在单一环境中处理大量信息,而不需要将大量数据集从一个工具移动到另一个工具。”

挑战

奶粉的质量是通过其化学成分,如脂肪和蛋白质含量,以及物理和功能特性,如堆积密度和溶解度等来评估的。虽然化学成分已被现有的工业过程较好地调节,但确保功能特性的一致性已被证明是更具挑战性的。生产粉末的工厂在设计和年代上差别很大,通常使用的工艺设置也大不相同。因此,当生产一批质量参差不齐的粉末时,要确定哪里出了问题,以及何时可能出现问题。

在食品和药物管理局的质量由设计和过程分析技术倡议的部分推动下,我2C2研究人员开始分析来自三家不同加工厂的数百万行时间序列数据(包括温度和其他记录的过程变量,以及物理和功能特性的测量值),时间跨度为6年。从收集到的数据来看,原始数据是不一致的,也没有很好地对齐。在过程测量和产品值之间没有共同的参考,记录错误和仪器故障有时会导致数据丢失,不同数据集的时间戳以不同的格式。

然而,研究小组需要利用这些数据来确定生产特定样品时工厂的运行条件。然后,他们需要确定哪些异常条件导致了奶粉质量的不同,并建议纠正这些条件的程序。理想情况下,这些修正必须在核电站运行时进行,而不是在相关实验室测试结果出来后数小时或数天后进行。

解决方案

2C2利用MATLAB对来自牛奶加工厂的数据进行预处理和对齐,并对数据进行分析和可视化,开发出能够预测奶粉功能特性的机器学习模型。

在MATLAB中工作,I2C2研究人员加载了从恒天然数据库中提取的过程数据。清理和校准数据涉及使用插值估计缺失数据的值,并通过解释以多种格式生成的时间戳来校准不同的数据集。

一旦团队有了一组干净的数据,他们就使用统计学和机器学习工具箱进行统计分析,使用主成分分析(PCA)和偏最小二乘(PLS)回归。该团队使用MATLAB 3D直方图、散点图和其他图表对多元分析进行了补充,以可视化结果,并与恒天然工程师分享他们的发现。

继续在MATLAB中,I2C2团队使用最小绝对收缩和选择算子(LASSO)方法实现了更高级的回归模型,并评估了各种机器学习分类器。

最初,分类器的预测准确率小于50%。这是因为培训数据只包括了当奶粉加工参数显著变化时记录的少数数据实例。虽然少量的这样的实例使操作人员满意,但它不能为模型构建提供足够的数据。为了纠正这个问题,团队向上采样了训练数据中的不合格样本,向下采样了剩余的样本。

为了提高预测的准确性,他们使用重新采样的训练数据来评估其他分类器类型。通过Classification Learner应用程序,他们快速评估了20多个分类器,包括支持向量机、k近邻和各种决策树,包括推进树和袋装决策树。金宝app他们最终发现,提高树木的效果最好,预测准确率接近95%。

2C2研究人员目前正在将自动图像处理集成到他们的分析工作流中。利用图像处理工具箱™,该团队分析了数千张奶粉颗粒的照片,计算了颗粒大小、凹凸度、圆度和其他形状因素,并将这些指标与奶粉的功能特性关联起来。

结果

  • 识别并纠正关键工艺缺陷。“在我们合作伙伴的一家工厂,为奶粉添加一种关键成分而设计的工艺不时出现故障,工厂经理无法确定故障的原因,”I2C2奥克兰大学博士后研究员。“我们在MATLAB中进行的逐步分析使我们能够确定问题的原因,现在问题已经解决了。”
  • 多个机器学习分类器在小时评估。“有了分类学习者应用程序,我们在一个下午就能尝试支持向量机和其他几种分类器类型,看看哪种类型最适合我们的数据,”大卫说。金宝app“因为我们之前在机器学习方面没有什么经验,否则可能要花上几个月的时间。”
  • 易于处理的大型数据集;手工流程自动化。Depree说:“过去我们用于多变量分析的工具无法处理更大的数据集,但MATLAB在这方面没有问题。”“同样,我们不可能在微软手工创建我们与恒天然分享的报告®Excel®.通过MATLAB,我们自动化了这个过程,并从多个工厂和年份的数据中生成了数百张图表。”

下载188bet金宝搏产品使用

展示你的成功

加入客户参考计划