卡索practicos

奥克兰理工大学和奥克兰大学的研究人员用机器学习分析乳制品加工数据

挑战

确保新西兰牛奶加工厂持续生产高品质奶粉

解决方案

使用MATLAB预处理和对齐来自多个工厂的数据,分析和可视化数据,并开发能够预测粉末功能特性的机器学习模型

结果

  • 发现并纠正了关键工艺缺陷
  • 多个机器学习分类器在数小时内评估
  • 易于处理的大型数据集;手工流程自动化

“与我们的行业合作伙伴坐下来,当他们看到我们使用MATLAB的效率以及我们分析和绘制数据的速度时,他们惊讶得目瞪口呆,这真是太棒了。我们的研究结果使他们能够证实他们缺乏证据的假设,并激发了流程改进的新想法。”

戴维·威尔逊,工业信息和控制中心
一个三维的PCA分析的植物过程变量横跨三个粉末加工厂和六年的数据。

一个三维的PCA分析的植物过程变量横跨三个粉末加工厂和六年的数据。分析表明,尽管生产相同规格的产品,但每个工厂存在于完全独立的操作空间中。下载188bet金宝搏


工业资讯及控制中心(I2C2)是奥克兰理工大学(AUT)和奥克兰大学的联合研究机构。它的建立是为了改善新西兰乳制品和其他出口行业的过程模拟和控制。

该研究所的工业合作伙伴之一是恒天然,该国最大的奶粉生产商。在最近的一个项目中,我2C2研究人员开发了机器学习模型,帮助恒天然优化产品质量和简化生产流程。

使用MATLAB®以及统计和机器学习工具箱™,研究人员分析了从新西兰各地的许多生产设施收集的数据,根据工艺条件预测奶粉的功能特性。

“MATLAB的广度是我们用于统计分析的其他环境所无法比拟的,”I2C2澳大利亚理工大学电气与电子工程系副教授。“使用MATLAB,我们可以在单一环境中处理大量信息,而不需要将大型数据集从一个工具移动到另一个工具。”

挑战

评价奶粉质量的标准是其化学成分,如脂肪和蛋白质含量,以及物理和功能特性,如堆积密度和溶解度。尽管现有的工业工艺对化学成分进行了相对良好的调节,但确保一致的功能特性已被证明更具挑战性。生产粉末的工厂在设计和年代上差别很大,通常使用的工艺设置也大不相同。因此,当一批粉末生产的质量不稳定时,确定哪里出了问题,以及什么时候出了问题。

部分由食品和药物管理局的质量设计和过程分析技术倡议,我2C2研究人员开始分析来自三个不同加工厂在六年时间内的数百万行时间序列数据(包括温度和其他记录的过程变量,以及物理和功能特性的测量值)。收集的原始数据是不一致的,没有很好地对齐。过程测量值和产品值之间没有共同的参考,记录错误和仪器故障有时会导致数据丢失,不同数据集的时间戳格式完全不同。

然而,研究小组需要使用这些数据来确定生产特定样品时工厂的运行条件。然后,他们需要确定哪些异常情况导致了奶粉质量的不同,并建议纠正这些情况的程序。理想情况下,这些修正必须在核电站运行时进行,而不是在相关实验室测试结果出来几小时或几天后进行。

解决方案

2C2使用MATLAB预处理和对齐来自牛奶加工厂的数据,分析和可视化数据,并开发能够预测奶粉功能特性的机器学习模型。

在MATLAB中工作,我2C2研究人员装载了从恒天然数据库中提取的过程数据。清理和对齐数据涉及到使用插值估计缺失数据的值,以及通过解释以多种格式生成的时间戳来对齐不同的数据集。

一旦团队有了一组干净的数据,他们就使用统计和机器学习工具箱,使用主成分分析(PCA)和偏最小二乘(PLS)回归进行统计分析。该团队用MATLAB 3D直方图、散点图和其他图形补充了多元分析,以可视化结果,并与恒天然工程师分享他们的发现。

继续在MATLAB中,I2C2该团队使用最小绝对收缩和选择算子(LASSO)方法实现了更先进的回归模型,并评估了各种机器学习分类器。

最初,分类器实现了不到50%的预测精度。这是因为当奶粉加工参数发生显著变化时,训练数据只包括少数记录的数据实例。虽然这样的实例数量很少,但它并不能为模型的建立提供足够的数据。为了纠正这个问题,团队对训练数据中的不合格样本进行了上采样,并对剩余的样本进行了下采样。

为了提高预测精度,他们使用重新采样的训练数据来评估其他分类器类型。通过Classification Learner应用程序,他们快速评估了20多个分类器,包括支持向量机、k-近邻和各种决策树,包括增强树和袋装决策树。金宝app他们最终发现,增强树的效果最好,预测准确率接近95%。

2C2研究人员目前正在将自动图像处理集成到他们的分析工作流中。利用图像处理工具箱™,该团队分析了数千张奶粉颗粒的照片,计算了颗粒大小、凹凸度、圆度和其他形状因素,并将这些指标与奶粉的功能特性相关联。

结果

  • 发现并纠正了关键工艺缺陷。“在我们合作伙伴的一家工厂,向奶粉中添加一种关键成分的工艺不时出现故障,工厂经理无法确定故障的原因,”I公司的项目经理尼克•德普里(Nick Depree)表示2C2奥克兰大学博士后研究员。“我们在MATLAB中进行的逐步分析使我们能够确定问题的原因,现在已经解决了。”
  • 多个机器学习分类器在数小时内评估。大卫说:“有了分类学习者应用程序,在一个下午的时间里,我们就可以尝试支持向量机和其他几种分类器类型,看看哪种最适合我们的数据。”金宝app“因为我们之前几乎没有机器学习的经验,否则我们可能要花几个月的时间。”
  • 易于处理的大型数据集;手工流程自动化。“我们过去用于多元分析的工具无法处理我们更大的数据集,但MATLAB在这方面没有任何问题,”德普里说。“同样,在微软也不可能手动创建我们与恒天然共享的报告®Excel®.借助MATLAB,我们自动化了这一过程,并从多个工厂和年份的数据中生成了数百张图表。”

下载188bet金宝搏产品使用

比较tu éxito

Únete al客户参考计划