一世2C2使用MATLAB进行预处理并对齐来自牛奶加工厂的数据,分析和可视化数据,以及开发能够预测牛奶粉功能性能的机器学习模型。
在Matlab工作,我2C2研究人员从恒天然的数据库中提取工艺数据。清理和对齐数据涉及使用插值估计缺失数据的值,并通过解释以多种格式生成的时间戳来对齐不同的数据集。
一旦团队有了一组干净的数据,他们使用统计学和机器学习工具箱来执行统计分析,使用主成分分析(PCA)和偏最小二乘(PLS)回归。该团队用MATLAB 3D直方图、散点图和其他图形补充了多元分析,以可视化结果,并与恒天然的工程师分享他们的发现。
继续在matlab,我2C2团队使用最低的绝对收缩和选择操作员(套索)方法实现了更高级的回归模型,并评估了各种机器学习分类器。
最初,分类器的预测准确率不到50%。这是因为训练数据只包括奶粉加工参数显著变化时记录的少数数据实例。虽然这样的实例数量很少,但它不能为模型构建提供足够的数据。为了纠正这个问题,团队对训练数据中的不合格样本进行了上采样,对剩余样本进行了下采样。
为了提高预测准确性,他们使用重采样的训练数据来评估其他分类器类型。通过分类学习者应用程序,他们迅速评估了20多分类器,包括支持向量机,K-CORMOLT邻居以及各种决策树,包括促进树木和袋装决策树。金宝app他们最终发现增强树木最佳地工作,预测精度差约95%。
一世2C2研究人员目前将自动图像处理集成到他们的分析工作流程中。使用图像处理工具箱™,该团队分析了数千张奶粉颗粒的照片,计算粒度,凸性,圆形度和其他形状因子,并将这些度量与粉末的功能性质相关联。