数据清洁是修改数据以删除或更正准备分析的信息的过程。从业者中的共同信念是,80%的分析时间在此数据清洁阶段上花了。但为什么?
收集数据时,还有各种挑战来解决。数据集可能包含缺少的点或异常值,或者需要与其他数据集合并。工程和科学数据通常具有特定要求,例如管理高频时间戳,信号处理和数据标签。您需要做出关于如何处理这些数据清洁任务的决定。
这可能听起来很痛苦,但它不一定是。马铃薯®提供许多应用程序和功能,用于数据清洁任务,使这一阶段更快,更提供更多信息,因此您可以专注于您的分析和解决问题。例如,使用MATLAB:
- 使用Live Editor任务同步,平滑,删除或填充缺少的数据和异常值,以便以交互方式进行数据清洁方法(见下文)。
- 呼叫功能如
smoothdata.
和填充
,具有许多管理数据和方便功能提示的选项。 - 用例如信号分析仪,信号贴标器和信号贴标器快速执行特定于域的数据清洁需求图像贴标器应用程序,也将生成要自动执行这些步骤的代码。
数据争吵
也许你听到它称为“数据争吵”或“数据沟”,参考这些不同的数据清洁步骤来准备分析。考虑天气传感器系统的数据。传感器可能暂时失败,在此期间留下丢失的数据点或异常值。不同的传感器通常在不同的时间步骤中重新编码,因此数据集必须是同步和插值次数不匹配的地方。这些只是两个例子,但在考虑数据“清洁”之前可能有更多的步骤和决定。
常见的数据清洁任务包括:
- 填写或删除缺少的数据和异常值
- 平滑和扭转
- 识别异常值,ChangePoints和Extrema
- 加入多个数据集
- 基于时间的数据清洁,包括排序,转换和同步
- 分组和排放数据
数学算法用于解决这些挑战。例如,您可以使用最近的邻居或线性插值填充缺失的数据点。实时编辑任务和功能如填充
和smoothdata.
在MATLAB中,将帮助您探索常见的数据清洁方法,并立即查看结果以使这些决定更快。
机器和深度学习
在创建预测模型时,数据清洁通常有额外的步骤。考虑图像中的对象检测。在开发算法以对其进行分类之前,可能需要在图像中标记对象。然后,必须根据算法类型(机器学习,深度学习),可能使用更少的数据点或“特征”来适当组织数据,该数据点或“特征”,它代表对象。即使在训练模型后,您通常会评估特征重要性,可能重复使用不同的数据清洁步骤来改善分类的过程。
通常,数据通过这样的管道:
- 数据标签
- 一般数据清洁
- 功能选择
- 火车和测试预测模型
- 曲调和迭代以前的步骤
- 部署模型到生产
MATLAB在整个工作流程中提供应用程序和功能。你可以标签课程用于图像,信号,音频和视频。
基于您的域,数据类型和应用程序通常存在更具体的数据清洁需求。例如,统计和机器学习工具箱™那信号处理工具箱™那预测维护工具箱™那Text Analytics Toolbox™那计算机Vision Toolbox™, 和音频工具箱™所有包括用于这些格式和应用程序的数据清洁和争吵的功能和应用程序。
有关更多信息,请参阅以下资源。