数据清理

探索流行的数据清洗方法和迭代迅速关注分析

数据清洗过程中修改数据删除或正确的信息为分析做准备。在从业者都有一个共同的认识,80%的时间花在分析数据清理阶段。但是为什么呢?

收集数据时,经常有各种挑战。数据集可能包含缺失点或离群值,或与其他数据集需要被合并。工程和科学数据通常有特定的要求,如管理高频时间戳,信号处理和数据标签。你需要决定如何处理这些数据清理任务。

这听起来痛苦,但它没有。MATLAB®提供了许多应用程序和功能数据清理任务使这一阶段更快和更丰富,这样你就可以专注于你的分析和解决问题的能力。例如,使用MATLAB来:

  • 同步、光滑、删除或填补缺失数据和异常值与现场编辑任务交互实验数据清理方法(见下文)。
  • 电话等功能smoothdatafillmissing,许多选项来管理数据和方便的功能提示。
  • 快速执行特定于域的数据清洗需求,例如,信号分析仪、信号贴标签机,图片标志应用程序,这也会生成代码自动化这些步骤。

使用MATLAB现场编辑任务探索方法平滑数据。

数据争吵

也许你听说过它称为“数据争论”或“数据绿豆”指的是这些不同的数据清洗步骤为分析做准备。考虑一个天气系统传感器的数据。传感器可以暂时失败,离开缺失的数据点或离群值。不同的传感器通常记录在不同的步伐,所以必须的数据集同步和插值《纽约时报》不匹配的地方。这只是两个例子,但可能有更多的步骤和决策在考虑数据之前“干净”。

常见的数据清理任务包括:

  • 填充或删除丢失数据和异常值
  • 平滑,消除长期趋势
  • 识别异常值,changepoints和极值
  • 加入多个数据集
  • 基于时间的数据清洗,包括排序、转移和同步
  • 分组和装箱数据

数学算法用于解决这些挑战。例如,您可以填补缺失数据点与最近邻或线性插值。编辑的任务和功能如生活fillmissingsmoothdata在MATLAB将帮助你探索共同的数据清洗方法和立即看到结果做出这些决策更快。

使用MATLAB数据清理功能提示和探索选项(例如,干净fillmissing功能提示探索常见的填充方法如线性插值)。看到下面的例子更多缺失的数据,平滑数据和处理异常数据。

机和深度学习

经常有额外的步骤创建预测模型在数据清理。考虑对象检测图像。对象可能需要标记在开发前的图像分类算法。则必须将数据组织适当地根据算法的类型(机器学习,深度学习),可以使用较少的数据点,或“特点”,代表对象。即使培训一个模型,你经常评估功能的重要性,可能重复过程与不同的数据清洗步骤来改善分类。

一般来说,这样的数据经过管道:

  • 数据标签
  • 通用数据清洗
  • 特征选择
  • 训练和测试的预测模型
  • 调优和重复前面的步骤
  • 将模式部署到生产

MATLAB提供了应用程序和函数在整个工作流程。你可以标签类图像、信号、音频和视频。

使用图片标志应用程序选择和标签对象在一个框架和自动标签集合中的其余的帧。

经常有更具体的数据清洗需求,基于你的领域,类型的数据和应用程序。例如,统计和机器学习的工具箱™,信号处理工具箱™,预见性维护工具箱™,文本分析工具箱™,计算机视觉工具箱™,音频工具箱™包括所有功能和应用程序特定的数据清洗和争论这些格式和应用程序。

有关更多信息,请参见下面的参考资料。

参见:数据科学,机器学习,深度学习,特征选择,特征提取,图像处理,信号处理,自然语言处理,文本分析