主要内容

创建简单的预处理功能

这个例子展示了如何创建一个函数的清洗和预处理文本数据分析使用预处理文本数据住编辑任务。

文本数据可以大噪音,可以包含很多负面影响的统计分析。例如,文本数据可以包含以下:

  • 变化情况下,例如“新”和“新”

  • 词的变化形式,例如“走”和“行走”

  • 的话,添加噪声,例如“停止词”,如“的”和“的”

  • 标点符号和特殊字符

  • HTML和XML标记

这些词云说明词频分析应用于一些生从天气预报文本数据,和一个预处理相同版本的文本数据。

两个字云显示单词在不同的字体大小。更大的字体大小显示在数据更频繁的单词。这个词云左边的标题“原始数据”,强调标点符号和文字如“的”和“在”。“汇编”和“搅拌机”相对较小的字体大小。右边的词云标题“干净的数据”,强调“汇编”和“搅拌机”这样的词。“”和“”这个词没有出现在云。

大多数工作流需要预处理函数轻松地准备以同样的方式不同的文本数据的集合。例如,当你训练一个模型,您可以使用相同的函数来进行预处理的训练数据,新数据使用相同的步骤。

你可以交互地进行预处理文本数据使用预处理文本数据住编辑任务和可视化结果。下面的例子使用了预处理文本数据住编辑任务生成的代码进行预处理文本数据和创建了一个函数,您可以重用。现场编辑任务的更多信息,见交互式任务添加到脚本

首先,工厂报告数据加载。工厂的数据包含文本描述失败事件。

台= readtable (“factoryReports.csv”)

表变量“描述”、“类别”,“紧迫感”。“描述”变量包含文本的描述,如“项目偶尔陷入扫描仪卷”。“类别”变量包含分类标签如“机械故障”,和“紧迫性”变量包含分类标签如“媒介”。

打开预处理文本数据住编辑任务。打开任务,开始输入关键字进行预处理并选择预处理文本数据从建议命令完成。另外,在住编辑器选项卡上,选择任务>预处理文本数据

下拉列表中显示建议的命令完成。列表中的唯一的建议是预处理文本数据的任务,和被选中。

预处理文本使用这些选项:

  1. 选择资源描述作为输入数据,选择表变量描述

  2. 使用自动语言检测标记文本。

  3. 提高词元化,词性标记添加到标记的细节。

  4. 规范化的单词使用词元化。

  5. 删除少于3个字符的单词或超过14个字符。

  6. 删除停止的话。

  7. 删除标点符号。

  8. 显示预处理文本词云。

预处理文本数据的任务与编号字段对应的预处理选项highlighed红色矩形。图片突出显示了这些选项的顺序:“数据”,“语言”,“添加词性标记”,“正常化”,“最小字长”,“最大的字长”,“删除停用词”,“删除标点符号”,“云”这个词。

词云显示单词在不同的字体大小。更大的字体大小显示在数据更频繁的单词。云这个词突出了“汇编”和“搅拌机”这样的词。“”和“”这个词没有出现在云。

预处理文本数据住在生活脚本编辑任务生成代码。生成的代码反映了您选择的选项,包括代码生成显示。生成的代码,单击向下的箭头底部的任务参数区域。扩展的任务来显示生成的代码。

MATLAB代码生成的预处理文本数据的任务

默认情况下,生成的代码使用preprocessedText的名称输出变量返回给MATLAB®工作区。指定一个不同的输出变量名,在摘要中输入一个新的名字线顶部的任务。

第一个选项的预处理文本数据的任务

重用代码中相同的步骤,创建一个函数,输入数据和输出的文本预处理文本数据。可以包含函数的脚本或作为一个单独的文件。的preprocessTextData函数列的示例中,使用生成的代码预处理文本数据住编辑任务。

使用函数,指定的表作为输入preprocessTextData函数。

文件= preprocessTextData(台);

预处理功能

preprocessTextData函数使用生成的代码预处理文本数据住编辑任务。函数作为输入资源描述并返回文本预处理preprocessedText。函数执行这些步骤:

  1. 提取的文本数据描述变量的输入表。

  2. 在标记文本使用tokenizedDocument

  3. 添加词性使用细节addPartOfSpeechDetails

  4. Lemmatize使用的话normalizeWords

  5. 删除与2或更少的字符使用单词removeShortWords

  6. 删除与15个或更多字符使用单词removeLongWords

  7. 删除停止词(如“和”,“的”,和“的”)removeStopWords

  8. 删除标点符号使用erasePunctuation

函数preprocessedText = preprocessTextData(台)% %预处理文本preprocessedText = tbl.Description;%标记preprocessedText = tokenizedDocument (preprocessedText);%添加标记的细节preprocessedText = addPartOfSpeechDetails (preprocessedText);变化百分比和删除的话preprocessedText = normalizeWords (preprocessedText风格=“引理”);preprocessedText = removeShortWords (preprocessedText 2);preprocessedText = removeLongWords (preprocessedText 15);preprocessedText = removeStopWords (preprocessedText IgnoreCase = false);preprocessedText = erasePunctuation (preprocessedText);结束

例如显示更详细的工作流程,知道了在编辑器活预处理文本数据。文本分析的下一步,你可以试着创建一个分类模型或分析数据使用主题模型。有关示例,请参见创建简单的文本分类模型使用主题模型分析文本数据

另请参阅

|||||||

相关的话题