创建简单的预处理功能
这个例子展示了如何创建一个函数的清洗和预处理文本数据分析使用预处理文本数据住编辑任务。
文本数据可以大噪音,可以包含很多负面影响的统计分析。例如,文本数据可以包含以下:
变化情况下,例如“新”和“新”
词的变化形式,例如“走”和“行走”
的话,添加噪声,例如“停止词”,如“的”和“的”
标点符号和特殊字符
HTML和XML标记
这些词云说明词频分析应用于一些生从天气预报文本数据,和一个预处理相同版本的文本数据。
大多数工作流需要预处理函数轻松地准备以同样的方式不同的文本数据的集合。例如,当你训练一个模型,您可以使用相同的函数来进行预处理的训练数据,新数据使用相同的步骤。
你可以交互地进行预处理文本数据使用预处理文本数据住编辑任务和可视化结果。下面的例子使用了预处理文本数据住编辑任务生成的代码进行预处理文本数据和创建了一个函数,您可以重用。现场编辑任务的更多信息,见交互式任务添加到脚本。
首先,工厂报告数据加载。工厂的数据包含文本描述失败事件。
台= readtable (“factoryReports.csv”)
打开预处理文本数据住编辑任务。打开任务,开始输入关键字进行预处理
并选择预处理文本数据从建议命令完成。另外,在住编辑器选项卡上,选择任务>预处理文本数据。
预处理文本使用这些选项:
选择
资源描述
作为输入数据,选择表变量描述
。使用自动语言检测标记文本。
提高词元化,词性标记添加到标记的细节。
规范化的单词使用词元化。
删除少于3个字符的单词或超过14个字符。
删除停止的话。
删除标点符号。
显示预处理文本词云。
的预处理文本数据住在生活脚本编辑任务生成代码。生成的代码反映了您选择的选项,包括代码生成显示。生成的代码,单击底部的任务参数区域。扩展的任务来显示生成的代码。
默认情况下,生成的代码使用preprocessedText
的名称输出变量返回给MATLAB®工作区。指定一个不同的输出变量名,在摘要中输入一个新的名字线顶部的任务。
重用代码中相同的步骤,创建一个函数,输入数据和输出的文本预处理文本数据。可以包含函数的脚本或作为一个单独的文件。的preprocessTextData
函数列的示例中,使用生成的代码预处理文本数据住编辑任务。
使用函数,指定的表作为输入preprocessTextData
函数。
文件= preprocessTextData(台);
预处理功能
的preprocessTextData
函数使用生成的代码预处理文本数据住编辑任务。函数作为输入资源描述
并返回文本预处理preprocessedText
。函数执行这些步骤:
提取的文本数据
描述
变量的输入表。在标记文本使用
tokenizedDocument
。添加词性使用细节
addPartOfSpeechDetails
。Lemmatize使用的话
normalizeWords
。删除与2或更少的字符使用单词
removeShortWords
。删除与15个或更多字符使用单词
removeLongWords
。删除停止词(如“和”,“的”,和“的”)
removeStopWords
。删除标点符号使用
erasePunctuation
。
函数preprocessedText = preprocessTextData(台)% %预处理文本preprocessedText = tbl.Description;%标记preprocessedText = tokenizedDocument (preprocessedText);%添加标记的细节preprocessedText = addPartOfSpeechDetails (preprocessedText);变化百分比和删除的话preprocessedText = normalizeWords (preprocessedText风格=“引理”);preprocessedText = removeShortWords (preprocessedText 2);preprocessedText = removeLongWords (preprocessedText 15);preprocessedText = removeStopWords (preprocessedText IgnoreCase = false);preprocessedText = erasePunctuation (preprocessedText);结束
例如显示更详细的工作流程,知道了在编辑器活预处理文本数据。文本分析的下一步,你可以试着创建一个分类模型或分析数据使用主题模型。有关示例,请参见创建简单的文本分类模型和使用主题模型分析文本数据。
另请参阅
预处理文本数据|tokenizedDocument
|erasePunctuation
|removeStopWords
|removeShortWords
|removeLongWords
|normalizeWords
|addPartOfSpeechDetails