主要内容

创建简单的预处理函数

这个例子展示了如何创建一个函数来清理和预处理文本数据以供分析。

文本数据可能很大,并且可能包含大量噪声,这会对统计分析产生负面影响。例如,文本数据可以包含以下内容:

  • 大小写的变化,例如"new"和"new"

  • 单词形式的变化,例如“walk”和“walking”

  • 添加杂音的单词,例如"the"和"of"等"停顿词"

  • 标点符号和特殊字符

  • HTML和XML标记

这些词云说明了应用于天气报告中的一些原始文本数据的词频分析,以及相同文本数据的预处理版本。

创建预处理函数很有用,这样就可以以相同的方式准备不同的文本数据集合。例如,在训练模型时,可以使用函数,以便使用与训练数据相同的步骤对新数据进行预处理。

这个函数preprocessTextData,在示例末尾列出,执行以下步骤:

  1. 使用标记化文本tokenizedDocument

  2. 使用词汇normalizeWords

  3. 使用删除标点符号erasePunctuation

  4. 删除使用停止词的列表(如“and”,“of”和“the”)removeStopWords

  5. 删除使用2个或更少字符的单词removeShortWords

  6. 删除使用15个或更多字符的单词removeLongWords

要使用该函数,只需将文本数据输入preprocessTextData

textData = [“一棵大树倒下了,阻碍了苹果山外的交通。”“停车场里很多汽车的挡风玻璃都被损坏了。”];documents = preprocessTextData(textData)
文件= 2x1 tokenizedDocument: 8代币:大树倒在苹果山外阻塞交通7代币:大量损坏许多汽车挡风玻璃停车场

预处理功能

函数documents = preprocessTextData(textData)标记文本。documents = tokenizedDocument(textData);把这些词简化。为了改善词根化,首先使用% addPartOfSpeechDetails。文档= addPartOfSpeechDetails(文档);文档= normalizeWords(文档,“风格”“引理”);删除标点符号。documents = eraspunctuation(文档);删除一个停止词列表。documents = removeStopWords(文档);删除2个或更少字符的单词,以及15个或更多字符的单词%字符。文档= removeShortWords(文档,2);documents = removeLongWords(documents,15);结束

有关显示更详细工作流的示例,请参见为分析准备文本数据

对于文本分析的下一步,您可以尝试创建分类模型或使用主题模型分析数据。有关示例,请参见创建简单的文本分类模型而且使用主题模型分析文本数据

另请参阅

||||||

相关的话题