主要内容

创建简单的预处理功能

这个例子展示了如何创建一个函数来清理和预处理文本数据以进行分析。

文本数据可能很大,并且可能包含大量的噪声,这对统计分析有负面影响。例如,文本数据可以包含以下内容:

  • case的变体,例如"new"和"new"

  • 单词形式的变化,例如“walk”和“walking”

  • 带有噪声的词,例如“停止词”,例如“the”和“of”

  • 标点符号和特殊字符

  • HTML和XML标签

这些词云说明了对天气报告的一些原始文本数据应用的词频分析,以及对相同文本数据的预处理版本。

创建预处理函数可能很有用,这样您就可以以相同的方式准备不同的文本数据集合。例如,在训练模型时,您可以使用一个函数,以便使用与训练数据相同的步骤对新数据进行预处理。

这个函数preprocessTextData,执行以下步骤:

  1. 使用标记文本tokenizedDocument

  2. 使使用的词义化normalizeWords

  3. 删除标点符号使用erasePunctuation

  4. 删除使用停止词的列表(如“and”,“of”和“the”)removeStopWords

  5. 删除使用2个或更少字符的单词removeShortWords

  6. 删除超过15个字符的单词removeLongWords

要使用该函数,只需将文本数据输入到preprocessTextData

textData = [“一棵大树倒下,阻碍了苹果山外的交通。”“停车场里很多汽车的挡风玻璃都被损坏了。”];文件= preprocessTextData (textData)
文件= 2x1 tokenizedDocument: 8代币:大树倒下街区交通在苹果山外7代币:lot损坏许多汽车挡风玻璃停车场

预处理功能

函数文件= preprocessTextData (textData)标记文本。文件= tokenizedDocument (textData);将单词义化。要改善导词化,首先使用% addPartOfSpeechDetails。= addPartOfSpeechDetails文件(文档);文档= normalizeWords(文档,“风格”“引理”);%擦掉标点符号。= erasePunctuation文件(文档);删除一个停止词列表。= removeStopWords文件(文档);%删除2个或更少字符的单词,以及15个或更多字符的单词%字符。文件= removeShortWords(文件,2);= removeLongWords文档(文档、15);结束

有关显示更详细工作流的示例,请参见准备文本数据进行分析

对于文本分析的下一步,您可以尝试创建分类模型或使用主题模型分析数据。有关示例,请参见为分类创建简单的文本模型使用主题模型分析文本数据

另请参阅

||||||

相关的话题