这个例子展示了如何使用Hunspell纠正文档中的拼写。
创建一个标记化文档数组。
str = ["用MATLAB来修正单词的拼写"“拼写正确的单词对语法化很重要。”“文本分析工具箱提供拼写纠正功能。”];文件= tokenizedDocument (str)
documents = 3x1 tokenizedDocument: 8 token:使用MATLAB来纠正单词的拼写。8个标记:拼写正确的单词对语法化很重要。8令牌:文本分析工具箱提供了拼写纠正的功能。
方法来更正文档的拼写用语
函数。
updatedDocuments =用语(文档)
updatedDocuments = 3x1 tokenizedDocument: 9令牌:使用MAT LAB来纠正单词的拼写。8令牌:拼写正确的词对庄严仪式很重要。9令牌:文本分析工具箱提供拼写纠正功能。
注意:
输入字“MATLAB”被分为“MAT”和“LAB”两个字。
输入字“words”已更改为“words”。
将输入词“lemmatization”改为“solemnization”。
输入字“Analytics”已改为“Analytic”。
输入单词“providesfunctions”被分为两个单词“provides”和“functions”。
为了防止软件更新特定的单词,您可以使用“KnownWords”
选择的用语
函数。
再次纠正文档的拼写,并指定单词“MATLAB”、“Analytics”和“lemmatization”为已知单词。
updatedDocuments =用语(文档,“KnownWords”, (“MATLAB”“分析”“词元化”])
updatedDocuments = 3x1 tokenizedDocument: 8 token:使用MATLAB来纠正单词的拼写。8令牌:拼写正确的单词对语法化很重要。9令牌:文本分析工具箱提供拼写纠正功能。
注意,这里的单词“MATLAB”、“Analytics”和“lemmatization”保持不变。