主要内容

文档中的正确拼写

这个例子展示了如何使用Hunspell纠正文档中的拼写。

加载文本数据

创建一个标记化文档数组。

str = ["用MATLAB来修正单词的拼写"“拼写正确的单词对语法化很重要。”“文本分析工具箱提供拼写纠正功能。”];文件= tokenizedDocument (str)
documents = 3x1 tokenizedDocument: 8 token:使用MATLAB来纠正单词的拼写。8个标记:拼写正确的单词对语法化很重要。8令牌:文本分析工具箱提供了拼写纠正的功能。

正确的拼写

方法来更正文档的拼写用语函数。

updatedDocuments =用语(文档)
updatedDocuments = 3x1 tokenizedDocument: 9令牌:使用MAT LAB来纠正单词的拼写。8令牌:拼写正确的词对庄严仪式很重要。9令牌:文本分析工具箱提供拼写纠正功能。

注意:

  • 输入字“MATLAB”被分为“MAT”和“LAB”两个字。

  • 输入字“words”已更改为“words”。

  • 将输入词“lemmatization”改为“solemnization”。

  • 输入字“Analytics”已改为“Analytic”。

  • 输入单词“providesfunctions”被分为两个单词“provides”和“functions”。

指定自定义词

为了防止软件更新特定的单词,您可以使用“KnownWords”选择的用语函数。

再次纠正文档的拼写,并指定单词“MATLAB”、“Analytics”和“lemmatization”为已知单词。

updatedDocuments =用语(文档,“KnownWords”, (“MATLAB”“分析”“词元化”])
updatedDocuments = 3x1 tokenizedDocument: 8 token:使用MATLAB来纠正单词的拼写。8令牌:拼写正确的单词对语法化很重要。9令牌:文本分析工具箱提供拼写纠正功能。

注意,这里的单词“MATLAB”、“Analytics”和“lemmatization”保持不变。

另请参阅

|

相关的话题