主要内容

创建扩展字典拼写校正

这个例子展示了如何创建一个Hunspell扩展字典拼写校正。

当使用用语函数,该函数可能会更新一些拼写正确的单词。提供一个已知的单词列表,您可以使用KnownWords选择直接与一个已知词的字符串数组。此外,您可以指定一个Hunspell扩展字典(也称为个人字典),指定列表的话说,禁止的话,和文字与词缀规则。

指定已知的单词

创建一个数组的标记化的文档。

str = [“使用MATLAB的正确拼写单词。”“正确拼写worrds lemmatizing很重要。”“文本分析工具箱providesfunctions拼写校正”。];文件= tokenizedDocument (str);

正确的拼写使用的文档用语函数。

updatedDocuments =用语(文档)
updatedDocuments = 3 x1 tokenizedDocument: 9令牌:用垫实验室正确拼写单词。8令牌:正当的拼写正确的单词是很重要的。9令牌:文本分析工具箱提供了拼写校正功能。

函数已经纠正单词的拼写“worrds”和“providesfunctions”,尽管它也更新了一些拼写正确的单词:

  • 输入单词“MATLAB”分为两个字“垫”和“实验室”。

  • 输入单词“lemmatizing”更改为“合法的”。

  • 输入单词“分析”改为“分析”。

创建一个Hunspell扩展字典包含已知的单词列表,创建一个.dic文件包含这些单词的每行一个单词。创建一个扩展字典的名字knownWords.dic文件包含单词“MATLAB”,“词元化”,“分析”。

MATLAB分析lemmatizing

正确的拼写字典文件,指定扩展knownWords.dic

updatedDocuments =用语(文档,“ExtensionDictionary”,“knownWords.dic”)
updatedDocuments = 3 x1 tokenizedDocument: 8令牌:使用MATLAB的正确拼写单词。8令牌:对lemmatizing正确拼写单词是重要的。9令牌:文本分析工具箱提供了拼写校正功能。

指定词缀规则

当指定多个单词相同的根词(例如,指定的单词“lemmatize”,“lemmatizer”、“lemmatized”,等等),它可以更容易表示一组词缀规则。而不是多次指定同一个词在不同的词缀,您可以指定特定的词继承词缀规则集。

例如,创建一个数组标记化的文档和使用用语函数。

str = [“lemmatizer减少单词字典形式。”“lemmatize单词,使用normalizeWords函数。”“lemmatizing之前,词性的细节添加到文本”。“显示lemmatized词词云。”];文件= tokenizedDocument (str);updatedDocuments =用语(文档)
updatedDocuments = 4 x1 tokenizedDocument: 9标记:一个合法的降低单词的字典形式。10令牌:正当的话说,使用单词功能正常化。12个标记:使合法化之前,词性的细节添加到文本。8令牌:显示法制化云词一个词。

注意“normalizeWords”这个词和“lemmatize”的变种不正确地得到更新。

创建一个扩展字典的名字knownWordsWithAffixes.dic文件包含单词“normalizeWords”和“lemmatize”。对于“lemmatize”这个词,也指定还包括有效的词缀“平衡”这个词的使用“/”的象征。

normalizeWords lemmatize /平衡

正确的拼写字典文件,指定扩展knownWordsWithAffixes.dic

updatedDocuments =用语(文档,“ExtensionDictionary”,“knownWordsWithAffixes.dic”)
updatedDocuments = 4 x1 tokenizedDocument: 9令牌:lemmatizer降低单词的字典形式。9令牌:lemmatize的话,使用normalizeWords函数。12个标记:lemmatizing之前,词性的细节添加到文本。8令牌:显示lemmatized云词一个词。

注意“lemmatize”的变异并没有改变。默认的字典包含了“平衡”一词,也认识到单词“均衡器”和“平衡的”通过“- r”和“- d”后缀,分别。通过指定条目“lemmatize /平衡”,软件识别出“lemmatize”这个词扩展以及其他单词的词缀对应“平衡”。例如,单词“lemmatizer”和“lemmatized”。

指定禁止的话

当使用用语函数,该函数可以输出不良的话,即使一个更理想的词在字典里。例如,输入单词“可行性”用语函数可以输出“法令”这个词。确保某些词没有出现在输出中,您可以指定禁止词汇扩展字典。

例如,创建一个数组标记化的文件和正确的使用扩展的拼写字典knownWords.dic。注意,这个字典包含“MATLAB”这个词。

str = [“使用MATLAB分析文本数据。”“递减的数量输入错误使用一个扩展字典。”];文件= tokenizedDocument (str);updatedDocuments =用语(文档,“ExtensionDictionary”,“knownWords.dic”)
updatedDocuments = 2 x1 tokenizedDocument: 6令牌:使用MATLAB分析文本数据。10个标记:法规的数量输入错误使用一个扩展字典。

尽管“减少”这个词在字典里,可能仍然选择句话说作为匹配的函数。在这种情况下,函数选择“法令”这个词。

创建一个扩展字典的名字knownWordsWithForbiddenWords.dic文件还包含“MATLAB”这个词和指定禁词“法令”使用“*”的象征。当指定禁止的话,您必须指定根词。例如,防止函数输出复数的“法令”,指定根词“法令”。

MATLAB *法令

正确的拼写使用扩展字典文件knownWordsWithForbiddenWords.dic

updatedDocuments =用语(文档,“ExtensionDictionary”,“knownWordsWithForbiddenWords.dic”)
updatedDocuments = 2 x1 tokenizedDocument: 6令牌:使用MATLAB分析文本数据。10个标记:减少拼写错误使用一个扩展字典。

这里,“可行性”一词是纠正“减少”。

另请参阅

|

相关的话题