创建扩展字典拼写校正
这个例子展示了如何创建一个Hunspell扩展字典拼写校正。
当使用用语
函数,该函数可能会更新一些拼写正确的单词。提供一个已知的单词列表,您可以使用KnownWords选择直接与一个已知词的字符串数组。此外,您可以指定一个Hunspell扩展字典(也称为个人字典),指定列表的话说,禁止的话,和文字与词缀规则。
指定已知的单词
创建一个数组的标记化的文档。
str = [“使用MATLAB的正确拼写单词。”“正确拼写worrds lemmatizing很重要。”“文本分析工具箱providesfunctions拼写校正”。];文件= tokenizedDocument (str);
正确的拼写使用的文档用语
函数。
updatedDocuments =用语(文档)
updatedDocuments = 3 x1 tokenizedDocument: 9令牌:用垫实验室正确拼写单词。8令牌:正当的拼写正确的单词是很重要的。9令牌:文本分析工具箱提供了拼写校正功能。
函数已经纠正单词的拼写“worrds”和“providesfunctions”,尽管它也更新了一些拼写正确的单词:
输入单词“MATLAB”分为两个字“垫”和“实验室”。
输入单词“lemmatizing”更改为“合法的”。
输入单词“分析”改为“分析”。
创建一个Hunspell扩展字典包含已知的单词列表,创建一个.dic
文件包含这些单词的每行一个单词。创建一个扩展字典的名字knownWords.dic
文件包含单词“MATLAB”,“词元化”,“分析”。
MATLAB分析lemmatizing
正确的拼写字典文件,指定扩展knownWords.dic
。
updatedDocuments =用语(文档,“ExtensionDictionary”,“knownWords.dic”)
updatedDocuments = 3 x1 tokenizedDocument: 8令牌:使用MATLAB的正确拼写单词。8令牌:对lemmatizing正确拼写单词是重要的。9令牌:文本分析工具箱提供了拼写校正功能。
指定词缀规则
当指定多个单词相同的根词(例如,指定的单词“lemmatize”,“lemmatizer”、“lemmatized”,等等),它可以更容易表示一组词缀规则。而不是多次指定同一个词在不同的词缀,您可以指定特定的词继承词缀规则集。
例如,创建一个数组标记化的文档和使用用语
函数。
str = [“lemmatizer减少单词字典形式。”“lemmatize单词,使用normalizeWords函数。”“lemmatizing之前,词性的细节添加到文本”。“显示lemmatized词词云。”];文件= tokenizedDocument (str);updatedDocuments =用语(文档)
updatedDocuments = 4 x1 tokenizedDocument: 9标记:一个合法的降低单词的字典形式。10令牌:正当的话说,使用单词功能正常化。12个标记:使合法化之前,词性的细节添加到文本。8令牌:显示法制化云词一个词。
注意“normalizeWords”这个词和“lemmatize”的变种不正确地得到更新。
创建一个扩展字典的名字knownWordsWithAffixes.dic
文件包含单词“normalizeWords”和“lemmatize”。对于“lemmatize”这个词,也指定还包括有效的词缀“平衡”这个词的使用“/”
的象征。
normalizeWords lemmatize /平衡
正确的拼写字典文件,指定扩展knownWordsWithAffixes.dic
。
updatedDocuments =用语(文档,“ExtensionDictionary”,“knownWordsWithAffixes.dic”)
updatedDocuments = 4 x1 tokenizedDocument: 9令牌:lemmatizer降低单词的字典形式。9令牌:lemmatize的话,使用normalizeWords函数。12个标记:lemmatizing之前,词性的细节添加到文本。8令牌:显示lemmatized云词一个词。
注意“lemmatize”的变异并没有改变。默认的字典包含了“平衡”一词,也认识到单词“均衡器”和“平衡的”通过“- r”和“- d”后缀,分别。通过指定条目“lemmatize /平衡”,软件识别出“lemmatize”这个词扩展以及其他单词的词缀对应“平衡”。例如,单词“lemmatizer”和“lemmatized”。
指定禁止的话
当使用用语
函数,该函数可以输出不良的话,即使一个更理想的词在字典里。例如,输入单词“可行性”用语
函数可以输出“法令”这个词。确保某些词没有出现在输出中,您可以指定禁止词汇扩展字典。
例如,创建一个数组标记化的文件和正确的使用扩展的拼写字典knownWords.dic
。注意,这个字典包含“MATLAB”这个词。
str = [“使用MATLAB分析文本数据。”“递减的数量输入错误使用一个扩展字典。”];文件= tokenizedDocument (str);updatedDocuments =用语(文档,“ExtensionDictionary”,“knownWords.dic”)
updatedDocuments = 2 x1 tokenizedDocument: 6令牌:使用MATLAB分析文本数据。10个标记:法规的数量输入错误使用一个扩展字典。
尽管“减少”这个词在字典里,可能仍然选择句话说作为匹配的函数。在这种情况下,函数选择“法令”这个词。
创建一个扩展字典的名字knownWordsWithForbiddenWords.dic
文件还包含“MATLAB”这个词和指定禁词“法令”使用“*”
的象征。当指定禁止的话,您必须指定根词。例如,防止函数输出复数的“法令”,指定根词“法令”。
MATLAB *法令
正确的拼写使用扩展字典文件knownWordsWithForbiddenWords.dic
。
updatedDocuments =用语(文档,“ExtensionDictionary”,“knownWordsWithForbiddenWords.dic”)
updatedDocuments = 2 x1 tokenizedDocument: 6令牌:使用MATLAB分析文本数据。10个标记:减少拼写错误使用一个扩展字典。
这里,“可行性”一词是纠正“减少”。