主要内容

用语

单词的正确拼写

描述

使用用语纠正字符串数组或文档中单词的拼写。

该函数支持英语、德语和韩语金宝app文本。

例子

updatedDocuments=用语(文档纠正单词的拼写tokenizedDocument数组文档

例子

updatedWords=用语(单词纠正单词的拼写字符串向量单词

updatedWords=用语(单词“语言”,语言也指定语言的单词在字符串向量单词

___unknownWords用语]= (___还返回输入中没有在字典中找到且没有找到任何建议的单词向量。

例子

___=用语(___名称,值使用一个或多个名称-值对参数指定其他选项。

例子

全部折叠

创建标记化的文档数组。

str = [“一份包含一些拼错单词的文件。”“又一份有拼写错误的文件。”];文件= tokenizedDocument (str);

使用。修改文档中单词的拼写用语函数。

updatedDocuments =用语(文档)
updatedDocuments = 2x1 tokenizedDocument: 7 tokens:包含一些拼写错误单词的文档。5记号:另一份包含打字错误的文件。

创建一个字串数组。

话说= [“一个”“strng”“数组”“包含”“拼写错误”“worrds”“。”];

属性来纠正字符串数组中单词的拼写用语函数。

用语updatedWords =(单词)
updatedWords =1 x7字符串第1列到第6列“A”“字符串”“数组”“包含”“拼写错误”“单词”“第7列”。

创建标记化的文档数组。

str = [“使用MATLAB分析文本数据。”“又一份有拼写错误的文件。”];文件= tokenizedDocument (str);

使用。修改文档中单词的拼写用语函数。

updatedDocuments =用语(文档)
updatedDocuments = 2x1 tokenizedDocument: 7 token:使用MAT LAB分析文本数据。5记号:另一份包含打字错误的文件。

注意,单词“MATLAB”被分成两个单词“MAT”和“LAB”。

修改文档的拼写,并指定“MATLAB”为已知单词“KnownWords”选择。

updatedDocuments =用语(文档,“KnownWords”“MATLAB”
updatedDocuments = 2x1 tokenizedDocument: 6 tokens:使用MATLAB分析文本数据。5记号:另一份包含打字错误的文件。

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

输入字,指定为字符串向量、字符向量或字符向量的单元格数组。如果您指定单词作为字符向量,函数将参数视为单个单词。

数据类型:字符串|字符|细胞

文字语言,指定为下列语言之一:

  • “en”- - - - - -英语

  • “德”——德国语言

  • “柯”——韩国语言

如果您没有指定语言,软件会自动检测语言。

数据类型:字符|字符串

名称-值对的观点

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:用语(文档、“KnownWords”(“MathWorks”“MATLAB”))纠正单词的拼写文档并将“MathWorks”和“MATLAB”视为拼写正确的单词。

要被视为正确的单词,指定为逗号分隔对,由“KnownWords”以及字符向量的字符串数组或单元格数组。

如果指定了一个已知单词的列表,那么当函数纠正拼写时,这些单词将保持不变。该软件还可以用已知单词列表中的单词替换拼写错误的单词。

例子:[" MathWorks”“MATLAB”)

数据类型:字符|字符串|细胞

Hunspell扩展字典文件(也称为个人字典文件),指定为逗号分隔对组成“ExtensionDictionary”Hunspell扩展名字典文件路径。

一个Hunspell扩展字典文件是.dic包含字典中的单词数的文件,后面跟着下列格式的单词列表:

/ affixWord1 word1 word2 / affixWord2……wordN/affixWordN *forbiddenWord1 *forbiddenWord2…* forbiddenWordM
地点:

  • word1word2、……wordN是扩展Hunspell词典的单词列表。

  • affixWord1affixWord2、……affixWordN(可选的)指出在Hunspell字典中共享词缀的单词。通过用斜线将词缀与相应的单词连接来表示词缀(/).例如,条目exxxtreme /极端表示应用于该词的词缀“极端”也适用于习惯词“exxxtreme”

  • forbiddenWord1forbiddenWord2、……forbiddenWordN是一份禁止用于拼写纠正的单词列表。用星号表示禁止使用的词语().

Hunspell扩展字典文件中的条目可以以任何顺序出现。

例如,要创建一个Hunspell扩展名字典文件,指定:

  • 这句话“MathWorks”“MATLAB”,“exxxtreme”

  • 词缀应用于这个词的词缀“极端”也适用于这个词“exxxtreme”

  • 这个词“MATLOB”是一个禁忌词。

使用:

MathWorks MATLAB exxxtreme/extreme *MATLOB

有关如何创建Hunspell扩展名字典文件的示例,请参见创建用于拼写校正的扩展字典.有关Hunspell字典文件选项的详细信息,请参见https://manpages.ubuntu.com/manpages/trusty/en/man4/hunspell.4.html

数据类型:字符|字符串

Hunspell字典文件,指定为逗号分隔对,由“字典”Hunspell字典文件路径。

一个Hunspell字典文件是.dic包含字典中的单词数的文件,后面跟着下列格式的单词列表:

N word1/flags1 word2/flags2…wordN / flagsN

在哪里N为字典文件中的单词数,word1word2、……wordNN字典里的单词,还有flags1、……flagsN指定与单词对应的可选标志word1word2、……wordN,分别。使用标记来指定单词属性,例如词缀。要指定Hunspell后缀文件,请使用“词缀”选择。

例如,创建包含4个单词的Hunspell字典文件“MathWorks”“MATLAB”“用语”,“tokenizedDocument”使用:

4 MathWorks MATLAB correctSpelling tokenizedDocument

有关Hunspell字典文件选项的详细信息,请参见https://manpages.ubuntu.com/manpages/trusty/en/man4/hunspell.4.html

数据类型:字符|字符串

Hunspell后缀文件,指定为逗号分隔对,由“词缀”Hunspell后缀文件的文件路径。

一个Hunspell后缀文件是一个.aff包含字典中的单词数的文件,后面跟着下列格式的单词列表:

选项1 values1选项2 values2…optionM valuesM

在哪里是后缀文件中选项的数量,option1option2、……optionM选择,values1、……valuesN指定与选项对应的值option1option2、……optionM,分别。使用这些选项来指定词缀。

前缀

要定义前缀规则,请使用可以选项与格式:

PFX flag stripping1 prefix1 condition1…PFX flag strippingK prefixK conditionK
的价值观:

  • 国旗对应于Hunspell字典文件中使用的标志。

  • crossProduct表示前缀和后缀是否可以混合,指定为YN

  • K为指定标志定义的前缀数量。

  • stripping1stripping2、……strippingK当应用前缀时,指示要从单词中删除的字符。若剥离值为0,则不剥离。

  • prefix1prefix2、……prefixK指定要使用的前缀。

  • condition1condition2、……conditionK指定应用前缀的可选条件prefix1prefix2、……prefixK,分别。对于琐碎的条件,指定“。”

后缀

要定义后缀规则,请使用自解压选项与格式:

SFX flag stripping1 suffi1 condition1…SFX flag strippingK suffixK conditionK
在哪里suffix1suffix2、……suffixK指定要使用的前缀、标志、叉乘、K、剥离值和条件值与前缀格式相同。

例子

创建一个Hunspell词缀文件,定义以下词缀规则:

  • 国旗:

    • 前缀词与“重新”

  • 国旗B:

    • 后缀不是以。结尾的单词“y”“ed”

    • 后缀单词以“y”“简易爆炸装置”、删除“y”

使用Hunspell后缀文件:

PFX A Y 1 PFX A 0 re。SFX B Y 1 SFX B 0 ed [^ Y] SFX B Y Y

要在Hunspell字典文件中使用这些标志,请使用“/”.对于每个单词,您可以指定多个标志。例如,要指定包含以下内容的字典文件:

  • 这句话“pt”“ptry”

  • 对这个词“pt”只有,也包括前缀“重新”使用国旗一个

  • 对于这两个单词,还包括后缀“ed”“简易爆炸装置”在适当的地方使用标志B

有关Hunspell后缀文件选项的详细信息,请参见https://manpages.ubuntu.com/manpages/trusty/en/man4/hunspell.4.html

数据类型:字符|字符串

方法来重新标记文档,指定为由“RetokenizeMethod”以及以下其中之一:

  • “分裂”—通过拆分标记来纠正拼写。例如,拆分拼写错误的标记“twowords”输入拼写正确的标记“两个”“单词”

  • “没有”—不要分割标记以进行拼写校正。

输出参数

全部折叠

更正的文件,作为一个tokenizedDocument数组中。如果“RetokenizeMethod”选择是“分裂”,则每个更新文档中的字数可能与相应的输入文档不同。

如果有多个候选修正词,那么该功能会自动选择一个单词进行修正。

修正的单词,作为字符串向量返回。如果“RetokenizeMethod”选择是“分裂”,则更新的单词数可能与输入的单词数不同。

如果有多个候选修正词,那么该功能会自动选择一个单词进行修正。

未知单词,作为字符串向量返回。字符串向量unknownWords包含不在拼写纠正字典中且没有找到建议的输入单词。

介绍了R2020a