主要内容

이번역페이지는최신내용을담고있지않습니다。최신내용을영문으로보려면여기를클릭하십시오。

문서의철자교정하기

이예제에서는Hunspell을사용하여문서의철자를교정하는방법을보여줍니다。

텍스트데이터불러오기

토큰화된문서로구성된배열을만듭니다。

str = [“用MATLAB来纠正单词的拼写。”“正确拼写的单词对词化很重要。”“文本分析工具箱提供了拼写纠正功能。”];文件= tokenizedDocument (str)
document = 3x1 tokenizedDocument: 8个令牌:使用MATLAB来纠正单词的拼写。正确拼写单词对词化很重要。Text Analytics Toolbox提供了纠正拼写的功能。

철자교정하기

用语함수를사용하여문서철자를교정합니다。

updatedDocuments =用语(文档)
updatedDocuments = 3x1 tokenizedDocument: 9个令牌:使用MAT LAB纠正单词的拼写。正确拼写单词对庄严仪式很重要。文本分析工具箱提供了拼写纠正功能。

이경우다음과같은결과가생성됩니다。

  • 입력단어MATLAB“이두단어와“垫”“实验室”으로분할되었습니다。

  • 입력단어가“worrds”“单词”로변경되었습니다。

  • 입력단어”词元化“이”隆重的庆祝“으로변경되었습니다。

  • 입력단어가“分析”“分析”으로변경되었습니다。

  • 입력단어가“providesfunctions두단어”提供了“와“功能”로분할되었습니다。

사용자지정단어지정하기

用语함수의“KnownWords”옵션을사용하여알려진단어목록을제공하면특정단어가업데이트되지않도록방지할수있습니다。

문서철자를다시교정한다음단어“MATLAB”、“分析”및”词元化”을알려진단어로지정합니다。

updatedDocuments =用语(文档,“KnownWords”,[“MATLAB”“分析”“词元化”])
updatedDocuments = 3x1 tokenizedDocument: 8个令牌:使用MATLAB来纠正单词的拼写。正确拼写单词对词化很重要。9令牌:文本分析工具箱提供了拼写纠正功能。

여기서단어“MATLAB”、“分析”,“词元化“이변경되지않았음을알수있습니다。

참고항목

|

관련항목