主要内容

docfun

对文档中的单词应用函数

描述

例子

newDocuments= docfun (函数文档调用函数句柄指定的函数函数并传递元素文档作为单词的字符串向量。

  • 如果函数只接受一个输入参数,然后是newDocuments(我)的输出func (string(文档(i)))

  • 如果函数接受两个输入参数,然后是newDocuments(我)的输出func (string(文档(i)),详细信息),在那里细节包含由输出的相应令牌详细信息tokenDetails

  • 如果函数然后更改文档中的字数docfun从该文档中删除令牌详细信息。

docfun不执行对函数的调用函数以特定的顺序。

例子

newDocuments= docfun (函数、documents1 documentsN……)调用函数句柄指定的函数函数并传递元素documents1,…,documentsN作为单词的字符串向量,其中N函数的输入数是多少函数.的话语newDocuments(我)的输出func (string (documents1(我)),…,字符串(documentsN(我)))

每个人documents1,…,documentsN必须是一样的尺寸。

例子

全部折叠

应用反向到文档数组中的每个单词。

documents = tokenizedDocument([...一个短句的例子。“第二个短句”])
documents = 2x1 tokenizedDocument: 6个符号:一个短句的例子4个符号:第二个短句
Func = @reverse;newDocuments = docfun(func,documents)
newDocuments = 2x1 tokenizedDocument: 6 token: na elpmax fo a trohs ecnetnes 4 token: a dnoces trohs ecnetnes

通过使用string函数将一个文档数组中的单词与另一个文档数组中的单词组合来标记单词+

创建第一个tokenizedDocument数组中。删除标点符号并将文本转换为小写字母。

STR = [...“一个短句子的例子。”“第二个简短的句子。”];str = eraspunctuation (str);STR = lower(STR);documents1 = tokenizedDocument(str)
documents1 = 2x1 tokenizedDocument: 6个符号:一个短句的例子4个符号:第二个短句

创建第二个tokenizedDocument数组中。文档的字数与文档的字数一致documents1.的话语documents2为对应单词的POS标签。

documents2 = tokenizedDocument([..."_det _名词_prep _det _形容词_名词""_det _adj _adj _名词"])
documents2 = 2x1 tokenizedDocument: 6个token: _det _名词_prep _det _形容词_名词4个token: _det _形容词_形容词_名词
Func = @ +;newDocuments = docfun(func,documents1,documents2)
newDocuments = 2x1 tokenizedDocument: 6个token: an_det example_名词of_prep a_det short_adj sentence_名词4个token: a_det second_adj short_adj sentence_名词

输出和调用不一样+直接在文件上。

+ (documents1 documents2)
ans = 2x1 tokenizedDocument: 12个标记:一个短句子的例子_det _名词_prep _det _adj _名词8个标记:第二个短句子_det _adj _adj _名词

输入参数

全部折叠

接受的函数句柄N字符串数组作为输入和输出字符串数组。函数必须接受字符串(documents1 (i)),…,字符串(documentsN(我))作为输入。

函数句柄应用于文档中的单词。函数必须具有以下语法之一:

  • newWords = func(words),在那里单词是由单个文档的单词组成的字符串数组。

  • newWords = func(单词,细节),在那里单词是单个文档的单词的字符串数组,和细节对应的令牌详细信息表是否由tokenDetails

  • newWords = func(words1,…,wordsN),在那里words1,…,wordsN是单词的字符串数组。

例子:@reverse

数据类型:function_handle

输入文档,指定为tokenizedDocument数组中。

输出参数

全部折叠

输出文档,返回为tokenizedDocument数组中。

版本历史

在R2017b中引入