主要内容

加入

结合多个bag-of-words或bag-of-n-grams模型

描述

例子

newBag=加入()将数组中的元素相结合通过合并频率计数。函数结合了元素的第一个维度不等于1。

newBag=加入(,昏暗的)将数组中的元素相结合沿着维度昏暗的

例子

全部折叠

创建一个数组的两个bags-of-words模型标记化的文档。

str = [“一个短句”“第二个短句”];文件= tokenizedDocument (str);袋(1)= bagOfWords(文档(1));袋(2)= bagOfWords(文档(2))
袋=1×2对象1 x2 bagOfWords数组属性:重要词汇NumWords NumDocuments

结合bag-of-words模型使用加入

袋=加入(袋)
袋= bagOfWords属性:计数:[2 x7双]词汇:[“一”“例子”“”“”“短”“句子”“第二”]NumWords: 7 NumDocuments: 2

如果你的文本数据中包含多个文件在一个文件夹中,然后您可以导入文本数据,创建一个bag-of-words模型并行使用parfor。如果你安装了并行计算工具箱™,那么parfor循环并行运行,否则,它在连续运行。使用加入数组bag-of-words模型合并成一个模型。

创建一个文件名列表。十四行诗的示例文件名称”exampleSonnetN.txt”,N十四行诗的数量。

文件名= [“exampleSonnet1.txt”“exampleSonnet2.txt”“exampleSonnet3.txt”“exampleSonnet4.txt”];

创建一个bag-of-words模型从文件的集合。初始化一个空bag-of-words模型然后遍历文件和每个文件创建一个bag-of-words模型。

袋= bagOfWords;numFiles =元素个数(文件名);parfori = 1: numFiles文件名=文件名(我);textData = extractFileText(文件名);文档= tokenizedDocument (textData);袋(我)= bagOfWords(文档);结束
开始平行池(parpool)使用过程的概要文件…连接到平行池4工人。

结合bag-of-words模型使用加入

袋=加入(袋)
袋= bagOfWords属性:计数:[4 x276双]词汇:“从”“公平”“生物”“我们”“希望”“增长””、““““从而”“美”“玫瑰”“可能”“从不”“死”“但是”“”“”“成熟”“应该”“通过”“时间”……]NumWords: 276 NumDocuments: 4

输入参数

全部折叠

一系列bag-of-words或bag-of-n-grams模型,指定为一个bagOfWords数组或一个bagOfNgrams数组中。如果是一个bagOfNgrams加入数组,每个元素必须有相同的值NgramLengths财产。

维度加入模型,指定为一个正整数。如果昏暗的没有指定,则默认是第一维的大小不等于1。

输出参数

全部折叠

输出模式,作为一个返回bagOfWords对象或一个bagOfNgrams对象。的类型newBag的类型是一样的吗newBag具有相同的数据类型作为输入模型和沿着维度的大小是1被加入。

版本历史

介绍了R2018a