主要内容

参加

组合多袋文字或多袋n-grams模型

描述

实例

纽巴格=加入(纸袋)组合数组中的元素纸袋通过合并频率计数。该函数沿不等于1的第一个维度组合元素。

纽巴格=加入(纸袋,暗淡的)组合数组中的元素纸袋沿着维度暗淡的.

例子

全部崩溃

从标记化文档创建一个包含两袋单词模型的数组。

str=[...“一个短句的例子”“第二句话”]; 文件=标记化文件(str);袋子(1)=袋子(文件(1));袋(2)=袋字(文件(2))
包=1×2对象1x2带属性的BagoWords数组:统计词汇表NumWords NumDocuments

使用组合词袋模型参加.

包=加入(包)
bag=bagOfWords,属性:Counts:[2x7 double]词汇:[1x7字符串]NumWords:7 NumDocuments:2

如果文本数据包含在文件夹中的多个文件中,则可以导入文本数据并使用帕弗.如果你有并行计算工具箱™ 安装,然后帕弗循环以并行方式运行,否则以串行方式运行。使用参加将一组词汇袋模型组合成一个模型。

从文件集合中创建一个单词包模型。示例十四行诗有文件名“示例sonnetn.txt“,在哪里N是十四行诗的编号。使用获取文件及其位置的列表迪尔.

fileLocation=fullfile(matlabroot,“例子”,“文本分析”,'示例十四行诗*.txt'); fileInfo=dir(文件位置)
fileInfo = 0x1带有字段的空结构数组:name folder date bytes isdir datenum

初始化一个空的单词包模型,然后在文件上循环并创建一个单词包模型数组。

bag=bagOfWords;numFiles=numel(fileInfo);帕弗i=1:numFiles f=fileInfo(i);filename=fullfile(f.folder,f.name);textData=extractFileText(文件名);文档=标记化文档(textData);袋(i)=袋(文件);终止

使用组合词袋模型参加.

包=加入(包)
bag = bagOfWords with properties: Counts: [] Vocabulary: [1x0 string] NumWords: 0 NumDocuments: 0

输入参数

全部崩溃

包-单词或包-n-grams模型的数组,指定为巴格沃兹数组或巴戈夫克大堆如果纸袋是一个巴戈夫克数组,则要联接的每个元素的Ngram长度所有物

连接模型的维度,指定为正整数。如果暗淡的如果未指定,则默认为第一个尺寸不等于1的标注。

输出参数

全部崩溃

输出模型,作为巴格沃兹对象或一个巴戈夫克对象的类型纽巴格是同类型的纸袋.纽巴格与输入模型具有相同的数据类型,并且沿要连接的维度的大小为1。

R2018a中引入