文档帮助中心文档
组合多袋文字或多袋n-grams模型
newBag=加入(包)
新袋=连接(袋,尺寸)
实例
纽巴格=加入(纸袋)组合数组中的元素纸袋通过合并频率计数。该函数沿不等于1的第一个维度组合元素。
纽巴格=加入(纸袋)
纽巴格
纸袋
纽巴格=加入(纸袋,暗淡的)组合数组中的元素纸袋沿着维度暗淡的.
纽巴格=加入(纸袋,暗淡的)
暗淡的
全部崩溃
从标记化文档创建一个包含两袋单词模型的数组。
str=[...“一个短句的例子”“第二句话”]; 文件=标记化文件(str);袋子(1)=袋子(文件(1));袋(2)=袋字(文件(2))
包=1×2对象1x2带属性的BagoWords数组:统计词汇表NumWords NumDocuments
使用组合词袋模型参加.
参加
包=加入(包)
bag=bagOfWords,属性:Counts:[2x7 double]词汇:[1x7字符串]NumWords:7 NumDocuments:2
如果文本数据包含在文件夹中的多个文件中,则可以导入文本数据并使用帕弗.如果你有并行计算工具箱™ 安装,然后帕弗循环以并行方式运行,否则以串行方式运行。使用参加将一组词汇袋模型组合成一个模型。
帕弗
从文件集合中创建一个单词包模型。示例十四行诗有文件名“示例sonnetn.txt“,在哪里N是十四行诗的编号。使用获取文件及其位置的列表迪尔.
示例sonnetn.txt
N
迪尔
fileLocation=fullfile(matlabroot,“例子”,“文本分析”,'示例十四行诗*.txt'); fileInfo=dir(文件位置)
fileInfo = 0x1带有字段的空结构数组:name folder date bytes isdir datenum
初始化一个空的单词包模型,然后在文件上循环并创建一个单词包模型数组。
bag=bagOfWords;numFiles=numel(fileInfo);帕弗i=1:numFiles f=fileInfo(i);filename=fullfile(f.folder,f.name);textData=extractFileText(文件名);文档=标记化文档(textData);袋(i)=袋(文件);终止
bag = bagOfWords with properties: Counts: [] Vocabulary: [1x0 string] NumWords: 0 NumDocuments: 0
巴格沃兹
巴戈夫克
包-单词或包-n-grams模型的数组,指定为巴格沃兹数组或巴戈夫克大堆如果纸袋是一个巴戈夫克数组,则要联接的每个元素的Ngram长度所有物
Ngram长度
连接模型的维度,指定为正整数。如果暗淡的如果未指定,则默认为第一个尺寸不等于1的标注。
输出模型,作为巴格沃兹对象或一个巴戈夫克对象的类型纽巴格是同类型的纸袋.纽巴格与输入模型具有相同的数据类型,并且沿要连接的维度的大小为1。
添加文档|巴戈夫克|巴格沃兹|编码|removeDocument|删除空文档|词频-逆向文件频率|tokenizedDocument|topkngrams|托克沃兹
添加文档
编码
removeDocument
删除空文档
词频-逆向文件频率
tokenizedDocument
topkngrams
托克沃兹
您拥有此示例的修改版本。是否要用编辑打开此示例?
您单击了与此MATLAB命令对应的链接:
通过在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站以获取翻译后的内容(如果可用),并查看本地活动和优惠。根据您的位置,我们建议您选择:.
您还可以从以下列表中选择网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区网站未针对您所在地的访问进行优化。
联系当地办事处