addDocument

将文档添加到bag-of-words或bag-of-n-grams模型

折叠所有页面

语法

newBag = addDocument(袋、文档)

描述

例子

newBag=添加文档(袋，文档）加上文档变成单词袋或n-gram袋模型袋．

例子

全部折叠

添加文档到词汇袋模型

打开生活的脚本

从标记化文档数组创建单词袋模型。

文件= tokenizedDocument ([一个短句的例子第二个短句]）;袋= bagOfWords(文档)

bag = bagOfWords with properties: Counts: [2x7 double]NumWords: 7 NumDocuments: 2

创建另一个标记化文档数组，并将其添加到同一个单词包模型中。

文件= tokenizedDocument ([第三个短句的例子另一个“短句”]）;newBag = addDocument(袋、文档)

newBag=bagOfWords，属性：Counts:[4x9 double]词汇：[“a”short的“示例”…]NumWords:9 NumDocuments:4

使用文件数据存储从多个文件导入文本

打开生活的脚本

如果文本数据包含在文件夹中的多个文件中，则可以使用文件数据存储将文本数据导入MATLAB。

为示例十四行诗文本文件创建文件数据存储。十四行诗的例子有“文件名”exampleSonnetN.txt”,N是十四行诗的编号。指定要读取的函数extractFileText．

readFcn = @extractFileText;fds = fileDatastore (“exampleSonnet * . txt”，“ReadFcn”，readFcn）

/tp73208a97/textanalytics-ex73762432/exampleSonnet1.txt';“…/ tp73208a97 / textanalytics-ex73762432 / exampleSonnet2.txt”;“…/ tp73208a97 / textanalytics-ex73762432 / exampleSonnet3.txt”……{'/tmp/Bdoc21b_1757077_241787/tp73208a97/textanalytics-ex73762432'} UniformRead: 0 ReadMode: 'file' BlockSize: Inf PreviewFcn: @extractFileText SupportedOutputFormats: 金宝app["txt" "csv" "xlsx" "xls"…ReadFcn: @extractFileText AlternateFileSystemRoots: {}

创建一个空的单词包模型。

袋= bagOfWords

bag=bagOfWords，属性：计数：[]词汇：[1x0字符串]NumWords:0 NumDocuments:0

循环遍历数据存储中的文件并读取每个文件。标记每个文件中的文本并将文档添加到袋．

而Hasdata (fds) STR = read(fds);文档= tokenizedDocument (str);袋= addDocument(袋、文档);结束

查看更新的单词袋模型。

袋

单词:["From" " fairrest " "creatures" "we"…NumWords: 276 NumDocuments: 4

输入参数

全部折叠

`袋`- - - - - -输入袋式单词或袋式n-gram模型
`bagOfWords`对象|`bagOfNgrams`对象

输入bag-of-words或bag-of-n-grams模型，指定为bagOfWords对象或一个bagOfNgrams对象。

`文档`- - - - - -输入文档
`tokenizedDocument`大堆|字串数组|字符向量的单元格数组

输入文档，指定为tokenizedDocument数组、字的字符串数组或字符向量的单元格数组。如果文档不是一个tokenizedDocument数组，则它必须是表示单个文档的行向量，其中每个元素都是一个单词。要指定多个文档，请使用tokenizedDocument数组中。

输出参数

全部折叠

`newBag`——输出模型
`bagOfWords`对象|`bagOfNgrams`对象

输出模型，作为bagOfWords对象或一个bagOfNgrams对象。的类型newBag是同类型的吗袋．

另请参阅

bagOfWords|bagOfNgrams|删除文档|removeEmptyDocuments|tokenizedDocument

主题

介绍了R2017b

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

立即下载

addDocument

语法

描述

例子

添加文档到词汇袋模型

使用文件数据存储从多个文件导入文本

输入参数

袋- - - - - -输入袋式单词或袋式n-gram模型bagOfWords对象|bagOfNgrams对象

文档- - - - - -输入文档tokenizedDocument大堆|字串数组|字符向量的单元格数组

输出参数

newBag——输出模型bagOfWords对象|bagOfNgrams对象

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

`袋`- - - - - -输入袋式单词或袋式n-gram模型
`bagOfWords`对象|`bagOfNgrams`对象

`文档`- - - - - -输入文档
`tokenizedDocument`大堆|字串数组|字符向量的单元格数组

`newBag`——输出模型
`bagOfWords`对象|`bagOfNgrams`对象