菲特莎

适合LSA模型

折叠所有页面

语法

mdl=fitlsa（袋、组件）

mdl = fitlsa（计数，num components）

mdl = fitlsa（___，名称，价值）

描述

潜在语义分析（LSA）模型发现文档之间的关系和它们包含的单词。LSA模型是一种维度减少工具，用于在高维词数上运行低维统计模型。如果模型适合使用袋式革袋模型，那么软件将N-GRAM视为单独的单词。

例子

MDL.= fitlsa（纸袋,NumComponents.)适合LSA模型NumComponents.组件到单词袋或n-grams模型纸袋.

例子

MDL.= fitlsa（计数,NumComponents.)将LSA模型拟合到由字数矩阵表示的文档计数.

例子

MDL.= fitlsa（___,名称、值)使用一个或多个名称-值对参数指定其他选项。

例子

全部收缩

适合LSA模型

打开直播脚本

将潜在语义分析模型适配到文档集合。

加载示例数据。档案sonnetspreprocessed.txt.txt.包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗，单词之间用空格分隔。从中提取文本sonnetspreprocessed.txt.txt.，以换行符将文本拆分为文档，然后标记文档。

文件名=“sonnetspreprocessed.txt”; str=提取文件文本（文件名）；textData=split（str，换行符）；文档=标记化文档（textData）；

使用袋式模型使用巴格沃兹.

bag=bagOfWords（文件）

bag=bagOfWords，属性：Counts:[154x3092 double]词汇：[1x3092 string]NumWords:3092 NumDocuments:154

安装包含20个组件的LSA模型。

NumComponents = 20;mdl=fitlsa（袋、组件）

mdl=lsaModel，属性：NumComponents:20组件权重：[1x20双精度]文档分数：[154x20双精度]文字分数：[30920双精度]词汇：[1x3092字符串]功能强度组件：2

使用LSA模型将新文档转换为低维空间。

newDocuments=标记化文档([“名字有什么意义？一朵玫瑰，无论叫什么名字，都会散发出同样的芳香。”“如果音乐成为爱的食物，就会扮演。”]）;dscores = transform（mdl，newdocuments）

dscores =2×200.1338 0.1623 0.1680 -0.0541 -0.2464 -0.0134 -0.2604 -0.0205 -0.1127 0.0627 0.3311 -0.2327 0.1689 -0.2695 0.0228 0.1241 0.1198 0.2535 -0.0607 0.0305 0.2547 0.5576 -0.0095 0.5660 -0.0643 -0.1236 0.0082 0.0522 0.0690 -0.0330 0.0385 0.0803 -0.0373 0.0384 -0.0005 0.1943 0.0207 0.0278 0.0001 -0.0469

将LSA模型拟合到字数矩阵

打开直播脚本

加载示例数据。sonnetscounts.mat包含对应于莎士比亚十四行诗预处理版本的字数矩阵。

负载sonnetscounts.mat尺寸（计数）

ans=1×2154 3092

安装带有20个部件的LSA型号。将特征强度指数设置为4。

NumComponents = 20;exponent = 4;mdl = fitlsa（计数，num components，...“功能增强HexComponent”，指数）

mdl=lsaModel，属性为：NumComponents:20组件权重：[1x20双精度]文档分数：[154x20双精度]文字分数：[30920双精度]词汇：[1x3092字符串]功能强度组件：4

输入参数

全部收缩

`纸袋`—输入模型
`巴格沃兹`对象|`巴戈夫克`对象

输入字袋或n字袋模型，指定为巴格沃兹对象或A.巴戈夫克目的。如果纸袋是一个巴戈夫克对象，则该函数将每个n-gram视为一个单词。

`NumComponents.`—组件数量
正整数

指定为正整数的组件数。此值必须小于输入文档的数量，以及输入文档的词汇量大小。

例子：200.

`计数`—词频计数
非负整数矩阵

字的频率计数，指定为非负整数矩阵。如果您指定“文件罪”成为“行”，然后是值计数（i，j）对应于J词汇表中的第个单词出现在我第16号文件。否则，值计数（i，j）对应于我词汇表中的第个单词出现在J第16号文件。

名称值对参数

指定可选的逗号分隔的字符对名称、值论点。名称是参数名和价值是相应的价值。名称必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1，value1，...，namen，valuen.

例子：'featurectrengthexponent'，4将特征强度指数设置为4。

`“文件罪”`—文件的方向
`“行”`（默认）|`“专栏”`

单词计数矩阵中的文档取向，指定为逗号分隔对组成“文件罪”以及下列其中一项：

“行”–输入是一个字数矩阵，其行对应于文档。
“专栏”- 输入是单词计数的转换矩阵，具有对应于文档的列。

如果您将输入文档指定为单词计数的矩阵，则此选项仅适用。

注

如果您定位了单词计数矩阵，以便文档对应列并指定“DocumentsIn”，“columns”，则您可能会体验到优化执行时间的显著减少。

`“功能增强HexComponent”`—初始特征强度指数
2.（默认）|非负标量

初始特征强度指数，指定为非负标量。此值可缩放doometercores.,词谱，和转变职能。

例子：'featurectrengthexponent'，4

数据类型：单一的|双倍的|int8|int16|INT32.|int64|uint8|uint16|uint32|uint64

输出参数

全部收缩

`MDL.`- 输出LSA模型
`lsamodel.`对象

输出LSA模型，作为lsamodel.目的。

另见

话题

在R2017b中引入

菲特莎

语法

描述

例子

适合LSA模型

将LSA模型拟合到字数矩阵

输入参数

`纸袋`—输入模型
`巴格沃兹`对象|`巴戈夫克`对象

`NumComponents.`—组件数量
正整数

`计数`—词频计数
非负整数矩阵

名称值对参数

`“文件罪”`—文件的方向
`“行”`（默认）|`“专栏”`

`“功能增强HexComponent”`—初始特征强度指数
2.（默认）|非负标量

输出参数

`MDL.`- 输出LSA模型
`lsamodel.`对象

另见

话题

文本分析工具箱文档

金宝app

MATLAB中的文本分析入门

菲特莎

语法

描述

例子

适合LSA模型

将LSA模型拟合到字数矩阵

输入参数

纸袋—输入模型巴格沃兹对象|巴戈夫克对象

NumComponents.—组件数量正整数

计数—词频计数非负整数矩阵

名称值对参数

“文件罪”—文件的方向“行”（默认）|“专栏”

“功能增强HexComponent”—初始特征强度指数2.（默认）|非负标量

输出参数

MDL.- 输出LSA模型lsamodel.对象

另见

话题

文本分析工具箱文档

金宝app

MATLAB中的文本分析入门

`纸袋`—输入模型
`巴格沃兹`对象|`巴戈夫克`对象

`NumComponents.`—组件数量
正整数

`计数`—词频计数
非负整数矩阵

`“文件罪”`—文件的方向
`“行”`（默认）|`“专栏”`

`“功能增强HexComponent”`—初始特征强度指数
2.（默认）|非负标量

`MDL.`- 输出LSA模型
`lsamodel.`对象