fitlsa

飞度LSA模型

折叠所有页面

句法

MDL = fitlsa（袋，numComponents）

MDL = fitlsa（计数，numComponents）

MDL = fitlsa（___，名称，值）

描述

文件和词之间的潜在语义分析（LSA）模型发现的关系，它们包含。一个LSA模型是降维工具，在高维字数运行的低维统计模型是有用的。如果模型使用袋的的N-gram模型，那么软件将正克作为个人的话是合适的。

例

MDL= fitlsa（袋，numComponents）适合与LSA模型numComponents组件到袋的词或袋的的N-gram模型袋。

例

MDL= fitlsa（计数，numComponents）适合的LSA模型，通过字计数的矩阵表示的文件计数。

例

MDL= fitlsa（___，名称，值）指定使用额外的一个或多个选项的名称 - 值对的参数。

例子

全部收缩

飞度型号LSA

开立真实脚本

飞度潜在语义分析模型的文档的集合。

加载的示例数据。文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件包含每行一个十四行诗，文字分离通过的空间。提取文本sonnetsPreprocessed.txt，拆分文本的换行符的文件，然后记号化文档。

文件名=“sonnetsPreprocessed.txt”;STR = extractFileText（文件名）;的TextData = SPLIT（STR，换行）;文档= tokenizedDocument（的TextData）;

创建使用袋的词模型bagOfWords。

包= bagOfWords（文档）

袋= bagOfWords具有属性：计算：[154x3092双]词汇：[1x3092字符串] NUMWORDS：3092个NumDocuments：154

适合用20个部件的LSA模型。

numComponents = 20;MDL = fitlsa（袋，numComponents）

MDL = lsaModel与属性：NumComponents：20个ComponentWeights：[1X20双] DocumentScores：[154x20双] WordScores：[3092x20双]词汇：[1x3092字符串] FeatureStrengthExponent：2

变换新的文档转换成使用LSA模型低维空间。

newDocuments = tokenizedDocument（[“什么是在名字？玫瑰的任何其他名称，它还是照样芳香。”“如果音乐是爱情的食粮，玩。”]）;dscores =变换（MDL，newDocuments）

dscores =2×200.1338 0.1623 0.1680 -0.0541 -0.2464 0.0134 -0.2604 -0.0205 -0.1127 0.0627 0.3311 -0.2327 0.1689 -0.2695 0.0228 0.1241 0.1198 0.2535 -0.0607 0.0305 0.2547 0.5576 -0.0095 0.5660 -0.0643 0.1236 0.0082 0.0522 0.0690 -0.0330 0.0385 0.0803 -0.0373 0.0384 -0.0005 0.1943 0.02070.0278 0.0001 -0.0469

适合LSA模型字数矩阵

开立真实脚本

加载的示例数据。sonnetsCounts.mat包含字数对应于莎士比亚的十四行诗的预处理版本的矩阵。

加载sonnetsCounts.mat大小（计数）

ANS =1×2154 3092

飞度LSA模型20级的部件。该特征强度指数设置为4。

numComponents = 20;指数= 4;MDL = fitlsa（计数，numComponents，...'FeatureStrengthExponent'，指数）

MDL = lsaModel与属性：NumComponents：20个ComponentWeights：[1X20双] DocumentScores：[154x20双] WordScores：[3092x20双]词汇：[1x3092字符串] FeatureStrengthExponent：4

输入参数

全部收缩

`袋`-输入模型
`bagOfWords`宾语|`bagOfNgrams`宾语

输入袋的词或袋的的N-gram模型，指定为bagOfWords对象或bagOfNgrams宾语。如果袋是bagOfNgrams对象，则该函数将每个n-gram中作为一个单词。

`numComponents`-组件数
正整数

组件数，指定为一个正整数。此值必须大于输入文档的数量，并输入文档的词汇量较少。

例：200

`计数`-词的频率计数
非负整数矩阵

词的频率计数，指定的非负整数矩阵。如果您指定'DocumentsIn'成为“行”，则值数（I，J）对应于次数的数Ĵ词汇个字出现在一世个文档。否则，该值数（I，J）对应于次数的数一世词汇个字出现在Ĵ个文档。

名称 - 值对参数

指定可选的用逗号分隔的对名称，值参数。名称是参数的名称和值是对应的值。名称必须出现引号内。您可以按照任何顺序指定多个名称和值对参数名1，值1，...，NameN，值N。

例：'FeatureStrengthExponent'，4并将该功能强度指数为4。

`'DocumentsIn'`-文件定位
`“行”`（默认）|`'列'`

在字计数矩阵文件定向，指定为逗号分隔的一对组成的'DocumentsIn'和以下情况之一：

“行”- 输入的字数与符合文件列的矩阵。
'列'- 输入的字数与符合文件列的转置矩阵。

如果您指定的输入文档的字数矩阵此选项仅适用。

注意

如果你的定位字计数矩阵，使文件对应的列，并指定'DocumentsIn'， '列'，那么你可能会遇到的优化，执行时间显著减少。

`'FeatureStrengthExponent'`-初始特征强度指数
2（默认）|非负标

初始特征实力指数，指定为非标。此值缩放的功能部件的优势documentScores，wordScores和转变功能。

例：'FeatureStrengthExponent'，4

输出参数

全部收缩

`MDL`- 输出LSA模型
`lsaModel`宾语

输出LSA模型，返回一个lsaModel宾语。

也可以看看

fitlsa

句法

描述

例子

飞度型号LSA

适合LSA模型字数矩阵

输入参数

`袋`-输入模型
`bagOfWords`宾语|`bagOfNgrams`宾语

`numComponents`-组件数
正整数

`计数`-词的频率计数
非负整数矩阵

名称 - 值对参数

`'DocumentsIn'`-文件定位
`“行”`（默认）|`'列'`

注意

`'FeatureStrengthExponent'`-初始特征强度指数
2（默认）|非负标

输出参数

`MDL`- 输出LSA模型
`lsaModel`宾语

也可以看看

主题

介绍了在R2017b

文本分析工具箱文档

金宝app

机器学习与MATLAB

fitlsa

句法

描述

例子

飞度型号LSA

适合LSA模型字数矩阵

输入参数

袋-输入模型bagOfWords宾语|bagOfNgrams宾语

numComponents-组件数正整数

计数-词的频率计数非负整数矩阵

名称 - 值对参数

'DocumentsIn'-文件定位“行”（默认）|'列'

注意

'FeatureStrengthExponent'-初始特征强度指数2（默认）|非负标

输出参数

MDL- 输出LSA模型lsaModel宾语

也可以看看

主题

介绍了在R2017b

文本分析工具箱文档

金宝app

机器学习与MATLAB

`袋`-输入模型
`bagOfWords`宾语|`bagOfNgrams`宾语

`numComponents`-组件数
正整数

`计数`-词的频率计数
非负整数矩阵

`'DocumentsIn'`-文件定位
`“行”`（默认）|`'列'`

`'FeatureStrengthExponent'`-初始特征强度指数
2（默认）|非负标

`MDL`- 输出LSA模型
`lsaModel`宾语