fitlsa

飞度LSA模型

描述

文件和词之间的潜在语义分析(LSA)模型发现的关系,它们包含。一个LSA模型是降维工具,在高维字数运行的低维统计模型是有用的。如果模型使用袋的的N-gram模型,那么软件将正克作为个人的话是合适的。

MDL= fitlsa(numComponents适合与LSA模型numComponents组件到袋的词或袋的的N-gram模型

MDL= fitlsa(计数numComponents适合的LSA模型,通过字计数的矩阵表示的文件计数

MDL= fitlsa(___名称,值指定使用额外的一个或多个选项的名称 - 值对的参数。

例子

全部收缩

飞度潜在语义分析模型的文档的集合。

加载的示例数据。文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件包含每行一个十四行诗,文字分离通过的空间。提取文本sonnetsPreprocessed.txt,拆分文本的换行符的文件,然后记号化文档。

文件名=“sonnetsPreprocessed.txt”;STR = extractFileText(文件名);的TextData = SPLIT(STR,换行);文档= tokenizedDocument(的TextData);

创建使用袋的词模型bagOfWords

包= bagOfWords(文档)
袋= bagOfWords具有属性:计算:[154x3092双]词汇:[1x3092字符串] NUMWORDS:3092个NumDocuments:154

适合用20个部件的LSA模型。

numComponents = 20;MDL = fitlsa(袋,numComponents)
MDL = lsaModel与属性:NumComponents:20个ComponentWeights:[1X20双] DocumentScores:[154x20双] WordScores:[3092x20双]词汇:[1x3092字符串] FeatureStrengthExponent:2

变换新的文档转换成使用LSA模型低维空间。

newDocuments = tokenizedDocument([“什么是在名字?玫瑰的任何其他名称,它还是照样芳香。”“如果音乐是爱情的食粮,玩。”]);dscores =变换(MDL,newDocuments)
dscores =2×200.1338 0.1623 0.1680 -0.0541 -0.2464 0.0134 -0.2604 -0.0205 -0.1127 0.0627 0.3311 -0.2327 0.1689 -0.2695 0.0228 0.1241 0.1198 0.2535 -0.0607 0.0305 0.2547 0.5576 -0.0095 0.5660 -0.0643 0.1236 0.0082 0.0522 0.0690 -0.0330 0.0385 0.0803 -0.0373 0.0384 -0.0005 0.1943 0.02070.0278 0.0001 -0.0469

加载的示例数据。sonnetsCounts.mat包含字数对应于莎士比亚的十四行诗的预处理版本的矩阵。

加载sonnetsCounts.mat大小(计数)
ANS =1×2154 3092

飞度LSA模型20级的部件。该特征强度指数设置为4。

numComponents = 20;指数= 4;MDL = fitlsa(计数,numComponents,...'FeatureStrengthExponent',指数)
MDL = lsaModel与属性:NumComponents:20个ComponentWeights:[1X20双] DocumentScores:[154x20双] WordScores:[3092x20双]词汇:[1x3092字符串] FeatureStrengthExponent:4

输入参数

全部收缩

输入袋的词或袋的的N-gram模型,指定为bagOfWords对象或bagOfNgrams宾语。如果bagOfNgrams对象,则该函数将每个n-gram中作为一个单词。

组件数,指定为一个正整数。此值必须大于输入文档的数量,并输入文档的词汇量较少。

例:200

词的频率计数,指定的非负整数矩阵。如果您指定'DocumentsIn'成为“行”,则值数(I,J)对应于次数的数Ĵ词汇个字出现在一世个文档。否则,该值数(I,J)对应于次数的数一世词汇个字出现在Ĵ个文档。

名称 - 值对参数

指定可选的用逗号分隔的对名称,值参数。名称是参数的名称和是对应的值。名称必须出现引号内。您可以按照任何顺序指定多个名称和值对参数名1,值1,...,NameN,值N

例:'FeatureStrengthExponent',4并将该功能强度指数为4。

在字计数矩阵文件定向,指定为逗号分隔的一对组成的'DocumentsIn'和以下情况之一:

  • “行”- 输入的字数与符合文件列的矩阵。

  • '列'- 输入的字数与符合文件列的转置矩阵。

如果您指定的输入文档的字数矩阵此选项仅适用。

注意

如果你的定位字计数矩阵,使文件对应的列,并指定'DocumentsIn', '列',那么你可能会遇到的优化,执行时间显著减少。

初始特征实力指数,指定为非标。此值缩放的功能部件的优势documentScoreswordScores转变功能。

例:'FeatureStrengthExponent',4

数据类型:||INT8|INT16|INT32|Int64的|UINT8|UINT16|UINT32|UINT64

输出参数

全部收缩

输出LSA模型,返回一个lsaModel宾语。

介绍了在R2017b