主要内容

菲特莎

适合LSA模型

描述

潜在语义分析(LSA)模型发现文档之间的关系和它们包含的单词。LSA模型是一种维度减少工具,用于在高维词数上运行低维统计模型。如果模型适合使用袋式革袋模型,那么软件将N-GRAM视为单独的单词。

例子

MDL.= fitlsa(纸袋,NumComponents.)适合LSA模型NumComponents.组件到单词袋或n-grams模型纸袋.

例子

MDL.= fitlsa(计数,NumComponents.)将LSA模型拟合到由字数矩阵表示的文档计数.

例子

MDL.= fitlsa(___,名称、值)使用一个或多个名称-值对参数指定其他选项。

例子

全部收缩

将潜在语义分析模型适配到文档集合。

加载示例数据。档案sonnetspreprocessed.txt.txt.包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,单词之间用空格分隔。从中提取文本sonnetspreprocessed.txt.txt.,以换行符将文本拆分为文档,然后标记文档。

文件名=“sonnetspreprocessed.txt”; str=提取文件文本(文件名);textData=split(str,换行符);文档=标记化文档(textData);

使用袋式模型使用巴格沃兹.

bag=bagOfWords(文件)
bag=bagOfWords,属性:Counts:[154x3092 double]词汇:[1x3092 string]NumWords:3092 NumDocuments:154

安装包含20个组件的LSA模型。

NumComponents = 20;mdl=fitlsa(袋、组件)
mdl=lsaModel,属性:NumComponents:20组件权重:[1x20双精度]文档分数:[154x20双精度]文字分数:[30920双精度]词汇:[1x3092字符串]功能强度组件:2

使用LSA模型将新文档转换为低维空间。

newDocuments=标记化文档([“名字有什么意义?一朵玫瑰,无论叫什么名字,都会散发出同样的芳香。”“如果音乐成为爱的食物,就会扮演。”]);dscores = transform(mdl,newdocuments)
dscores =2×200.1338 0.1623 0.1680 -0.0541 -0.2464 -0.0134 -0.2604 -0.0205 -0.1127 0.0627 0.3311 -0.2327 0.1689 -0.2695 0.0228 0.1241 0.1198 0.2535 -0.0607 0.0305 0.2547 0.5576 -0.0095 0.5660 -0.0643 -0.1236 0.0082 0.0522 0.0690 -0.0330 0.0385 0.0803 -0.0373 0.0384 -0.0005 0.1943 0.0207 0.0278 0.0001 -0.0469

加载示例数据。sonnetscounts.mat包含对应于莎士比亚十四行诗预处理版本的字数矩阵。

负载sonnetscounts.mat尺寸(计数)
ans=1×2154 3092

安装带有20个部件的LSA型号。将特征强度指数设置为4。

NumComponents = 20;exponent = 4;mdl = fitlsa(计数,num components,...“功能增强HexComponent”,指数)
mdl=lsaModel,属性为:NumComponents:20组件权重:[1x20双精度]文档分数:[154x20双精度]文字分数:[30920双精度]词汇:[1x3092字符串]功能强度组件:4

输入参数

全部收缩

输入字袋或n字袋模型,指定为巴格沃兹对象或A.巴戈夫克目的。如果纸袋是一个巴戈夫克对象,则该函数将每个n-gram视为一个单词。

指定为正整数的组件数。此值必须小于输入文档的数量,以及输入文档的词汇量大小。

例子:200.

字的频率计数,指定为非负整数矩阵。如果您指定“文件罪”成为“行”,然后是值计数(i,j)对应于J词汇表中的第个单词出现在第16号文件。否则,值计数(i,j)对应于词汇表中的第个单词出现在J第16号文件。

名称值对参数

指定可选的逗号分隔的字符对名称、值论点。名称是参数名和价值是相应的价值。名称必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen.

例子:'featurectrengthexponent',4将特征强度指数设置为4。

单词计数矩阵中的文档取向,指定为逗号分隔对组成“文件罪”以及下列其中一项:

  • “行”–输入是一个字数矩阵,其行对应于文档。

  • “专栏”- 输入是单词计数的转换矩阵,具有对应于文档的列。

如果您将输入文档指定为单词计数的矩阵,则此选项仅适用。

如果您定位了单词计数矩阵,以便文档对应列并指定“DocumentsIn”,“columns”,则您可能会体验到优化执行时间的显著减少。

初始特征强度指数,指定为非负标量。此值可缩放doometercores.,词谱, 和转变职能。

例子:'featurectrengthexponent',4

数据类型:单一的|双倍的|int8|int16|INT32.|int64|uint8|uint16|uint32|uint64

输出参数

全部收缩

输出LSA模型,作为lsamodel.目的。

在R2017b中引入