文档帮助中心文档
适合LSA模型
mdl=fitlsa(袋、组件)
mdl = fitlsa(计数,num components)
mdl = fitlsa(___,名称,价值)
潜在语义分析(LSA)模型发现文档之间的关系和它们包含的单词。LSA模型是一种维度减少工具,用于在高维词数上运行低维统计模型。如果模型适合使用袋式革袋模型,那么软件将N-GRAM视为单独的单词。
例子
MDL.= fitlsa(纸袋,NumComponents.)适合LSA模型NumComponents.组件到单词袋或n-grams模型纸袋.
MDL.= fitlsa(纸袋,NumComponents.)
MDL.
纸袋
NumComponents.
MDL.= fitlsa(计数,NumComponents.)将LSA模型拟合到由字数矩阵表示的文档计数.
MDL.= fitlsa(计数,NumComponents.)
计数
MDL.= fitlsa(___,名称、值)使用一个或多个名称-值对参数指定其他选项。
MDL.= fitlsa(___,名称、值)
名称、值
全部收缩
将潜在语义分析模型适配到文档集合。
加载示例数据。档案sonnetspreprocessed.txt.txt.包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,单词之间用空格分隔。从中提取文本sonnetspreprocessed.txt.txt.,以换行符将文本拆分为文档,然后标记文档。
sonnetspreprocessed.txt.txt.
文件名=“sonnetspreprocessed.txt”; str=提取文件文本(文件名);textData=split(str,换行符);文档=标记化文档(textData);
使用袋式模型使用巴格沃兹.
巴格沃兹
bag=bagOfWords(文件)
bag=bagOfWords,属性:Counts:[154x3092 double]词汇:[1x3092 string]NumWords:3092 NumDocuments:154
安装包含20个组件的LSA模型。
NumComponents = 20;mdl=fitlsa(袋、组件)
mdl=lsaModel,属性:NumComponents:20组件权重:[1x20双精度]文档分数:[154x20双精度]文字分数:[30920双精度]词汇:[1x3092字符串]功能强度组件:2
使用LSA模型将新文档转换为低维空间。
newDocuments=标记化文档([“名字有什么意义?一朵玫瑰,无论叫什么名字,都会散发出同样的芳香。”“如果音乐成为爱的食物,就会扮演。”]);dscores = transform(mdl,newdocuments)
dscores =2×200.1338 0.1623 0.1680 -0.0541 -0.2464 -0.0134 -0.2604 -0.0205 -0.1127 0.0627 0.3311 -0.2327 0.1689 -0.2695 0.0228 0.1241 0.1198 0.2535 -0.0607 0.0305 0.2547 0.5576 -0.0095 0.5660 -0.0643 -0.1236 0.0082 0.0522 0.0690 -0.0330 0.0385 0.0803 -0.0373 0.0384 -0.0005 0.1943 0.0207 0.0278 0.0001 -0.0469
加载示例数据。sonnetscounts.mat包含对应于莎士比亚十四行诗预处理版本的字数矩阵。
sonnetscounts.mat
负载sonnetscounts.mat尺寸(计数)
ans=1×2154 3092
安装带有20个部件的LSA型号。将特征强度指数设置为4。
NumComponents = 20;exponent = 4;mdl = fitlsa(计数,num components,...“功能增强HexComponent”,指数)
mdl=lsaModel,属性为:NumComponents:20组件权重:[1x20双精度]文档分数:[154x20双精度]文字分数:[30920双精度]词汇:[1x3092字符串]功能强度组件:4
巴戈夫克
输入字袋或n字袋模型,指定为巴格沃兹对象或A.巴戈夫克目的。如果纸袋是一个巴戈夫克对象,则该函数将每个n-gram视为一个单词。
指定为正整数的组件数。此值必须小于输入文档的数量,以及输入文档的词汇量大小。
例子:200.
字的频率计数,指定为非负整数矩阵。如果您指定“文件罪”成为“行”,然后是值计数(i,j)对应于J词汇表中的第个单词出现在我第16号文件。否则,值计数(i,j)对应于我词汇表中的第个单词出现在J第16号文件。
“文件罪”
“行”
计数(i,j)
指定可选的逗号分隔的字符对名称、值论点。名称是参数名和价值是相应的价值。名称必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen.
名称
价值
name1,value1,...,namen,valuen
'featurectrengthexponent',4
“专栏”
单词计数矩阵中的文档取向,指定为逗号分隔对组成“文件罪”以及下列其中一项:
“行”–输入是一个字数矩阵,其行对应于文档。
“专栏”- 输入是单词计数的转换矩阵,具有对应于文档的列。
如果您将输入文档指定为单词计数的矩阵,则此选项仅适用。
注
如果您定位了单词计数矩阵,以便文档对应列并指定“DocumentsIn”,“columns”,则您可能会体验到优化执行时间的显著减少。
“DocumentsIn”,“columns”
“功能增强HexComponent”
初始特征强度指数,指定为非负标量。此值可缩放doometercores.,词谱, 和转变职能。
doometercores.
词谱
转变
例子:'featurectrengthexponent',4
数据类型:单一的|双倍的|int8|int16|INT32.|int64|uint8|uint16|uint32|uint64
单一的
双倍的
int8
int16
INT32.
int64
uint8
uint16
uint32
uint64
lsamodel.
输出LSA模型,作为lsamodel.目的。
巴戈夫克|巴格沃兹|菲特尔达|阿尔达莫代尔|lsamodel.|转变
菲特尔达
阿尔达莫代尔
您有此示例的修改版本。是否要用您的编辑打开此示例?
您单击了与此MATLAB命令对应的链接:
通过在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站以获取翻译后的内容(如果可用),并查看本地活动和优惠。根据您的位置,我们建议您选择:.
您还可以从以下列表中选择一个网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区网站未针对您所在地的访问进行优化。
联系您当地的办公室