文档帮助中心
飞度LSA模型
MDL = fitlsa(袋,numComponents)
MDL = fitlsa(计数,numComponents)
MDL = fitlsa(___,名称,值)
文件和词之间的潜在语义分析(LSA)模型发现的关系,它们包含。一个LSA模型是降维工具,在高维字数运行的低维统计模型是有用的。如果模型使用袋的的N-gram模型,那么软件将正克作为个人的话是合适的。
例
MDL= fitlsa(袋,numComponents)适合与LSA模型numComponents组件到袋的词或袋的的N-gram模型袋。
MDL= fitlsa(袋,numComponents)
MDL
袋
numComponents
MDL= fitlsa(计数,numComponents)适合的LSA模型,通过字计数的矩阵表示的文件计数。
MDL= fitlsa(计数,numComponents)
计数
MDL= fitlsa(___,名称,值)指定使用额外的一个或多个选项的名称 - 值对的参数。
MDL= fitlsa(___,名称,值)
名称,值
全部收缩
飞度潜在语义分析模型的文档的集合。
加载的示例数据。文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件包含每行一个十四行诗,文字分离通过的空间。提取文本sonnetsPreprocessed.txt,拆分文本的换行符的文件,然后记号化文档。
sonnetsPreprocessed.txt
文件名=“sonnetsPreprocessed.txt”;STR = extractFileText(文件名);的TextData = SPLIT(STR,换行);文档= tokenizedDocument(的TextData);
创建使用袋的词模型bagOfWords。
bagOfWords
包= bagOfWords(文档)
袋= bagOfWords具有属性:计算:[154x3092双]词汇:[1x3092字符串] NUMWORDS:3092个NumDocuments:154
适合用20个部件的LSA模型。
numComponents = 20;MDL = fitlsa(袋,numComponents)
MDL = lsaModel与属性:NumComponents:20个ComponentWeights:[1X20双] DocumentScores:[154x20双] WordScores:[3092x20双]词汇:[1x3092字符串] FeatureStrengthExponent:2
变换新的文档转换成使用LSA模型低维空间。
newDocuments = tokenizedDocument([“什么是在名字?玫瑰的任何其他名称,它还是照样芳香。”“如果音乐是爱情的食粮,玩。”]);dscores =变换(MDL,newDocuments)
dscores =2×200.1338 0.1623 0.1680 -0.0541 -0.2464 0.0134 -0.2604 -0.0205 -0.1127 0.0627 0.3311 -0.2327 0.1689 -0.2695 0.0228 0.1241 0.1198 0.2535 -0.0607 0.0305 0.2547 0.5576 -0.0095 0.5660 -0.0643 0.1236 0.0082 0.0522 0.0690 -0.0330 0.0385 0.0803 -0.0373 0.0384 -0.0005 0.1943 0.02070.0278 0.0001 -0.0469
加载的示例数据。sonnetsCounts.mat包含字数对应于莎士比亚的十四行诗的预处理版本的矩阵。
sonnetsCounts.mat
加载sonnetsCounts.mat大小(计数)
ANS =1×2154 3092
飞度LSA模型20级的部件。该特征强度指数设置为4。
numComponents = 20;指数= 4;MDL = fitlsa(计数,numComponents,...'FeatureStrengthExponent',指数)
MDL = lsaModel与属性:NumComponents:20个ComponentWeights:[1X20双] DocumentScores:[154x20双] WordScores:[3092x20双]词汇:[1x3092字符串] FeatureStrengthExponent:4
bagOfNgrams
输入袋的词或袋的的N-gram模型,指定为bagOfWords对象或bagOfNgrams宾语。如果袋是bagOfNgrams对象,则该函数将每个n-gram中作为一个单词。
组件数,指定为一个正整数。此值必须大于输入文档的数量,并输入文档的词汇量较少。
例:200
词的频率计数,指定的非负整数矩阵。如果您指定'DocumentsIn'成为“行”,则值数(I,J)对应于次数的数Ĵ词汇个字出现在一世个文档。否则,该值数(I,J)对应于次数的数一世词汇个字出现在Ĵ个文档。
'DocumentsIn'
“行”
数(I,J)
指定可选的用逗号分隔的对名称,值参数。名称是参数的名称和值是对应的值。名称必须出现引号内。您可以按照任何顺序指定多个名称和值对参数名1,值1,...,NameN,值N。
名称
值
名1,值1,...,NameN,值N
'FeatureStrengthExponent',4
'列'
在字计数矩阵文件定向,指定为逗号分隔的一对组成的'DocumentsIn'和以下情况之一:
“行”- 输入的字数与符合文件列的矩阵。
'列'- 输入的字数与符合文件列的转置矩阵。
如果您指定的输入文档的字数矩阵此选项仅适用。
如果你的定位字计数矩阵,使文件对应的列,并指定'DocumentsIn', '列',那么你可能会遇到的优化,执行时间显著减少。
'DocumentsIn', '列'
'FeatureStrengthExponent'
初始特征实力指数,指定为非标。此值缩放的功能部件的优势documentScores,wordScores和转变功能。
documentScores
wordScores
转变
例:'FeatureStrengthExponent',4
数据类型:单|双|INT8|INT16|INT32|Int64的|UINT8|UINT16|UINT32|UINT64
单
双
INT8
INT16
INT32
Int64的
UINT8
UINT16
UINT32
UINT64
lsaModel
输出LSA模型,返回一个lsaModel宾语。
bagOfNgrams|bagOfWords|fitlda|ldaModel|lsaModel|转变
fitlda
ldaModel
这个例子的修改版本的系统上存在。你要打开这个版本呢?
您单击对应于该MATLAB命令的链接:
在MATLAB命令窗口中输入它运行的命令。Web浏览器不支持MATLAB的命令。金宝app
选择一个网站,以获得翻译的内容,其中可看到当地的活动和优惠。根据您的位置,我们建议您选择:。
您还可以选择从下面的列表中的网站:
选择最佳的网站性能的中国网站(在中国或英文)。其他MathWorks的国家网站都没有从您的位置访问进行了优化。
请联系您当地的办事处