帮助中心帮助中心
最常见的字格
台= topkngrams(袋)
台= topkngrams(袋、k)
台= topkngrams (___、名称、值)
例子
资源描述= topkngrams (袋)返回一个表清单中最常见的五个字格bag-of-n-grams模型袋。这个函数,默认情况下,是区分大小写的。
资源描述= topkngrams (袋)
资源描述
袋
资源描述= topkngrams (袋,k)列出了k最常见字格bag-of-n-grams模型袋。这个函数,默认情况下,是区分大小写的。
资源描述= topkngrams (袋,k)
k
资源描述= topkngrams (___,名称,值)使用一个或多个指定附加选项名称-值对参数。
资源描述= topkngrams (___,名称,值)
名称,值
全部折叠
创建一个表的最常见的三元bag-of-n-grams模型。
加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。
sonnetsPreprocessed.txt
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
创建一个bag-of-n-grams模型。
袋= bagOfNgrams(文档)
袋= bagOfNgrams属性:数量:(154×8799双)词汇:[1×3092弦]Ngrams:[8799×2字符串]NgramLengths: 2 NumNgrams: 8799 NumDocuments: 154
发现5元。
台=5×3表Ngram计数NgramLength ___________ _____……“你”“艺术”34 2“我”“眼”15 2“你”“自我”14 2“你”“难道”13 2“我”“拥有”13 2
发现前十元。
台= topkngrams(袋,10)
台=10×3表Ngram计数NgramLength _________________ _____……“你”“艺术”34岁的“我”“眼”15 2 14“你”“自我”“你”“难道”13 2“我”“拥有”13 2“你”“甜”12 2 11“你”“爱”“”“你”10 2“你”“枯萎”2“爱”“你”9 2
创建一个bag-of-n-grams模型。长度为2和3的数字格(三元及三元模型),指定“NgramLengths”的向量3 [2]。
“NgramLengths”
3 [2]
袋= bagOfNgrams(文档,“NgramLengths”3 [2])
袋= bagOfNgrams属性:数量:(154×18022双)词汇:[1×3092弦]Ngrams:[18022×3字符串]NgramLengths: [2 3] NumNgrams: 18022 NumDocuments: 154
查看10最常见的字格长度2(三元)。
topkngrams(包10“NGramLengths”,2)
ans =10×3表Ngram计数NgramLength _______________________ _____……“你”“艺术”“34 2“我”“眼睛”“15 2“你”“自我”“14 2“你”“”“13 2“我”“拥有”“13 2“你”“甜”“12 2“你”“爱”“11 2“”“你”“10 2“你”“枯萎”“10 2“爱”“你”“9 2
查看10最常见的字格长度3(三)。
topkngrams(包10“NGramLengths”3)
ans =10×3表Ngram计数NgramLength ____________________________ _____……“你”“香”“自我”4 3“为什么”“”“你”4 3“你”“自我”“你”3 3“你”“你”“自我”3 3“我”“眼睛”“心”3 3“你”“要”“找到”3 3“公平”“善良”“true”3 3“你”“艺术”“公平”2 3“爱”“你”“自我”2 3“你”“自我”“你”2 3
bagOfNgrams
输入bag-of-n-grams模型,指定为一个bagOfNgrams对象。
- gram返回,指定为一个正整数。
例子:20.
指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。
Name1 = Value1,…,以=家
的名字
价值
R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。
例子:“NgramLengths”, [2 3]指定返回顶部一定范围和三元模型。
“NgramLengths”, [2 3]
NgramLengths
语法长度、指定为逗号分隔组成的“NgramLengths”和一个正整数或一个向量的正整数。
如果您指定NgramLengths,那么函数返回字格的长度。如果你不指定NgramLengths,那么函数返回顶部- gram长度无关。
例子:(1 2 3)
(1 2 3)
IgnoreCase
假
真正的
选项来忽略大小写,指定为逗号分隔组成的“IgnoreCase”和下列之一:
“IgnoreCase”
假——治疗- gram不同只有作为单独的字格。
真正的——仅有案件不同的治疗- gram相同的语法和合并计算。
ForceCellOutput
迫使输出指标作为细胞数组,返回指定为逗号分隔组成的“ForceCellOutput”和真正的或假。
“ForceCellOutput”
数据类型:逻辑
逻辑
表频率的大小排序的前字格或单元阵列的表。
表列如下:
Ngram
数
NgramLength
如果袋是一种基本数组或“ForceCellOutput”是真正的,那么函数返回单元阵列的输出表。单元阵列中的每个元素是一个表,它包含字格对应元素的顶部袋。
介绍了R2018a
bagOfWords|bagOfNgrams|removeInfrequentNgrams|removeNgrams|topkwords|tfidf|tokenizedDocument
bagOfWords
removeInfrequentNgrams
removeNgrams
topkwords
tfidf
tokenizedDocument
这种版本modificada德埃斯特比如。害怕Desea abrir埃斯特比如con sus modificaciones吗?
Ha事实clic en联合国围绕此时一个埃斯特第一de MATLAB:
Ejecute el第一introduciendolo en la ventana de第一de MATLAB。洛杉矶navegadores网络没有admiten第一de MATLAB。
选择一个网站
选择一个网站翻译内容,看到当地事件和提供。根据你的位置,我们建议您选择:。
你也可以从下面的列表中选择一个网站:
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。
联系你当地的办公室