topkngrams

最常见的n-grams

页面上倒塌

句法

tbl = topkngrachs（袋）

Tbl = topkngres（袋子，k）

TBL = topkngrams（___，名称，值）

描述

例子

TBL= topkngrams（包）返回一个表列出了在N-r克模型中最常常见的n-gram的表格包。默认情况下，该函数区分大小写。

例子

TBL= topkngrams（包那K.）列出K.多见正克袋的的N-gram模型包。默认情况下，该函数区分大小写。

例子

TBL= topkngrams（___那名称，值）使用一个或多个名称值对参数指定其他选项。

例子

全部收缩

一袋N元模型的最常见的双字母组

打开直播脚本

创建袋的的N-gram模型的最常见的双字母组的表。

加载示例数据。文件sonnetsPreprocessed.txt包含Precrocessed版本的莎士比亚的十四行诗。该文件每行包含一个十四行诗，单词由空格分隔。从中提取文本sonnetsPreprocessed.txt，将文本拆分为换行符的文档，然后授权文档。

filename =.“sonnetsPreprocessed.txt”;str = inthelfiletext（filename）;textdata = split（str，newline）;文档= tokenizeddocument（textdata）;

创建一个n克模型。

包= bagOfNgrams（文档）

BAG =具有属性的BAGOFNGROM：COUNTS：[154×8799双]词汇：[1×3092字符串] ngrams：[8799×2字符串] ngramlengs：2 numngrams：8799 numfocuments：154

查找前5的双字母组。

tbl = topkngrachs（袋）

TBL =.5×3表的ngram计数NgramLength ________________ _____ ___________ “你”， “艺术” 34 2 “我的” 的 “眼睛” 15 2 “你”， “自我” 14 2 “你”， “多斯特” 13 2 “我的” “自己” 13 2

找到顶级的10双字母组。

TBL = topkngrams（袋，10）

TBL =.10×3表的ngram计数NgramLength _________________ _____ ___________ “你”， “艺术” 34 2 “我的” 的 “眼睛” 15 2 “你”， “自我” 14 2 “你”， “多斯特” 13 2 “我的” “自己” 13 2 “你”，“甜” 12 2 “你”， “爱” 11 2 “多斯特”， “你” 10 2 “你”， “萎” 10 2 “爱” “你” 9 2

计算不同长度的n克

打开直播脚本

filename =.“sonnetsPreprocessed.txt”;str = inthelfiletext（filename）;textdata = split（str，newline）;文档= tokenizeddocument（textdata）;

创建一个n克模型。计数的n-gram长度2和3（双字母组和三字母组）的，指定'ngramlengths'成为矢量[2 3]。

包= bagOfNgrams（文件，'ngramlengths'，[2 3]）

BAG = BAGOFNGROMS具有属性：计数：[154×18022双]词汇：[1×3092字符串] ngrams：[18022×3字符串] ngramlengs：[2 3] numngrams：18022 Numfocuments：154

查看10个最常见的n-gram长度2（双字母组）的。

Topkngrachs（包，10，'ngramlengths'，2）

ANS =10×3表ngram count narmlength _______________________ _____ ___________“你”“艺术”“我”“眼睛”“”你“”自我“”“”14“”“dost”“”“13 2”我“”拥有“”“13 2”你“”甜蜜“”“12”你“”爱“”“”你“”你“”你“”枯萎“”“10”爱“”“你“”9 2

查看10个最常见的N-克长3（三克）。

Topkngrachs（包，10，'ngramlengths'，3）

ANS =10×3表ngram数量ngramlength ____________________________________________________甜蜜“4 3”为什么“你”4 3“你”“你”3 3“你”“你”“自己”3 3“我的”眼睛“”心脏“3 3”你“”shat“”找到“3 3”公平“”真实“3”你“”艺术“”艺术“2 3”爱“”你““自我”2 3“你”“自我”“你”2 3

输入参数

全部收缩

`包`-输入袋式袋型号
`bagofngrams.`目的

输入袋的的N-gram模型，指定为bagofngrams.目的。

`K.`-N-GRAM的数量
非负整数

要返回的n-gram数量，指定为正整数。

例子：20.

名称 - 值对参数

指定可选的逗号分离对名称，值参数。名称是参数名称和价值是对应的值。名称必须出现引号内。您可以按照任何顺序指定多个名称和值对参数名1，值1，...，NameN，值N。

例子：'ngramlengths'，[2 3]指定返回顶部二元语法和卦。

`'ngramlengths'`-的N-gram长度
正整数|正整数矢量

n-gram长度，指定为逗号分隔对组成'ngramlengths'和一个正整数或正整数的向量。

如果您指定narmlengs.，则该函数返回的n-gram只有这些长度。如果没有指定narmlengs.，无论长度如何，该函数都返回顶部n-gram。

例子：[1 2 3]

`'Ignorecase'`-忽略案件的选项
`错误的`（默认）|`真的`

忽略案例的选项，指定为逗号分隔的配对'Ignorecase'和以下之一：

错误的- 仅按照单独的n-gram处理n-grams。
真的- 仅按照相同的n-gram和合并计数处理n-grams。

`'ForceCellOutput'`-用于迫使输出的指示器作为单元格数组返回
`错误的`（默认）|`真的`

强制输出的指示器返回为单元格数组，指定为逗号分隔对'ForceCellOutput'和真的要么错误的。

数据类型：逻辑

输出参数

全部收缩

`TBL`- 顶部n-grams表
表|单元格阵列

的顶部的n-gram在表或频率表的一个单元阵列的顺序进行排序。

该表具有以下的列：

`NGRAM`	n-gram指定为串向量
`数数`	n-gram出现在n-grams模型中的次数。
`NgramLength`	n-gram的长度。

如果包是非标量数组或'ForceCellOutput'是真的，然后该函数将输出返回为表的小区数组。单元格阵列中的每个元素是包含相应元素的顶部n-gram的表包。

也可以看看

话题

在R2018A介绍

文本分析工具箱文档

金宝app

在Matlab中的文本分析入门

现在下载

topkngrams

句法

描述

例子

一袋N元模型的最常见的双字母组

计算不同长度的n克

输入参数

包-输入袋式袋型号bagofngrams.目的

K.-N-GRAM的数量非负整数

名称 - 值对参数

'ngramlengths'-的N-gram长度正整数|正整数矢量

'Ignorecase'-忽略案件的选项错误的（默认）|真的

'ForceCellOutput'-用于迫使输出的指示器作为单元格数组返回错误的（默认）|真的

输出参数

TBL- 顶部n-grams表表|单元格阵列

也可以看看

话题

文本分析工具箱文档

金宝app

在Matlab中的文本分析入门

`包`-输入袋式袋型号
`bagofngrams.`目的

`K.`-N-GRAM的数量
非负整数

`'ngramlengths'`-的N-gram长度
正整数|正整数矢量

`'Ignorecase'`-忽略案件的选项
`错误的`（默认）|`真的`

`'ForceCellOutput'`-用于迫使输出的指示器作为单元格数组返回
`错误的`（默认）|`真的`

`TBL`- 顶部n-grams表
表|单元格阵列