主要内容

mecabOptions

MeCab标记化选项

描述

A.mecabOptions对象指定用于标记日文和韩文文本的其他选项。

要使用指定的MeCab标记化选项进行标记化,请使用“标记化方法”选择tokenizedDocument.

创造

描述

实例

选择权=mecabOptions使用标记日语的默认值创建MeCab标记化选项集。

实例

选择权=mecabOptions(名称、值)额外设置额外的性质使用一个或多个名称-值对参数。

性质

全部展开

训练模型(MeCab字典)的路径,指定为字符串标量或字符向量。

默认值是指向日语标记化的内部词典的路径。

例子:“C: \ myDict”

数据类型:烧焦|一串

包含模型扩展名(MeCab用户字典)的文件.dic文件),指定为字符串标量或字符向量。

例子:“C:\myFile.dic”

数据类型:烧焦|一串

从MeCab回复中提取引理的函数,指定为函数句柄。

函数必须具有以下形式:lemmata =乐趣(话说,信息)哪里是标记和的字符串向量吗信息是具有以下字段的结构:

  • 特色–与相同大小的令牌的字符串向量包含ChaSen格式的MeCab输出行,而不包含拆分标记本身。

  • 言语的一部分—字典内部用于词性分类的数字代码。

输出外稃字符串数组的大小是否相同包含提取的外稃的。

默认引理提取器是textanalytics.ja.mecabToLemma作用

数据类型:功能手柄

从MeCab应答中提取词性信息的函数,指定为函数句柄。

函数必须具有以下形式:邮资=乐趣(文字、信息)哪里是标记和的字符串向量吗信息是具有以下字段的结构:

  • 特色–与相同大小的令牌的字符串向量包含ChaSen格式的MeCab输出行,而不包含拆分标记本身。

  • 言语的一部分—字典内部用于词性分类的数字代码。

输出邮资是与相同大小的分类数组包含从以下类别中提取的词性标记:

  • 形容词

  • 位置

  • 副词

  • 助动词

  • 坐标连词

  • 限定词

  • 感叹词

  • 名词

  • 数字

  • 代词

  • 专有名词

  • 标点符号

  • 象征

  • 动词

  • 另外

默认的词性信息提取器是textanalytics.ja.mecabToPOS作用

数据类型:功能手柄

函数从MeCab应答中提取命名实体信息,指定为函数句柄。

函数必须具有以下形式:实体=乐趣(话说,信息)哪里是标记和的字符串向量吗信息是具有以下字段的结构:

  • 特色–与相同大小的令牌的字符串向量包含ChaSen格式的MeCab输出行,而不包含拆分标记本身。

  • 言语的一部分—字典内部用于词性分类的数字代码。

输出实体是与相同大小的分类数组包含从以下类别中提取的实体:

  • 走眼

  • 组织

  • 地方

  • 另外

默认的词性信息提取器是textanalytics.ja.mecabtone作用

数据类型:功能手柄

例子

全部崩溃

创建一个mecabOptions对象,该对象包含日语标记化的默认选项。

选项=MECABOTIONS
模型:"C:\Program Files\MATLAB\R2019b\sys\share\dict-ipadic" UserModel: "" LemmaExtractor: @textanalytics.ja. "mecabToLemma POSExtractor: @textanalytics.ja。mecabToPOS NERExtractor: @textanalytics.ja.mecabToNER

标记日语文本使用自定义MeCab选项。

创建日文文本的字符串数组。

str=["恋に悩み、苦しむ。"“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”"空の星が輝きを増している。"];

创建一个mecabOptions对象,并将用户模型指定为.dic使用“用户模型”选择。

选项=MECABOTIONS(“用户模型”,“myFile.dic”)
options=MECABOTIONS带属性的选项:模型:“C:\Program Files\MATLAB\R2019b\sys\share\dict ipadic”用户模型:“myFile.dic”LemmaExtractor:@textlagytics.ja.mecabtolema POSExtractor:@textlagytics.ja.mecabToPOS nerrecrator:@textlagytics.ja.mecabtone

使用指定的选项,使用“标记化方法”选择。

文件= tokenizedDocument (str,“标记化方法”,选项)
文档=4×1标记化文档:6个标记:恋 に 悩み 、 苦しむ 。 6代币:恋 の 悩み で 苦しむ 。 10个代币:空 に 星 が 輝き 、 瞬い て いる 。 10个代币:空 の 星 が 輝き を 増し て いる 。
在R2019b中引入