文档帮助中心文档
MeCab标记化选项
A.mecabOptions对象指定用于标记日文和韩文文本的其他选项。
mecabOptions
要使用指定的MeCab标记化选项进行标记化,请使用“标记化方法”选择tokenizedDocument.
“标记化方法”
tokenizedDocument
选项=MECABOTIONS
选项=MECABOTIONS(名称、值)
实例
选择权=mecabOptions使用标记日语的默认值创建MeCab标记化选项集。
选择权=mecabOptions
选择权
选择权=mecabOptions(名称、值)额外设置额外的性质使用一个或多个名称-值对参数。
选择权=mecabOptions(名称、值)
名称、值
全部展开
模型
训练模型(MeCab字典)的路径,指定为字符串标量或字符向量。
默认值是指向日语标记化的内部词典的路径。
例子:“C: \ myDict”
“C: \ myDict”
数据类型:烧焦|一串
烧焦
一串
用户模型
""
包含模型扩展名(MeCab用户字典)的文件.dic文件),指定为字符串标量或字符向量。
.dic
例子:“C:\myFile.dic”
“C:\myFile.dic”
LemmaExtractor
@textanalytics.ja.mecabToLemma
从MeCab回复中提取引理的函数,指定为函数句柄。
函数必须具有以下形式:lemmata =乐趣(话说,信息)哪里话是标记和的字符串向量吗信息是具有以下字段的结构:
lemmata =乐趣(话说,信息)
话
信息
特色–与相同大小的令牌的字符串向量话包含ChaSen格式的MeCab输出行,而不包含拆分标记本身。
特色
言语的一部分—字典内部用于词性分类的数字代码。
言语的一部分
输出外稃字符串数组的大小是否相同话包含提取的外稃的。
外稃
默认引理提取器是textanalytics.ja.mecabToLemma作用
textanalytics.ja.mecabToLemma
数据类型:功能手柄
功能手柄
位置提取器
@textanalytics.ja.mecabToPOS
从MeCab应答中提取词性信息的函数,指定为函数句柄。
函数必须具有以下形式:邮资=乐趣(文字、信息)哪里话是标记和的字符串向量吗信息是具有以下字段的结构:
邮资=乐趣(文字、信息)
输出邮资是与相同大小的分类数组话包含从以下类别中提取的词性标记:
邮资
形容词
位置
副词
助动词
坐标连词
限定词
感叹词
名词
数字
代词
专有名词
标点符号
象征
动词
另外
默认的词性信息提取器是textanalytics.ja.mecabToPOS作用
textanalytics.ja.mecabToPOS
神经拔除器
@textanalytics.ja.mecabtone
函数从MeCab应答中提取命名实体信息,指定为函数句柄。
函数必须具有以下形式:实体=乐趣(话说,信息)哪里话是标记和的字符串向量吗信息是具有以下字段的结构:
实体=乐趣(话说,信息)
输出实体是与相同大小的分类数组话包含从以下类别中提取的实体:
实体
走眼
人
组织
地方
默认的词性信息提取器是textanalytics.ja.mecabtone作用
textanalytics.ja.mecabtone
全部崩溃
创建一个mecabOptions对象,该对象包含日语标记化的默认选项。
模型:"C:\Program Files\MATLAB\R2019b\sys\share\dict-ipadic" UserModel: "" LemmaExtractor: @textanalytics.ja. "mecabToLemma POSExtractor: @textanalytics.ja。mecabToPOS NERExtractor: @textanalytics.ja.mecabToNER
标记日语文本使用自定义MeCab选项。
创建日文文本的字符串数组。
str=["恋に悩み、苦しむ。"“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”"空の星が輝きを増している。"];
创建一个mecabOptions对象,并将用户模型指定为.dic使用“用户模型”选择。
“用户模型”
选项=MECABOTIONS(“用户模型”,“myFile.dic”)
options=MECABOTIONS带属性的选项:模型:“C:\Program Files\MATLAB\R2019b\sys\share\dict ipadic”用户模型:“myFile.dic”LemmaExtractor:@textlagytics.ja.mecabtolema POSExtractor:@textlagytics.ja.mecabToPOS nerrecrator:@textlagytics.ja.mecabtone
使用指定的选项,使用“标记化方法”选择。
文件= tokenizedDocument (str,“标记化方法”,选项)
文档=4×1标记化文档:6个标记:恋 に 悩み 、 苦しむ 。 6代币:恋 の 悩み で 苦しむ 。 10个代币:空 に 星 が 輝き 、 瞬い て いる 。 10个代币:空 の 星 が 輝き を 増し て いる 。
tokenizedDocument|令牌详细信息|addPartOfSpeechDetails|附加细节|Addlemmadetals|正常化森林|addLanguageDetails|corpusLanguage
令牌详细信息
addPartOfSpeechDetails
附加细节
Addlemmadetals
正常化森林
addLanguageDetails
corpusLanguage
次の MATLABコマンドに対応するリンクがクリックされました。
コマンドを MATLABコマンド ウィンドウに入力して実行してください。网状物ブラウザーは MATLABコマンドをサポートしていません。
选择一个网站以获取可用的翻译内容,并查看本地活动和优惠。根据您的位置,我们建议您选择:.
您还可以从以下列表中选择网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区站点不适合您所在位置的访问。
联系当地办事处