文本分析工具箱不船工具编译一个扩展MeCab字典。但是如果你有一个字段(我知道有这样的编译词典用于医疗目的,例如,您可以使用
mecabOptions
有
tokenizedDocument
使用它。
或者,如果你只有少数单词你想保存,不担心词形变化,您可以使用
“CustomTokens”
通过他们记号赋予器:
tokenizedDocument (“日本睡眠学会のガイドライン”)
ans =
tokenizedDocument:
5令牌:日本睡眠学会のガイドライン
tokenizedDocument (“日本睡眠学会のガイドライン”,“CustomTokens”,“日本睡眠学会”)
ans =
tokenizedDocument:
3令牌:日本睡眠学会のガイドライン