这个示例展示了如何使用主题模型导入、准备和分析日语文本数据。
日文文本数据可能很大,并且可能包含许多负面影响统计分析的噪音。例如,文本数据可以包含以下内容:
词形的变化。例如,“難しい”(“困难”)和“難しかった”(“很困难”)
添加噪音的词。例如,停止词如“あそこ”(“那里”)、“あたり”(“约”)和“あちら”(“”)
标点符号和特殊字符
这些词云说明词频率分析应用于原始文本数据从“吾輩は猫である”被夏目漱石,和一个预处理相同版本的文本数据。
这个示例首先展示了如何导入和准备日语文本数据,然后展示了如何使用Latent Dirichlet Allocation (LDA)模型分析文本数据。LDA模型是一个主题模型,它发现文档集合中的底层主题,并推断主题中的单词概率。使用以下步骤准备文本数据和拟合模型:
阅读网页上的HTML代码。
解析HTML代码并提取相关数据。
使用标准的预处理技术准备文本数据进行分析。
适合主题模型并可视化结果。
读取数据从“吾輩は猫である”被夏目漱石https://www.aozora.gr.jp/cards/000148/files/789_14547.html使用webread
函数。
属性指定文本的字符编码weboptions
函数。要找到HTML的正确字符编码,请查看HTML代码的头部。对于这个文件,指定字符编码为"shift_jis“
.
URL =.“https://www.aozora.gr.jp/cards/000148/files/789_14547.html”;选择= weboptions (“CharacterEncoding”,“Shift_JIS”);代码= Webrabread(URL,选项);
查看HTML代码的前几行。
extractBefore(代码,“