主要内容

分析日语文本数据

这个示例展示了如何使用主题模型导入、准备和分析日语文本数据。

日文文本数据可能很大,并且可能包含许多负面影响统计分析的噪音。例如,文本数据可以包含以下内容:

  • 词形的变化。例如,“難しい”(“困难”)和“難しかった”(“很困难”)

  • 添加噪音的词。例如,停止词如“あそこ”(“那里”)、“あたり”(“约”)和“あちら”(“”)

  • 标点符号和特殊字符

这些词云说明词频率分析应用于原始文本数据从“吾輩は猫である”被夏目漱石,和一个预处理相同版本的文本数据。

这个示例首先展示了如何导入和准备日语文本数据,然后展示了如何使用Latent Dirichlet Allocation (LDA)模型分析文本数据。LDA模型是一个主题模型,它发现文档集合中的底层主题,并推断主题中的单词概率。使用以下步骤准备文本数据和拟合模型:

  • 阅读网页上的HTML代码。

  • 解析HTML代码并提取相关数据。

  • 使用标准的预处理技术准备文本数据进行分析。

  • 适合主题模型并可视化结果。

导入数据

读取数据从“吾輩は猫である”被夏目漱石https://www.aozora.gr.jp/cards/000148/files/789_14547.html使用webread函数。

属性指定文本的字符编码weboptions函数。要找到HTML的正确字符编码,请查看HTML代码的头部。对于这个文件,指定字符编码为"shift_jis“

URL =.“https://www.aozora.gr.jp/cards/000148/files/789_14547.html”;选择= weboptions (“CharacterEncoding”“Shift_JIS”);code = WebRead(URL,选项);

查看HTML代码的前几行。

extractBefore(代码,“<脚本”
ans = ' < ?xml version = " 1.0 " encoding = " Shift_JIS " ?> < !DOCTYPE html公共”——/ / W3C XHTML 1.1 / / DTD / / EN " " http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd " > < html xml: lang =“ja”> <头> < meta http-equiv =“- type”内容= " text / html; charset = Shift_JIS " / > < meta http-equiv =“content-style-type”内容= " text / css " / > < link rel = "样式表" type = " text / css " href = " . . / . . / aozora.css " / > <标题>夏目漱石吾輩は猫である< /名称>”

从HTML使用中提取文本数据extractHTMLText.将文本分割为新队字符。

textData = extractHTMLText(代码);textData =字符串(分裂(textData换行));textData (1:10)
ans =10×1的字符串数组“吾輩は猫である”“”“夏目漱石 " "" " " "" " 一”“”“吾輩は猫である。名前はまだ無い。”“どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。この書生というのは時々我々を捕えて煮て食うという話である。しかしその当時は何という考もなかったから別段恐しいとも思わなかった。ただ彼の掌に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。掌の上で少し落ちついて書生の顔を見たのがいわゆる人間というものの見始であろう。この時妙なものだと思った感じが今でも残っている。第一毛をもって装飾されべきはずの顔がつるつるしてまるで薬缶だ。その後猫にもだいぶ逢ったがこんな片輪には一度も出会わした事がない。のみならず顔の真中があまりに突起している。そうしてその穴の中から時々ぷうぷうと煙を吹く。どうも咽せぽくて実に弱った。これが人間の飲む煙草というものである事はようやくこの頃知った。”

删除文本的空行。

idx = textData =="";textData (idx) = [];textData (1:10)
ans =10×1的字符串数组“吾輩は猫である”“夏目漱石”““一”“吾輩は猫である。名前はまだ無い。”“どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。この書生というのは時々我々を捕えて煮て食うという話である。しかしその当時は何という考もなかったから別段恐しいとも思わなかった。ただ彼の掌に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。掌の上で少し落ちついて書生の顔を見たのがいわゆる人間というものの見始であろう。この時妙なものだと思った感じが今でも残っている。第一毛をもって装飾されべきはずの顔がつるつるしてまるで薬缶だ。その後猫にもだいぶ逢ったがこんな片輪には一度も出会わした事がない。のみならず顔の真中があまりに突起している。そうしてその穴の中から時々ぷうぷうと煙を吹く。どうも咽せぽくて実に弱った。これが人間の飲む煙草というものである事はようやくこの頃知った。” " この書生の掌の裏でしばらくはよい心持に坐っておったが、しばらくすると非常な速力で運転し始めた。書生が動くのか自分だけが動くのか分らないが無暗に眼が廻る。胸が悪くなる。到底助からないと思っていると、どさりと音がして眼から火が出た。それまでは記憶しているがあとは何の事やらいくら考え出そうとしても分らない。" " ふと気が付いて見ると書生はいない。たくさんおった兄弟が一疋も見えぬ。肝心の母親さえ姿を隠してしまった。その上今までの所とは違って無暗に明るい。眼を明いていられぬくらいだ。はてな何でも容子がおかしいと、のそのそ這い出して見ると非常に痛い。吾輩は藁の上から急に笹原の中へ棄てられたのである。" " ようやくの思いで笹原を這い出すと向うに大きな池がある。吾輩は池の前に坐ってどうしたらよかろうと考えて見た。別にこれという分別も出ない。しばらくして泣いたら書生がまた迎に来てくれるかと考え付いた。ニャー、ニャーと試みにやって見たが誰も来ない。そのうち池の上をさらさらと風が渡って日が暮れかかる。腹が非常に減って来た。泣きたくても声が出ない。仕方がない、何でもよいから食物のある所まであるこうと決心をしてそろりそろりと池を左りに廻り始めた。どうも非常に苦しい。そこを我慢して無理やりに這って行くとようやくの事で何となく人間臭い所へ出た。ここへ這入ったら、どうにかなると思って竹垣の崩れた穴から、とある邸内にもぐり込んだ。縁は不思議なもので、もしこの竹垣が破れていなかったなら、吾輩はついに路傍に餓死したかも知れんのである。一樹の蔭とはよく云ったものだ。この垣根の穴は今日に至るまで吾輩が隣家の三毛を訪問する時の通路になっている。さて邸へは忍び込んだもののこれから先どうして善いか分らない。そのうちに暗くなる、腹は減る、寒さは寒し、雨が降って来るという始末でもう一刻の猶予が出来なくなった。仕方がないからとにかく明るくて暖かそうな方へ方へとあるいて行く。今から考えるとその時はすでに家の内に這入っておったのだ。ここで吾輩は彼の書生以外の人間を再び見るべき機会に遭遇したのである。第一に逢ったのがおさんである。これは前の書生より一層乱暴な方で吾輩を見るや否やいきなり頸筋をつかんで表へ抛り出した。いやこれは駄目だと思ったから眼をねぶって運を天に任せていた。しかしひもじいのと寒いのにはどうしても我慢が出来ん。吾輩は再びおさんの隙を見て台所へ這い上った。すると間もなくまた投げ出された。吾輩は投げ出されては這い上り、這い上っては投げ出され、何でも同じ事を四五遍繰り返したのを記憶している。その時におさんと云う者はつくづくいやになった。この間おさんの三馬を偸んでこの返報をしてやってから、やっと胸の痞が下りた。吾輩が最後につまみ出されようとしたときに、この家の主人が騒々しい何だといいながら出て来た。下女は吾輩をぶら下げて主人の方へ向けてこの宿なしの小猫がいくら出しても出しても御台所へ上って来て困りますという。主人は鼻の下の黒い毛を撚りながら吾輩の顔をしばらく眺めておったが、やがてそんなら内へ置いてやれといったまま奥へ這入ってしまった。主人はあまり口を聞かぬ人と見えた。下女は口惜しそうに吾輩を台所へ抛り出した。かくして吾輩はついにこの家を自分の住家と極める事にしたのである。" " 吾輩の主人は滅多に吾輩と顔を合せる事がない。職業は教師だそうだ。学校から帰ると終日書斎に這入ったぎりほとんど出て来る事がない。家のものは大変な勉強家だと思っている。当人も勉強家であるかのごとく見せている。しかし実際はうちのものがいうような勤勉家ではない。吾輩は時々忍び足に彼の書斎を覗いて見るが、彼はよく昼寝をしている事がある。時々読みかけてある本の上に涎をたらしている。彼は胃弱で皮膚の色が淡黄色を帯びて弾力のない不活溌な徴候をあらわしている。その癖に大飯を食う。大飯を食った後でタカジヤスターゼを飲む。飲んだ後で書物をひろげる。二三ページ読むと眠くなる。涎を本の上へ垂らす。これが彼の毎夜繰り返す日課である。吾輩は猫ながら時々考える事がある。教師というものは実に楽なものだ。人間と生れたら教師となるに限る。こんなに寝ていて勤まるものなら猫にでも出来ぬ事はないと。それでも主人に云わせると教師ほどつらいものはないそうで彼は友達が来る度に何とかかんとか不平を鳴らしている。"

在词云中可视化文本数据。

图wordcloud (textData);

标记文件

使用标记文本tokenizedDocument并查看前几个文档。

文件= tokenizedDocument (textData);文档(1:10)
ans = 10×1 tokenizedDocument: 5令牌:吾輩は猫である2令牌:夏目漱石0令牌:1标记:一11令牌:吾輩は猫である。名前はまだ無い。264令牌:どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。この書生というのは時々我々を捕えて煮て食うという話である。しかしその当時は何という考もなかったから別段恐しいとも思わなかった。ただ彼の掌に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。掌の上で少し落ちついて書生の顔を見たのがいわゆる人間というものの見始であろう。 この 時 妙 な もの だ と 思っ た 感じ が 今 でも 残っ て いる 。 第 一 毛 をもって 装飾 さ れ べき はず の 顔 が つるつる し て まるで 薬缶 だ 。 その後 猫 に も だいぶ 逢っ た が こんな 片 輪 に は 一 度 も 出会わ し た 事 が ない 。 のみ なら ず 顔 の 真中 が あまりに 突起 し て いる 。 そうして その 穴 の 中 から 時々 ぷうぷうと 煙 を 吹く 。 どうも 咽 せ ぽく て 実に 弱っ た 。 これ が 人間 の 飲む 煙草 という もの で ある 事 は ようやく この 頃 知っ た 。 100 tokens: この 書生 の 掌 の 裏 で しばらく は よい 心持 に 坐っ て おっ た が 、 しばらく する と 非常 な 速力 で 運転 し 始め た 。 書生 が 動く の か 自分 だけ が 動く の か 分ら ない が 無 暗に 眼 が 廻る 。 胸 が 悪く なる 。 到底 助から ない と 思っ て いる と 、 ど さり と 音 が し て 眼 から 火 が 出 た 。 それ まで は 記憶 し て いる が あと は 何 の 事 やら いくら 考え出そ う として も 分ら ない 。 92 tokens: ふと 気 が 付い て 見る と 書生 は い ない 。 たくさん おっ た 兄弟 が 一疋 も 見え ぬ 。 肝心 の 母親 さえ 姿 を 隠し て しまっ た 。 その 上今 まで の 所 と は 違っ て 無 暗に 明るい 。 眼 を 明い て い られ ぬ くらい だ 。 はてな 何 でも 容子 が おかしい と 、 のそのそ 這い出し て 見る と 非常 に 痛い 。 吾輩 は 藁 の 上 から 急 に 笹原 の 中 へ 棄て られ た の で ある 。 693 tokens: ようやく の 思い で 笹原 を 這い出す と 向う に 大きな 池 が ある 。 吾輩 は 池 の 前 に 坐っ て どう し たら よかろ う と 考え て 見 た 。 別に これ という 分別 も 出 ない 。 しばらく し て 泣い たら 書生 が また 迎 に 来 て くれる か と 考え付い た 。 ニャー 、 ニャー と 試み に やっ て 見 た が 誰 も 来 ない 。 そのうち 池 の 上 を さらさら と 風 が 渡っ て 日 が 暮れ かかる 。 腹 が 非常 に 減っ て 来 た 。 泣き たく て も 声 が 出 ない 。 仕方 が ない 、 何 で も よい から 食物 の ある 所 まで ある こう と 決心 を し て そろ り そろりと 池 を 左 り に 廻り 始め た 。 どうも 非常 に 苦しい 。 そこ を 我慢 し て 無理やり に 這っ て 行く と ようやく の 事 で 何となく 人間 臭い 所 へ 出 た 。 ここ へ 這入っ たら 、 どうにか なる と 思っ て 竹垣 の 崩れ た 穴 から 、 とある 邸 内 に もぐり込ん だ 。 縁 は 不思議 な もの で 、 もし この 竹垣 が 破れ て い なかっ た なら 、 吾輩 は ついに 路傍 に 餓死 し た かも 知れ ん の で ある 。 一樹 の 蔭 と は よく 云っ た もの だ 。 この 垣根 の 穴 は 今日 に 至る まで 吾輩 が 隣家 の 三 毛 を 訪問 する 時 の 通路 に なっ て いる 。 さて 邸 へ は 忍び込ん だ ものの これから 先 どうして 善い か 分ら ない 。 その うち に 暗く なる 、 腹 は 減る 、 寒 さ は 寒し 、 雨 が 降っ て 来る という 始末 で もう 一刻 の 猶予 が 出来 なく なっ た 。 仕方 が ない から とにかく 明るく て 暖か そう な 方 へ 方 へ と あるい て 行く 。 今 から 考える と その 時 は すでに 家 の 内 に 這入っ て おっ た の だ 。 ここ で 吾輩 は 彼 の 書生 以外 の 人間 を 再び 見る べき 機会 に 遭遇 し た の で ある 。 第 一 に 逢っ た の が お さん で ある 。 こ… 276 tokens: 吾輩 の 主人 は 滅多 に 吾輩 と 顔 を 合せる 事 が ない 。 職業 は 教師 だ そう だ 。 学校 から 帰る と 終日 書斎 に 這入っ た ぎりほとんど 出 て 来る 事 が ない 。 家 の もの は 大変 な 勉強 家 だ と 思っ て いる 。 当人 も 勉強 家 で ある か の ごとく 見せ て いる 。 しかし 実際 は うち の もの が いう よう な 勤勉 家 で は ない 。 吾輩 は 時々 忍び足 に 彼 の 書斎 を 覗い て 見る が 、 彼 は よく 昼寝 を し て いる 事 が ある 。 時々 読みかけ て ある 本 の 上 に 涎 を たらし て いる 。 彼 は 胃弱 で 皮膚 の 色 が 淡 黄色 を 帯び て 弾力 の ない 不 活溌 な 徴候 を あらわし て いる 。 その 癖 に 大飯 を 食う 。 大飯 を 食っ た 後 で タカジヤスターゼ を 飲む 。 飲ん だ 後 で 書物 を ひろげる 。 二 三 ページ 読む と 眠く なる 。 涎 を 本 の 上 へ 垂らす 。 これ が 彼 の 毎夜 繰り返す 日課 で ある 。 吾輩 は 猫 ながら 時々 考える 事 が ある 。 教師 という もの は 実に 楽 な もの だ 。 人間 と 生れ たら 教師 と なる に 限る 。 こんなに 寝 て い て 勤まる もの なら 猫 に でも 出来 ぬ 事 は ない と 。 それでも 主人 に 云わ せる と 教師 ほど つらい もの は ない そう で 彼 は 友達 が 来る 度 に 何とか かん とか 不平 を 鳴らし て いる 。

得到词性标记

获取令牌详细信息,然后查看前几个令牌的详细信息。

tdetails = tokenDetails(文件);头(tdetails)
ans =8×8表令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言  ______ ______________ __________ _______ ________ ______________ ______ __________ " 吾輩“1 1字母ja代词“吾輩“走眼”は“1 1”字母ja adpositionは“走眼”猫“1 1字母是名词“猫“走眼”で“1 1字母ja助动词“だ“走眼”ある“1 1字母ja助动词“ある“走眼”夏目“2 1字母是专有名词“夏目”人“漱石“2 1字母是专有名词“漱石”人“一”4 1字母是数字“一”走眼

PartOfSpeech表中的变量包含标记的词性标记。分别创建所有名词和形容词的词云。

图idx = tdetails。PartOfSpeech = =“名词”;令牌= tdetails.Token (idx);次要情节(1、2、1)wordcloud(令牌);标题(“名词”) idx = tdetails。PartOfSpeech = =“形容词”;令牌= tdetails.Token (idx);次要情节(1、2、2)wordcloud(令牌);标题(“形容词”

准备文本数据进行分析

删除停止词。

= removeStopWords文件(文档);文档(1:10)
ans = 10×1令牌docizeddocument:2令牌:吾辈猫2令牌:夏目漱石0代币:0令牌:6令牌:吾辈猫。117令牌:生活れとんと当つか。薄暗い薄暗いじめじめニャーニャー泣いいた事事薄暗いじめじめ人间という。しかもしかも书生という人间一番狞悪种族あっ。书生という时尚捕え捕え煮食う段恐しといういとも思わなかっ掌恐られいとも思わ思わ持ち掌何だられ思わフワフワ掌掌何だかフワフワフワフワ掌何だかフワフワフワフワあっ掌何だかフワフワあっあっ掌落ちついかフワフワあっ掌书かかフワフワいわゆる人间という始あろ。妙思って装置。人间饮む烟草というようやく知っ。43令牌:书生竟中人よい心脏坐っおっ,しばらく非常非常力运転始め。胸悪く眼眼。46令牌:ふとふと付い见る见え见えぬ肝今母亲姿隠しにしまっ肝今违っ无暗にるいしまっ记忆兄弟母亲疋にるいるいしまっ记忆今无姿隠しるいとしてとして记忆いくらいくら考え出そとしてとしてとしてとしてとして记忆いくらとしてとしてとしてとしてとしてとしてらら:ら非常非常藁急急笹原弃ててららららららららら笹原笹原向うきなきなきな坐ったらよかろよかろ池にというたら别别しばらくにというたら别出きなというという别别来池池というという来来来考え考え迎考え考え考え考え考え考え考えという付い付い考え考え考え付いというという付い考え付い考え考え考えというというというという考え付い考え考えというというという来付い考え考え考え考えというというという来来考え考えというというという来来考え考えにというという来という考え考え考えというというという来考え考え考えというというという来考え考え考えにというというという考え考え考え考えたらというという考え考え考え考え思いというという生考え考え考え考えたらたらという考え考え考え考え考え思いというという考え考え考え考え考え考えという考え考え考え考え考え思いという生考え考え考え书というという考え考え考え考え考え考えという书考え考え考え考え书たら书书书书书たら书生考え考え书书たら考え考え考えたらたら书たら书考え考え书书书という书考え书书という考え考え书书というたら书书考え考え书书书书书考え书考え考え书书书书书考え考え考え다池さらさら风渡っ暮れかかる。腹非常减っ来。泣きたく声出。仕方,よい食物こう决心そろりそろりと池り迴り始め。どうも非常苦しい。我慢无理やり这っ行くようやく何となく人间臭い出。这入ったら,どうにか思っ竹垣穴,とある邸もぐり込ん。縁と邸もぐり込んなかっ,吾辈ついに路傍饿死知れなら,吾辈ついによくかも知れ。这是树荫よく云。通讯なっ。さて邸忍び込んもののこれどうして善いし。暗く,腹减る,寒し,雨降っ来というもうもう仕とにかく明るくか。仕考える这入っおっ吾辈书生户外人间再び见るべき机会遭遇。逢っ。书生一层乱暴吾辈见る否やいきなり颈筋つかん表抛り出し。駄目思っ眼ねぶっ运天任せ。しかしひもじい寒いどうしても我慢出来。吾辈再びおさん隙台所这い上っ。すると间もなく 投げ出さ れ 。 吾輩 投げ出さ れ 這い 上り 、 這い 上っ 投げ出さ れ 、 遍 繰り返し 記憶 。 おさん 云う つくづく なっ 。 この間 おさん 馬 偸 んで 返報 やっ 、 やっと 胸 痞 下り 。 吾輩 最後 つまみ出さ れよ 、 主人 騒々しい いい ながら 出 来 。 下女 吾輩 ぶら下げ 主人 向け 宿 なし 小 猫 いくら 出し 出し 御台 上っ 来 困り いう 。 主人 鼻 黒い 毛 撚り ながら 吾輩 顔 しばらく 眺め おっ 、 やがて そん なら 置い やれ といった 奥 這入っ しまっ 。 主人 あまり 聞か ぬ 見え 。 下女 口惜し 吾輩 台所 抛り出し 。 かくして 吾輩 ついに 住 極める 。 122 tokens: 吾輩 主人 滅多 吾輩 顔 合せる 。 職業 教師 。 学校 帰る 終日 書斎 這入っ ぎりほとんど 出 来る 。 大変 勉強 思っ 。 当人 勉強 ごとく 見せ 。 しかし 実際 いう 勤勉 。 吾輩 時々 忍び足 書斎 覗い 見る 、 よく 昼寝 。 時々 読みかけ 本 涎 たらし 。 胃弱 皮膚 色 淡 黄色 帯び 弾力 不 活溌 徴候 あらわし 。 癖 大飯 食う 。 大飯 食っ タカジヤスターゼ 飲む 。 飲ん 書物 ひろげる 。 ページ 読む 眠く 。 涎 本 垂らす 。 毎夜 繰り返す 日課 。 吾輩 猫 ながら 時々 考える 。 教師 という 実に 。 人間 生れ たら 教師 限る 。 こんなに 寝 勤まる なら 猫 出来 ぬ 。 それでも 主人 云わ 教師 つらい 友達 来る 何とか かん 不平 鳴らし 。

擦除的标点符号。

= erasePunctuation文件(文档);文档(1:10)
ans = 10×1令牌documentdocument:2令牌:吾辈猫2令牌:夏目漱石0代币:0代币:4令牌:吾辈猫まだ无い102令牌:生活とんと见当つか薄暗いじめじめニャーニャー泣いい事事吾辈じめじめニャーニャー泣い书生という人间一番种族狞悪种族书生という时钟捕え煮食うというしかし当という考别段恐し思わなかっ掌载せられ持ちげられかフワフワフワフワ少し落ちつい书房颜いわゆるいわゆるいわゆるいわゆるいわゆるいわゆるいわゆるをもって装修れべき颜つるつるつるつるまるでで薬つるつる逢っ片出出出だいぶ逢っ片出出出なら颜真中间あまり突起そうし穴穴穴突起烟吹くどうも咽せ実弱っ吹く吹くも咽せ実に人间饮む烟草という知っ実弱っ人间饮む饮むという知っ知っににに烟草知っ知っ知っ38しまっ上今违っ无暗明暗眼明星たら书生迎来くれる付いニャーニャー试みやっやっ来その池さらさら风子暮れかかる非常减っ来たく声出非常よい东西こうこう心脏そろのと池り决どうどう非常苦しい苦しい池迴り始めも苦しい苦しい我这入ったらどうにか竹垣崩れ崩れとある邸縁縁不成もし破れなかっならついに路傍饿死かも知れ一树荫云っ垣根穴今日至る吾辈家人毛访问通道なって邸邸もののこれからどうし善い邸忍び込ん暗く腹减る寒し雨降っ降っという始末もう刻犹予出なく仕仕〗这入っおっ书生户外人间再び见るべき机会遭遇遭遇书生一件儿吾辈否やいきなり颈筋つかん表抛り出し思っ眼ねぶっ运天着天任せひもじいどうして运も天着しかしひもじいどうしてもも出出出出出おさん台所这い上っと隙投げ出され吾辈投げ出され这い上り上っ投げ出され缲り返しおさん云うつくづくこのこのおさん马偸ででやっ胸痞痞痞り吾辈最后出され胸痞り最后つまみれよよ主騒々しい騒々しいいいながられよ吾辈騒々しい 主人 向け 宿 なし 小 猫 いくら 出し 出し 御台 上っ 来 困り いう 主人 鼻 黒い 毛 撚り ながら 吾輩 顔 しばらく 眺め おっ やがて そん なら 置い やれ といった 奥 這入っ しまっ 主人 あまり 聞か ぬ 見え 下女 口惜し 吾輩 台所 抛り出し かくして 吾輩 ついに 住 極める 101 tokens: 吾輩 主人 滅多 吾輩 顔 合せる 職業 教師 学校 帰る 終日 書斎 這入っ ぎりほとんど 出 来る 大変 勉強 思っ 当人 勉強 ごとく 見せ しかし 実際 いう 勤勉 吾輩 時々 忍び足 書斎 覗い 見る よく 昼寝 時々 読みかけ 本 涎 たらし 胃弱 皮膚 色 淡 黄色 帯び 弾力 不 活溌 徴候 あらわし 癖 大飯 食う 大飯 食っ タカジヤスターゼ 飲む 飲ん 書物 ひろげる ページ 読む 眠く 涎 本 垂らす 毎夜 繰り返す 日課 吾輩 猫 ながら 時々 考える 教師 という 実に 人間 生れ たら 教師 限る こんなに 寝 勤まる なら 猫 出来 ぬ それでも 主人 云わ 教師 つらい 友達 来る 何とか かん 不平 鳴らし

用词根化文本normalizeWords

= normalizeWords文件(文档);文档(1:10)
ans = 10×1 tokenizedDocument: 2令牌:吾輩猫2令牌:夏目漱石0令牌:0令牌:4令牌:吾輩猫まだ無い102令牌:生れるとんと見当つくぬ薄暗いじめじめニャーニャー泣くいた事記憶吾輩始める人間というしかも聞く書生という人間一番獰悪種族ある書生という時々捕える煮る食うというしかし当時という考ない別段恐いいとも思うない掌載せるられるスー持ち上げるられる何だかフワフワある掌少し落ちつく書生顔いわゆる人間という始ある妙思う残る毛をもって装飾れるべし顔つるつるまるで薬缶猫だいぶ逢うこんな片出会うのみなる顔真中あまりに突起そうして穴時々ぷうぷうと煙吹くどうも咽するぽい実に弱る人間飲む煙草というようやく知る36令牌:書生掌裏しばらくよい心持坐るおるしばらく非常速力運転始める書生動く動く分る無暗に眼廻る胸悪い到底助かる思うどさる音眼出る記憶いくら考え出すとして分る38令牌:ふと付く見る書生おる兄弟一疋見えるぬ肝心母親姿隠すしまう上今違う無暗に明るい眼明くられるぬくらいはてな容子おかしいのそのそ這い出す見る非常痛い吾輩藁急笹原棄てるられる274令牌:ようやく思い笹原這い出す向う大きな池吾輩池坐るたよい考える別にという分別出るしばらく泣くた書生迎来るくれる考え付くニャーニャー試みやる来るそのうち池さらさら風渡る暮れかかる腹非常減る来る泣くたい声出る仕方よい食物こう決心そるりそろりと池り廻る始めるどうも非常苦しい我慢無理やり這う行くようやく何となく人間臭い出る這入るたどうにか思う竹垣崩れる穴とある邸もぐり込む縁不思議もし竹垣破れるないだ吾輩ついに路傍餓死かも知れる一樹蔭よく云う垣根穴今日至る吾輩隣家毛訪問通路なるさて邸忍び込むもののこれからどうして善い分る暗い腹減る寒い寒い雨降る来るという始末もう一刻猶予出来るないなる仕方とにかく明るい暖かいあるく行く考えるすでに這入るおる吾輩書生以外人間再び見るべし機会遭遇逢う書生一層乱暴吾輩見る否やいきなり頸筋つかむ表抛り出す駄目思う眼ねぶる運天任せるしかしひもじい寒いどうしても我慢出来る吾輩再びおさん隙台所這う上るすると間もなく投げ出すれる吾輩投げ出すれる這う上る這う上る投げ出すれる遍繰り返す記憶おさん云うつくづくなるこの間おさん馬偸んで返報やるやっと胸痞下りる吾輩最後つまみ出す れる 主人 騒々しい いう ながら 出る 来る 下女 吾輩 ぶら下げる 主人 向ける 宿 ない 小 猫 いくら 出す 出す 御台 上る 来る 困る いう 主人 鼻 黒い 毛 撚る ながら 吾輩 顔 しばらく 眺める おる やがて そん だ 置く やる といった 奥 這入る しまう 主人 あまり 聞く ぬ 見える 下女 口惜しい 吾輩 台所 抛り出す かくして 吾輩 ついに 住 極める 101 tokens: 吾輩 主人 滅多 吾輩 顔 合せる 職業 教師 学校 帰る 終日 書斎 這入る ぎりほとんど 出る 来る 大変 勉強 思う 当人 勉強 ごとし 見せる しかし 実際 いう 勤勉 吾輩 時々 忍び足 書斎 覗く 見る よく 昼寝 時々 読みかける 本 涎 たらす 胃弱 皮膚 色 淡い 黄色 帯びる 弾力 不 活溌 徴候 あらわす 癖 大飯 食う 大飯 食う タカジヤスターゼ 飲む 飲む 書物 ひろげる ページ 読む 眠い 涎 本 垂らす 毎夜 繰り返す 日課 吾輩 猫 ながら 時々 考える 教師 という 実に 人間 生れる た 教師 限る こんなに 寝る 勤まる だ 猫 出来る ぬ それでも 主人 云う 教師 つらい 友達 来る 何とか かん 不平 鳴らす

一些预处理步骤,如删除停止词和删除标点符号,将返回空文档。使用。删除空文档removeEmptyDocuments函数。

= removeEmptyDocuments文件(文档);

创建预处理函数

创建一个执行预处理的函数对于以相同的方式准备不同的文本数据集合可能很有用。例如,可以使用与训练数据相同的步骤,使用函数对新数据进行预处理。

创建一个授权的函数,授权并预处理要用于分析的文本数据。功能preprocessJapaneseText,执行以下步骤:

  1. 使用标记文本tokenizedDocument

  2. 删除标点符号使用侵蚀

  3. 删除列表的停止词(如“あそこ”、“あたり”,和“あちら”)使用removeStopWords

  4. 使使用的词义化normalizeWords

使用该预处理后删除空文档removeEmptyDocuments函数。在使用预处理函数后删除文档可以更容易地从其他来源删除相应的数据(如标签)。

在本例中,使用预处理函数preprocessJapaneseText,以准备文本数据。

文件= preprocessJapaneseText (textData);文档(1:5)
ans = 5×1 tokenizedDocument: 2令牌:吾輩猫2令牌:夏目漱石0令牌:0令牌:4令牌:吾輩猫まだ無い

删除空文档。

= removeEmptyDocuments文件(文档);

符合主题模式

为数据拟合一个潜在的Dirichlet分配(LDA)主题模型。LDA模型发现文档集合中的底层主题,并推断主题中的单词概率。

要使LDA模型适合于数据,首先必须创建词汇包模型。单词袋模型(也称为术语频率计数器)记录单词在集合的每个文档中出现的次数。创建一个词袋模型使用bagOfWords

袋= bagOfWords(文件);

从单词袋模型中删除空文档。

袋=卸妆仪(袋);

使用七个主题拟合LDA模型fitlda.要抑制verbose输出,请设置“详细”0

numTopics = 7;mdl = fitlda(袋、numTopics、“详细”,0);

使用词云将前四个主题形象化。

数字i = 1:4子图(2,2,i)WordCloud(MDL,i);标题(“主题”+ i)结束

使用堆叠条形图可视化多个主题混合物。随机查看五个输入文档,并可视化相应的主题混合物。

numDocuments =元素个数(文件);idx = randperm (numDocuments 5);文档(idx)
ans = 5×1 tokenizedDocument: 4令牌:細君細君なかなかさばける7令牌:進行せる山々どうしても暮れるくれる困る13标记:来るそんな仙骨相手少々骨折れる過ぎる宛然たり仙伝人物3令牌:先生譜下さる23个标记:立つ月給上がるいくら勉強褒めるくれる郎君独寂寞中学時代覚える詩句細君朗吟細君ちょっと分るかねる返事
topicMixtures =变换(mdl、文档(idx));图barh (topicMixtures (1:5),“堆叠”) xlim([0 1]) title(“主题混合”)包含(“主题概率”) ylabel (“文档”)传说(“主题”+字符串(1:numTopics),“位置”“northeastoutside”

例子预处理功能

功能preprocessJapaneseText,执行以下步骤:

  1. 使用标记文本tokenizedDocument

  2. 删除标点符号使用侵蚀

  3. 删除列表的停止词(如“あそこ”、“あたり”,和“あちら”)使用removeStopWords

  4. 使使用的词义化normalizeWords

功能文件= preprocessJapaneseText (textData)标记文本。文件= tokenizedDocument (textData);擦掉标点符号。= erasePunctuation文件(文档);删除一个停止词列表。= removeStopWords文件(文档);将单词义化。文档= normalizeWords(文档,“风格”“引理”);结束

另请参阅

|||||

相关的话题