主要内容

上下文

在文档中搜索上下文中出现的单词或n-gram

描述

例子

T.=上下文(文件的)搜索单个单词的出现文件并返回一个表显示在上下文及其地点。默认情况下,该函数区分大小写。

例子

T.=上下文(文件ngram的)搜索n-gram的出现文件。默认情况下,该函数区分大小写。

例子

T.=上下文(___contextLength的)指定使用前面任何语法返回的上下文的长度。

例子

T.=上下文(___名称,值的)使用一个或多个名称-值对参数(使用前面的任何语法)指定其他选项。

例子

全部折叠

加载示例数据。文件sonnetsPreprocessed.txt包含莎士比亚的Sonnets的预处理版本。该文件每行包含一个十四行诗,单词分隔一个空格。从中提取文本sonnetsPreprocessed.txt,将文本拆分为换行符以换行符,然后授权文档。

filename =“sonnetsPreprocessed.txt”;str = inthelfiletext(文件名);textdata = split(str,newline);文档= tokenizeddocument(textdata);

搜索“生活”这个词。

tbl =上下文(文档,“生命”);头(TBL)
ans =8×3表上下文文档词  ________________________________________________________ ________ ____ " consumst你自己单身生活啊你徒劳的“9 10”不是假冒行生活生活修复乘以铅笔“16 35 d假冒行生活生活修复次铅笔基金会的“16 36”天知道墓藏生活展示半部分编写“17 14”他眼睛长久的生命给你生命温柔的大使馆爱你生命四两独沉你的美虽有情人生命美将黑线剪掉活第二生命第二头在美之前

查看字符串数组中的出现。

tbl.context.
ans =23 x1字符串“consumst你自己单身生活啊你徒劳的”“不是假冒行生活生活修复次铅笔”“d假冒行生活生活修复次铅笔基金会”“天知道墓藏生活展示半部分编写b”“他眼睛长给生活你”“温柔的大使馆爱你生活四个二沉”“大美虽然爱好者生命美必黑线”“年代剪掉第二生活第二头之前美”“e排练让爱甚至生命衰变以免智慧世界lo”“圣保释应带走生命所行利益memor”“艺术你失去了渣滓生活猎物蠕虫身体死牛”“思想食品生活sweetseasond淋浴gro”“tten名字因此不朽的生命一旦走了w”“美沉默别人给的生活带来生活fa " ve生活带来墓墓生活生活公平眼睛诗人赞美d”“偷走自己的定期寿险你放心我的李”“菲你是向我的生活不再你的爱留在dep”“害怕坏的错误至少生活有更好的状态是“anst烦恼变化无常的心灵、生活你反抗谎言啊ha" " fame faster time wastes life thou preventst scythe cr" "ess harmful deeds better life provide public means pub" "ate hate away threw savd life saying " " many nymphs vowd chaste life keep came tripping maide"

加载示例数据。文件sonnetsPreprocessed.txt包含莎士比亚的Sonnets的预处理版本。该文件每行包含一个十四行诗,单词分隔一个空格。从中提取文本sonnetsPreprocessed.txt,将文本拆分为换行符以换行符,然后授权文档。

filename =“sonnetsPreprocessed.txt”;str = inthelfiletext(文件名);textdata = split(str,newline);文档= tokenizeddocument(textdata);

搜索BIGRAM“DOST THU”。

ngram = [“难道”“你”];tbl =上下文(文档,ngram);头(TBL)
ans =8×3表上下文文档词  _____________________________________________________________ ________ ________ " unthrifty可爱为什么你花在你的自我“4 4 5”ee美丽的吝啬鬼为什么你滥用慷慨的慷慨“4 25 26”已经无益的高利贷者为什么你伟大的金额总和还能“4 35 36”eavy眼皮你疲惫的夜晚渴望睡眠后破碎的年代“61 10 11”甜美可爱的你让耻辱像溃疡f“95 3”崭露头角的名字o糖果你为什么你的罪恶将舌头“95 19 20”露丝美爱取决于你在庄严的做一个“101”16 17你盲目的傻瓜爱你我的眼睛看哪知道是“137 5 6

查看字符串数组中的出现。

tbl.context.
ans =10 x1字符串“unthrifty可爱为什么你花你的自我”“ee美丽的吝啬鬼为什么你滥用慷慨的慷慨”“已经无益的高利贷者为什么你伟大的金额总和能”“eavy眼睑疲惫的晚上你欲望的睡眠后破碎的年代”“甜蜜可爱的你让耻辱像溃疡f”“hy出芽的名字o糖果你你的罪封住舌头露丝美丽的爱依赖于你是否在其中庄严地做一个" "你盲目的愚人爱你是否我的眼睛看知道是" "h反抗的力量集结你为何要忍受饥饿油漆" "你花费很短的租期在你褪色的大厦上"

加载示例数据。文件sonnetsPreprocessed.txt包含莎士比亚的Sonnets的预处理版本。该文件每行包含一个十四行诗,单词分隔一个空格。从中提取文本sonnetsPreprocessed.txt,将文本拆分为换行符以换行符,然后授权文档。

filename =“sonnetsPreprocessed.txt”;str = inthelfiletext(文件名);textdata = split(str,newline);文档= tokenizeddocument(textdata);

搜索“生活”这个词,并在之前和之后使用15个字符的上下文返回每次发生。

tbl =上下文(文档,“生命”15);头(TBL)
ans =8×3表上下文文件词_____________________________________________ ____ ____ __________伊斯赛“9 10”先装线生活寿命修复TI“16 35”EIT线路生活维修时间P“16 36”俄罗斯覆盖生活表明半场“17 17”ng lives为life life of“18 69”的爱情爱你的生命做了四个两个“45 23”虽然恋人生活美容应该是b“63 50”苍蝇的第二次头呃“68 27

查看字符串数组中的出现。

tbl.context.
ans =23 x1字符串“自我为什么单身生活啊你issuel”“nterfeit行生活生活修复ti”“eit行生活生活修复乘以p”“ows坟墓里隐藏的生活显示一半par”“ng给生活你”“装配爱你生活了四两”“虽然情人生活美应当b”“是的生活第二人生第二头呃”“让爱甚至生命衰变以免威斯康星州”、“所有带走生命线强度”“ast失去渣滓猎物蠕虫bod”“思想食品生活sweetseasond年代”“因此不朽的生命虽然o”“te别人给生命带来丽芙·“ing墓墓的生活公平眼睛诗人“自我学期生活你是阿舒尔”“t保证你我的生活不再值列表”“t错误至少生活已经结束贝蒂”“nconstant心灵、生活你反抗点”“呃时间浪费生命你阻止" "l行为更好的生活提供公共" "方式扔savd生命说" "他发誓贞洁的生活保持来的旅行"

指定显示上下文的源文本。

加载sonnets.txt数据并将其分成单独的文档。

txt = extractFileText (“sonnets.txt”);段落= split(txt,[newline newline]);

从中提取十四行诗段落。第一个十四行诗是段落的第五个元素,其余的十四圈以后出现在每个第二个元素中。

十四行诗=段落(5:2:结束);文件= tokenizedDocument(十四行诗);

将文本规范化,然后搜索“生命”这个词。

documentsNormalized = normalizeWords(文件);T =上下文(documentsNormalized,“生命”的)
t =23日×3表上下文文档词  ________________________________________________________ ________ ____ " 和爱人singl生活中你的自我?啊!你若无子女的“9 18”:应该的生活,所以生活修复,这“73”ld的生活生活修复,这,蒂姆“75”的坟墓隐藏你的生活,并显示一半你住这“17 34”,和这给你生命。对你的爱,我的生命,由四个人组成,用“45 53”的eauti,虽然我的爱人的生命:hi beauty will in the“63 100”away,在第二个头上过第二次生命;二哥你的爱就算用我的命decai;以免聪明的我们要生产我awai“71 - 118”,我的生活已经在这一行有些“74 18”ast但失去生命的渣滓,蠕虫的prei,“74 - 83”我认为食物来生活,或如sweet-season所“75 10”你的名字从henc immort生活应当有,虽然我,“81年42”,当其他会给生活,带一个坟墓。“八三108”一墓。在你自己身上多活些日子吧,因为从生命的期限来看,你是我的;92 13⋮

由于单词归一化,因此上下文可能不容易读取。要使用原始文本数据查看上下文,请使用该上下文使用源文本“源”选择。

T =上下文(documentsNormalized,“生命”“源”十四行诗)
t =23日×3表上下文文件词__________________________________________________________“嗯,在单一的生活中你的自我?啊!如果你是”9 18“:那么生活的生活中应该修复,哪个”16 73“d的生活中的生活方式,这是其中的时间“16 75”一个隐藏你的生命的坟墓,并没有显示你的“17 34”ves的一半,这给了你的生命。“18 128”为你的生活,我的生活,我的生活。四个,机智“45 53”理发,虽然我的情人的生命:他的美丽应该在“63 100”,在第二次上过第二次生命; emea“68 59”,即使我的生命衰变也是如此;以免明智的是“71 118”要带走我,我的生活在这一行里有些我“74 18”st但失去了生命的渣滓,蠕虫的猎物,我的b“74 83”o我的思绪作为食物从生活中,或者作为甜蜜的赛季的Sh“75 10”名称不朽的生活,虽然我在“8122”上,但其他人会给生活,并带来一个坟墓。“83 108”一个坟墓。有一个生活中的生活更多你的公平眼睛“83 118”嗯,对于生活的学期,你是保证矿的。A“92 13⋮

输入参数

全部折叠

输入文档,指定为atokenizedDocument数组中。

要在上下文中查找的字,指定为包含字符向量的字符串标量、字符向量或标量单元数组。

数据类型:字符|细绳|细胞

N-gram,指定为字符向量的字符串数组或单元格数组。

ngram有大小1——- - - - - -N.,在那里N.是n-gram中的单词数。的价值ngram(j)jn-gram的第一个单词。

该函数忽略尾随空字符串ngram

数据类型:细绳|细胞

上下文长度,指定为正整数。

名称 - 值参数

指定可选的逗号分隔的对名称,值参数。姓名参数名和价值为对应值。姓名必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:“规划求解”、“真空断路”指定使用近似变分贝叶斯作为解算器。

源文本,指定为逗号分隔的配对组成“源”以及字符向量的字符串数组或单元格数组。如果输入文档经过预处理,并且您拥有源文本,那么您可以使用此选项使输出更具可读性。

源文本必须与文件

忽略案例的选项,指定为逗号分隔的配对组成'Ignorecase'以及以下之一:

  • -搜索与单词或n-gram完全匹配的事件。

  • 真正的-搜索匹配单词或n-gram的事件,忽略大小写。

输出参数

全部折叠

上下文表与这些列:

语境 在上下文中包含查询的单词或n-gram的字符串
文档 包含单词或n-gram的文档的数字索引
文档中单词或n-gram的数字索引

介绍在R2017B.