主要内容

上下文

在文档中搜索上下文中出现的单词或n-gram

描述

例子

T=上下文(文档搜索中出现的单个单词文档并返回一个表显示在上下文和位置中。缺省情况下,该函数区分大小写。

例子

T=上下文(文档ngram搜索中n-gram的出现情况文档.缺省情况下,该函数区分大小写。

例子

T=上下文(___contextLength指定使用任何前面的语法返回的上下文的长度。

例子

T=上下文(___名称,值使用一个或多个名称-值对参数(使用前面的任何语法)指定其他选项。

例子

全部折叠

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,用空格分隔单词。从中提取文本sonnetsPreprocessed.txt,以换行符将文本分割为文档,然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData = split(str,换行符);documents = tokenizedDocument(textData);

搜索“生活”这个词。

TBL =上下文(文档,“生命”);头(台)
上下文文档词  ________________________________________________________ ________ ____ " consumst你自己单身生活啊你徒劳的“9 10”不是假冒行生活生活修复乘以铅笔“16 35 d假冒行生活生活修复次铅笔基金会的“16 36”天知道墓藏生活展示半部分编写b“17 14”他眼睛长给生活你“18 69”温柔大使馆爱你生活了四个二沉“45 23”大美虽然情人生活美黑lines" 63 50 "s shorn away live second life second head ere beautys " 68 27

查看字符串数组中出现的事件。

资源描述。上下文
ans =23 x1字符串“consumst你自己单身生活啊你徒劳的”“不是假冒行生活生活修复次铅笔”“d假冒行生活生活修复次铅笔基金会”“天知道墓藏生活展示半部分编写b”“他眼睛长给生活你”“温柔的大使馆爱你生活四个二沉”“大美虽然情人生活美丽黑色线条”“s剪掉第二生活第二头在美”“e排练让爱甚至生命衰变以免智慧世界lo”“圣保释应带走生命所行利益memor”“艺术你失去了渣滓生活猎物蠕虫身体死牛”“思想食品生活sweetseasond淋浴gro”“tten名字因此不朽的生命虽然曾经走了w”“美沉默别人给的生活带来墓生命fa " ve生活带来墓生活公平眼睛诗人赞美d”“偷走自己的定期寿险你放心我的李”“菲你是向我的生活不再你的爱留在dep”“恐惧最糟糕的错误至少生活有更好的状态是“结束"安烦恼无常的心灵生命你的反抗是躺在阿" "名声更快时间浪费生命你阻止镰刀cr" "减少有害的行为更好的生活提供公共的手段酒吧" "吃了恨扔掉了野蛮的生命说"许多仙女发誓贞洁的生活保持来跳少女"

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,用空格分隔单词。从中提取文本sonnetsPreprocessed.txt,以换行符将文本分割为文档,然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData = split(str,换行符);documents = tokenizedDocument(textData);

搜索"dost thou"这个重音。

Ngram = [“难道”“你”];TBL = context(文档,ngram);头(台)
上下文文档词  _____________________________________________________________ ________ ________ " unthrifty可爱为什么你花在你的自我“4 4 5”ee美丽的吝啬鬼为什么你滥用慷慨的慷慨“4 25 26”已经无益的高利贷者为什么你伟大的金额总和还能“4 35 36”eavy眼睑疲惫的晚上你欲望的睡眠后破碎的年代“61 10 11”甜美可爱的你让耻辱像溃疡f“95 3”hy崭露头角的名字啊,糖果你你的罪将舌头”95 19 20 "ruth beauty love depends dost thou therein dignified make a" 101 16 17 " thou blind fool love dost thou mine eyes behold know be" 137 5 6

查看字符串数组中出现的事件。

资源描述。上下文
ans =10 x1字符串“unthrifty可爱为什么你花你的自我”“ee美丽的吝啬鬼为什么你滥用慷慨的慷慨”“已经无益的高利贷者为什么你伟大的金额总和能”“eavy眼睑疲惫的晚上你欲望的睡眠后破碎的年代”“甜蜜可爱的你让耻辱像溃疡f”“hy出芽的名字啊,糖果你你的罪将舌头”“露丝美爱取决于你在庄严的做出““你盲目的傻瓜爱你我的眼睛看哪知道是“h”反叛力量你为什么要忍受贫穷,你为什么要花大价钱,在你日渐凋零的宅邸上短暂的租期?

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,用空格分隔单词。从中提取文本sonnetsPreprocessed.txt,以换行符将文本分割为文档,然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData = split(str,换行符);documents = tokenizedDocument(textData);

搜索单词“life”,并返回每个事件前后15个字符的上下文。

TBL =上下文(文档,“生命”15);头(台)
上下文文档词  ____________________________________ ________ ____ " 自己单身生活啊你为什么issuel“9 10“nterfeit行生活生命修复ti“16 35”eit行生活修复乘以p 16 36“ows墓藏生活显示一半par”17日14“ng生活给你“18 69”组件爱你生活了四两”45 23“尽管恋人生活美b“63 50”ay第二生活第二头er”68 27

查看字符串数组中出现的事件。

资源描述。上下文
ans =23 x1字符串“自我为什么单身生活啊你issuel”“nterfeit行生活生活修复ti”“eit行生活生活修复乘以p”“ows坟墓里隐藏的生活显示一半par”“ng给生活你”“装配爱你生活了四两”“虽然情人生活美应当b”“是的生活第二人生第二头呃”“让爱甚至生命衰变以免威斯康星州”“带走一生所行强度”“ast失去渣滓生活猎物蠕虫bod”“思想食品生活sweetseasond年代”“因此不朽的生命虽然o”“te别人给生活带来坟墓生活,坟墓生活,美丽的眼睛,诗人,自我,生命,你是保证,不保证我的生命,你的爱,更长的生命,不做坏事,生命已经结束,更好的",无常的心灵,你的反叛点,",时间浪费生命,你防止","我的行为,更好的生活提供公共","路扔,savd生命说,",誓言,贞洁的生活,保持来旅行"

指定源文本以显示上下文。

加载sonnets.txt数据并将其分割为单独的文档。

txt = extractFileText(“sonnets.txt”);段落= split(txt,[newline newline]);

摘录十四行诗段落.第一首十四行诗是段落的第五个元素,其余的十四行诗出现在其后的每一个第二个元素中。

十四行诗=段落(5:2:结束);文档= tokenizedDocument(十四行诗);

将文本规范化,然后搜索“生活”这个词。

documentsNormalized = normalizeWords(文档);T = context(documentsNormalized,“生命”
T =23日×3表上下文文档词  ________________________________________________________ ________ ____ " 和爱人singl生活中你的自我?啊!如果你没有“9·18”,那么你的生命之线就应该被修复,这条生命之线就应该被修复,这条生命之线就应该被修复,这条生命之线就应该被修复,这条生命之线就应该被修复,这条生命之线就应该被修复,这条生命之线就应该被修复,这条生命之线就应该被修复,这条生命之线就应该被修复,这条生命之线就应该被修复,这条生命之线就应该被修复,这条生命之线就应该被修复,这条生命之线就应该被修复。“18128”ssi对你的爱,我的生命,是由四个,与“4553”eauti,虽然我的爱人的生命:hi美丽的将在“6100”阿威,过第二人生第二头;尔情郎你的爱连我的命都decai;以免聪明的我们要生产我awai“71 - 118”,我的生活已经在这一行有些“74 18”ast但失去生命的渣滓,蠕虫的prei,“74 - 83”我认为食物来生活,或如sweet-season所“75 10”你的名字从henc immort生活应当有,虽然我,“81年42”,当其他会给生活,带一个坟墓。“83 108”一墓。在你美丽的眼眸里,有比你自己更长的生命,因为你的生命期限是我的;“92 13”

由于单词是标准化的,上下文可能不容易阅读。属性指定源文本,以查看使用原始文本数据的上下文“源”选择。

T = context(documentsNormalized,“生命”“源”十四行诗)
T =23日×3表上下文文档词  ________________________________________________________ ________ ____ " 嗯你也受苦自己单身生活?啊!如果你没有“生命之线”,那么生命之线就应该被生命所修复,生命之线被生命所修复,时间是一个坟墓,它隐藏了你的生命,而你的“生命之线”并没有显示一半,它赋予你生命。“18128”对你的爱,我的生命,由四个组成,虽然我爱人的生命是美丽的:他的美丽将在“63 100”n消逝,在第二个头上过第二次生命;亲爱的,难道你的爱连我的生命都不会衰败;我的生命在这一行中已失去了生命的渣滓,成了蛆虫的猎物,我的思想就像生命的食粮,或者像甜蜜的季节的名字,不朽的生命将从这里获得,虽然我在“81 42”,别人宁愿献出生命,却带来坟墓。那里有一座坟墓。在你美丽的眼睛里,有一只眼睛比你更有生命。“92 13”

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

要在上下文中查找的词,指定为字符串标量、字符向量或包含字符向量的标量单元格数组。

数据类型:字符|字符串|细胞

指定为字符向量的字符串数组或单元格数组。

ngram有大小1——- - - - - -N,在那里N是n字组的字数。的价值ngram (j)jn字母的第一个单词。

该函数忽略尾随的空字符串ngram

数据类型:字符串|细胞

上下文长度,指定为正整数。

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里名字参数名称和价值对应的值。名称-值参数必须出现在其他参数之后,但对的顺序无关紧要。

在R2021a之前,使用逗号分隔每个名称和值,并将其括起来名字在报价。

例子:“规划求解”、“真空断路”指定使用近似变分贝叶斯作为求解器。

源文本,指定为逗号分隔的对,由“源”一个字符串数组或者一个字符向量的单元格数组。如果输入文档经过预处理,并且有源文本,那么可以使用此选项使输出更具可读性。

源文本的大小必须与文档

选项忽略大小写,指定为逗号分隔的对,由“IgnoreCase”和以下其中之一:

  • -搜索与单词或n-gram完全匹配的出现。

  • 真正的-搜索匹配单词或n-gram忽略大小写的事件。

输出参数

全部折叠

包含这些列的上下文表:

上下文 包含上下文中查询的单词或n-gram的字符串
文档 包含单词或n-gram的文档的数字索引
文档中单词或n-gram的数字索引

版本历史

在R2017b中引入