提取物文字

阅读PDF的文本，微软词，html和纯文本文件

页面上倒塌

句法

str = extractFiletext（文件名）

str = interplefiletext（文件名，名称，值）

描述

例子

str.= inthelFiletext（文件名）将文本数据作为字符串从文件中读取。

例子

str.= inthelFiletext（文件名那名称,值）使用一个或多个名称值对参数指定其他选项。

例子

全部折叠

从文本文件中提取文本数据

打开生活的脚本

从sonnets.txt使用提取物文字。文件sonnets.txt包含纯文本的莎士比亚的十四圈。

str = extractFileText (“sonnets.txt”）;

查看第一个十四行诗。

我= strfind（str，“一世”）;II = strfind（str，“二世”）;start = i（1）;鳍= II（1）;提取物（str，start，fin-1）

ans =“我来自最公平的生物，我们渴望增加，从而美丽的玫瑰可能永远不会死，但随着涟漪应该随着时间的评估，他的温柔的继承人可能会忍受他的记忆：但是你，签约自己明亮的眼睛，喂养你浅色的火焰与自我大量的燃料，使一个丰富的地方谎言，你的自我你的敌人，你的甜蜜的自我太残忍了：你现在的艺术是世界上新鲜的装饰，而且只有先驱到华丽的春天，在你自己的萌芽之中内容，以及嫩的Churl Mak'st在琐事中的浪费：遗憾的是世界，否则这个贪吃，坟墓和你的坟墓吃世界。“

从PDF中提取文本数据

打开生活的脚本

从例子.pdf.pdf.pdf.pdf.使用提取物文字。文件例子.pdf.pdf.pdf.pdf.包含PDF文件中的莎士比亚的十四圈。

str = extractFileText (“exampleSonnets.pdf”）;

查看第二个十四行诗。

II = strfind（str，“二世”）;III = strfind（str，“三世”）;开始= II（1）;Fin = III（1）;提取物（str，start，fin-1）

ans = "二世当四十冬天围攻你的眉毛,和你美丽的领域深入挖掘战壕,你青春的骄傲制服现在凝视着,将小价值的碎布会杂草:然后被要求,所有你的美丽谎言,所有的珍惜你的精力充沛的天;说，在你深陷的眼眸里，是贪婪的耻辱和挥霍的赞美。如果你能回答说:“我这美丽的孩子将算算我的数目，为我辩解，”以继承你的美貌来证明他的美貌，那你的美貌该得到多大的赞美啊!这将在你年老时使你重生，使你冰冷的血液温暖。

从PDF文件的第3、5和7页中提取文本。

页数= [3 5 7];str = extractFileText (“exampleSonnets.pdf”那......'页面'，页面）;

看第十首十四行诗。

x = strfind (str,“X”）;xi = strfind（str，“xi”）;start = x（1）;鳍= xi（1）;提取物（str，start，fin-1）

是否因为害怕弄湿寡妇的眼睛，你才在独身生活中耗尽你自己?啊!如果你不幸无儿无女地死去，世界将为你哀号，像无嗣的妻子;世界将成为你的寡妇，并为你哭泣，因为你没有留下任何你的形象，当每个寡妇都可以用孩子们的眼睛，记住她丈夫的形象:看!世上浪荡子所浪费的，不过是他的地位，因为世人仍在享受它;但是美在世界上的浪费是有目的的，不使用就会使使用者毁灭。他的胸中没有对别人的爱，他自己也没有犯下如此残忍的耻辱。X不像话!否认你对谁有爱，谁对你自己如此缺乏远见。当然，如果你愿意，你是许多人的宠儿，但最明显的是没有一个人爱你:因为你已被杀气冲天的仇恨所占据，以致你不能对自己图谋不测，想要毁掉那美丽的屋顶，而这正是你的主要愿望。"

使用文件数据存储从多个文件导入文本

打开生活的脚本

如果您的文本数据包含在文件夹中的多个文件中，则可以使用文件数据存储将文本数据导入MATLAB。

为示例SONNET文本文件创建文件数据存储。SONNET的示例有文件名“exampleSonnetN.txt”,N是十四行诗的数量。指定读取功能提取物文字。

readfcn = @extractfiletext;fds = filedataStore（'Implueonnet * .txt'那'readfcn'，readfcn）

文件:{'…/tp706790c2/textanalytics-ex73762432/exampleSonnet1.txt';“…/ tp706790c2 / textanalytics-ex73762432 / exampleSonnet2.txt”;“…/ tp706790c2 / textanalytics-ex73762432 / exampleSonnet3.txt”……UniformRead: 0 ReadMode: 'file' BlockSize: Inf PreviewFcn: @extractFileText SupportedOutputFormats: [1x16 string] ReadFcn: @extractFileText AlternateFileSystemRoots: {金宝app}

创建一个空袋式模型。

bag = bagofwords.

BAG = BAGOFWORDS具有属性：计数：[]词汇：[1x0字符串] numwords：0 numfocuments：0

循环遍历数据存储中的文件并读取每个文件。标记每个文件中的文本并将文档添加到包。

而Hasdata（FDS）str =读取（FDS）;Document = TokenizedDocument（str）;袋= adddocument（包，文件）;结尾

查看更新后的单词袋模型。

包

BAG = BAGOFWORDS具有属性：计数：[4x276双]词汇：[1x276字符串] numwords：276 numfocuments：4

从HTML中提取文本

打开生活的脚本

要直接从HTML代码中提取文本数据，请使用extracthtmltext.并将HTML代码指定为字符串。

代码=“   sonnets  由威廉莎士比亚  ”;str = extracthtmltext（代码）

str =“威廉莎士比亚的十四行诗”

输入参数

全部折叠

`文件名`-文件名称
字符串标量|特征向量

文件的名称，指定为字符串标量或字符向量。

数据类型：细绳|字符

名称-值对的观点

指定可选的逗号分离对名称,值参数。名称是参数名称和价值是相应的价值。名称必须出现在引号内。您可以按如下顺序指定几个名称和值对参数name1，value1，...，namen，valuen。

例子:“页面”,[1 3 5]指定从PDF文件读取第1、3和5页。

`'编码'`-字符编码
`'汽车'`（默认）|`“utf - 8”`|`“iso - 8859 - 1”`|`'Windows-1251'`|`'Windows-1252'`|......

要使用的字符编码，指定为逗号分隔的对，由'编码'一个字符向量或者字符串标量。字符向量或字符串标量必须包含标准字符编码方案名称，例如以下。

`'Big5'`	`“iso - 8859 - 1”`	`'Windows-874'`
`“Big5-HKSCS”`	`'ISO-8859-2'`	`'Windows-949'`
`'cp949'`	`'ISO-8859-3'`	`'Windows-1250'`
`'euc-kr'`	`'ISO-8859-4'`	`'Windows-1251'`
`'euc-jp'`	`'ISO-8859-5'`	`'Windows-1252'`
`'euc-tw'`	`'ISO-8859-6'`	`'Windows-1253'`
`“GB18030”`	`'ISO-8859-7'`	`'Windows-1254'`
`'GB2312'`	`'ISO-8859-8'`	`'Windows-1255'`
`“GBK”`	`'ISO-8859-9'`	`“windows - 1256”`
`“IBM866”`	`'ISO-8859-11'`	`“windows - 1257”`
`“KOI8-R”`	`“iso - 8859 - 13”`	`“windows - 1258”`
`'koi8-u'`	`“iso - 8859 - 15”`	`“us - ascii”`
	`'Macintosh'`	`“utf - 8”`
	`'shift_jis'`

如果未指定编码方案，则该函数对编码执行启发式自动检测以进行使用。启发式依赖于您的区域设置。如果这些启发式失败，那么您必须明确指定一个。

此选项仅适用于输入为纯文本文件的情况。

数据类型：字符|细绳

`'explactionmethod'`-提取方法
`“树”`（默认）|`'文章'`|`'全文'`

提取方法，指定为逗号分隔对组成'explactionmethod'和以下之一：

选项	描述
`“树”`	分析DOM树和文本内容，然后提取段落块。
`'文章'`	检测文本文本并提取一段段落。
`'全文'`	提取HTML主体中的所有文本，除了脚本和CSS样式。