主要内容

提取物文字

阅读PDF的文本,微软,html和纯文本文件

描述

例子

str.= inthelFiletext(文件名将文本数据作为字符串从文件中读取。

例子

str.= inthelFiletext(文件名名称,值使用一个或多个名称值对参数指定其他选项。

例子

全部折叠

sonnets.txt使用提取物文字。文件sonnets.txt包含纯文本的莎士比亚的十四圈。

str = extractFileText (“sonnets.txt”);

查看第一个十四行诗。

我= strfind(str,“一世”);II = strfind(str,“二世”);start = i(1);鳍= II(1);提取物(str,start,fin-1)
ans =“我来自最公平的生物,我们渴望增加,从而美丽的玫瑰可能永远不会死,但随着涟漪应该随着时间的评估,他的温柔的继承人可能会忍受他的记忆:但是你,签约自己明亮的眼睛,喂养你浅色的火焰与自我大量的燃料,使一个丰富的地方谎言,你的自我你的敌人,你的甜蜜的自我太残忍了:你现在的艺术是世界上新鲜的装饰,而且只有先驱到华丽的春天,在你自己的萌芽之中内容,以及嫩的Churl Mak'st在琐事中的浪费:遗憾的是世界,否则这个贪吃,坟墓和你的坟墓吃世界。“

例子.pdf.pdf.pdf.pdf.使用提取物文字。文件例子.pdf.pdf.pdf.pdf.包含PDF文件中的莎士比亚的十四圈。

str = extractFileText (“exampleSonnets.pdf”);

查看第二个十四行诗。

II = strfind(str,“二世”);III = strfind(str,“三世”);开始= II(1);Fin = III(1);提取物(str,start,fin-1)
ans = "二世当四十冬天围攻你的眉毛,和你美丽的领域深入挖掘战壕,你青春的骄傲制服现在凝视着,将小价值的碎布会杂草:然后被要求,所有你的美丽谎言,所有的珍惜你的精力充沛的天;说,在你深陷的眼眸里,是贪婪的耻辱和挥霍的赞美。如果你能回答说:“我这美丽的孩子将算算我的数目,为我辩解,”以继承你的美貌来证明他的美貌,那你的美貌该得到多大的赞美啊!这将在你年老时使你重生,使你冰冷的血液温暖。

从PDF文件的第3、5和7页中提取文本。

页数= [3 5 7];str = extractFileText (“exampleSonnets.pdf”......'页面',页面);

看第十首十四行诗。

x = strfind (str,“X”);xi = strfind(str,“xi”);start = x(1);鳍= xi(1);提取物(str,start,fin-1)
是否因为害怕弄湿寡妇的眼睛,你才在独身生活中耗尽你自己?啊!如果你不幸无儿无女地死去,世界将为你哀号,像无嗣的妻子;世界将成为你的寡妇,并为你哭泣,因为你没有留下任何你的形象,当每个寡妇都可以用孩子们的眼睛,记住她丈夫的形象:看!世上浪荡子所浪费的,不过是他的地位,因为世人仍在享受它;但是美在世界上的浪费是有目的的,不使用就会使使用者毁灭。他的胸中没有对别人的爱,他自己也没有犯下如此残忍的耻辱。X不像话!否认你对谁有爱,谁对你自己如此缺乏远见。当然,如果你愿意,你是许多人的宠儿,但最明显的是没有一个人爱你:因为你已被杀气冲天的仇恨所占据,以致你不能对自己图谋不测,想要毁掉那美丽的屋顶,而这正是你的主要愿望。"

如果您的文本数据包含在文件夹中的多个文件中,则可以使用文件数据存储将文本数据导入MATLAB。

为示例SONNET文本文件创建文件数据存储。SONNET的示例有文件名“exampleSonnetN.txt”,N是十四行诗的数量。指定读取功能提取物文字

readfcn = @extractfiletext;fds = filedataStore('Implueonnet * .txt''readfcn',readfcn)
文件:{'…/tp706790c2/textanalytics-ex73762432/exampleSonnet1.txt';“…/ tp706790c2 / textanalytics-ex73762432 / exampleSonnet2.txt”;“…/ tp706790c2 / textanalytics-ex73762432 / exampleSonnet3.txt”……UniformRead: 0 ReadMode: 'file' BlockSize: Inf PreviewFcn: @extractFileText SupportedOutputFormats: [1x16 string] ReadFcn: @extractFileText AlternateFileSystemRoots: {金宝app}

创建一个空袋式模型。

bag = bagofwords.
BAG = BAGOFWORDS具有属性:计数:[]词汇:[1x0字符串] numwords:0 numfocuments:0

循环遍历数据存储中的文件并读取每个文件。标记每个文件中的文本并将文档添加到

Hasdata(FDS)str =读取(FDS);Document = TokenizedDocument(str);袋= adddocument(包,文件);结尾

查看更新后的单词袋模型。

BAG = BAGOFWORDS具有属性:计数:[4x276双]词汇:[1x276字符串] numwords:276 numfocuments:4

要直接从HTML代码中提取文本数据,请使用extracthtmltext.并将HTML代码指定为字符串。

代码=

sonnets

由威廉莎士比亚 ”;str = extracthtmltext(代码)

str =“威廉莎士比亚的十四行诗”

输入参数

全部折叠

文件的名称,指定为字符串标量或字符向量。

数据类型:细绳|字符

名称-值对的观点

指定可选的逗号分离对名称,值参数。名称是参数名称和价值是相应的价值。名称必须出现在引号内。您可以按如下顺序指定几个名称和值对参数name1,value1,...,namen,valuen

例子:“页面”,[1 3 5]指定从PDF文件读取第1、3和5页。

要使用的字符编码,指定为逗号分隔的对,由'编码'一个字符向量或者字符串标量。字符向量或字符串标量必须包含标准字符编码方案名称,例如以下。

'Big5'

“iso - 8859 - 1”

'Windows-874'

“Big5-HKSCS”

'ISO-8859-2'

'Windows-949'

'cp949'

'ISO-8859-3'

'Windows-1250'

'euc-kr'

'ISO-8859-4'

'Windows-1251'

'euc-jp'

'ISO-8859-5'

'Windows-1252'

'euc-tw'

'ISO-8859-6'

'Windows-1253'

“GB18030”

'ISO-8859-7'

'Windows-1254'

'GB2312'

'ISO-8859-8'

'Windows-1255'

“GBK”

'ISO-8859-9'

“windows - 1256”

“IBM866”

'ISO-8859-11'

“windows - 1257”

“KOI8-R”

“iso - 8859 - 13”

“windows - 1258”

'koi8-u'

“iso - 8859 - 15”

“us - ascii”

'Macintosh'

“utf - 8”

'shift_jis'

如果未指定编码方案,则该函数对编码执行启发式自动检测以进行使用。启发式依赖于您的区域设置。如果这些启发式失败,那么您必须明确指定一个。

此选项仅适用于输入为纯文本文件的情况。

数据类型:字符|细绳

提取方法,指定为逗号分隔对组成'explactionmethod'和以下之一:

选项 描述
“树” 分析DOM树和文本内容,然后提取段落块。
'文章' 检测文本文本并提取一段段落。
'全文' 提取HTML主体中的所有文本,除了脚本和CSS样式。

此选项仅支持HTML文件金宝app输入。

打开PDF文件的密码,指定为逗号分隔对'密码'一个字符向量或者字符串标量。此选项仅适用于输入文件为PDF的情况。

例子:'密码','skrowhtam'

数据类型:字符|细绳

从PDF文件中读取的页面,指定为逗号分隔对'页面'一个正整数的向量。此选项仅适用于输入文件为PDF文件的情况。默认情况下,该函数从PDF文件中读取所有页面。

例子:“页面”,[1 3 5]

数据类型:单身的||INT8.|int16|int32|int64|uint8.|uint16|UINT32.|UINT64

提示

兼容性的考虑

全部展开

不建议从R2020b开始

在R2017B中介绍