extractFileText
阅读PDF文本,微软词、HTML和纯文本文件
描述
例子
从文本文件中提取文本数据
从中提取文本sonnets.txt
使用extractFileText
.该文件sonnets.txt
包含莎士比亚的十四行诗。
str = extractFileText(“sonnets.txt”);
查看第一首十四行诗。
I = strfind(str,“我”);Ii = strfind(str,“二世”);Start = i(1);Fin = ii(1);extractBetween (str,开始,fin-1)
我们渴望从最美丽的生灵身上繁衍生息,这样美丽的玫瑰就永远不会凋谢,但成熟的花朵会随着时间的流逝而消逝,他温柔的后代将会继承他的记忆:而你,只愿自己明亮的眼睛,用自我充实的燃料来喂养你光辉的火焰,使富足的地方变成饥荒,你自己是你的敌人,对你甜美的自己太残忍了:你现在是世界的新鲜装饰,是艳丽春天的唯一使者,在你自己的花蕾里埋葬你的满足,温柔的粗人在吝啬中浪费:可怜这个世界吧,否则就让这个贪吃的人,以坟墓和你来吞食这个世界应得的。”
从PDF中提取文本数据
从中提取文本exampleSonnets.pdf
使用extractFileText
.该文件exampleSonnets.pdf
包含莎士比亚十四行诗的PDF文件。
str = extractFileText(“exampleSonnets.pdf”);
查看第二首十四行诗。
Ii = strfind(str,“二世”);Iii = strfind(str,“三世”);Start = ii(1);Fin = iii(1);extractBetween (str,开始,fin-1)
当四十个冬天围困你的额头,在你美丽的田野上挖出深深的战壕,你年轻时骄傲的装束现在被人注视,将会变成一文价值的破草:然后有人问,你所有的美丽都藏在哪里,你青春岁月的财宝都藏在哪里;你说,在你深陷的眼睛里,有一种吞噬一切的耻辱和挥霍无度的赞美。如果你能回答:“我这漂亮的孩子将总结我的计数,为我的老过失开脱”,证明他的美丽继承了你的美丽,那你的美貌就更值得赞美了!当你年老时,这将是新的;当你感到血液寒冷时,这将是温暖的。”
从PDF文件的第3、5和7页提取文本。
Pages = [3 5 7];str = extractFileText(“exampleSonnets.pdf”,...“页面”页);
查看第十首十四行诗。
X = strfind(str,“X”);“十一”);Start = x(1);Fin = xi(1);extractBetween (str,开始,fin-1)
是不是因为怕打湿一个寡妇的眼睛,你才在单身生活中消磨自己?啊!如果你无依无靠地死去,世界会像哀号无依无靠的妻子一样哀号你;这世界将是你的寡妇,它仍会为你没有留下任何形象而哭泣,当每一个私人寡妇都能把她丈夫的形象留在孩子的眼睛里:看!世界上一个多么吝啬的人只花了他的位置,因为世界仍然喜欢它;但是美在世界上的浪费是有尽头的,如果不加以利用,使用者就会这样毁灭它。对自己犯下如此残忍的耻辱的人,他对别人没有爱。真丢人!否认你对那些对你自己如此轻率的人有爱。如果你愿意,就算你是众人爱戴的,但最明显的是没有一个人爱你:因为你心中充满了杀人的仇恨,连你自己也不愿去谋反,想要毁掉那美丽的屋顶,而你的主要愿望是修补它。”
使用文件数据存储从多个文件导入文本
如果文本数据包含在一个文件夹中的多个文件中,则可以使用文件数据存储将文本数据导入MATLAB。
为示例十四行诗文本文件创建一个文件数据存储。十四行诗的例子都有文件名"exampleSonnetN.txt
”,N
是十四行诗的数字。指定要的读取函数extractFileText
.
readFcn = @extractFileText;fds = fileDatastore(“exampleSonnet * . txt”,“ReadFcn”readFcn)
fds = FileDatastore属性:Files:{'…/tp9b046016/textanalytics-ex73762432/exampleSonnet1.txt';“…/ tp9b046016 / textanalytics-ex73762432 / exampleSonnet2.txt”;/tp9b046016/textanalytics-ex73762432/exampleSonnet3.txt{'/tmp/Bdoc22b_2054784_1501716/tp9b046016/ textanalysis -ex73762432'} UniformRead: 0 ReadMode: 'file' BlockSize: Inf PreviewFcn: @extractFileText SupportedOutputFormats:金宝app ["txt" "csv" "xlsx" "xls"…] ReadFcn: @extractFileText AlternateFileSystemRoots: {}
创建一个空的词袋模型。
bag = bagOfWords
bag = bagOfWords with properties: Counts: [] Vocabulary: [1x0 string] NumWords: 0 NumDocuments: 0
循环遍历数据存储中的文件并读取每个文件。标记每个文件中的文本,并将文档添加到袋
.
而Hasdata (fds) STR = read(fds);文档= tokenizedDocument(str);bag = addDocument(包,文档);结束
查看更新后的词袋模型。
袋
词汇:["来自" "最公平的" "生物" "我们"…NumWords: 276 NumDocuments: 4
从HTML中提取文本
要直接从HTML代码中提取文本数据,请使用extractHTMLText
并将HTML代码指定为字符串。
代码=THE十四行诗
by William Shakespeare
";str = extractHTMLText(code)
str = "威廉·莎士比亚十四行诗"
输入参数
文件名
- - - - - -文件名称
字符串标量|特征向量
文件的名称,指定为字符串标量或字符向量。
数据类型:字符串
|字符
名称-值参数
指定可选参数对为Name1 = Value1,…,以=家
,在那里的名字
参数名称和价值
对应的值。名称-值参数必须出现在其他参数之后,但对的顺序无关紧要。
在R2021a之前,使用逗号分隔每个名称和值,并将其括起来的名字
在报价。
例子:“Pages”,[1 3 5]
指定从PDF文件中读取第1、3和5页。
编码
- - - - - -字符编码
“汽车”
(默认)|“utf - 8”
|“iso - 8859 - 1”
|“windows - 1251”
|“windows - 1252”
|……
要使用的字符编码,指定为逗号分隔的对,由“编码”
和字符向量或字符串标量。字符向量或字符串标量必须包含标准字符编码方案名称,如下所示。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
如果未指定编码方案,则该函数将对要使用的编码执行启发式自动检测。启发式取决于您的场所。如果这些启发式失败,那么必须显式地指定一个启发式。
此选项仅适用于输入为纯文本文件时。
数据类型:字符
|字符串
ExtractionMethod
- - - - - -提取方法
“树”
(默认)|“文章”
|“所有文本”
提取方法,指定为由逗号分隔的对组成“ExtractionMethod”
和以下其中之一:
选项 | 描述 |
---|---|
“树” |
分析DOM树和文本内容,然后提取段落块。 |
“文章” |
检测文章文本并提取段落块。 |
“所有文本” |
提取HTML主体中的所有文本,除了脚本和CSS样式。 |
此选项仅支持HTML文件金宝app输入。
密码
- - - - - -打开PDF文件的密码
特征向量|字符串标量
打开PDF文件的密码,由逗号分隔的对组成“密码”
和字符向量或字符串标量。此选项仅适用于输入文件为PDF的情况。
例子:“密码”、“skroWhtaM”
数据类型:字符
|字符串
页面
- - - - - -从PDF文件读取的页面
正整数向量
要从PDF文件中读取的页面,指定为逗号分隔的对,由“页面”
和一个正整数向量。此选项仅适用于输入文件为PDF文件的情况。默认情况下,该函数从PDF文件中读取所有页面。
例子:“Pages”,[1 3 5]
数据类型:单
|双
|int8
|int16
|int32
|int64
|uint8
|uint16
|uint32
|uint64
提示
要从HTML代码中直接读取文本,请使用
extractHTMLText
.
版本历史
在R2017b中引入R2020b:extractFileText
不再支持提取文本金宝app微软词97-2003二进制DOC文件
金宝app支持从微软®词97-2003二进制DOC文件使用extractFileText
功能已被删除。微软文字处理软件DOCX文件将继续得到支持。金宝app
来提取文本数据微软文字处理软件97-2003二进制DOC文件,先将文件保存为PDF,微软文字处理软件DOCX、HTML或纯文本文件,然后使用extractFileText
函数。
Matlabコマンド
次のmatlabコマンドに対応するリンクがクリックされました。
コマンドをmatlabコマンドウィンドウに入力して実行してください。Webブラウザ,はMATLABコマンドをサポ,トしていません。
您也可以从以下列表中选择一个网站:
如何获得最佳的网站性能
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。