extractFileText

阅读PDF文本，微软词、HTML和纯文本文件

折叠所有页面

语法

str = extractFileText(文件名)

str = extractFileText(文件名，名称，值)

描述

例子

str= extractFileText (文件名）以字符串形式从文件中读取文本数据。

例子

str= extractFileText (文件名，名称,值）使用一个或多个名称-值对参数指定其他选项。

例子

全部折叠

从文本文件中提取文本数据

打开实时脚本

从中提取文本sonnets.txt使用extractFileText．该文件sonnets.txt包含莎士比亚的十四行诗。

str = extractFileText(“sonnets.txt”）;

查看第一首十四行诗。

I = strfind(str，“我”）;Ii = strfind(str，“二世”）;Start = i(1);Fin = ii(1);extractBetween (str,开始,fin-1)

我们渴望从最美丽的生灵身上繁衍生息，这样美丽的玫瑰就永远不会凋谢，但成熟的花朵会随着时间的流逝而消逝，他温柔的后代将会继承他的记忆:而你，只愿自己明亮的眼睛，用自我充实的燃料来喂养你光辉的火焰，使富足的地方变成饥荒，你自己是你的敌人，对你甜美的自己太残忍了:你现在是世界的新鲜装饰，是艳丽春天的唯一使者，在你自己的花蕾里埋葬你的满足，温柔的粗人在吝啬中浪费:可怜这个世界吧，否则就让这个贪吃的人，以坟墓和你来吞食这个世界应得的。”

从PDF中提取文本数据

打开实时脚本

从中提取文本exampleSonnets.pdf使用extractFileText．该文件exampleSonnets.pdf包含莎士比亚十四行诗的PDF文件。

str = extractFileText(“exampleSonnets.pdf”）;

查看第二首十四行诗。

Ii = strfind(str，“二世”）;Iii = strfind(str，“三世”）;Start = ii(1);Fin = iii(1);extractBetween (str,开始,fin-1)

当四十个冬天围困你的额头，在你美丽的田野上挖出深深的战壕，你年轻时骄傲的装束现在被人注视，将会变成一文价值的破草:然后有人问，你所有的美丽都藏在哪里，你青春岁月的财宝都藏在哪里;你说，在你深陷的眼睛里，有一种吞噬一切的耻辱和挥霍无度的赞美。如果你能回答:“我这漂亮的孩子将总结我的计数，为我的老过失开脱”，证明他的美丽继承了你的美丽，那你的美貌就更值得赞美了!当你年老时，这将是新的;当你感到血液寒冷时，这将是温暖的。”

从PDF文件的第3、5和7页提取文本。

Pages = [3 5 7];str = extractFileText(“exampleSonnets.pdf”，.．.“页面”页);

查看第十首十四行诗。

X = strfind(str，“X”）;“十一”）;Start = x(1);Fin = xi(1);extractBetween (str,开始,fin-1)

是不是因为怕打湿一个寡妇的眼睛，你才在单身生活中消磨自己?啊!如果你无依无靠地死去，世界会像哀号无依无靠的妻子一样哀号你;这世界将是你的寡妇，它仍会为你没有留下任何形象而哭泣，当每一个私人寡妇都能把她丈夫的形象留在孩子的眼睛里:看!世界上一个多么吝啬的人只花了他的位置，因为世界仍然喜欢它;但是美在世界上的浪费是有尽头的，如果不加以利用，使用者就会这样毁灭它。对自己犯下如此残忍的耻辱的人，他对别人没有爱。真丢人!否认你对那些对你自己如此轻率的人有爱。如果你愿意，就算你是众人爱戴的，但最明显的是没有一个人爱你:因为你心中充满了杀人的仇恨，连你自己也不愿去谋反，想要毁掉那美丽的屋顶，而你的主要愿望是修补它。”

使用文件数据存储从多个文件导入文本

打开实时脚本

如果文本数据包含在一个文件夹中的多个文件中，则可以使用文件数据存储将文本数据导入MATLAB。

为示例十四行诗文本文件创建一个文件数据存储。十四行诗的例子都有文件名"exampleSonnetN.txt”,N是十四行诗的数字。指定要的读取函数extractFileText．

readFcn = @extractFileText;fds = fileDatastore(“exampleSonnet * . txt”，“ReadFcn”readFcn)

fds = FileDatastore属性:Files:{'…/tp9b046016/textanalytics-ex73762432/exampleSonnet1.txt';“…/ tp9b046016 / textanalytics-ex73762432 / exampleSonnet2.txt”;/tp9b046016/textanalytics-ex73762432/exampleSonnet3.txt{'/tmp/Bdoc22b_2054784_1501716/tp9b046016/ textanalysis -ex73762432'} UniformRead: 0 ReadMode: 'file' BlockSize: Inf PreviewFcn: @extractFileText SupportedOutputFormats:金宝app ["txt" "csv" "xlsx" "xls"…] ReadFcn: @extractFileText AlternateFileSystemRoots: {}

创建一个空的词袋模型。

bag = bagOfWords

bag = bagOfWords with properties: Counts: [] Vocabulary: [1x0 string] NumWords: 0 NumDocuments: 0

循环遍历数据存储中的文件并读取每个文件。标记每个文件中的文本，并将文档添加到袋．

而Hasdata (fds) STR = read(fds);文档= tokenizedDocument(str);bag = addDocument(包，文档);结束

查看更新后的词袋模型。

袋

词汇:["来自" "最公平的" "生物" "我们"…NumWords: 276 NumDocuments: 4

从HTML中提取文本

打开实时脚本

要直接从HTML代码中提取文本数据，请使用extractHTMLText并将HTML代码指定为字符串。

代码=THE十四行诗
by William Shakespeare
"；str = extractHTMLText(code)

str = "威廉·莎士比亚十四行诗"

输入参数

全部折叠

`文件名`- - - - - -文件名称
字符串标量|特征向量

文件的名称，指定为字符串标量或字符向量。

数据类型:字符串|字符

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名称-值参数必须出现在其他参数之后，但对的顺序无关紧要。

在R2021a之前，使用逗号分隔每个名称和值，并将其括起来的名字在报价。

例子:“Pages”，[1 3 5]指定从PDF文件中读取第1、3和5页。

`编码`- - - - - -字符编码
`“汽车”`(默认)|`“utf - 8”`|`“iso - 8859 - 1”`|`“windows - 1251”`|`“windows - 1252”`|……

要使用的字符编码，指定为逗号分隔的对，由“编码”和字符向量或字符串标量。字符向量或字符串标量必须包含标准字符编码方案名称，如下所示。

`“繁体”`	`“iso - 8859 - 1”`	`“windows - 874”`
`“Big5-HKSCS”`	`“iso - 8859 - 2”`	`“windows - 949”`
`“CP949”`	`“iso - 8859 - 3”`	`“windows - 1250”`
`“EUC-KR”`	`“iso - 8859 - 4”`	`“windows - 1251”`
`“EUC-JP”`	`“iso - 8859 - 5”`	`“windows - 1252”`
`“EUC-TW”`	`“iso - 8859 - 6”`	`“windows - 1253”`
`“GB18030”`	`“iso - 8859 - 7”`	`“windows - 1254”`
`“GB2312”`	`“iso - 8859 - 8”`	`“windows - 1255”`
`“GBK”`	`“iso - 8859 - 9”`	`“windows - 1256”`
`“IBM866”`	`“iso - 8859 - 11”`	`“windows - 1257”`
`“KOI8-R”`	`“iso - 8859 - 13”`	`“windows - 1258”`
`“KOI8-U”`	`“iso - 8859 - 15”`	`“us - ascii”`
	`“麦金塔”`	`“utf - 8”`
	`“Shift_JIS”`

如果未指定编码方案，则该函数将对要使用的编码执行启发式自动检测。启发式取决于您的场所。如果这些启发式失败，那么必须显式地指定一个启发式。

此选项仅适用于输入为纯文本文件时。

数据类型:字符|字符串

`ExtractionMethod`- - - - - -提取方法
`“树”`(默认)|`“文章”`|`“所有文本”`

提取方法，指定为由逗号分隔的对组成“ExtractionMethod”和以下其中之一:

选项	描述
`“树”`	分析DOM树和文本内容，然后提取段落块。
`“文章”`	检测文章文本并提取段落块。
`“所有文本”`	提取HTML主体中的所有文本，除了脚本和CSS样式。

此选项仅支持HTML文件金宝app输入。

`密码`- - - - - -打开PDF文件的密码
特征向量|字符串标量

打开PDF文件的密码，由逗号分隔的对组成“密码”和字符向量或字符串标量。此选项仅适用于输入文件为PDF的情况。

例子:“密码”、“skroWhtaM”

数据类型:字符|字符串

`页面`- - - - - -从PDF文件读取的页面
正整数向量

要从PDF文件中读取的页面，指定为逗号分隔的对，由“页面”和一个正整数向量。此选项仅适用于输入文件为PDF文件的情况。默认情况下，该函数从PDF文件中读取所有页面。

例子:“Pages”，[1 3 5]

数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64

提示

要从HTML代码中直接读取文本，请使用extractHTMLText．

版本历史

在R2017b中引入

全部展开

R2020b:`extractFileText`不再支持提取文本金宝app微软词97-2003二进制DOC文件

金宝app支持从微软^®词97-2003二进制DOC文件使用extractFileText功能已被删除。微软文字处理软件DOCX文件将继续得到支持。金宝app

来提取文本数据微软文字处理软件97-2003二进制DOC文件，先将文件保存为PDF，微软文字处理软件DOCX、HTML或纯文本文件，然后使用extractFileText函数。

另请参阅

extractHTMLText|readPDFFormData|writeTextDocument|tokenizedDocument

extractFileText

语法

描述

例子

从文本文件中提取文本数据

从PDF中提取文本数据

使用文件数据存储从多个文件导入文本

从HTML中提取文本

THE十四行诗

输入参数

文件名- - - - - -文件名称字符串标量|特征向量

名称-值参数

编码- - - - - -字符编码“汽车”(默认)|“utf - 8”|“iso - 8859 - 1”|“windows - 1251”|“windows - 1252”|……

ExtractionMethod- - - - - -提取方法“树”(默认)|“文章”|“所有文本”

密码- - - - - -打开PDF文件的密码特征向量|字符串标量

页面- - - - - -从PDF文件读取的页面正整数向量

提示

版本历史

R2020b:extractFileText不再支持提取文本金宝app微软词97-2003二进制DOC文件

另请参阅

主题

`文件名`- - - - - -文件名称
字符串标量|特征向量

`编码`- - - - - -字符编码
`“汽车”`(默认)|`“utf - 8”`|`“iso - 8859 - 1”`|`“windows - 1251”`|`“windows - 1252”`|……

`ExtractionMethod`- - - - - -提取方法
`“树”`(默认)|`“文章”`|`“所有文本”`

`密码`- - - - - -打开PDF文件的密码
特征向量|字符串标量

`页面`- - - - - -从PDF文件读取的页面
正整数向量

R2020b:`extractFileText`不再支持提取文本金宝app微软词97-2003二进制DOC文件