文档帮助中心文档
extractFileText
从PDF阅读文本,微软词、HTML和纯文本文件
str = extractFileText(文件名)
str = extractFileText(文件名、名称、值)
例子
str= extractFileText (文件名)从文件读取文本数据为字符串。
str= extractFileText (文件名)
str
文件名
str= extractFileText (文件名,名称,值)使用一个或多个指定附加选项名称-值对参数。
str= extractFileText (文件名,名称,值)
名称,值
全部折叠
提取的文本sonnets.txt使用extractFileText。该文件sonnets.txt包含纯文本形式的莎士比亚的十四行诗。
sonnets.txt
str = extractFileText (“sonnets.txt”);
查看首十四行诗。
我= strfind (str,“我”);2 = strfind (str,“二世”);=我开始(1);鳍= 2 (1);extractBetween (str,开始,fin-1)
ans = "我从美丽的生物,我们渴望增加,因此美丽的玫瑰可能永远不会死,但随着成熟应该随着时间流逝,他的他的记忆交给娇嫩的后嗣:但你承包你的明亮的眼睛,饲料刻画你的光的火焰定情,燃料,饥荒丰富所在,你的自我你的敌人,你的甜蜜的自我太残忍:你现在艺术世界的新鲜的点缀,只有春天的华而不实的使者,在你自己的花蕾埋葬你的内容,和温柔的乡下人mak浪费在吝啬鬼:遗憾的世界,否则这贪吃的人,吃的世界,由你和坟墓。”
提取的文本exampleSonnets.pdf使用extractFileText。该文件exampleSonnets.pdf在PDF文件包含了莎士比亚的十四行诗。
exampleSonnets.pdf
str = extractFileText (“exampleSonnets.pdf”);
查看第二个十四行诗。
2 = strfind (str,“二世”);3 = strfind (str,“三世”);开始= 2 (1);鳍= 3 (1);extractBetween (str,开始,fin-1)
ans = "二世当四十冬天围攻你的眉毛,和你美丽的领域深入挖掘战壕,你青春的骄傲制服现在凝视着,将小价值的碎布会杂草:然后被要求,所有你的美丽谎言,所有的珍惜你的精力充沛的天;说,在你自己的深凹的眼睛,是一个所有吃的羞耻和浪费的赞美。多少deserv会赞美你的美丽的,如果你能够回答“这个公平的孩子我要和我的统计,并使我的借口,“证明他继承你的美丽!这是新的当你老了,看看你的血温暖当君觉得冷。”
从页面中提取文本3、5、7的PDF文件。
页面= (3 5 7);str = extractFileText (“exampleSonnets.pdf”,…“页面”页);
查看第十届十四行诗。
x = strfind (str,“X”);ξ= strfind (str,“十一”);开始= x (1);鳍= xi (1);extractBetween (str,开始,fin-1)
ans = " X是怕一个寡妇弄湿的眼睛,consum你花你的自我在单身生活吗?啊!如果你徒劳的偶然死亡,世界将你像makeless妻子嚎啕大哭;世界将是你的寡妇和仍然哭泣,你所留下的任何形式的你,当每一个私人寡妇可能让孩子的眼睛,她丈夫的形状:看!世界上什么是unthrift难道花转变但他的地方,仍然为世界上享有;但美在世界上的废物已经结束,并一直未使用的用户因此破坏它。对他人没有爱在等自己的怀里坐murd 'rous耻辱提交。X不像话!否认君熊喜欢任何,因为你的自我艺术所以unprovident。格兰特,如果你愿意,你是人们所爱的很多,但没有一个值列表你花是最明显的:因为你是与凶残的讨厌,所以拥有“反抗你的自我君贴不是阴谋,寻找美丽的屋顶破坏,修复应该你的欲望。 "
如果你的文本数据中包含多个文件在一个文件夹中,然后您可以将文本数据导入MATLAB使用文件数据存储。
创建一个数据存储的文件示例十四行诗的文本文件。十四行诗的示例文件名称”exampleSonnetN.txt”,N十四行诗的数量。指定阅读功能extractFileText。
exampleSonnetN.txt
N
readFcn = @extractFileText;fds = fileDatastore (“exampleSonnet * . txt”,“ReadFcn”readFcn)
fds = FileDatastore属性:文件:{“…/ tp73208a97 / textanalytics-ex73762432 / exampleSonnet1.txt”;“…/ tp73208a97 / textanalytics-ex73762432 / exampleSonnet2.txt”;“…/ tp73208a97 textanalytics-ex73762432 / exampleSonnet3。txt”……和1}文件夹:{“/ tmp / Bdoc21b_1757077_241787 / tp73208a97 / textanalytics-ex73762432”} UniformRead: 0 ReadMode:‘文件’BlockSize:正PreviewFcn: @extractFileText SupportedOutputFor金宝appmats:[“三种”“csv”“xlsx”“xls”…]ReadFcn: @extractFileText AlternateFileSystemRoots: {}
创建一个空bag-of-words模型。
袋= bagOfWords
袋= bagOfWords属性:计数:[]词汇:[1 x0字符串]NumWords: 0 NumDocuments: 0
遍历每个文件数据存储和读取的文件。标记每个文件并添加文档中的文本袋。
袋
而hasdata (fds) str =阅读(fds);文档= tokenizedDocument (str);袋= addDocument(袋、文档);结束
查看更新bag-of-words模型。
袋= bagOfWords属性:计数:[4 x276双]词汇:“从”“公平”“生物”“我们”…]NumWords: 276 NumDocuments: 4
直接从HTML代码中提取文本数据,使用extractHTMLText和指定的HTML代码作为一个字符串。
extractHTMLText
代码=“< html > <身体> < h1 >十四行诗由威廉·莎士比亚< / h1 > < p > < / p > < /身体> < / html >”;str = extractHTMLText(代码)
str =“威廉·莎士比亚的十四行诗”
文件的名称,指定为字符串标量或特征向量。
数据类型:字符串|字符
字符串
字符
指定可选的逗号分隔条名称,值参数。的名字参数名称和吗价值相应的价值。的名字必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家。
的名字
价值
Name1, Value1,…,的家
“页面”,[1 3 5]
编码
“汽车”
“utf - 8”
“iso - 8859 - 1”
“windows - 1251”
“windows - 1252”
使用字符编码,指定为逗号分隔组成的“编码”和一个特征向量或一个字符串标量。特征向量或字符串标量必须包含一个标准的名称,如以下字符编码方案。
“编码”
“繁体”
“windows - 874”
“Big5-HKSCS”
“iso - 8859 - 2”
“windows - 949”
“CP949”
“iso - 8859 - 3”
“windows - 1250”
“EUC-KR”
“iso - 8859 - 4”
“EUC-JP”
“iso - 8859 - 5”
“EUC-TW”
“iso - 8859 - 6”
“windows - 1253”
“GB18030”
“iso - 8859 - 7”
“windows - 1254”
“GB2312”
“iso - 8859 - 8”
“windows - 1255”
“GBK”
“iso - 8859 - 9”
“windows - 1256”
“IBM866”
“iso - 8859 - 11”
“windows - 1257”
“KOI8-R”
“iso - 8859 - 13”
“windows - 1258”
“KOI8-U”
“iso - 8859 - 15”
“us - ascii”
“麦金塔”
“Shift_JIS”
如果你不指定一个编码方案,那么这个函数执行使用启发式的编码自动识别。启发式取决于你的语言环境。如果这些启发式失败,那么您必须显式地指定一个。
此选项仅适用于当输入是一个纯文本文件。
数据类型:字符|字符串
ExtractionMethod
“树”
“文章”
“所有文本”
提取方法,指定为逗号分隔组成的“ExtractionMethod”和下列之一:
“ExtractionMethod”
此选项仅支持HTML文件金宝app输入。
密码
密码打开PDF文件,指定为逗号分隔组成的“密码”和一个特征向量或一个字符串标量。此选项仅适用于如果输入是一个PDF文件。
“密码”
例子:“密码”、“skroWhtaM”
“密码”、“skroWhtaM”
页面
页面从PDF文件,读取指定为逗号分隔组成的“页面”和一个向量的正整数。此选项仅适用于如果输入文件是一个PDF文件。这个函数,默认情况下,从PDF文件中读取所有页面。
“页面”
例子:“页面”,[1 3 5]
数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64
单
双
int8
int16
int32
int64
uint8
uint16
uint32
uint64
直接从HTML代码阅读文本,使用extractHTMLText。
全部展开
错误从R2020b
金宝app对提取文本的支持微软®词97 - 2003年使用二进制文档文件extractFileText函数被移除。微软文字处理软件多克斯文件将继续支持。金宝app
提取文本数据微软文字处理软件97 - 2003二进制DOC文件,保存文件为PDF,微软文字处理软件多克斯、HTML或纯文本文件,然后使用extractFileText函数。
extractHTMLText|readPDFFormData|writeTextDocument|tokenizedDocument
readPDFFormData
writeTextDocument
tokenizedDocument
你有一个修改版的这个例子。你想打开这个例子与编辑?
你点击一个链接对应MATLAB命令:
运行该命令通过输入MATLAB命令窗口。Web浏览器不支持MATLAB命令。金宝app
选择一个网站翻译内容,看到当地事件和提供。根据你的位置,我们建议您选择:。
你也可以从下面的列表中选择一个网站:
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。
联系你当地的办公室