我怎么跳过一个文件给一个错误当使用fileDatastore pdf文档遍历一个文件夹?

2视图(30天)

显示旧的评论

艾伦 2019年1月11日

0
链接

这个问题直接联系

//www.tatmou.com/matlabcentral/answers/439388-how-do-i-skip-a-file-that-gives-an-error-when-using-filedatastore-to-loop-through-a-folder-of-pdfs

评论道: Eniola Oluwakoya2020年7月29日

答:接受艾伦

我挖掘文本从几千pdf文件到一个文件夹中使用文本分析工具。我用fileDatastore循环。一些pdf加密,这与extractFileText给了一个错误。我已经添加了一个试,抓段跳过这些文件,但是当它回到捕获错误试一试并再次读取相同的文件。循环永远不会结束。我怎么增加计数器,这样它将过去错误的文件吗?这是部分代码:

                         fds = fileDatastore (“文件* . pdf”,“ReadFcn”,@extractFileText);
                        
                         而hasdata (fds)
                        
                         %提取和文本做准备
                        
                         试一试%准备锁pdf等错误
                        
                         文本=阅读(fds);%这是发生错误的地方
                        
                         抓
                        
                         disp (“加密的pdf”);
                        
                         继续
                        
                         结束
                        
                         文本= erasePunctuation(文本);
                        
                         %等。(其他文本解析)
                        
                         …
                        
                         结束

0评论
显示1年长的评论藏1年长的评论

登录置评。

在回答这个问题。

接受的答案

艾伦 2019年1月12日

0
链接

直接链接到这个答案

//www.tatmou.com/matlabcentral/answers/439388-how-do-i-skip-a-file-that-gives-an-error-when-using-filedatastore-to-loop-through-a-folder-of-pdfs answer_356151

我想出来。的读语句就是移动文件指针,如果它给了一个错误,那么指针保持不动。我解决了这个问题通过阅读功能 fileparts 获得的文件名,然后使用试,抓与 extractFileText 在该文件中。

1评论
显示没有隐藏没有

Eniola Oluwakoya 2020年7月28日

嗨,你能分享更多的光,你是怎样使读取函数fileparts ?

登录置评。

答案(1)

艾伦 2020年7月28日

0
链接

直接链接到这个答案

//www.tatmou.com/matlabcentral/answers/439388-how-do-i-skip-a-file-that-gives-an-error-when-using-filedatastore-to-loop-through-a-folder-of-pdfs answer_471781

fileparts 是一个Matlab函数,解析出的部分文件名。它是当执行读是执行。这是工作的代码。信息包含文件名部分。我测试的名称是否有效试一试 … 抓。

                             %首先做一个结构来保存文件。
                            
                             fds = fileDatastore (“GQquads / *《GQ》* . pdf”,“ReadFcn”,@fileparts);
                            
                             %遍历文件
                            
                             而hasdata (fds)
                            
                             %读下一个条目
                            
                             [~,信息]=阅读(fds);
                            
                             %测试是否有效文件(你能提取文件名吗?)
                            
                             试一试
                            
                             文本= extractFileText (info.Filename);
                            
                             抓
                            
                             %显示错误的文件的名称
                            
                             info.Filename
                            
                             继续
                            
                             结束
                            
                             num = info.Filename;
                            
                             num = extractBetween (num,“- - -”,“。”);
                            
                             全国矿工工会
                            
                             num = (num num);
                            
                             %(文本准备)
                            
                             结束

1评论
显示没有隐藏没有

Eniola Oluwakoya 2020年7月29日

这帮助了很多,谢谢你

登录置评。

在回答这个问题。

类别

MATLAB 编程文件和文件夹文件操作

找到更多的在文件操作在帮助中心和文件交换

下载188bet金宝搏

文本分析工具箱

释放

R2018b

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!