textscan:瞬时记忆误差当访问非常大的文件(只有最新的Matlab版本)

2视图(30天)

显示旧的评论

西蒙Stehle 2021年5月7日

3
链接

这个问题直接联系

//www.tatmou.com/matlabcentral/answers/823955-textscan-instantaneous-out-of-memory-error-when-accessing-very-large-file-only-with-newest-matlab

回答: 史蒂文的主 2021年5月13日

答:接受沃尔特·罗伯森

我使用一个非常大的数据集(500 gb)分成一千多个单个. txt文件(160列/特点/文件,可能超过一百万行,包含一个字符串和数值型变量)的混合物,每个覆盖一个特定的地理区域。文件覆盖大面积、单一可能多达16 gb . txt文件。处理大量的数据,我的每个文件如下:

访问各自. txt文件(“fopen”)
在一个while循环进口250000行用“textscan”
处理数据和出口规模较小的数据集(如果不是第一个循环迭代添加)
重复以上步骤,直到年底达到. txt文件(尽管~ feof)

进口数据的代码是这样的:

                         文件标识= fopen(文件名);%确定文件名,“文件名”是当前. txt文件的路径
                        
                         而~ feof(文件标识)%进口成堆的250000行到当前. txt文件
                        
                         %进口数据,“格式varlist”标识格式和列
                        
                         %的进口。分隔符“|”。
                        
                         Data = textscan(文件标识,strcat (char (format_varlist),“\ r \ n”250000年),“分隔符”,“|”,…
                        
                         “HeaderLines”、双(first_iteration = = 1),“EndOfLine”,“\ r \ n”,“EmptyValue”1);
                        
                         结束

这样做让我有效地减少我的数据集的大小,这样我以后可以方便地使用完整的数据集。

我的问题是这样的:对所有文件的代码运行得非常好(包括非常大. txt的)版本2019。2021版本(如果我没记错的话,它没有使用2020 a),直到代码达到代码运行得非常好一个文件太大。在这一点上,代码(瞬间)与一个“内存溢出”错误停止:

                         出的内存。
                        
                         相关的文档

我怀疑新的“textscan”功能识别访问的文件大小太大加载完全(它),但不承认,我只要250 k线。

我看了看“readtable”命令,但据我所知,这个命令不允许进口小栈的数据一次一次(仅为电子表格)。

有解决方法/解决我的问题吗?当我工作(工作)frequenty与这些类型的代码,我将永远坚持2019年的版本。提前谢谢你的帮助。

3评论
显示2年长的评论隐藏2年长的评论

dpb 2021年5月7日

编辑:dpb 2021年5月7日

我提交这个问题直接Mathworks作为技术支持问题/缺陷。金宝app

现在的大型数据集的数据存储和高阵列设计可能会推荐替代/解决方案。我永远不会被使用,“愤怒”所以没有任何实际的实践经验。

这是一个耻辱,运动更优雅的编码实践是在这样一个价格和内存使用效率,打破旧的可靠方法,同意了。

附录:

嗯…我去读一些背景的医生又看到最近文件以下——有趣的秘密

“使用textscan函数来访问的部分大型文本文件只读取所选的列和行。如果你指定的行数或重复的格式与textscan数量,MATLAB计算所需的确切数量的内存之前。”

我想知道问题是添加了所有的行李/开销在MATLAB的较新版本你只是到达了一个临界点块大小太大了。你试过削减250000年到200000年,症状是否改变?

当然,如果工作做,它将以多做25%的代价迭代和可能至少更多的处理时间。“天下没有免费的午餐!”升级,肯定的。所有的新铃铛和口哨有副作用,有时非常严重的问题。但我认为TMW仍然会感兴趣的特定用例揭露这些问题。

dpb 2021年5月7日

而且, textscan 完全装入的所以连预赛都能够看明白它会问候。

如果它确实不会工作,我想说,有资格作为一个bug和总违反记录的行为。

登录置评。

在回答这个问题。

接受的答案

沃尔特·罗伯森 2021年5月12日

0
链接

直接链接到这个答案

//www.tatmou.com/matlabcentral/answers/823955-textscan-instantaneous-out-of-memory-error-when-accessing-very-large-file-only-with-newest-matlab answer_698260

指定的编码fopen(),这样的i / o库没有通读整个文件ddetermine编码。现在默认是自动检测,但可以要求读取整个文件证明文件可能包含utf8的假设。

6个评论
显示5年长的评论隐藏5年长的评论

dpb 2021年5月12日

编辑:dpb 2021年5月13日

嗯。但它从未暗示这个特性可能导致内存不足错误的文档。这应该是上面的描述和突出显示打开外部文件应该能够报告问题的具体原因和解决而不是倾销“内存不足”的标准错误消息。

登录置评。

更多的答案(2)

湿婆Kalyan Diwakaruni 2021年5月12日

0
链接

直接链接到这个答案

//www.tatmou.com/matlabcentral/answers/823955-textscan-instantaneous-out-of-memory-error-when-accessing-very-large-file-only-with-newest-matlab answer_698195

你好,

指内存使用信息位于以下网址:

//www.tatmou.com/help/matlab/performance-and-memory.html

具体的部分:

1。策略有效地使用内存

2。解决“内存溢出”错误

概念:

1。内存分配

2。内存管理函数

一些额外的资源来解决“内存溢出”错误:

//www.tatmou.com/help/releases/R2020b/matlab/matlab_prog/strategies-for-efficient-use-of-memory.html responsive_offcanvas

//www.tatmou.com/help/releases/R2020b/matlab/matlab_prog/resolving-out-of-memory-errors.html

希望它可以帮助。

0评论
显示1年长的评论藏1年长的评论

登录置评。

史蒂文的主 2021年5月13日

0
链接

直接链接到这个答案

//www.tatmou.com/matlabcentral/answers/823955-textscan-instantaneous-out-of-memory-error-when-accessing-very-large-file-only-with-newest-matlab answer_699153

我建议你看看MATLAB处理的功能大文件和大数据。你听起来就像你描述的方法可以使用高数组的支持 tabularTextDatastore 。

0评论
显示1年长的评论藏1年长的评论

登录置评。

在回答这个问题。

类别

MATLAB 数据导入与分析数据导入和导出标准文件格式文本文件

找到更多的在文本文件在帮助中心和文件交换

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!