深度学习

理解和使用深度学习网络

在医学成像应用中处理超大图像

本文来自Oge Marques博士华盛顿大学工程与计算机科学教授。奥格是一个书的作者,AAAS莱什纳研究员.他也是一个MATLAB的狂热爱好者,在他的课堂上使用MATLAB已经超过20年了。你可以在推特上关注他(@ProfessorOge).
计算病理学(CPATH)领域包括使用算法分析通过扫描细胞和组织切片获得的数字图像。近年来,深度学习算法的性能与训练有素的病理学家相当,已经开发了一些分类、回归和分割任务,如肿瘤检测和分级。
将深度学习(DL)技术应用于组织病理学组织切片分析将像任何其他深度学习应用一样开始(确保采用原则)工作流并且运行着大量的实验但将有一个重要的额外复杂因素:需要获取、标记、存储、显示和处理十亿像素大小的图像。
在这篇博文中,我们将概述CPATH深度学习的最新进展,并向您展示如何使用MATLAB处理非常大的图像。

深度学习在计算病理学中的概述

图1:深度学习在计算病理学中的工作流程。
图1概述了深度学习在计算组织病理学中的工作流程。本质上,深度神经网络是用补丁必须从十亿像素大小的全幻灯片图像(WSI)中提取。的选择体系结构(卷积神经网络(CNNs),全卷积网络(FCNs),循环神经网络(RNNs),自编码器,或生成对抗网络(GANs)))和学习模式(有监督,弱监督,完全无监督,迁移学习)取决于图像是否标签并进行组织病理学图像分析任务手边:cnn和FCNs是(弱)监督学习任务中最广泛使用的体系结构,而自动编码器和GANs是无监督学习范式下的流行选择。
  • 监督式学习方法已用于:分类任务,例如,预测一个贴片应该被标记为健康的还是癌变的;回归例如,组织病理学图像中细胞的检测或定位;而且分割从组织学图像的结构。
  • 弱监督学习技术利用粗粒度(图像级)注释(例如,癌症)自动推断细粒度(像素/补丁级)信息,从而减轻病理学家的注释负担。这一类中最流行的范式是多实例学习(MIL),其中训练集由以下部分组成, WSIs标记为阳性或阴性;每个袋子里都有很多实例,其标签将被预测或未知的图像补丁。主要目标是训练分类器预测袋级和实例级标签,而训练集中只给出袋级标签。
  • 无人管理的(最近更名为“自我监督”)学习在深度学习中仍然是一个年轻的领域,在CPATH上的应用才刚刚出现在文献中。
  • 转移学习方法在组织病理学中被广泛采用,通常使用预先训练的(使用ImageNet图像)模型,如VGGNet《盗梦空间》ResNetMobileNet,DenseNet.这些预先训练的模型已广泛应用于多种癌症分级和预后任务,包括公共挑战在外地,如巴赫CAMELYON

获取和处理整张幻灯片图像的挑战

无论体系结构、学习方案或应用程序如何,数字病理解决方案通常都需要获取和处理大量非常大(十亿像素大小)的整个幻灯片图像(WSIs),这些图像的内容通常基于较小的补丁(或金宝搏官方网站块)进行分析。
面临的挑战收购WSIs包括:
  • 数据可用性:该领域的公开数据集相对较少(例如,CAMELYONHER2巴赫),而且许多已发表的研究都采用了专有的WSI数据集。数字病理学协会(DPA)维护一个网站与图像仓库的列表。
  • 图像格式:不同的扫描仪使用不同的专有文件格式输出图像,为数据交换、归档和在线发布带来额外的困难。缺乏通用的图像格式会给大型数据集的管理带来额外的成本和潜在的延迟。已经进行了广泛的讨论采用单一开放源码文件格式,包括…的可能性采用DICOM标准用于整张幻灯片的图像编码。
  • 图像大小:一旦你成功地获得足够的组织病理学图像,并将它们转换为有用的格式(例如,TIFF格式),你必须做好准备每个图像文件通常是几GB的顺序,并计划相关的影响(如存储空间和网络上传/下载速度)。
面临的挑战处理WSIs包括:
  • 内存:即使是单个WSI也可能太大,无法完全放入内存中。
  • 显示:理想情况下,您应该能够在分辨率仅为图像像素计数的一小部分的显示器中显示具有缩放/平移/滚动功能的WSI内容。金宝搏官方网站
  • 块/补丁:应该有一种优雅的方式来表示图像中的单个块(补丁)-并在需要时将它们视为“子图像”。
  • 工件:由于幻灯片准备工作流程(例如,染色过程中的颜色变化)或扫描仪设置(例如,不同的照明和分辨率设置),WSIs中可能出现不同的工件。

CPATH的深度学习工作流

图2:简化的计算病理学深度学习工作流程。
图2显示了CPATH的简化深度学习工作流。它遵循了经典机器学习(ML) /深度学习工作流的基本步骤,但有一些显著的例外和特性:
  • 数据采集该过程包括收集组织标本,切片,提取每一张组织切片,并将其数字化,生成全切片图像(WSI)。如果产生的图像没有通过质量检查,(部分)采集过程可能不得不重复。
  • 预处理步骤包括从十亿像素大小的wsi中提取少量的补丁。这种降低WSIs高维的方法可以看作是“人类引导的特征选择”。图像补丁通常是正方形区域,其大小从32 × 32像素到10,000 × 10,000像素不等(典型的补丁大小为256 × 256像素)。此外,这个步骤可能包括处理组织和伪影检测和颜色管理的规定(见下面的例子)。
  • 建模块包括在选定的学习范式(例如,监督、弱监督、自我监督、迁移学习)下训练选定的深度学习模型。
  • 后处理块可以包括形态学操作,以提高像素级预测的质量,修正小误差,例如通过填充空白。
  • 最后,预测Step检查模型是否工作良好。如果没有,你可能需要:(1)调整模型的超参数,并执行其他与大多数机器学习(ML)和深度学习(DL)任务相似的步骤;或者(2)重新审视预处理步骤,提高用于训练模型的输入图像的质量。毕竟,由于ML/DL模型从数据中学习,所以在细化解决方案以更好地满足成功的目标度量时,我们必须牢记这种微妙的平衡。

一个例子

这是一个例子如何使用MATLAB:(1)处理非常大的图像,如WSIs;(2)处理前和处理后的组织学图像。

用MATLAB处理WSIs

本例的第一部分展示了如何在MATLAB中读取、显示、探索和组织WSIs(及其补丁)。感谢最近的介绍blockedImage对象,现在可以处理非常大的图像而不会耗尽内存。blockedImage是由离散块(补丁)组成的图像,可以使用blockedImageDatastore对象,并使用bigimageshow

MATLAB中WSIs的有用的预处理和后处理操作

由于在CPATH中使用深度学习技术的目标是产生临床可翻译的解决方案,即能够跨大型患者群体工作,因此建议预先处理一些最可能的WSI工件,从而增加结金宝搏官方网站果模型的能力,以推广在其他测试集中发现的图像工件。
本例的第二部分展示了处理组织病理图像中常见伪影的预处理操作示例,以及改进像素级结果质量的形态学后处理操作示例。从本质上说,这个示例应该有助于医疗图像分析社区为WSIs创建图像分析管道(并且,作为额外的好处,可以重新生成类中描述的代码和示例最近的一篇论文在本课题中)使用MATLAB。
它强调了MATLAB(和图像处理工具箱)函数的有用性,如:
  • 图像阈值和滤波:imbinarizebwareafilt,imlincomb
  • 形态学图像处理操作:imcloseimopenimdilateimerodeimfill,strel
  • 特征提取:bwlabel而且regionprops
  • 可视化:蒙太奇imoverlay情节而且矩形
图3和图4显示了结果示例。
图3:预处理示例:(左)初始图像;(中)阈值操作将组织像素与玻璃像素分离的结果;(右)应用船体填充来捕获组织的完整形状和大小,并从管道中进一步分析中删除幻灯片背景的结果。
图4:后处理示例:(上)在肾移植活检WSI上存在感兴趣区域(绿色)的假设预测叠加;(中)使用形态学算法填充孔洞和去除虚假像素的结果;(下)后处理结果(按补丁)。

关键的外卖

用于计算组织病理学的深度学习金宝搏官方网站解决方案需要处理整个幻灯片图像的能力,除了通常比在图像分析和计算机视觉的其他领域使用的图像大得多之外,这些图像可能会受到工件的影响,从而影响整体解决方案的质量。在这篇博文中,我们用MATLAB演示了如何在CPATH深度学习工作流的背景下处理和处理十亿像素大小的wsi。
CPATH是一个活跃的研究领域,在不久的将来,深度学习在该领域的新发展和应用可能会出现。如果您有兴趣了解更多关于CPATH和相关问题,我建议您查看以下资源:使用blockedimage和深度学习对大型多分辨率图像进行分类
|
  • 打印
  • 发送电子邮件

댓글

댓글을남기려면링크를클릭하여MathWorks계정에로그하거나계정을새로만드십시오。