技术文章和通讯

加速开发新的单分子定位和跟踪技术

阿卜杜拉国王科技大学的Maged F. Serag


30多年前,单分子定位和跟踪(SMLT)是一种描述单个分子运动的技术。通过测量扩散系数并将分子运动描述为随机的、有方向的或有约束的,科学家们可以研究活细胞中的亚细胞动力学,包括病毒感染、基因转录和细胞表面受体的行为。

尽管SMLT的历史相对较长,应用也很多,但它仍有一些缺点。例如,它不能告诉我们分子的形状和大小,或者它们是如何随时间变化的。此外,SMLT效率低下,有时由于分子的失焦运动造成的统计误差而无法工作。

我在阿卜杜拉国王科技大学(KAUST)的研究小组开发了一种测量单分子扩散的方法,没有这些限制。而不是从分子轨迹的空间和时间成分定量扩散,就像传统的SMLT,我们的MATLAB®基于方法通过分析分子在空间中所占的累积面积(CA)随时间的增加来量化扩散(图1)。我们通过比较传统SMLT技术计算的扩散系数的统计分布和新CA方法计算的扩散系数,在MATLAB中验证了我们的方法。CA方法在我们测试的DNA分子扩散动力学的可重复性测量方面优于传统的SMLT方法。

图1.荧光纳米球占用的累积面积超过0.48秒(顶部)和0.4秒(底部)的荧光染色DNA占用的累积区域。

使用MATLAB完成我们的工作处理和执行拟合和数学计算的核心和数学计算。Matlab提供三个关键优势,使其成为我们的研究良好。首先,很容易学习。即使我的背景是药房,而不是编程,我掌握了Matlab,足以在一个月内进行这项研究。它会让我六次更长的时间来达到类似于C ++或Java的语言的类似水平®.其次,KAUST有一个总学术人数(TAH)许可证,这使得KAUST的研究人员可以很容易地访问MATLAB和它在校园任何地方的附加工具箱中的大量功能和功能。第三,SMLT和CA方法计算量大,单个实验需要几十万个高斯拟合。Parallel Computing Toolbox™和MATLAB Parallel Server™使我能够加速这些方法,并将多个实验的处理时间从几天缩短到几个小时(见侧边栏).

创建模拟粒子、纳米球和DNA分子的图像序列

SMLT和CA方法都涉及到对一系列图像帧的分析,这些图像帧通常是从显微镜捕获的,每帧中有一个或几个分子可见。我们应用CA方法来描述粒子的运动,并计算三种不同情况下的扩散系数。第一种方法使用模拟数据创建图像序列。第二次和第三次使用的图像序列是在我们的实验室使用定制的宽视场荧光显微镜获得的。

我们设计了第一个验证CA方法的方案。在Matlab中,我们使用1.0,1.5和2.0微米2 /秒的预定扩散系数在2D空间中产生颗粒的随机步行轨迹。对于随机步行的每个步骤,粒子的X和Y位置用于在图像序列中的单个帧中定义五像素交叉的中心(图2)。然后,我们使用CA方法计算从模拟粒子的扩散系数,并验证结果(1.10,1.51和1.98微米2 / sec)与我们的预定值一致。

图2。模拟二维扩散轨迹的累积面积。在0秒时,模拟粒子处于其原始位置,用一个5像素的十字表示。

对于第二和第三场景,我们在不同长度和拓扑形式的直径和双链DNA分子中跟踪了约0.2微米的黄色荧光聚合物纳米球。我们以每6.4ms的1帧的速率捕获纳米球和分子的图像。我们使用SMLT和CA方法处理了这些图像。

实现CA方法

在MATLAB中,我们开发了一种算法来实现CA方法(图3)。使用通过仿真生成或在实验室捕获的数千个512 x 512像素帧序列,该算法首先调用Image Processing Toolbox™函数,基于初始阈值去除背景。该算法通过使用曲线拟合工具箱™用高斯函数拟合帧中所有像素强度的频率分布来计算这个阈值。

在从帧中去除噪声像素后,算法逐渐增加背景阈值,直到只剩下5个像素,定义了分子在该帧中占据的空间面积。

当序列中所有帧处理完毕后,算法将其叠加,生成分子在每帧中所占的累积面积,再减去相邻帧的累积面积,得到累积面积差,用于计算扩散系数。

图3。CA方法的步骤顺序,包括背景减去,噪声去除,叠加,计算累积面积差,计算扩散系数。

通过并行和分布式计算加速进程

由于单个实验需要大约200,000个高斯安装,我们很快发现在单个处理器上运行实验花费的时间太长而不实用。为了缩短处理时间,我们使用并行计算工具箱在多核工作站上执行计算。使用4个核的实验大约需要3个小时,而使用16个核的实验只需要45到50分钟。

当然,我们经常需要运行许多模拟和实验,以获得有效的统计结果。为了进一步加速这一过程,我们开始在IT研究计算集群与MATLAB并行服务器上的IT研究计算集群上的512个核心。这些群集为用户提供了超过10000个核心。使用此设置,我们可以在仅需15分钟内完成多士机器上花24小时的一组实验。

可视化和解释结果

我们目前正在解释我们的模拟和实验的结果。使用MATLAB,我们可视化实验结果,以更好地了解CA-M方法与SMLT相比如何进行。

为了使ca方法与传统SMLT在相同的实验数据上进行比较,我们在MATLAB中实现了SMLT。我们的SMLT算法在每一帧像素上应用二维高斯拟合,以确定分子的质心位置。在对每一帧重复这个过程后,算法将跨帧的质心连接起来,创建一个轨迹,然后对轨迹进行均方位移分析,以描述分子的运动(图4)。

图4.溶液中单个荧光纳米末端的随机运动。使用SMLT和MATLAB跟踪粒子的运动。

我们使用在MATLAB中实现的动态时间扭曲(DTW)技术来测量SMLT和ca方法结果之间的相似性和差异。早期结果表明,ca方法具有较小的统计误差,而且能够为科学家提供分子大小和构象变化频率的信息。

在研究计算集群上运行matlab

作者:Matthijs van Waveren, KAUST IT研究计算

MATLAB并行服务器使KAUST的研究人员能够在由该大学的IT研究计算小组维护和管理的计算机集群上运行他们的计算密集型MATLAB程序。

为了让研究人员更容易地使用集群,我们的小组使用了MathWorks®为MATLAB开发一个高性能计算(HPC)插件。研究人员可以在MATLAB环境中使用这个附加组件,在数百个工人上执行他们的脚本。该附加组件负责将数据文件和脚本传输到集群,运行作业,然后将结果传输回研究人员的MATLAB环境。

HPC插件使研究人员更容易使用集群完成他们的MATLAB工作。因此,对集群时间的需求急剧增加。为了满足这一需求,我们使用OpenStack和一套Linux构建了一个虚拟集群®工作站。然后,我们更新了HPC附加组件,以便用户可以在一个原始集群或新的虚拟集群上运行他们的作业。虽然虚拟集群不如原始集群快,但对于那些不想在高需求期间等待自己的工作被调度到原始集群上的研究人员来说,虚拟集群是可用的。

提交人希望感谢Raymond Norris和Mathworks的Amine El Helou在开发HPC附加方面的帮助

关于作者

Maged Serag博士是Kaust的博士后研究员。他正在研究新的单分子荧光成像技术,用于同时可视化DNA的扩散和构象动态。塞格博士持有博士。在日本名古屋大学的化学与生物技术。

Matthijs van Waveren博士是KAUST的研究应用专家,拥有超过20年的IT经验,担任过软件工程师、研究员、超级计算机顾问和市场协调员。

发布于2016 - 92970v00

查看相关功能的文章

查看相关行业的文章