接受化疗或免疫治疗的癌症患者必须定期进行CT和PET扫描,在某些情况下,还需要进行新的活检,以评估治疗的疗效。流式细胞术是一种通过简单的血液检测来识别循环肿瘤细胞(ctc)的方法,它比扫描和检测的侵入性要小得多
在流式细胞仪中,细胞一个接一个地通过流式细胞仪上的一个小开口进行检测。在传统的流式细胞术中,细胞需要荧光标记,这可能会影响细胞行为并损害生存能力。成像流式细胞仪不需要标签,但当相机速度超过每秒2000个细胞时,它们产生的图像模糊,这使得筛选足够大的细胞群以发现罕见的异常细胞变得不切实际。
我们在加州大学洛杉矶分校光子学实验室的团队开发了一种时间拉伸定量相位成像(TS-QPI)系统,可以在没有生物标志物标签的情况下对大样本量进行精确分类(图1)。该系统结合了成像流式细胞术、光子时间拉伸技术(见侧条)和机器学习算法
选择功能
我们的TS-QPI系统每秒产生100gb的数据——相当于每秒20部高清电影的数据。在单个实验中,10毫升血液样本中的每个细胞都以每秒近10万个细胞的速度成像,该系统产生10到50tb的数据。
在MATLAB中使用图像处理工具箱™,我们开发了一个机器视觉管道,用于从细胞图像中提取生物物理特征。该管道还包括CellProfiler,这是一个用Python编写的开源细胞图像分析包®.我们从每个细胞中提取了超过200个特征,分为三类:表征细胞大小和形状的形态学特征,与细胞密度相关的光学相位特征,以及与细胞内细胞器大小相关的光学损耗特征。线性回归结果表明,其中16个特征包含了分类所需的大部分信息。
评估机器学习算法
MATLAB的一个主要优点是能够在短时间内测试各种各样的机器学习模型。我们比较了统计学和机器学习工具箱™中的四种分类算法:朴素贝叶斯、支持向量机(SVM)、逻辑回归(LR)和由交叉熵和反向传播训练的深度神经网络(DNN)。金宝app
在使用已知ctc浓度的样本进行的测试中,所有四种算法(贝叶斯、支持向量机、LR和DNN)的准确率均高于85%(图2)。通过将深度学习与受试者工作特征(ROC)的全局优化相结合,我们进一步提高了机器学习分类的准确性、一致性以及灵敏度和特异性之间的平衡。该方法在MATLAB中实现,分类准确率提高到95.5%。
加速并行计算实验
因为我们处理的是大数据,通常需要一周以上的时间来完成我们的图像处理和机器学习过程。为了缩短周转时间,我们使用16核处理器和并行计算工具箱™并行分析。使用简单的并行for循环(parfor
),我们在16个处理器上同时运行我们的进程,将完成分析所需的时间从8天减少到大约半天。
建模和细化实验设置
在加州大学洛杉矶分校的光子学实验室,MATLAB是模型开发和数据分析的主力。我们使用MATLAB开发了完整实验设置的模型,从光学和激光脉冲一直到单个细胞的分类(图3)。
我们使用这个模型来指导对设置的增强。例如,为了提高信噪比,我们使用模型来模拟特定的增益系数。模拟结果向我们展示了如何以及在哪里更改设置可以提高整体性能。
在MATLAB中建模和模拟系统为我们节省了几个月的实验时间,并指导我们下一步的工作。我们目前正在将单个细胞的详细模型整合到整个系统模型中。这些模型将使我们能够根据我们正在分类的细胞类型在空间分辨率和相位分辨率之间做出更好的权衡。
我们开发的系统不仅限于对癌细胞进行分类。我们也用它来分类藻类细胞基于其脂质含量和适合作为生物燃料。我们所做的唯一重大改变是细胞流经通道内的表面涂层。我们没有改变支撑分析的机器学习管道(图4);它自己了解到,在藻类细胞的分类中,光学损失和相位特征比形态特征更重要,而癌细胞则相反。
光子时间拉伸是如何工作的
TS-QPI系统产生一系列激光脉冲,其宽度以飞秒为单位。透镜、衍射光栅、镜子和分束器将激光脉冲分散成一连串彩虹闪光,照亮通过细胞仪的细胞。每个单元的空间信息都编码在脉冲的频谱中。光色散对不同波长的分量施加不同的延迟。以这种方式对信号进行光学处理,使其足够慢,从而使用电子模数转换器(ADC)实现实时数字化。
在短脉冲宽度期间收集到的光子数量相对较低,以及时间拉伸引起的光功率下降,使得很难检测到产生的信号。我们用拉曼放大器来补偿这种灵敏度上的损失。通过减缓信号并同时放大信号,该系统可以同时捕获样品中每个细胞的定量光学相移和强度损失图像。