接受化疗或免疫治疗的癌症患者必须定期进行CT和PET扫描,在某些情况下,还必须进行新的活检以评估治疗效果。流式细胞术是一种通过简单的血液检测来识别循环肿瘤细胞(CTC)的方法,其侵入性远低于扫描和扫描
在流式细胞术中,当细胞一个接一个地通过流式细胞仪上的一个小开口时,细胞会被检查。在传统的流式细胞术中,细胞需要荧光标记,这会影响细胞的行为,影响细胞的生存能力。流式细胞仪成像不需要标记,但在每秒超过2000个细胞的相机速度下,它们会产生模糊图像,这使得筛查足够大的细胞群以发现罕见的异常细胞变得不切实际。
我们在加州大学洛杉矶分校(UCLA)光子实验室的团队开发了一种时间延伸定量相位成像(TS-QPI)系统,可以在没有生物标记的情况下对大样本进行准确分类(图1)
选择功能
我们的TS-QPI系统每秒生成100gb的数据——相当于每秒20部高清电影。在一次实验中,10ml血液样本中的每个细胞都以每秒近100,000个细胞的速度成像,该系统生成10到50tb的数据。
在MATLAB中使用图像处理工具箱™,我们开发了一个机器视觉管道,用于从细胞图像中提取生物物理特征。该管道还包括CellProfiler,这是一个用Python编写的开源单元图像分析包®.我们从每个细胞中提取了超过200个特征,分为三类:表征细胞大小和形状的形态学特征,与细胞密度相关的光学相位特征,与细胞内细胞器大小相关的光学损失特征。线性回归表明,其中16个特征包含了分类所需的大部分信息。
评估机器学习算法
MATLAB的一个主要优点是能够在短时间内测试各种机器学习模型。我们比较了统计学和机器学习工具箱™中的四种分类算法:朴素贝叶斯、支持向量机(SVM)、逻辑回归(LR)和通过交叉熵和反向传播训练的深度神经网络(DNN)。金宝app
在使用已知ctc浓度的样本进行的测试中,所有四种算法(Bayes、SVM、LR和DNN)的准确率都超过85%(图2)。我们进一步提高了准确率、一致性,以及通过深度学习与接收者工作特征(ROC)的全局优化相结合,在机器学习分类的敏感性和特异性之间取得平衡。在MATLAB中实现,该方法将分类准确率提高到95.5%。
并行计算加速实验
因为我们使用的是大数据,所以完成图像处理和机器学习过程通常需要一周以上的时间。为了缩短周转时间,我们使用16核处理器和并行计算工具箱对分析进行了并行化™. 使用简单的并行for循环(parfor
),我们在16个处理器上并发运行我们的进程,将完成分析所需的时间从8天减少到大约半天。
建模和改进实验设置
在加州大学洛杉矶分校的光子学实验室,MATLAB是模型开发和数据分析的主力。我们使用MATLAB开发了一个完整的实验设置模型,从光学和激光脉冲一直到单个细胞的分类(图3)。
我们使用这个模型来指导对设置的增强。例如,为了提高信噪比,我们使用该模型来模拟特定增益系数。仿真结果向我们展示了如何以及在何处修改设置可以提高整体性能。
在MATLAB中对系统进行建模和仿真,节省了我们几个月的实验时间,并指导了我们的下一步工作。我们目前正在将单个细胞的详细模型合并到整个系统模型中。这些模型将使我们能够根据我们正在分类的细胞类型,在空间分辨率和相位分辨率之间做出更明智的权衡。
我们开发的系统不仅局限于癌细胞的分类。我们还用它来根据藻类细胞的脂质含量和生物燃料的适用性对其进行分类。我们所做的唯一重大改变是细胞流过的通道的表面涂层。我们没有改变支撑分析的机器学习管道(图4);它自己了解到,在藻类细胞的分类中,光学损耗和相位特征比形态特征更重要,而在癌症细胞中,则相反。
光子时间伸缩是如何工作的
TS-QPI系统可以产生一系列以飞秒为单位宽度的激光脉冲。透镜、衍射光栅、镜子和分束器将激光脉冲分散成一列彩虹闪光,照亮通过细胞仪的细胞。每个细胞上的空间信息被编码在脉冲的频谱中。光色散对不同的波长分量施加不同的延迟。以这种方式光处理信号足以减缓它们的速度,从而能够使用电子模数转换器(ADC)进行实时数字化。
在较短的脉冲宽度期间采集到的光子数量相对较低,而且时间延长导致的光功率下降,使检测产生的信号变得困难。我们用拉曼放大器来补偿这种灵敏度损失。通过减慢信号并同时放大信号,系统可以同时捕获样品中每个细胞的定量光学相移和强度损失图像。