癌症患者接受化疗或免疫治疗的治疗必须经常常规CT和PET扫描 - 在某些情况下,新的活检 - 评估治疗的功效。流式细胞术,通过简单的血液测试鉴定循环肿瘤细胞(CTC)的方法,比扫描和扫描更少侵入性
在流式细胞术中,将细胞通过流式细胞仪中的小开口进行一次通过一逐一通过。在传统流式细胞术中,细胞需要荧光标记,这会影响细胞行为和损害活力。成像流动细胞计仪不需要标签,但在相机速度比2000秒的每秒速度快,它们产生模糊的图像,使筛选足够大的细胞群来寻找罕见的异常细胞来不切实际。
我们在加州大学洛杉矶分校光子学实验室的团队开发了一种时间拉伸定量相位成像(TS-QPI)系统,可以在没有生物标记的情况下对大样本进行准确分类(图1)。该系统结合了流式细胞术成像、光子时间拉伸技术(见边条)和机器学习算法
选择特征
我们的TS-QPI系统每秒产生100千兆字节的数据 - 每秒相当于20个高清电影的数据的Firehose。对于单一的实验,其中10毫升血液样品中的每个细胞在每秒几乎100,000个细胞上成像,系统产生10至50吨数据。
使用图像处理工具箱™的MATLAB工作,我们开发了一种用于从细胞图像中提取生物物理特征的机器视觉管道。管道还包括CellProfiler,在Python中编写的开源单元图像分析包®.我们从每个细胞中提取了200多个特征,分为三类:表征细胞大小和形状的形态学特征,与细胞密度相关的光学相位特征,以及与细胞内细胞器大小相关的光学损耗特征。线性回归表明,其中16个特征包含了分类所需的大部分信息。
评估机器学习算法
MATLAB的主要好处是能够在短时间内测试各种机器学习模型。我们将四种分类算法与统计和机器学习工具箱™:Naive Bayes,支持向量机(SVM),Logistic回归(LR)以及由交叉熵和BackPropagation培训的深神经网络(DNN)进行了探讨。金宝app
在使用已知CTCs浓度的样本进行的测试中,所有四种算法(Bayes、SVM、LR和DNN)的准确率都达到了85%以上(图2)。我们进一步提高了准确性、一致性、以及通过结合深度学习和接收者操作特征(ROC)的全局优化来平衡我们的机器学习分类的敏感性和特异性。该方法在MATLAB中实现,将分类准确率提高到95.5%。
加速并行计算实验
因为我们正在使用大数据,所以它通常需要一周多的时间来完成我们的图像处理和机器学习过程。要缩短此周转时间,我们将通过16核处理器和并行计算工具箱™并行化分析。使用简单的并行循环(parfor
),我们在16个处理器上同时运行我们的进程,将完成分析所需的时间从8天减少到大约半天。
建模和优化实验设置
在UCLA的Photonics Lab中,Matlab是模型开发和数据分析的主力。我们使用MATLAB开发了完整的实验设置的模型,从光学和激光脉冲一直到各个细胞的分类(图3)。
我们使用此模型来指导我们设置的增强功能。例如,为了提高我们使用模型来模拟特定增益系数的信噪比。仿真结果显示了对设置的更改以及何处可以提高整体性能。
建模和模拟MATLAB中的系统已保存了美国的实验时间,并指导了我们的下一步。我们目前将各个单元格的详细型号纳入整个系统模型。这些模型将使我们能够在基于我们分类的单元格的类型的空间分辨率和相位分辨率之间进行更好的知识权衡。
我们开发的系统并不局限于对癌细胞进行分类。我们也用它来分类藻类细胞的基础上,他们的脂肪含量和作为生物燃料的适用性。我们所做的唯一重大改变是细胞流经的通道内的表面涂层。我们没有对支撑分析的机器学习管道进行任何更改(图4);它自己了解到,在藻类细胞的分类中,光损耗和相位特征比形态特征更重要,而对于癌细胞则相反。
光子时间拉伸是如何工作的
TS-QPI系统产生一列激光脉冲,其宽度以飞秒为单位。透镜、衍射光栅、镜子和分光器将激光脉冲分散成彩虹般的闪光,照亮通过细胞仪的细胞。每个单元的空间信息被编码在脉冲的频谱中。色散对不同的波长分量施加不同的延迟。以这种光学方式处理信号足以使它们减慢,从而能够使用电子模数转换器(ADC)实现实时数字化。
在短脉冲宽度期间收集的相对较少的光子数量和由时间拉伸引起的光功率的下降使得难以检测所得信号。我们通过使用拉曼放大器来补偿灵敏度的这种损失。通过减慢信号并同时放大它,系统可以同时为样本中的每个单元捕获定量光学相移和强度损耗图像。