主要内容

原始质谱数据预处理

这个例子展示了如何提高原始质谱数据的质量。特别是,这个例子说明了典型步骤预处理蛋白质表面增强激光解吸/电离时间飞行质谱(SELDI-TOF)。

加载数据

质谱数据可以存储在不同的格式。如果两列的数据存储在文本文件(质量/电荷(M / Z)比率和相应的强度值),您可以使用下列MATLAB®之一的I / O功能:importdata,dlmread,或textscan。另外,如果数据存储在JCAMP-DX格式化的文件,您可以使用函数jcampread。如果数据包含在一个Excel®工作簿的电子表格,您可以使用函数xlsread如果数据存储在mzXML格式化的文件,您可以使用函数mzxmlread,最后,如果数据存储在程控格式化的文件,您可以使用tgspcread

这个示例使用声音来自一个低分辨率的卵巢癌NCI / FDA的数据集FDA-NCI临床蛋白质组学数据库程序。这些光谱生成使用WCX2此种芯片,两个手工样品处理和两个机器人示例分发器/处理器。

示例= importdata (“mspec01.csv”)
示例=字段结构:数据:[15154 x2双]textdata: {“M / Z”“强度”}colheaders: {“M / Z”“强度”}

M / Z比率的第一列数据第二个字段和离子强度。

MZ = sample.data (: 1);Y = sample.data (:, 2);

对于更好地操纵数据,您可以加载多个谱图,连接成一个矩阵。使用dlmread函数来读取逗号分隔值文件。注意:这个例子假设M / Z比率四个文件都是一样的。对不同的数据集M / Z比率,使用msresample创建一个统一的M / Z向量。

文件= {“mspec01.csv”,“mspec02.csv”,“mspec03.csv”,“mspec04.csv”};我= 1:4 Y (:, i) = dlmread(文件{我},”、“,1,1);%跳过第一行(标题)结束

使用情节命令来检查加载谱图。

情节(MZ, Y)轴([0 20000 -20 105])包含(“质量/电荷(M / Z)”)ylabel (的相对强度)标题(“四个低分辨率的质谱分析例子”)

重采样的光谱

重采样质谱数据有几个优点。同质化质量/电荷(M / Z)向量,允许您在相同参考和比较不同的光谱分辨率相同。在高分辨率数据集,大尺寸的文件会导致计算量的算法。然而,高分辨率光谱可以是多余的。通过重新采样,可以毁掉信号到一个更易于管理的M / Z向量,保留光谱的信息内容。的msresample函数允许您选择一个新的M / Z向量,也适用于一个平滑滤波器,阻止高频噪声折叠成较低的频率。

加载一个高分辨率光谱从高分辨率卵巢癌NCI / FDA数据集。为方便起见,光谱中包含一个MAT-formatted文件。

负载sample_hi_res元素个数(MZ_hi_res)
ans = 355760

Down-sample光谱10000 M / Z点在2000和11000之间。使用SHOWPLOT属性来创建一个定制的情节,让你跟踪和评估质量的预处理操作。

(MZH, YH) = msresample (MZ_hi_res Y_hi_res, 10000年,“范围”(2000 11000),“SHOWPLOT”,真正的);

缩放到一个减少区域显示采样下来的详细过程。

轴((3875 3895 0 90))

基线校正

质谱数据通常显示的不同基线噪音引起的化学矩阵或离子超载。的msbackadj函数估计一个低频基线,隐藏在高频噪声和信号的峰值。然后减去基线的谱图。

调整组谱图的基线和只显示第二个估计及其背景。

YB = msbackadj (MZ, Y,“WINDOWSIZE”,500,分位数的,0.20,“SHOWPLOT”2);

光谱的简介

质谱计的刻度错误导致的变化观察M / Z向量之间的关系和离子的飞行时间。因此,系统的变化可以出现在重复实验。当一个已知的山峰预计在光谱图,您可以使用函数msalign标准化M / Z值。

使谱图,提供一套参考峰的M / Z值预计将出现。您还可以定义一个向量的相对权重调整算法使用强调小山峰。

P = [3991.4 4598 7964 9160];% M / Z参考峰的位置W = (60 60 100 100);%重量山峰供参考

显示一个热图观察光谱应用前后的校准对齐算法。

msheatmap (MZ, YB,“标记”、磷、“范围”10000年[3000])标题(“之前对齐”)

对齐的声音(参考峰。

丫= msalign (MZ, YB, P,“重量”,W);msheatmap (MZ,是的,“标记”、磷、“范围”10000年[3000])标题(调整后的)

归一化

在重复实验中,通常发现系统眠的总量和电离的差异蛋白质。的msnorm函数实现了几种典型正常化的变化(或标准化)的方法。

例如,许多标准化方法之一的色值是重新调节的最大强度每一个信号到一个特定的值,例如100。也可以忽略问题的地区;例如,在血清样本你可能想忽略低质量区域(M / Z < 1000 Da)。

YN1 = msnorm (MZ,是的,分位数的,1“限制”,1000年正无穷,“马克斯”,100);YN1图绘制(MZ)轴([0 10000 -20 150])包含(“质量/电荷(M / Z)”)ylabel (的相对强度)标题(“最大峰值归一化”)

msnorm函数也可以通过使用标准化曲线下的面积(AUC)然后重新调节声音的相对强度低于100。

YN2 = msnorm (MZ,是的,“限制”,1000年正无穷,“马克斯”,100);YN2图绘制(MZ)轴([0 10000 -20 150])包含(“质量/电荷(M / Z)”)ylabel (的相对强度)标题(的规范化使用曲线下的面积(AUC) ')

峰值保持降噪

标准光谱通常包含噪声和信号的混合物。某些应用程序需要去噪的声音(改进的有效性和精度的观测质量/电荷值谱峰。出于同样的原因,进一步去噪也提高了峰值检测算法。然而,重要的是要保持清晰度(或高频组件)的峰值尽可能多。为此,您可以使用洛斯平滑(mslowess)和多项式过滤器(mssgolay)。

平滑的谱图的二阶多项式滤波器。

y = mssgolay (MZ YN2,“跨越”,35岁,“SHOWPLOT”3);

缩放到一个减少区域显示平滑算法的细节。

轴([8000 9000 1 8])

峰发现与小波去噪

一个简单的方法来找到公认的山峰是看平滑信号的一阶导数,然后编档人员这些位置,避免小ion-intensity峰值。

P1 = mspeaks (MZ, y,“去噪”假的,“HEIGHTFILTER”2,“SHOWPLOT”,1)
P1 = 4 x1单元阵列{164 x2双}{171 x2双}{169 x2双}{147 x2双}

mspeaks还可以使用小波去噪估计噪声函数。这种方法通常是更加健壮,因为峰值检测可以实现直接在嘈杂的光谱。算法可以适应不同噪声信号的条件,和山峰可以解决即使低分辨率或oversegmentation存在。

P2 = mspeaks (MZ YN2,“基地”12“乘数”10“HEIGHTFILTER”,1“SHOWPLOT”,1)
P2 = 4 x1单元阵列{322 x2双}{370 x2双}{324 x2双}{295 x2双}

消除低质量地区额外的山峰

P3 = cellfun (@ (x) x (x(: 1) > 1500年:),P2,“统一”假)
P3 = 4 x1单元阵列{81 x2双}{93 x2双}{57 x2双}{53 x2双}

装箱:峰值凝聚层次聚类

峰值对应于类似的化合物可能仍然报道轻微质量/电荷差异或漂移。假设四色对应类似生物/化学样品,这可能是有用的比较从不同的光谱峰值,这需要装箱峰值(又名峰合并)。关键任务数据装箱是创建一个共同的质量/电荷参考向量(或箱)。理想情况下,箱子应该从每个收集一个峰值信号,应避免收集多个相关峰值相同的信号到相同的垃圾箱。

这个示例使用层次聚类计算常见质量/电荷参考向量。的方法是充分使用低分辨率光谱时;然而,对于高分辨率光谱与许多声音或数据集,函数mspalign提供其他可伸缩的方法来估计一个共同的质量/电荷引用和执行数据装箱。

把所有的山峰到一个数组,并构造一个向量为每个峰谱图指数。

allPeaks = cell2mat (P3);numPeaks = cellfun (@ (x)长度(x), P3);Sidx = accumarray (cumsum (numPeaks), 1);Sidx = cumsum (Sidx) -Sidx;

创建一个自定义距离函数惩罚集群包含峰值相同的光谱图,然后进行层次聚类。

distfun = @ (x, y) (x (: 1) - y (: 1))。^ 2 + (x (:, 2) = = y(:, 2)) * 10 ^ 6树=连杆(pdist ([allPeaks (: 1), Sidx], distfun));集群=集群(树,“截止”,75,“标准”,“距离”);
distfun = function_handle价值:@ (x, y) (x (: 1) - y (: 1))。^ 2 + (x (:, 2) = = y (:, 2)) * 10 ^ 6

常见的质量/电荷参考向量(CMZ)发现通过计算每个集群的重心。

CMZ = accumarray(集群,刺激(allPeaks 2)。/ accumarray(集群,allPeaks (:, 2));

类似地,每个集群的最大峰值强度计算。

公关= accumarray(集群,allPeaks (:, 2), [], @max);(CMZ h) = (CMZ)进行排序;公关=公关(h);图保存盒子情节([CMZ CMZ) (-10 100),“- k”)情节(MZ YN2)轴([7200 8500 -10 100])包含(“质量/电荷(M / Z)”)ylabel (的相对强度)标题(常见的质量/电荷(M / Z)聚类发现的位置)

动态编程装箱

samplealign函数允许您使用一个动态规划算法来分配每个光谱图观察到山峰的常见质量/电荷参考向量(CMZ)。

当使用更简单的装箱方法,如舍入的质量/电荷值或使用最近邻量化CMZ向量,同样从不同的光谱峰值我被分配到不同的箱子由于小飘,仍然存在。为了规避这个问题,箱子尺寸可以增加与质谱峰的牺牲分辨率。通过使用动态编程装箱,您保存该决议同时最小化分配的问题从不同的声音不同的峰值位置相似的化合物。

PA =南(元素个数(CMZ), 4);我= 1:4 (j, k) = samplealign (CMZ公关,P3 {},“乐队”15岁的“重量”[1。1]);PA (j,我)= P3{我}(k, 2);结束图保存盒子情节([CMZ CMZ) (-10 100),”:k”)情节(MZ YN2)情节(CMZ,爸爸,“o”轴([7200 8500 -10 100])包含(“质量/电荷(M / Z)”)ylabel (的相对强度)标题(的山峰对齐常见质量/电荷(M / Z)引用的)

使用msviewer检查预处理谱图在给定的范围(例如,值之间的7600年和8200年)。

r1 = 7600;r2 = 8200;范围= MZ > r1 & MZ < r2;rangeMarkers = CMZ (CMZ > r1 & CMZ < r2);msviewer (MZ(范围),YN2(范围:)“标记”rangeMarkers,“集团”1:4)

另请参阅

|||||||

相关的话题