麻省理工学院的研究人员正在使用MathWorks工具来推进生物信息学和蛋白质组学。麻省理工学院的学生也在使用同样的工具来获得这些领域的实践经验。
在实验室里
Alterovitz和他的研究小组使用了MATLAB®开发分析MS数据的算法,并对由20,000多个节点和100,000条边组成的蛋白质相互作用网络进行建模。每个网络节点代表一个与蛋白质相关的质量,每条边代表节点之间的相互作用。
研究人员还使用MATLAB可视化数据,绘制结果,并访问与其他生物医学研究人员共享的数据库。
由于MS数据类似于声音或语音数据的波峰和波谷序列,因此研究人员可以利用信号处理技术来处理数据。麻省理工学院的研究人员使用信号处理工具箱™来处理这些MS数据,并应用滤波器来消除噪声和无关数据,使他们能够专注于更易于管理的数据集。
Bioinformatics Toolbox™使团队能够从各种互联网资源中快速获取有关蛋白质的信息。该团队使用生物信息学工具箱计算分子量,获得氨基酸序列以及特定蛋白质的其他属性,并将信息下载并解析成MATLAB可访问的数据结构。
麻省理工学院的研究人员使用统计学和机器学习工具箱™来计算网络属性,包括连通性和幂律分布。他们使用统计学和机器工具箱的模型来计算样本中蛋白质的数量,以简化曲线拟合并生成负二项分布、γ分布和指数分布。
该小组的研究涉及数百名患者的数百万MS数据点。然而,由于每个患者的数据是独立的,处理信息的任务是理想的并行化。使用并行计算工具箱™和MATLAB并行服务器™,该小组在一个大型计算机集群上并发地执行他们的MATLAB算法。
该小组在不同的处理器上独立分析每个病人的MS数据。Alterovitz解释说:“并行计算工具箱不仅大大减少了计算时间,还使我们能够快速地对这种方法进行编程。我们没有学习分布式编程,而是使用我们现有的MATLAB代码,并使用并行计算工具箱使其并行。”
该团队还使用了一种分布式方法,通过将网络划分成块并并行运行任务,来加快网络属性和统计数据的计算。
在教室里
在生物信息学和蛋白质组学课程中,Alterovitz和他的课程指导伙伴选择了MATLAB,因为它易于使用,与其他工具的互操作性,以及在不断提高的抽象水平上呈现概念的能力。
“大约90%的学生已经使用过MATLAB,”Alterovitz说。“每个人都立即开始使用MATLAB——即使是没有经验的人——因为你不需要知道如何编程就能使用它。”
此外,MATLAB还为学生提供了一种简单的方法来访问和学习在麻省理工学院和哈佛大学进行的领先研究。
该课程的教学方法以阐述理论为基础。它涉及使用一组有限的概念和例子,并逐渐增加复杂性。Alterovitz解释说:“MATLAB本质上支持不同层次的复杂性,通过不同层次的抽金宝app象。在开始阶段,学生运行代码并可视化结果。之后,他们可以探索、更新,甚至将代码与其他编程语言整合,以添加更多细节。”
课程作业也反映了这种方法在生物水平上的应用。学生们首先使用MathWorks工具分析基本的DNA序列信息。然后他们发展到更复杂的表达数据、蛋白质,最终使用网络模型研究蛋白质和其他分子之间的相互作用。