网络遗传学真等位基因技术能够客观分析以前不可用的DNA证据

由Mark W. Perlin博士,Cyber​​ Genetics


在2006年,在他的宾夕法尼亚州的贝尔斯瓦尼亚家中发现了John Yelenic博士。他的指甲在很大程度上含有他自己的DNA,而且当他在自卫中划伤他的攻击者时,他可能沉积了少量的DNA。实际上,这种DNA混合物的次要组成部分将嫌疑人与犯罪联系在一起,与犯罪犯罪,一场比赛统计专家表示为13,000。

DNA混合数据对于人类专家来说很难解释。他们的实验室协议简化了这类数据,通常低估了匹配号码。福利的辩护律师说,指甲证据并不能排除其他嫌疑人,因为有1万3千分之一的可能性,DNA来自于他的客户以外的人。

人类专家对DNA证据的评估是具有挑战性的,即使是对更简单的样本。执行检查的分析师需要大量的培训,并且审查过程缓慢而乏味。人为的解释方法可能无法消除自然的检查偏倚。截断数据的启发式方法可以剥夺具有很多证明价值的证据。

今天,大多数DNA样本并不简单。它们可以包含很少的DNA,显示退化,或混合几个人的DNA。这些因素加剧了数据分析的困难。有时,尽管花费了相当大的努力,专家分析师还是无法得出结论。因此,有价值的证明有罪或无罪的证据在法庭上变得无用。

Cybergenetics TrueAllele®技术,用MATLAB开发®,利用信号处理和先进的统计方法从DNA数据中提取识别信息。TrueAllele的概率方法比人类分析更彻底、更客观、更快。这些优势使犯罪实验室可以从以前不确定的样本中提取信息,并减少等待审查的证据积压。在Foley案中,TrueAllele使人类专家估计的13000个DNA匹配数据提高了100万倍,客观计算了有说服力的1890亿个DNA匹配数据,帮助定罪。

DNA鉴定术语表

背景:编码Life的操作系统和程序的线性信息分子。DNA用四个化学字母(A,C,G和T)的字母表。
染色体:细胞核内的一大包DNA分子。人类DNA由23对染色体组成,每对染色体都有一个副本遗传自父母。
轨迹:染色体上的位置,用于基因或其他DNA序列的代码。
等位基因:基因位点上的DNA句子。除了X和Y性染色体外,每个个体的每个位点上都有两个等位基因(一个来自母亲,一个来自父亲)。
基因型:基因细胞或个体的遗传组成在一个特定的位点上,个体的基因型是一个等位基因对。
标识:通过使用天然存在的基因型变异来区分一个个体。

处理简单和混合DNA样本

当绘制来自DNA测序器的数据时,等位基因对作为一个或两个主要峰(图1)是明显的。沿X轴的峰值位置识别等位基因,而沿Y轴的高度反映了DNA量。当DNA数据来自单个个体时,分析人员可以容易地从峰值中推断个体的基因型。

图1所示。DNA数据显示了两个峰,从中可以推断出一个人的(13,15)基因型。

当一个样本包含来自多个人的DNA时,数据和基因型之间的关系可能不那么明显。实验室数据包含多个峰,表明提供等位基因及其相对数量(图2)。峰高表示扩增DNA分子的数量。这种计数数据根据概率和化学的规律,在不同的重复实验中是不同的。

图2。来自混合样本的DNA数据,显示了多个峰。

为了解决这种数据变化,人工检查DNA证据适用“阈值”。每个实验室都根据内部校准设置其自身的阈值水平。高于该阈值的高度的峰值相等重量,而较少使用的使用率低于阈值。这些阈值不适用于计数数据及其变化。信息性DNA样本通常最终将错误分类为不确定,并未报告。一种更准确的方法是将计算机和概率与数学上的峰值高度方差用作证据数据的参数。

利用MATLAB分析复杂DNA样本

TrueAllele技术使用MATLAB,信号处理工具箱™和统计和机器学习工具箱™来数学分离混合DNA数据到个体贡献者和他们各自的基因型。由于解可能是不确定的,推断的基因型值是分配的概率。

DNA测序器产生激光检测的荧光数据,作为一维信号,是许多基因座的多色多重复用。使用信号处理工具箱开发的Trueallele分析模块处理信号数据以删除伪像,分类峰值,确定峰尺寸和高度,并执行其他质量检查。

在初始分析之后,Trueallele使用概率模型来解释数据。该模型包含几百个变量,包括有助于样品,DNA数量,扭曲信号的扩增伪像的个体的未知基因型,以及这些变量的不确定性。许多变量是分层的,这意味着它们包括子模型,每个子模型都具有自己的参数和不确定性。从DNA数据开始,Trueallele通过Markov Chain Monte Carlo(MCMC)统计抽样来解决模型,使用与统计和机器学习工具箱开发的Metropolis-Hastings算法。

为了解释DNA证据,TrueAllele为解空间变量提出了10万个可能值的不同组合,并评估每个提出的解解释DNA数据的程度。基于MATLAB的软件,然后计算概率密度,产生一个概率分布的可行解。金宝搏官方网站金宝搏官方网站更准确地描述观测数据的解决方案有更高的概率,而较差的解释有更低的概率。

对于一些样本,计算机可以用数学方法将混合物分离成几乎单一来源的组分,每个基因型都有很高的概率。对于其他样本,结果是不确定的,产量基因型与更扩散的概率。无论如何,基因型答案是一个概率分布,客观上仅从证据推断。

当数据支持证据和嫌疑人的基因金宝app型之间的匹配时,TrueAllele模型使分析人员能够计算出DNA匹配统计数据。为了形成这样的匹配统计数据,或“似能比”,MATLAB程序将从证据推断出的基因型与来自嫌疑人的参考基因型进行比较。为了消除检查偏倚的可能性,本比较仅在计算机基因型推断完成后进行。

匹配计算包括代表随机总体的第三个基因型,它提供了比较匹配与巧合的概率所需的分母。举例来说,法医科学家可以用通俗的语言陈述数学结果,即“证据与嫌疑人匹配的可能性是巧合的一千万亿倍。”

开发用户界面并添加数据库支持金宝app

为了在图片中呈现对科学家、律师或陪审员直观的TrueAllele结果,Cybergenetics使用MATLAB开发了一个可视化用户界面(VUIer™)工具。VUIer显示了关键变量的可视化表示,如数据、混合权重、基因型贡献概率和匹配强度(图3)。VUIer允许对在教学中有用的替代基因型和混合可能性进行“假设”分析。用户界面计算似然比和置信区间,并可以生成DNA匹配报告。

图3. Vuier用户界面。左上:数据视图显示在轨迹处的混合峰。右上方:混合视图,显示计算机分离成两个组件。左下角:基因型视图显示与其他人的基因型(浅绿色)不匹配的匹配证据(蓝色)和可疑(深绿色)基因型。右下方:匹配视图显示,对数刻度,对嫌疑人(蓝色)和别人的负面不匹配(红色)的正面匹配。

Cybergenetics使用MATLAB Compiler™将VUIer客户端打包成一个独立的可执行程序。这个用户界面客户端是跨平台的,可以在Mac OS X和Microsoft上运行®窗户®操作系统。TrueAllele服务器在运行Linux的多台计算机上并行执行MCMC基因分型计算®操作系统。MATLAB可以在可以部署到三个不同平台的单个环境中开发。

VUIer客户端软件通过数据库工具箱™访问TrueAllele数据库服务器。这个PostgreSQL数据库用作DNA数据、解释请求和结果的存储库。通过一个用MATLAB编写的自定义监控专家系统,中央服务器数据库自动协调系统的运行。

Trueallele系统提供DNA数据库匹配能力,可以帮助解决犯罪,发现失踪人员或识别人类遗体。为了解决一个冷箱,数据库系统将从成千上万潜在嫌疑人的参考基因型进行了与案例证据的基因型进行比较。Trueallele Intelligence数据库是高度敏感和特定的(与政府提供的软件不同),因为它使用数学来表示基因型并计算匹配强度。

使世界成为更安全的地方

TrueAllele的可靠性得到了广泛的验证,并经受住了法庭受理的挑战。该系统已在美国和国际上一百多起案件中使用,包括强奸、谋杀、绑架和恐怖活动。TrueAllele在世贸中心灾难中被用来帮助辨认遇难者遗体。凯文·福利(Kevin Foley)因谋杀耶伦尼克博士而被判终身监禁,但他的上诉未果,导致宾夕法尼亚高等法院(Pennsylvania Superior)和最高法院(Supreme Court)的裁决确立了全州范围内的真等位基因(TrueAllele)判例。

无论是在Cyber​​ Gegetics还是在犯罪实验室中,Trueallele的Matlab对以前无法使用的生物证据的解释现在可以计算准确的DNA识别信息。

发布2013年 - 92093V00

查看相关行业的文章