主要内容

BioIndexedFile类

超类:

允许快速和高效的访问与nonuniform-size大型文本文件条目

描述

BioIndexedFile类允许访问与nonuniform-size条目文本文件,如序列、注释和交叉引用数据集。它可以让你快速高效地访问这个数据没有源文件加载到内存中。

这个类允许您访问单个条目或条目的一个子集时,源文件太大了,适合到内存中。您可以访问使用索引或键的条目。你可以读取和解析一个或多个条目使用提供口译员或自定义翻译功能。

建设

BioIFobj= BioIndexedFile (格式,源文件)返回一个BioIndexedFile对象BioIFobj索引的内容源文件以下定义的解析规则格式,在那里源文件格式指定一个文本文件的名称和文件格式,分别。它还构造一个辅助索引文件存储信息,允许有效,直接访问源文件。在默认情况下,索引文件存储在相同的位置作为源文件和源文件名称相同,但一个IDX扩展。的BioIndexedFile构造函数使用构造后续对象的索引文件源文件,节省时间。

BioIFobj= BioIndexedFile (格式,源文件,IndexDir)返回一个BioIndexedFile对象BioIFobj通过指定一个文件夹的相对或绝对路径搜索时使用或保存索引文件。

BioIFobj= BioIndexedFile (格式,源文件,IndexFile)返回一个BioIndexedFile对象BioIFobj通过指定一个文件名,可选地包括一个相对或绝对路径,搜索时使用或保存索引文件。

BioIFobj= BioIndexedFile (___,名称,值)返回一个BioIndexedFile对象BioIFobj由前面的语法使用任何输入参数和额外的选项,指定为一个或多个名称,值对参数。

输入参数

格式

特征向量或字符串指定文件格式。的选择是:

  • “山姆”- SAM-formatted文件

  • “FASTQ”- FASTQ-formatted文件

  • “FASTA”- FASTA-formatted文件

  • “表”——与多个列的表一样。键可以在任何列。行相同的关键是单独的条目。

  • “MRTAB”——与多个列的表一样。键可以在任何列。连续的行具有相同关键被认为是一个条目。非连续的行具有相同键被认为是单独的条目。

  • “平”——平面文件连接条目由特征向量,通常' / / '。在一个条目,关键是分开的其余部分条目的空白。

请注意

所有文件格式,文件内容必须只使用ASCII文本字符。非ascii字符可能不是正确的索引。

源文件

特征向量或字符串指定的文本文件的名称。它可以包括一个相对或绝对路径。

IndexDir

特征向量或字符串指定一个文件夹的相对或绝对路径搜索时使用或保存索引文件。

IndexFile

特征向量或字符串指定一个文件名,可选地包括一个相对或绝对路径,搜索时使用或保存索引文件。

名称-值对的观点

指定可选的逗号分隔条名称,值参数。的名字参数名称和吗价值相应的价值。的名字必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家

“IndexedByKeys”

如果您可以访问对象指定BioIFobj使用钥匙。的选择是真正的

提示

将值设置为如果你不需要访问对象中的条目使用钥匙。这样做可以节省时间和空间在创建对象时。

默认值:真正的

“MemoryMappedIndex”

指定是否在辅助构造函数存储索引索引通过内存映射文件和访问他们(真正的)或在施工时将指数加载到内存()。

提示

如果内存不是一个问题,你想最大化性能对象访问条目时,将值设置为

默认值:真正的

“翻译”

处理的一个函数方法使用时从源文件解析条目。解释器函数必须接受一个特征向量的一个或多个连接条目并返回一个结构或一个结构数组,包含解释数据。

格式是一种通用的格式如“表”,“MRTAB”,或“平”,那么默认值是[],这意味着函数是一个匿名函数的输出等于输入。

格式是一种特定于应用程序的格式如“山姆”,“FASTQ”,或“FASTA”,那么默认值是一个函数处理适当的文件类型,通常不需要你去改变它。

“详细”

控制对象的状态显示的建设。的选择是真正的

默认值:真正的

请注意

以下名称-值对参数仅适用于当下面是正确的:

  • 没有预先存在的索引文件与源文件。

  • 你的源文件的通用格式等“表”,“MRTAB”,或“平”

对特定于应用程序的源文件格式,下面的名称-值对是预定义的,你不能改变他们。

“KeyColumn”

正整数指定的列“表”“MRTAB”文件,其中包含的键。

默认值:1

“KeyToken”

特征向量或字符串之前发生在每个条目的关键,“平”文件包含键。如果该值为' ',它表明关键是第一个字符向量(或字符串)在每个条目和由空格分隔。

默认值:' '

“HeaderPrefix”

特征向量或字符串指定前缀,表示源文件中的标题行所以构造函数忽略了他们在创建对象时。如果该值为[],这意味着构造器不检查源文件中的页眉线。

默认值:[]

“CommentPrefix”

特征向量或字符串指定前缀,表示源文件中的注释行所以构造函数忽略了他们在创建对象时。如果该值为[],这意味着构造器不检查源文件中的注释行。

默认值:[]

“ContiguousEntries”

指定是否在相邻行条目,这意味着他们不是用空行隔开或注释行,在源文件中。的选择是真正的

提示

将值设置为真正的当条目不空行隔开或注释行。这样做可以节省时间和空间在创建对象时。

默认值:

“TableDelimiter”

特征向量或字符串指定分隔符符号使用作为列分隔符源文件格式“表”“MRTAB”。的选择是' \ t '(水平选项卡),' '(空格),或”、“,(逗号)。

默认值:' \ t '

“EntryDelimiter”

特征向量或字符串指定分隔符符号作为入口分离器使用源文件格式“平”

默认值:' / / '

属性

FileFormat

文件格式的源文件

这个信息是只读的。可能的值是:

  • “山姆”- SAM-formatted文件

  • “FASTQ”- FASTQ-formatted文件

  • “FASTA”- FASTA-formatted文件

  • “表”——与多个列的表一样。键可以在任何列。行相同的关键是单独的条目。

  • “MRTAB”——与多个列的表一样。键可以在任何列。连续的行具有相同关键被认为是一个条目。非连续的行具有相同键被认为是单独的条目。

  • “平”——平面文件连接条目由特征向量,通常' / / '。在一个条目,关键是分开的其余部分条目的空白。

IndexedByKeys

源文件中的条目是否可以由字母数字键索引。

这个信息是只读的。

IndexFile

辅助索引文件的路径和文件名。

这个信息是只读的。使用这个属性来确认索引文件的名称和位置相关的对象。

InputFile

源文件的路径和文件名。

这个信息是只读的。使用这个属性来确认源文件的名称和位置的对象了。

翻译

处理所使用的函数方法来解析源文件中的条目。

这个翻译功能必须接受一个特征向量的一个或多个连接条目并返回一个结构或一个结构数组,包含解释数据。当你的源文件设置该属性“表”,“MRTAB”,或“平”格式。当你的源文件是一个特定于应用程序的格式等“山姆”,“FASTQ”,或“FASTA”,那么默认值是一个函数处理适当的文件类型,通常不需要你去改变它。

MemoryMappedIndex

源文件的索引是否存储在内存映射文件或在内存中。

NumEntries

数量的条目索引的对象。

这个信息是只读的。

方法

getDictionary 从SAM-formatted源文件检索参考序列的名称与BioIndexedFile对象相关联
getEntryByIndex 从源文件检索条目与使用数字索引BioIndexedFile对象相关联
getEntryByKey 从源文件检索条目与BioIndexedFile对象使用字母数字键
getIndexByKey 从源文件检索指标与BioIndexedFile对象使用字母数字键
getkey 从源文件检索字母数字键与BioIndexedFile对象相关联
getSubset 从BioIndexedFile对象创建对象包含元素的子集
从源文件读取一个或多个条目与BioIndexedFile对象相关联

复制语义

价值。学习如何价值类影响复制操作,明白了复制对象在MATLAB®编程基础知识文档。

例子

全部折叠

这个例子展示了如何构建一个BioIndexedFile对象和访问它的基因本体论(去)。

创建一个变量包含完整的源文件的绝对路径。

源文件= (“yeastgenes.sgd”);

将文件复制到当前工作目录。

拷贝文件(源文件,“yeastgenes_copy.sgd”);

构造一个BioIndexedFile对象的源文件是一个文件一样,考虑相邻行具有相同键作为一个单独的条目。表明,键是位于第三列,标题都有“!”前缀。

gene2goObj = BioIndexedFile (“mrtab”,“yeastgenes_copy.sgd”,“KeyColumn”3,“HeaderPrefix”,“!”);
源文件:yeastgenes_copy。sgd路径:/ tmp / Bdoc21a_1606923_74943 / tpa02f5ab5 bioinfo-ex58973989大小:21455392字节日期:15 - 3月- 2018年17:45:16创建新的索引文件…索引器解析111912年文本行后发现36266条目。索引文件:yeastgenes_copy.sgd。idx路径:/ tmp / Bdoc21a_1606923_74943 / tpa02f5ab5 bioinfo-ex58973989大小:494723字节日期:2021年- 2月23日14:56:24 yeastgenes_copy.sgd映射对象。idx……完成了。

返回去的任期从所有条目相关联的基因YAT2。访问条目YAT2的关键。

YAT2_entries = getEntryByKey (gene2goObj,“YAT2”);

调整对象的翻译只返回的列包含术语。

gene2goObj。翻译= @(x) regexp(x,“去:\ d +”,“匹配”);

解析条目的关键YAT2和返回所有条款从这些条目。

GO_YAT2_entries =阅读(gene2goObj,“YAT2”)
GO_YAT2_entries =1 x14细胞列1到4{'去:0004092}{:0006066的}{'去:0006066}{:0009437的}列5到8{'去:0005829}{:0005737的}{'去:0004092}{:0016740的}列9到12{'去:0016746}{:0006629的}{'去:0016746}{:0005737的}列13到14{'去:0006631}{:0005737的}