主要内容

fastaread

Read data from FASTA file

Syntax

FASTAData= fastaread(文件)
[Header,序列] = fastaread(文件)
... = fastaread(文件,……”IgnoreGaps',忽略累索,……)
... = fastaread(文件,……”Blockread',BlockReadValue,……)
... = fastaread(文件,……”TrimHeaders',Trimheadersvalue,……)
... = fastaread(文件,……”TimeOut',TimeOutValue,……)

输入参数

文件

以下两项:

  • 字符向量或字符串指定文件名,路径和文件名或指向文件的URL。引用文件是一个快速形式的文件(ASCII文本文件)。如果仅指定文件名,则该文件必须在MATLAB上®search path or in the MATLAB Current Folder.

  • MATLABcharacter array that contains the text of a FASTA-formatted file.

忽略累索 Controls the removal of gap symbols. Choices are真的或者错误的(default).
BlockReadValue 标量或向量从包含多个序列的FastA形式的文件中控制单个序列输入或序列条目的块。输入标量N阅读N文件中的条目。输入1 x-2矢量[M1,M2]阅读block of entries starting at theM1entry and ending at theM2入口。要读取文件中文件中的所有剩余条目M1entry, enter a positive value forM1并输入inf为了M2.
Trimheadersvalue

指定是否在第一个白空间字符之后修剪标头。白空间字符包括一个空间(char(32))和一个标签(char(9))。选择是真的或者错误的(default).

TimeOutValue Connection timeout in seconds, specified as a positive scalar. The default value is 5. For details, see这里.

输出参数

FASTAData MATLAB结构与田地Header序列.

描述

fastaread将快速形式文件的数据读取到具有以下字段的MATLAB结构中。

场地 描述
Header 标题信息。
序列 Single letter-code representation of a nucleotide sequence.

快速形式的文件以直角括号开始(>)和单行描述。遵循此描述是一系列线的序列,少于80人物。序列必须使用标准的IUB/IUPAC氨基酸和核苷酸字母代码。

有关代码列表,请参见aminolookupbaselookup.

FASTAData= fastaread(文件)读取一个快速形式的文件,并在结构中返回数据。FASTAData.header是标题信息,而FASTAData.Sequence是存储为字符向量或字符串的序列。

[Header,序列] = fastaread(文件)将数据从文件读取到单独的变量中。如果文件包含多个序列,则Header序列are cell arrays of header and sequence information.

... = fastaread(文件,……”PropertyName',,PropertyValue,……)callsfastaread使用可选的属性,可使用属性名称/属性值对。您可以按任何顺序指定一个或多个属性。每个PropertyName必须以单引号标记封闭,并且不敏感。属性名称/值对可以以函数支持的任何格式金宝appset(例如,名称值对和结构)。这些属性名称/属性值对如下:

... = fastaread(文件,……”IgnoreGaps',忽略累索,……), 什么时候忽略累索真的,删除任何差距符号(“- - -”或者'.')来自序列。默认为错误的.

... = fastaread(文件,……”Blockread',BlockReadValue,……)使您可以从包含多个序列的文件中读取单个序列条目或序列条目的块。如果BlockReadValue是a scalarN, thenfastaread阅读N文件中的条目。如果BlockReadValue是1 x-2矢量[M1,M2], thenfastaread读取从M1entry and ending at theM2入口。要读取文件中文件中的所有剩余条目M1entry, enter a positive value forM1并输入inf为了M2.

... = fastaread(文件,……”TrimHeaders',Trimheadersvalue,……)指定是否将标头缩小到第一个白色空间。

... = fastaread(文件,……”TimeOut',TimeOutValue,……)指定连接超时(以秒为单位)以从远程文件或URL读取数据。

例子

全部收缩

Read the nucleotide sequence information of the human p53 tumor gene.

p53nt = fastaread('p53nt.txt')
p53nt =带有字段的结构:Header: 'gi|8400737|ref|NM_000546.2| Homo sapiens tumor protein p53 (Li-Fraumeni syndrome) (TP53), mRNA' Sequence: 'ACTTGTCATGGCGACTGTCCAGCTTTGTGCCAGGAGCCTCGCAGGGGTTGATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTCCCTGGATTGGCAGCCAGACTGCCTTCCGGGTCACTGCCATGGAGGAGCCGCAGTCAGATCCTAGCGTCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAACTACTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAATGGATGATTTGATGCTGTCCCCGGACGATATTGAACAATGGTTCACTGAAGACCCAGGTCCAGATGAAGCTCCCAGAATGCCAGAGGCTGCTCCCCGCGTGGCCCCTGCACCAGCAGCTCCTACACCGGCGGCCCCTGCACCAGCCCCCTCCTGGCCCCTGTCATCTTCTGTCCCTTCCCAGAAAACCTACCAGGGCAGCTACGGTTTCCGTCTGGGCTTCTTGCATTCTGGGACAGCCAAGTCTGTGACTTGCACGTACTCCCCTGCCCTCAACAAGATGTTTTGCCAACTGGCCAAGACCTGCCCTGTGCAGCTGTGGGTTGATTCCACACCCCCGCCCGGCACCCGCGTCCGCGCCATGGCCATCTACAAGCAGTCACAGCACATGACGGAGGTTGTGAGGCGCTGCCCCCACCATGAGCGCTGCTCAGATAGCGATGGTCTGGCCCCTCCTCAGCATCTTATCCGAGTGGAAGGAAATTTGCGTGTGGAGTATTTGGATGACAGAAACACTTTTCGACATAGTGTGGTGGTGCCCTATGAGCCGCCTGAGGTTGGCTCTGACTGTACCACCATCCACTACAACTACATGTGTAACAGTTCCTGCATGGGCGGCATGAACCGGAGGCCCATCCTCACCATCATCACACTGGAAGACTCCAGTGGTAATCTACTGGGACGGAACAGCTTTGAGGTGCGTGTTTGTGCCTGTCCTGGGAGAGACCGGCGCACAGAGGAAGAGAATCTCCGCAAGAAAGGGGAGCCTCACCACGAGCTGCCCCCAGGGAGCACTAAGCGAGCACTGCCCAACAACACCAGCTCCTCTCCCCAGCCAAAGAAGAAACCACTGGATGGAGAATATTTCACCCTTCAGATCCGTGGGCGTGAGCGCTTCGAGATGTTCCGAGAGCTGAATGAGGCCTTGGAACTCAAGGATGCCCAGGCTGGGAAGGAGCCAGGGGGGAGCAGGGCTCACTCCAGCCACCTGAAGTCCAAAAAGGGTCAGTCTACCTCCCGCCATAAAAAACTCATGTTCAAGACAGAAGGGCCTGACTCAGACTGACATTCTCCACTTCTTGTTCCCCACTGACAGCCTCCCACCCCCATCTCTCCCTCCCCTGCCATTTTGGGTTTTGGGTCTTTGAACCCTTGCTTGCAATAGGTGTGCGTCAGAAGCACCCAGGACTTCCATTTGCTTTGTCCCGGGGCTCCACTGAACAAGTTGGCCTGCACTGGTGTTTTGTTGTGGGGAGGAGGATGGGGAGTAGGACATACCAGCTTAGATTTTAAGGTTTTTACTGTGAGGGATGTTTGGGAGATGTAAGAAATGTTCTTGCAGTTAAGGGTTAGTTTACAATCAGCCACATTCTAGGTAGGTAGGGGCCCACTTCACCGTACTAACCAGGGAAGCTGTCCCTCATGTTGAATTTTCTCTAACTTCAAGGCCCATATCTGTGAAATGCTGGCATTTGCACCTACCTCACAGAGTGCATTGTGAGGGTTAATGAAATAATGTACATCTGGCCTTGAAACCACCTTTTATTACATGGGGTCTAAAACTTGACCCCCTTGAGGGTGCCTGTTCCCTCTCCCTCTCCCTGTTGGCTGGTGGGTTGGTAGTTTCTACAGTTGGGCAGCTGGTTAGGTAGAGGGAGTTGTCAAGTCTTGCTGGCCCAGCCAAACCCTGTCTGACAACCTCTTGGTCGACCTTAGTACCTAAAAGGAAATCTCACCCCATCCCACACCCTGGAGGATTTCATCTCTTGTATATGATGATCTGGATCCACCAAGACTTGTTTTATGCTCAGGGTCAATTTCTTTTTTCTTTTTTTTTTTTTTTTTTCTTTTTCTTTGAGACTGGGTCTCGCTTTGTTGCCCAGGCTGGAGTGGAGTGGCGTGATCTTGGCTTACTGCAGCCTTTGCCTCCCCGGCTCGAGCAGTCCTGCCTCAGCCTCCGGAGTAGCTGGGACCACAGGTTCATGCCACCATGGCCAGCCAACTTTTGCATGTTTTGTAGAGATGGGGTCTCACAGTGTTGCCCAGGCTGGTCTCAAACTCCTGGGCTCAGGCGATCCACCTGTCTCAGCCTCCCAGAGTGCTGGGATTACAATTGTGAGCCACCACGTGGAGCTGGAAGGGTCAACATCTTTTACATTCTGCAAGCACATCTGCATTTTCACCCCACCCTTCCCCTCCTTCTCCCTTTTTATATCCCATTTTTATATCGATCTCTTATTTTACAATAAAACTTTGCTGCCA'

Read the amino acid sequence information of p53 protein.

p53aa = fastaread('p53aa.txt')
p53aa =带有字段的结构:标题:'gi | 8400738 | ref | np_000537.2 |tumor protein p53 [Homo sapiens]' Sequence: 'MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLMLSPDDIEQWFTEDPGPDEAPRMPEAAPRVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQGSYGFRLGFLHSGTAKSVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVVVPYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACPGRDRRTEEENLRKKGEPHHELPPGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRGRERFEMFRELNEALELKDAQAGKEPGGSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDSD'

从FastA文件中读取一块条目。

pf2_5_10 = fastaread('pf00002.fa','blockread',[5 10],...'ignoregaps',真正的)
pf2_5_10=6×1 struct array with fields:标题序列
在R2006a之前引入