常用生物信息学文件格式

FASTA

FASTA文件是DNA/RNA序列文件。第一行是由大于符号>打头的任意文字说明,主要为标记序列用。从第二行开始是序列本身,标准核苷酸符号或氨基酸单字母符号。通常核苷酸符号大小写均可,而氨基酸一般用大写字母。文件中和每一行都不要超过80个字符(通常60个字符)。

1
2
>sequence info
GATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTC

FASTQ

FASTQ格式的序列一般都包含有四行,第一行由’@’开始,后面跟着序列的描述信息,这点跟FASTA格式是一样的。第二行是序列。第三行由’+’开始,后面也可以跟着序列的描述信息。第四行是第二行序列的质量评价,字符数跟第二行的序列是相等的。

1
2
3
4
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF>>>>>>CCCCCCC65

BED

BED文件是一种基因组注释文件,或者叫做基因组坐标文件。每行表示一段序列,只不过不是ATCG碱基,而是它们在基因组上的坐标。每一行有由tab分割的多列,BED行有三个必须的列和九个额外可选的列。 每行的数据格式要求一致。
3个必须列:

  1. chrom,染色体或scafflold 的名字
  2. chromStart,序列在染色体或scaffold的起始位置
  3. chromEnd,序列在染色体或scaffold的结束位置

9个可选列:
4. name 指定BED行的名字,这个名字标签会展示在基因组浏览器中的bed行的左侧。
5. score 0到1000的分值, 可以设置为’0’。
6. strand 定义链的方向,”+” 或者”-”
7. thickStart 起始位置(The starting position at which the feature is drawn thickly)(例如,基因起始编码位置)
8. thickEnd 终止位置(The ending position at which the feature is drawn thickly)(例如:基因终止编码位置)
9. itemRGB 是一个RGB值的形式, R, G, B (eg. 255, 0, 0), 如果itemRgb设置为’On”, 这个RBG值将决定数据的显示的颜色。可以设置为’0,0,0’
10. blockCount BED行中的block数目,也就是外显子数目。
11. blockSize 用逗号分割的外显子的大小, 这个item的数目对应于BlockCount的数目。
12. blockStarts 用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应。

GFF/GTF

GFF/GTF文件和BED文件一样,也是一种基因组注释文件。每行表示一段序列,有9个tab分割的列共同描述这段序列的信息。
9个列定义如下:

  1. seq_id:序列的编号,一般为chr或者scanfold编号;
  2. source: 注释的来源,一般为数据库或者注释的机构,如果未知,则用点“.”代替;
  3. type: 注释信息的类型,比如Gene、cDNA、mRNA、CDS等
  4. start:该基因或转录本在参考序列上的起始位置;
  5. end: 该基因或转录本在参考序列上的终止位置;
  6. score: 得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值,“.”表示为空;
  7. strand: 该基因或转录本位于参考序列的正链(+)或负链(-)上;
  8. phase: 仅对注释类型为“CDS”有效,表示起始编码的位置,有效值为0、1、2(对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。每3个核苷酸翻译一个氨基酸,从0开始,CDS的起始位置,除以3,余数就是这个值,,表示到达下一个密码子需要跳过的碱基个数。该编码区第一个密码子的位置,取值0,1,2。0表示该编码框的第一个密码子第一个碱基位于其5’末端;1表示该编码框的第一个密码子的第一个碱基位于该编码区外;2表示该编码框的第一个密码子的第一、二个碱基位于该编码区外;如果Feature为CDS时,必须指明具体值。);
  9. attributes:一个包含众多属性的列表,格式为“标签=值”(tag=value),标签与值之间以空格分开,且每个特征之后都要有分号;(包括最后一个特征),其内容必须包括gene_id和transcript_id。以多个键值对组成的注释信息描述,键与值之间用”=”,不同的键值用”;”。

有空继续添加…