生物信息数据处理

生物中的信息（数据）

本节重要性：★★★★☆ 本节难度：★★★☆☆

组成生物体的元素与组成没有生命的其他物体的元素是一样的，如我们身上肌肉蛋白质里的碳原子与我们手上戴的钻石里的碳原子没有区别。然而，通过不同的元素组合形成生物大分子，生物却拥有完全不同于非生命体的一些特征，如繁殖、新陈代谢等。

生物体通过摄取外界的能量来保持自身器官、组织、细胞以及有机大分子的高度有序性。这些有序的信息在不同的空间和维度上进行传递。一方面，生物通过DNA（有些病毒是RNA）将遗传信息传递给下一代，即遗传信息的纵向传递；另一方面，借助RNA，将DNA上的遗传信息翻译成蛋白质（少数基因终产物是RNA而不是蛋白质），最终形成我们看到的表型，如身体的高矮、皮肤的颜色等，即遗传信息的横向传递。

尽管不同生物基本的遗传物质是类似的，但遗传信息的组织、传递方式等在不同类群生物中是有区别的。为此，我们在学习生物中的信息之前，先了解一下不同的生物类群。随着人类对生物了解的深入，人们对生物分类的理解也在不断地变化，目前比较常用的分类系统将生物分为5个大的类群：动物、植物、真菌、原生生物、原核生物。其中前4种是真核生物，最后的原核生物又包括真细菌和古细菌。

在不同层次上研究上述各类群生物的学科有：生态学、进化生物学、动物学、植物学、微生物学、发育生物学、解剖学、遗传学、细胞生物学、生物化学、分子生物学等。不同的生物学科会产生不同的数据，我们要处理的数据主要是分子生物学数据，如核酸序列、蛋白质序列、基因表达数据等。

首先，我们来看一下生物大分子。主要的生物大分子有3类：核酸，包括脱氧核糖核酸（DNA）和核糖核酸（RNA）；蛋白质；多糖。其中，DNA虽然占我们体重比例不高（不到5%），但却是遗传信息储存和传递的载体；RNA在遗传信息的表达中起着桥梁（mRNA）和运载工具的作用（tRNA），还有一些在mRNA成熟甚至基因调控中起重要作用；蛋白质是我们身体最重要的组成成分，运动所依赖的肌肉、各种生物学反应所需的酶及起保护和支撑作用的结缔组织等都是蛋白质；多糖是抗原、血型决定等的重要分子。

生物大分子是由生物单分子脱水缩合而成。主要的生物单分子有脱氧核糖核苷酸、核糖核苷酸及氨基酸，分别是组成DNA、RNA和蛋白质的单分子。

脱氧核糖核苷酸由一分子的脱氧核糖（2'碳原子上羟基的氧原子脱掉）、一分子磷酸和一个碱基组成。脱氧核糖核苷酸分子之间通过磷酸连接成脱氧核糖核酸（DNA）。

核糖核苷酸由一分子的核糖（戊糖）、一分子磷酸和一个碱基组成。核糖核苷酸分子之间也是通过磷酸连接成核糖核酸（RNA）。

组成DNA和RNA的碱基分为嘌呤（Purine）和嘧啶（Pyrimidine）两种，其中嘌呤包括腺嘌呤（Adenine）、鸟嘌呤（Guanine），嘧啶包括胞嘧啶（Cytosine）、胸腺嘧啶（Thymine，仅DNA中有）和尿嘧啶（Uracil，仅RNA中有）。

为了更方便地表示一个DNA或RNA分子上的脱氧核糖核苷酸或核糖核苷酸序列，我们用他们上的碱基英文的第一个字母（A、G、C、T、U）来代表他们。所以，拟南芥第一条染色体上的部分序列就可以表示成：

>Chr1 CHROMOSOME dumped from ADB: Feb/3/09 16:9; last updated: 2007-12-20
CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCC
TACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGT
GTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCA
TTTGAGGTCAATACAAATCCTATTTCTTGTGGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTC
ATTTGTTATATTGGATACAAGCTTTGCTACGATCTACATTTGGGAA

RNA序列也是类似的，只不过T换成了U。但有时候我们表示mRNA序列的时候，直接用T，这样就跟DNA一样了，当你看到这样的mRNA序列，你需要知道，这里的T其实是U，因为mRNA的信息也是从DNA转录而来，mRNA中的U对应到DNA上就是T。如下面是从NCBI的GenBank中查询到的人的血红蛋白α亚基的mRNA序列：

>NM_000558.4 Homo sapiens hemoglobin subunit alpha 1 (HBA1), mRNA
CATAAACCCTGGCGCGCTCGCGGCCCGGCACTCTTCTGGTCCCCACAGACTCAGAGAGAACCCACCATGG
TGCTGTCTCCTGCCGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTA
TGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGAC
CTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGG
CGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGA
CCCGGTCAACTTCAAGCTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTC
ACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACC
GTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTGGGCCTCCCCCCAGCCCCTCCTCCCCTTCCT
GCACCCGTACCCCCGTGGTCTTTGAATAAAGTCTGAGTGGGCGGCAAAAAAAAAAAAAAAAAAAAAA

实际上这个序列看上去应该像下面这个样子：

>NM_000558.4 Homo sapiens hemoglobin subunit alpha 1 (HBA1), mRNA
CAUAAACCCUGGCGCGCUCGCGGCCCGGCACUCUUCUGGUCCCCACAGACUCAGAGAGAACCCACCAUGG
UGCUGUCUCCUGCCGACAAGACCAACGUCAAGGCCGCCUGGGGUAAGGUCGGCGCGCACGCUGGCGAGUA
UGGUGCGGAGGCCCUGGAGAGGAUGUUCCUGUCCUUCCCCACCACCAAGACCUACUUCCCGCACUUCGAC
CUGAGCCACGGCUCUGCCCAGGUUAAGGGCCACGGCAAGAAGGUGGCCGACGCGCUGACCAACGCCGUGG
CGCACGUGGACGACAUGCCCAACGCGCUGUCCGCCCUGAGCGACCUGCACGCGCACAAGCUUCGGGUGGA
CCCGGUCAACUUCAAGCUCCUAAGCCACUGCCUGCUGGUGACCCUGGCCGCCCACCUCCCCGCCGAGUUC
ACCCCUGCGGUGCACGCCUCCCUGGACAAGUUCCUGGCUUCUGUGAGCACCGUGCUGACCUCCAAAUACC
GUUAAGCUGGAGCCUCGGUGGCCAUGCUUCUUGCCCCUUGGGCCUCCCCCCAGCCCCUCCUCCCCUUCCU
GCACCCGUACCCCCGUGGUCUUUGAAUAAAGUCUGAGUGGGCGGCAAAAAAAAAAAAAAAAAAAAAA

组成蛋白质的单分子称为氨基酸，顾名思义，该分子里有一个氨基，一个羧基，中间是一个α碳原子，连到α碳原子上的除了氨基和羧基外，还有一个氢原子和一个侧链R基团，不同氨基酸就是由R基团来区别的。

常见的蛋白质由20种氨基酸组成，还有少量的蛋白质包含特殊的氨基酸，如硒蛋白里有硒代半胱氨酸，即半胱氨酸中的硫元素换成了硒元素。

氨基酸之间通过脱水缩合，形成肽键，两个氨基酸缩合形成二肽，三个形成三肽，越连越多，最后就成了蛋白质。

氨基酸常用的表示法有两种，一种是用每一种氨基酸英文单词的前三个字母，另一种是单字母表示法，大部分氨基酸的单字母代码是其英文单词的首字母，但有几个例外。

天冬氨酸	Asp	D	Aspartic acid	异亮氨酸	Ile	I	Isoleucine
苏氨酸		Thr	T	Threonine	亮氨酸		Leu	L	Leucine
丝氨酸		Ser	S	Serine		酪氨酸		Tyr	Y	Tyrosine
谷氨酸		Glu	E	Glutamic acid	苯丙氨酸	Phe	F	Phenylalanine
脯氨酸		Pro	P	Proline		组氨酸		His	H	Histidine
甘氨酸		Gly	G	Glycine		赖氨酸		Lys	K	Lysine
丙氨酸		Ala	A	Alanine		精氨酸		Arg	R	Arginine
半胱氨酸	Cys	C	Cysteine	色氨酸		Trp	W	Trytophan
缬氨酸		Val	V	Valine		谷氨酰胺	Gln	Q	Glutamine
甲硫氨酸	Met	M	Methionine	天冬酰胺	Asn	N	Asparagine

我们注意到了，DNA由4种碱基（实际上是脱氧核糖核苷酸，他们除了碱基其它部分都一样，所以我们一般只说碱基，我们说一个DNA序列有多少个碱基或碱基对，即bp，你应该知道实际上是说的脱氧核糖核苷酸）组成，而氨基酸是由20种（或21种）氨基酸组成，所以遗传信息从DNA传递到蛋白质上时，应至少由3个碱基（我们称为一个密码子，codon）编码1个氨基酸，这样密码子的总数就是4^3=64种，因此就会有多个密码子编码同一个氨基酸（密码子的简并性）。64种密码子中，有一种是起始密码子，同时编码甲硫氨酸，有三种是翻译终止信号，不编码任何一种氨基酸。当然，在一些细菌或细胞器基因组中，密码子会有些不同。

蛋白质合成是在核糖体上进行的，不同的tRNA将各种氨基酸搬运到核糖体上，将mRNA上的对应的密码子转换成蛋白质序列。

下面我们来看一下基因的结构。原核生物的基因结构比较简单，基因间的距离也比较小。真核生物基因结构要复杂得多，除了编码蛋白质序列的部分（编码区，Coding Sequence，CDS）外，还包括基因调控区（启动子、增强子等）、非翻译区（Untranslated Region，UTR），多数真核生物的基因转录部分还被内含子（Intron）分割成不同的部分（外显子，Exon）。同时，真核生物的基因间序列通常比较长，甚至远远大于基因序列。内含子和基因间序列是真核生物基因组比较大的主要原因。

最后，我们来了解一下常见的生物数据格式。

FASTA 最常用的核酸和蛋白质序列格式，上面序列的例子就是FASTA格式
FASTQ 新一代测序数据格式，除了序列信息，还包含序列质量信息
GenBank NCBI的序列格式，包含丰富的注释信息
EMBL 欧洲分子生物学实验室使用的序列注释格式
GFF 序列特征描述数据格式，常用于基因组注释
SAM 一种基于参考序列的序列比对信息格式
BAM 压缩的二进制SAM格式
PDB 分子空间结构数据格式
NEXUS 系统发育领域常用的数据格式
NWK 一种表示进化树拓扑结构的数据格式