星期日, 二月 19, 2006

序列对序列的计算

序列对序列的计算

分子生物学研究的方向是从Gene到蛋白质的结构和功能,对于大部分的生物学问题,这种思路是可取的。 Gene仅仅是一段代码需要经过复杂的转录剪切表达修饰等步骤,才能成为具有生物学功能的蛋白。但对于一部分特定的问题,这样的研究思路显得繁复,例如不同生物体之间的作用关系,特别是对于产生抗生素的霉菌与细菌之间作用的问题,实际可以跳过对蛋白的研究,直接以双方的Gene序列作为研究对象。

青霉菌分泌抗生素作用于细菌分泌的细胞壁,破坏细胞壁,从而杀死细菌,而细菌则可能产生β内酰胺酶来分解青霉素。从中心法则可以看出,从 DNA到蛋白质的过程中,没有信息量增加的过程,DNA中的信息包含了所有蛋白质的信息。青霉素的DNA决定了青霉素的结构以及功能,细菌的DNA决定了细菌细胞壁的结构与功能,也决定了 β内酰胺酶的结构与功能。

那么青霉素所分泌的青霉素能否杀死某一种特定细菌,实际上是由青霉素的DNA和细菌的DNA 所决定的,换句话说,就是药物敏感性是这两个DNA序列的函数,对于抗生素细菌来说,当给定了产生药物的DNA序列和靶细胞的 DNA序列就可以得出其药物敏感性,这就是序列对序列的计算。这个函数的反函数则可以用于药物的设计,也就是给定靶细菌的DNA计算出可能可以产生敏感药物的DNA序列,再以此为基础设计分子生物学实验,有目的地筛选验证,从而得到新型的药物。

要建立药物敏感性与产药DNA和靶DNA之间的函数关系,可以不必涉及其中复杂的蛋白质作用,如果拥有足够多的样本(药敏、产药 DNA序列和靶DNA),就可以建立人工神经网络来解析函数关系。

Sigmoid置信度网络学习算法为例,其输入部分为两部分,分别为产药DNA序列, DNAATC G4个状态的字符串,因此可以很容易转化为二进制串作为Sigmoid网络的二值输入,输出部则以二进制表示药敏数值。

在学习阶段以尽可能多的样本训练网络。待神经网络训练完成后,只要给出产药DNA序列和靶细胞DNA序列,就可以得到药敏值。当给定靶DNA时,寻找新药的过程转化成为,找到某一产药 DNA序列,使其所对应的药敏值最大。

这样新药的研究转化成为了一个求函数及值的问题,此时可以利用的算法很多,考虑到生物学的特性,可能应用是传算结会更合适些,对产药DNA序列时行交换、突变、复制、死亡等操作,以神经网络计算出的药敏值作为适值函数进行遗传算法的搜索。这一过程将完全在计算机上进行,比实际的生物实验要快得多。值得注意的是,这一过程筛选出的最优,仅是针对药敏值产生的,有可能在筛选过程中丢失某些对细胞生长有关键作用的 Gene,因此仍需在搜索过程中加入许多限定条件。以确保所得结果在实际生物实验中的生存能力。

对于药敏计算的神经网络,分析其神经元的连接权值可能对生物学的研究具有意义。例如某输入神经元连接权值为0或者其绝对值为一个远小于平均权值的小量,可能说明这一神经元是一个哑元,即该神经元所对应的序列不参加药敏反应,也许是一生命活动所必需的序列或是毫无意义的垃圾序列,而如果权值很高,则暗示该处序列可能与药敏反应高度相关。

对应于新药筛选的遗传算法时,亦可参考这些连接权值,将遗传算法中的固定突变率,设计成为位置相关的,哑元的突变率很低,而权值高的位点突变率高,这样也可以提高筛选的效率及成功率。

训练神经网络需要较多的样本数据。这些数据必须由实际的生物学实验得到,可以来源于临床医院的药敏实验,亦可来源于高通量的药物作用实验,此部分可参考《药物进化原理》(肖真,2003)。

如果将通序列对序列计算的思路从抗生素细胞的范畴扩展,还可能得到一系列新的应用,例如,抗癌药物杀死癌细胞等,更进一步,同一生物体之内的细胞与细胞之间的作用是否也能看作是两种含有不同 cDNA序列的细胞之间的作用。

序列对序列的计算的意义在于将转录后处理的所有过程当作函数变换交给神经网络作为黑箱处理,以计算机的上的实验替代一部分生物实验,从而使生物学实验有效,更经济。



没有评论: