基因识别算法
A. 如果普通人想检测自己基因,了解自己到底来自哪些人种,哪些族群的融合,应该通过什么途径去什么机构
途径如下:
根据23andMe所使用的属于题主的需求叫作Ancestry Composition,中文暂且称之为祖源成分。其根本逻辑就是没有任何一个现代是纯粹的某一种人群,都是若干族群的混合。利用大规模的数据量,以及古人类的DNA数据,辅以类似贝叶斯或者支持向量机之类的机器学习算法。
就能推断出一个人的基因组中各种族群所占的比例。这种计算对数据量是有要求的。根据UCLA的Admixture软件的说明,区分各大洲的人群,需要检测的位点数一般不低于1万个多态位点,要区分大洲内部的人群。
例如中国人和日本人,检测的多态位点数一般不能低于10万;如果要进一步区分中国的不同人群,例如南方汉族、北方汉族、各个少数民族等等,需要的多态位点数会进一步上升。因此,市场上,尤其是国内的绝大部分所谓的基因检测所产生的数据量都不能用于来做这个分析。
一般消费者可以购买到的可以用于祖源成分分析服务,非官方信息,可能有些谬误:
1、华大基因个人基因组服务:全外显子测序服务,提供罕见突变的专业解读服务,提供祖源分析报告,售价比较贵,购买请联系华大基因在各地的销售或代理。
2、23andme等:都是美国的高通量芯片检测服务,提供用户体验一流的祖源成分报告,缺点是要海淘,而且样品出入境都比较麻烦。欲购买,请上万能的淘宝。
3、源基因:上海复旦大学严实老师担任科学顾问的基因检测公司,专门从事祖源相关的检测和分析服务。
4、BTW:上海人类学学会提供的服务不包含祖源成分分析服务,暂时只有Y染色体单倍群和MT染色体单倍群等解读服务。
5、利益相关:WeGene联合创始人。
B. 谁知道指纹和DNA怎样鉴别
指纹是人类手指末端指腹上由凹凸的皮肤所形成的纹路。指纹能使手在接触物件时增加摩擦力,从而更容易发力及抓紧物件。是人类进化过程式中自然形成的。 指纹由遗传影响,由于每个人的遗传基因均不同,所以指纹也不同。然而,指纹的形成虽然主要受到遗传影响,但也有环境因素,当胎儿在母体内发育三至四个月时,指纹就已经形成,但儿童在成长期间指纹会略有改变,直到青春期14岁左右时才会定型。在皮肤发育过程中,虽然表皮、真皮,以及基质层都在共同成长,但柔软的皮下组织长得比相对坚硬的表皮快,因此会对表皮产生源源不断的上顶压力,迫使长得较慢的表皮向内层组织收缩塌陷,逐渐变弯打皱,以减轻皮下组织施加给它的压力。如此一来,一方面使劲向上攻,一方面被迫往下撤,导致表皮长得曲曲弯弯,坑洼不平,形成纹路。这种变弯打皱的过程随着内层组织产生的上层压力的变化而波动起伏,形成凹凸不平的脊纹或皱褶,直到发育过程中止,最终定型为至死不变的指纹。 指纹有3种基本类型——环型、弓型和螺旋型。是皮下组织对指肚表皮顶压方向的不同造就了这不同的类型。研究表明,如果某人指头肚高而圆,其指纹的纹路将是螺旋型。现在,科学家已能够通过模型再现那些较为常见的指纹,也能重复不太复杂的罕见指纹的形成过程。 目前尚未发现有不同的人拥有相同的指纹,所以每个人的指纹也是独一无二。由于指纹是每个人独有的标记,近几百年来,罪犯在犯案现场留下的指纹,均成为警方追捕疑犯的重要线索。现今鉴别指纹方法已经电脑化,使鉴别程序更快更准。 DNA的科普知识: 1 DNA指纹图的建立及发展 近百年来的研究认为,任何遗传分析都是以遗传标志为基础的,而任何一个遗传标志的价值又在于其变异 性(即多态性)的大小。有关遗传多态性的研究对促进人类学、遗传学、免疫学以及法医学的发展, 以及对阐明某些疾病的发病机理乃至协助诊断等方面都起了十分重要的作用。但以往的研究都是利用各种外部表现型、生理缺陷型、同工酶、多态蛋白等作为遗传标志,用间接分析来推论相应的遗传基因。 70年代末,限制性内切酶和重组体DNA技术的出现以及分子生物学的飞速发展,使人们对遗传标志的研究转向DNA分子本身。由于各种遗传信息都蕴藏在DNA分子上,生物个体间的差异在本质上是DNA分子的差异,因此DNA被认为是最可靠的遗传标志。某些DNA序列的差异可通过限制性酶切片段长度的改变来反映,此即限制性片段长度多态性(restriction fragment length polymorphisms,RFLP),其产生是由于点突变、DNA重排、插入或缺失引起的〔1〕。随着对RFLP研究的深入,人们发现了基因组中最有变异性的一类序列——高变异DNA序列,使DNA遗传标志的发展和应用得到了一次飞跃。 1980年,Wyman和White描述了第一个多等位性的具有高度多态性的人类DNA标志。不久,在胰岛素基因(Insulingene)的5′端区域、致癌基因(C-Haras I Oncogene)的3′端分别发现了相同的高度可变的标志(hypervariable marker)。在α-球蛋白(α-globin)基因群周围还发现了其它三个标志〔2〕。1982年,Bell等〔3〕证实:这些高度多态性区域串联着重复的短序列单位,重复单位数目的差异导致了这种高度的可变性,由于这些结构特征,人们称这些区域为小卫星(minisatellite)或高度可变区域(hypervariable)或可变数目的串联重复(variable number of tandem repeats)。 1985年,Jeffreys 等〔4〕用肌红蛋白基因第一内含子中的串联重复序列(重复单位含33bp)作探针,从人的基因文库中筛选出8个含有串联重复序列(小卫星)的重组克隆。序列分析表明,这8个小卫星重复单位的长度和序列不完全相同,但都有相同的核心序列(core sequence)即GGCCAGGA/GGG。他们先后用两个多核心小卫星(poly coreminisate -llite)33.6和33.15探针进行southern杂交,在低严谨条件下杂交得到了包含10多条带的杂交图谱,不同个体杂交图谱上带的位置就象人的指纹一样千差万别,Jeffrey称之为DNA指纹(DNA fingerprint)〔5〕,又名遗传指纹(genetic fingerprint)。 RFLP DNA指纹分析技术由于方法繁杂、周期长、实验条件高等缺陷而无法大范围推广。1990年,Williams等〔6〕首次报道了AP-PCR技术,Welsh和McCelland〔7〕亦独立地进行了这方面的工作,从而使DNA指纹技术应用更加广泛。AP-PCR技术是采用随意设计的1个或2个引物,对模板DNA进行PCR扩增,一般先是在低严格条件,即在高Mg2+浓度(大于传统PCR Mg2+浓度1.5mmol/L)、较低退火温度(36℃~50℃)下进行1~6个循环的PCR扩增,随后在严格条件下进行PCR扩增,产物经2%琼脂糖凝胶电泳或6%变性聚丙烯酰胺凝胶电泳分离,可得到DNA指纹图谱。其基本原理是:在低严格复性条件下,引物与模板DNA非完全互补序列形成错配,错配引物在DNA聚合酶作用下沿模板链延伸,合成新链,当在一定距离内模板DNA另一单链也发生引物错配时,即可对两错配引物间的DNA进行扩增。但是此种错配并非随机发生,引物和模板间,特别是在引物3′端必须存在一定的互补序列,即可产生不同的扩增片段或组合,通过DNA指纹图谱,可得到配对DNA样品中的差异片段,用于克隆、测序、染色体定位和基因片段的生物学功能研究。 我国杨建厂等〔8〕利用PCR的原理成功地建立了一种全新的DNA指纹检测技术,称之为随机引物PCR人DNA指纹检测技术(arbitrarily primed PCR human DNA fingerprinting,APHDP),此外还开发出处理DNA指纹数据应用软件,应用于个人识别、遗传素质与疾病的相关特征研究等。 DNA指纹的识别 ________________________________________ 1984年英国莱斯特大学的遗传学家Jefferys及其合作者首次将分离的人源小卫星DNA用作基因探针,同人体核DNA的酶切片段杂交,获得了由多个位点上的等位基因组成的长度不等的杂交带图纹,这种图纹极少有两个人完全相同,故称为"DNA指纹",意思是它同人的指纹一样是每个人所特有的。DNA指纹的图像在X光胶片中呈一系列条纹,很像商品上的条形码。DNA指纹图谱,开创了检测DNA多态性(生物的不同个体或不同种群在DNA结构上存在着差异)的多种多样的手段,如RFLP(限制性内切酶酶切片段长度多态性)分析、串联重复序列分析、RAPD(随机扩增多态性DNA)分析等等。各种分析方法均以DNA的多态性为基础,产生具有高度个体特异性的DNA指纹图谱,由于DNA指纹图谱具有高度的变异性和稳定的遗传性,且仍按简单的孟德尔方式遗传,成为目前最具吸引力的遗传标记。 DNA指纹具有下述特点:1.高度的特异性:研究表明,两个随机个体具有相同DNA图形的概率仅3×10-11;如果同时用两种探针进行比较,两个个体完全相同的概率小于5×10-19。全世界人口约50亿,即5×109。因此,除非是同卵双生子女,否则几乎不可能有两个人的DNA指纹的图形完全相同。2.稳定的遗传性:DNA是人的遗传物质,其特征是由父母遗传的。分析发现,DNA指纹图谱中几乎每一条带纹都能在其双亲之一的图谱中找到,这种带纹符合经典的孟德尔遗传规律,即双方的特征平均传递50%给子代。3.体细胞稳定性:即同一个人的不同组织如血液、肌肉、毛发、精液等产生的DNA指纹图形完全一致。 1985年Jefferys博士首先将DNA指纹技术应用于法医鉴定。1989年该技术获美国国会批准作为正式法庭物证手段。我国警方利用DNA指纹技术已侦破了数千例疑难案件。DNA指纹技术具有许多传统法医检查方法不具备的优点,如它从四年前的精斑、血迹样品中,仍能提取出DNA来作分析;如果用线粒体DNA检查,时间还将延长。此外千年古尸的鉴定,在俄国革命时期被处决沙皇尼古拉的遗骸,以及最近在前南地区的一次意外事故中机毁人亡的已故美国商务部长布朗及其随行人员的遗骸鉴定,都采用了DNA指纹技术。 此外,它在人类医学中被用于个体鉴别、确定亲缘关系、医学诊断及寻找与疾病连锁的遗传标记;在动物进化学中可用于探明动物种群的起源及进化过程;在物种分类中,可用于区分不同物种,也有区分同一物种不同品系的潜力。在作物的基因定位及育种上也有非常广泛的应用。 DNA指纹图谱法的基本操作:从生物样品中提取DNA(DNA一般都有部分的降解),可运用PCR技术扩增出高可变位点(如VNTR系统,串联重复的小卫星DNA等)或者完整的基因组DNA,然后将扩增出的DNA酶切成DNA片断,经琼脂糖凝胶电泳,按分子量大小分离后,转移至尼龙滤膜上,然后将已标记的小卫星DNA探针与膜上具有互补碱基序列的DNA片段杂交,用放射自显影便可获得DNA指纹图谱。 琼脂糖凝胶电泳是分离,鉴定和纯化DNA片段的常规方法。利用低浓度的荧光嵌入染料-溴化乙锭进行染色,可确定DNA在凝胶中的位置。如有必要,还可以从凝胶中 回收DNA条带,用于各种克隆操作。琼脂糖凝胶的分辨能力要比聚丙烯酰胺凝胶低,但其分离范围较广。用各种浓度的琼脂糖凝胶可以分离长度为200bp至近50kbp的DNA。长度100kb或更大的DNA,可以通过电场方向呈周期性变化的脉冲电场凝胶电泳进行分离。 在基因工程的常规操作中,琼脂糖凝胶电泳应用最为广泛。它通常采用水平电泳装置,在强度和方向恒定的电场下进行电泳。DNA分子在凝胶缓冲液(一般为碱性)中带负电荷,在电场中由负极向正极迁移。DNA分子迁移的速率受分子大小,构象。电场强度和方向,碱基组成,温度和嵌入染料等因素的影响。 2 DNA指纹技术所用的探针 自DNA指纹技术建立以来,这一技术迅速在动植物的进化关系、亲缘关系分析以及法医学方面得到广泛应用。也正是由于DNA指纹技术在核酸分析中显示出了强大的生命力,因而许多学者围绕此技术所用的探针作了大量的工作,除Jeffrey等〔5〕的探针外,用人工化学合成或从生物组织中提取后再扩增的办法生产出了一批高水平的探针。迄今,在DNA指纹技术中所用的探针大概有probe33.15、33.6〔5〕、bacteriophage MB〔9〕、pig repetitire clone p83、PGB 725、poly(GT) containing 18.1、(GTG)5/(CAC)5〔10,11〕、(CAC/TA)4及(GT)12等。同时,在探针的标志上也有了很大的发展,根据它们的结构可大致分为小卫星探针和简单重复序列探针,简单重复序列包括微卫星探针(microsatellite probe)和寡聚核苷酸探针。小卫星探针的核心序列为33bp,常定位在人常染色体前的末端(proterminal)区域,微卫星探针则在10~20bp之间,而寡聚核苷酸探针在10bp以下,普遍散布在人类整条染色体上,或者在基因间区域或者位于内含子内。 1988年,我国伍新尧等〔12〕根据DNA指纹是人基因组中重复序列的RFLP的原理和人与鼠的髓鞘碱性蛋白(MBP)基因cDNA同源序列性高于90%的事实,选用鼠MBP cDNA3′端的一段序列(非表达区高度重序列,与人基因组中该类重复序列几乎完全同源),长度为0.81kb的片段作探针,检测用HaeⅢ酶解的人DNA限制性片段(RF),在人群中可分出22条谱带,受检 的30例无血缘关系的个体之间没有两个人的谱带是完全相同的,显示这一方法的高度个体特异性,这是国内首次用自已的力量找到DNA指纹的探针。 3 DNA指纹的应用3.1 法医学方面 同以往的血型测定法相比,DNA指纹技术在法医学领域上具有无可比拟的优越性。已成为鉴定犯罪、亲子鉴定和确定个体间亲缘关系的工具〔5,13〕。随后,国内学者李伯龄〔14〕、姜先华〔15〕、伍新尧等〔12〕也先后对此项技术进行了研究,并应用于实际案件的鉴定中,解决了过去无法解决的疑难案例,如微量血痕、部分腐败的碎尸块的个人认定等。 3.2 在动植物科学中的应用 3.2.1 生物种群学研究 利用DNA指纹图可以估算连锁不平衡,比较等位基因的频率,还能估计不同个体之间的重组率,在种群学研究上有助于建立某一个体在种群中的地位和关系,特别是对真菌的种群研究,有很多真菌可以通过有性和无性的方式繁殖,但是何时以何种方式繁殖,程度如何,并不清楚,而利用DNA指纹图就能区分以有性和无性方式产生的后代,并能确定某一区域真菌的自然分布〔1,16〕。 3.2.2 测定物种之间的遗传距离、物种分类鉴定 Jeffreys等〔5〕认为在一个群体的不同成员间拷贝数的串联重复序列(VNTR)由于多态性程度高,在遗传分析中尤其适合作为多态性标志,简单重复的不稳定性可导致VNTR长度的迅速变化,根据家族中或育种群体中VNTR的分离重组频率,可以测定出遗传距离,可用统计学公式确定个体间的亲缘关系:D=2Nab/(Na+Nb),,D值越大,亲缘关系越近,遗传距离就越小;D值越小,亲缘关系越远,遗传距离就越大。为此,运用DNA指纹技术可检测不同物种、同种及同种不同个体的亲缘关系,用于物种分类鉴定,也可用于杂交后代亲本决定,杂交后代群体分开,检测近等基因系(或同类系)种的多态性,并对检测基因进行定位。Welsh等〔7〕对布氏疏螺旋体菌株的DNA指纹进行分析,发现这种lyme病的病原菌实际上是由三个不同的种群组成。罗超权等〔12〕运用AP-PCR鉴定弓形虫虫株,在国内开创了运用DNA指纹技术作生物分类的先例。 3.3 在流行病学方面的运用 由于DNA指纹具有以下几个特点:①能反映基因组的变异性;②具有高度的变异性;③具有简单的稳定的遗传性;④DNA指纹谱具有体细胞稳定性。所以,它同一般的流行病学方法相比较而言,具有无比的优越性,使其成为流行病调查的一种有效工具。Jan DA等〔17〕,Denise Chevrel-Dellagi等〔18〕运用IS6110序列作探针对结核病分支杆菌株进行DNA指纹分析,调查国际间结核病的种型、分析流行情况,改进了控制结核病的方法。而ZhenHua Yang等〔19〕从67个病人中分离出结核病分支杆菌株进行DNA指纹分析,发现分离到PTBN12型时易查明流行环节,从而为快速进行疾病控制提供了一个有力证据。在我国,童笑梅等〔20〕采用随机扩增多态DNA指纹图技术对医院内感染的14例新生儿进行病原流行病学分析,发现患儿体内携带的与医务人员鼻中携带的华纳葡萄球菌菌株的DNA指纹图完全一致,从而证明此次感染的病原菌为华纳葡萄球菌,传染源是携带病菌的医务人员。郭永建等〔21〕在6个月内对121名产科新生儿中的30名检出的31株铜绿假单胞菌进行RAPD指纹图谱分析和血清学分型,结果表明,铜绿假单胞菌在产科新生儿中暴发流行,0∶6/R∶1型为暴发流行性菌株,对医院感染病原菌分型、精确确定传染源、阻断传播途径、控制和预防医院感染具有重要的指导意义。 3.4 疾病诊断及治疗 鉴于DNA指纹所具有的上述特点,故DNA指纹广泛应用于一些疾病的诊断及治疗。Morral〔22〕等发现CF基因9号外显子侧翼含有一小卫星区,且此等位基因2.6带常与△F508连锁,相伴率为50.6%、41.6%,△F508是最主要的致病突变,可疑患者电泳图只要发现2.6等位基因,就可对此病进行初步诊断。现已在Wilson病、外周神经纤维瘤、成人多束肾、多巴性肌紧张、Frecbreich共济失调、Kallmunm综合征性连锁、视网膜病等基因内或旁侧发现有高度的小卫星区域,从而可进行基因诊断。Okamoto R〔23〕用DNA指纹法预测慢性粒cell性白血病骨髓移植术后复发,取得了成功。 3.5 肿瘤的研究 肿瘤是多因素、多阶段的变化过程,病因复杂、变化多样,但归根到底还是在DNA的变化上。一般说来,癌组织、转移灶与正常组织或外周血细胞DNA指纹有差别,常见的是某条带或几条带的缺失,某一条或某几条带密度降低,或者癌组织中出现新的带。Thein等〔24〕用33.6和33.15为探针研究患者DNA指纹谱变化,发现胃肠肿瘤患者癌组织DNA指纹谱全有改变,并认为体细胞突 变还有种属特异性。刘霜等〔25〕应用RAPD(随机扩增多态性DNA)分析技术对6例肝癌患者的癌组织与非癌组织进行分析,发现所有肝癌组织基因组DNA的RAPD指纹图谱均存在差异,其中3例配对肝癌基因组中均存在一相同的0.9Kb的随机扩增片段。杨建厂等〔8〕用APHDFF技术对28例确诊为鼻咽癌病人血DNA指纹图的检测,发现有3条DNA片段出现的频率明显低于健康人群。王黛等〔26〕用LE11.8、MYO和Mb探针,经Southern杂交法检测12例儿童急性粒cell白血病患者的外周血或骨髓细胞的基因重排,结果发现初始或复发与完全缓解时的DNA指纹图相比,谱带有增加或减少,从而认为急性粒细胞白血病患儿的白血病细胞存在基因重排。 参考资料:http://..com/question/13180448.html
C. DNA的意思是什么
脱氧核糖核酸(英语:deoxyribonucleic acid,缩写:DNA)又称去氧核糖核酸,是一种生物大分子,可组成遗传指令,引导生物发育与生命机能运作。主要功能是信息储存,可比喻为“蓝图”或“配方”。
其中包含的指令,是建构细胞内其他的化合物,如蛋白质与核糖核酸所需。带有蛋白质编码的DNA片段称为基因。其他的DNA序列,有些直接以本身构造发挥作用,有些则参与调控遗传信息的表现。
DNA是一种长链聚合物,组成单位称为核苷酸,而糖类与磷酸借由酯键相连,组成其长链骨架。每个糖单位都与四种碱基里的其中一种相接,这些碱基沿着DNA长链所排列而成的序列,可组成遗传密码,是蛋白质氨基酸序列合成的依据。
读取密码的过程称为转录,是根据DNA序列复制出一段称为RNA的核酸分子。多数RNA带有合成蛋白质的信息,另有一些本身就拥有特殊功能,例如核糖体RNA、小核RNA与小干扰RNA。
在细胞内,DNA能组织成染色体结构,整组染色体则统称为基因组。染色体在细胞分裂之前会先行复制,此过程称为DNA复制。对真核生物,如动物、植物及真菌而言,染色体是存放于细胞核内;对于原核生物而言,如细菌,则是存放在细胞质中的拟核里。
染色体上的染色质蛋白,如组蛋白,能够将DNA组织并压缩,以帮助DNA与其他蛋白质进行交互作用,进而调节基因的转录。
(3)基因识别算法扩展阅读:
历史
最早分离出脱氧核糖核酸的弗雷德里希·米歇尔是一名瑞士医生,他在1869年,从废弃绷带里所残留的脓液中,发现一些只有显微镜可观察的物质。由于这些物质位于细胞核中,因此米歇尔称之为“核素”(nuclein)。
到了1919年,菲巴斯·利文进一步辨识出组成脱氧核糖核酸的碱基、糖类以及磷酸核苷酸单元,他认为脱氧核糖核酸可能是许多核苷酸经由磷酸基团的联结,而串联在一起。不过他所提出概念中,脱氧核糖核酸长链较短,且其中的碱基是以固定顺序重复排列。1937年,威廉·阿斯特伯里完成了第一张X光衍射图,阐明了脱氧核糖核酸结构的规律性。
1928年,弗雷德里克·格里菲斯从格里菲斯实验中发现,平滑型的肺炎球菌,能转变成为粗糙型的同种细菌,方法是将已死的平滑型与粗糙型活体混合在一起。这种现象称为“转型”。
但造成此现象的因子,也就是脱氧核糖核酸,是直到1943年,才由奥斯瓦尔德·埃弗里等人所辨识出来。1953年,阿弗雷德·赫希与玛莎·蔡斯确认了脱氧核糖核酸的遗传功能,他们在赫希-蔡斯实验中发现,脱氧核糖核酸是T2噬菌体的遗传物质。
二、技术应用
1、遗传工程
重组脱氧核糖核酸技术在现代生物学与生物化学中受到广泛应用,所谓重组DNA,是指集合其他脱氧核糖核酸序列所制成的人造脱氧核糖核酸,可以质粒或以病毒载体搭载所想要的格式,将脱氧核糖核酸转型到生物个体中。经过遗传改造处里之后的生物体,可用来生产重组蛋白质,以供医学研究使用,或是于农业上栽种。
2、法医鉴识
法医可利用犯罪现场遗留的血液、精液、皮肤、唾液或毛发中的脱氧核糖核酸,来辨识可能的加害人。此过程称为遗传指纹分析或脱氧核糖核酸特征测定,此分析方法比较不同人类个体中许多的重复脱氧核糖核酸片段的长度,这些脱氧核糖核酸片段包括短串联重复序列与小卫星序列等,一般来说是最为可靠的罪犯辨识技术。
不过如果犯罪现场遭受多人的脱氧核糖核酸污染,那么将会变得较为复杂难解。
3、历史学与人类学
由于脱氧核糖核酸在经历一段时间后会积聚一些具有遗传能力突变,因此其中所包含的历史信息,可经由脱氧核糖核酸序列的比较,使遗传学家了解生物体的演化历史,也就是种系。这些研究是系统发生学的一部分,也是演化生物学上的有利工具。
假如对物种以内范围的脱氧核糖核酸序列进行比较,那么群体遗传学家就可得知特定族群的历史。此方法的应用范围可从生态遗传学到人类学,举例而言,脱氧核糖核酸证据已被试图用来寻找失踪的以色列十支派。
DNA也可以用来调查现代家族的亲戚关系,例如建构莎丽·海明斯与托马斯·杰斐逊的后代之间的家族关系,研究方式则与上述的犯罪调查相当类似,因此有时候某些犯罪调查案件之所以能解决,是因为犯罪现场的脱氧核糖核酸与犯罪者亲属的脱氧核糖核酸相符。
4、生物信息学
生物信息学影响了脱氧核糖核酸序列数据的运用、搜索与数据挖掘工作,并发展出各种用于储存并搜索脱氧核糖核酸序列的技术,可进一步应用于计算机科学,尤其是字串搜索算法、机器学习以及数据库理论[128]。字串搜索或比对算法是从较大的序列或较多的字母中,寻找单一序列或少数字母的出现位置,可发展用来搜索特定的核苷酸序列。
在其他如文本编辑器的应用里,通常可用简单的算法来解决问题,但只有少量可辨识特征的脱氧核糖核酸序列,却造成这些算法的运作不良。序列比对则试图辨识出同源序列,并定位出使这些序列产生差异的特定突变位置,其中的多重序列比对技术可用来研究种系发生关系及蛋白质的功能。
由整个基因组所构成的数据含有的大量脱氧核糖核酸序列,例如人类基因组计划的研究对象。若要将每个染色体上的每个基因,以及负责调控基因的位置都标示出来,会相当困难。
脱氧核糖核酸序列上具有蛋白质或RNA编码特征的区域,可利用基因识别算法辨识出来,使研究者得以在进行实验以前,就预测出生物体内可能表现出来的特殊基因产物。
D. 遗传神经网络识别原理
4.3.1 遗传BP简介
遗传识别是遗传算法+神经网络的一种新兴的寻优技术,适合于复杂的、叠加的非线性系统的辨识描述。神经网络算法是当前较为成熟的识别分类方法,但网络权值的训练一直存在着缺陷。为此结合具体应用,在对遗传算法进行改进的基础上,本文采用了一种基于遗传学习权值的神经网络识别方法,并取得了较好的效果。
尽管常规遗传算法是稳健的,但针对一个具体问题遗传算法只有和其他方法(或称原有算法)有效地结合在一起,组成一个新的混合算法,才能在实际中得到广泛应用。混合算法既要保持原有算法的长处,又要保持遗传算法的优点,因此常规遗传算法中的适应值函数、编码、遗传算子等必须做适当的修改以适应混合算法的要求。
4.3.1.1 适应值信息
常规算法中,适应值常被表示为全局极小,用欧氏距离来实现。例如,适应值常被表示为如下形式:
图4-5 改进的 GABP计算流程图
GABP的计算过程图如图4-5所示。
E. 无创亲子鉴定准不准,和生下来一样吗
你好,只要是选择正规的亲子鉴定机构,无创亲子鉴定结果是和生下来的一样。
正规的亲子鉴定机构是由省司法厅核实批准的鉴定机构,是有专业的物证鉴定资质的,结果有保障。
一、 国际最先进的生物信息数据分析,算法优势可减少测序错误带来的误差,大大提高准确性和灵敏度。
无创孕期基因检测所用算法原理是,将在母亲血浆样本中的平均深度大于100x且在父亲样本中的平均深度大于20x的所有有效位点进行累积亲权指数的计算。由于不考虑单个位点碱基的比例,只计算平均测序深度,可以减少测序错误带来的误差,因此准确率更高。另外,该算法只需孕妇DNA中胎儿比例大于2%,且有效位点数大于1000个即可,灵敏度更高。
二、 搭建自动防污染监控系统,实时监测样本污染,出错零容忍。
1. 实验室分区,建立室内质控。
2. 搭建无创孕期亲子检测实验室,因血浆提取为胎儿微量DNA,为防止污染,不与其他项目的标本制备区共用。
3. 在检测过程中,按照标准的SOP,样本独立操作,避免样本交叉污染。
4. 数据自动分析系统添加防污染监控系统,可提示样本污染,减少错误率。
F. DNA基因识别技术
当人类基因组研究进入一个系统测序阶段时,急需可靠自动的基因组序列注释方法和技术,以处理大量已测定的但未知功能或未经注释的DNA序列,例如,将序列分为基因、启动子、转录调控区等。基因组注释的一个首要问题是找出所有的基因。对于基因组DNA序列中的基因识别方法,人们已研究了近二十年,这是生物信息学领域里的一个重要研究内容。由于DNA测序技术的迅速发展,我们已经得到一些完整的基因组序列,有效地解决基因识别问题显得越来越迫切。基因识别中的一个关键问题是预测编码区域。所谓编码区域预测,一般是指预测DNA序列中编码蛋白质的部分,即基因的外显子部分。而基因识别的最终目标是预测完整的基因结构,正确地识别出一个基因的所有外显子及其边界。
识别DNA序列中蛋白质编码区域的方法主要有两类。一类是基于特征信号的识别。真核基因外显子(编码区域)具有一些特别的序列信号,如内部的外显子被剪切接受体位点和给体位点所界定,5’-端的外显子一定是在核心启动子(Core Promoter,例如TATA盒)的下游,而3’-端的外显子的下游包含多聚A信号和终止编码。根据这些序列特征信号确定外显子的边界,从而达到识别编码区域的目的。 然而没有一个算法在预测基因时仅仅检测这些信号,因为这些信号的强度太弱,它们缺乏统计的显着性。另一类是基于统计度量的方法,对编码区进行统计特性分析。通过统计而获得的经验说明,DNA中密码子的使用频率不是平均分布的,某些密码子会以较高的频率使用,而另一些则较少使用。这样就使得编码区的序列呈现出可察觉的统计特异性,即“密码子偏好性(codon biases)”。利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。统计度量方法主要包括:密码子使用倾向(codon usage)、双联密码统计度量(dicodon statistic measure)、核苷酸周期性分析(即分析同一个核苷酸在3,6,9,…位置上周期性出现的规律)、基因组中等值区(isochore)的分析等。
最初基因分析方法是进行简单的核苷酸统计,而后加上剪切保守位点的检测。以后采用了人工神经网络、隐马尔柯夫模型等先进的信息处理和分析技术,并与同源序列搜索结合起来,通过与已知基因序列或者EST序列的比较,提高基因识别的准确率。基因识别方法又可以分成两大类,即从头算方法(或基于统计的方法)和基于同源序列比较的方法。从头算方法根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子、内含子及基因间区域。基于同源的方法利用数据库中现有与基因有关的信息(如EST序列、蛋白质序列),通过同源比较,帮助发现新基因。对于新的DNA序列,搜索与已知蛋白质、EST相似的区域,发现编码区域。最理想的方法是综合两大类方法的优点,开发混合算法。常见的编码区分析工具通常将多种技术组合起来,给出对编码区的综合判别,如利用下文介绍的神经网络方法等。
5.5.1 最长ORFs法
对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。例如,对于序列ATTCGATCGCAA,一种可能的密码子阅读顺序为ATT、CGA、TCG、CAA,另外两种可能的密码子阅读顺序分别为A、TTC、GAT、CGC、AA和AT、TCG、ATC、GCA、A。这三种阅读顺序称为阅读框(reading frames)。一个开放阅读框(ORF, open reading frame)是一个没有终止编码的密码子序列。
可以用最长ORFs法识别原核基因。原核基因结构相对比较简单,其基因识别任务的重点是识别开放阅读框,或者说是识别长的编码区域。辨别序列是编码区域或是非编码区域的一种方法是检查终止密码子的出现频率。由于一共有64个密码子,其中3个是终止密码子,因此,如果一条核酸序列是均匀随机分布的,那么终止密码子出现的期望次数为每21(»64/3)个密码子出现一次终止密码子。每个编码区域只存在一个终止密码子,该密码子作为编码区域的结束标志。因此,如果能够找到一个比较长的序列,其相应的密码子序列不含终止密码子,那么这段序列可能就是编码区域。在实现基于上述思想的算法时,扫描给定的DNA序列,在三个不同的阅读框中寻找较长的ORF;当遇到终止密码子以后,回头寻找起始密码子,以确定完整的编码区域。
大部分早期的DNA序列数据来自于线粒体或细菌基因组,最早的基因识别方法就是针对这类序列数据而发展起来的。一个简单的算法,如果它能够发现较长的ORF,并使用长度阈值(例如300bp),则该算法将检测到大多数基因,并且具有很好的特异性。当然,这种算法比较简单,不适合处理短的ORF或者交叠的ORF。
5.5.2 基于密码子出现频率的预测方法
真核基因远比原核基因复杂,一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片段。另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因上游区域。为了确定基因在一段序列上所处的位置,需要首先找出基因两端的功能区域,即转录启动区和终止区,然后在启动区下游位置寻找翻译起始密码子,从而确定基因起始位置。为了取出外显子,而将内含子剔除,必须识别转录剪切位点,即剪切给体位点和剪切接受体位点。
必须清楚,要想设计一个100%识别编码区域的程序几乎是不可能的。问题是如何提高一个识别算法的敏感性Sn和特异性Sp。Sn 和Sp都应该比较高,若一个算法的测试结果仅仅一个很高,而另一个很低,则该算法是不成功的。例如,假设有一个识别编码区域的算法,它将所有介于AG和GT之间的序列片段都找出来作为识别结果,那么该算法的敏感性Sn将达到100%,但其特异性Sp却近似于0%。因此,对于一个识别算法,往往用敏感性和特异性的平均值作为衡量其准确率的指数,即(Sn+Sp)/2。在一般情况下,调整程序的参数,使得Sn»Sp。
真核DNA序列中基因的识别是一个复杂的问题,一种方法是首先通过统计分析预测编码区域,挑选出候选的外显子,然后利用动态规划方法构造最优的基因结构,这个最优的基因结构被定义为一个外显子一致的链。然而,直接运用这种方法会遇到概念上和计算上的困难。每一个候选的基因由许多统计参数来刻画,但还不清楚如何将这些统计参数组合到一个打分函数中。这个问题在一定程度上可以用神经网络来解决,运用神经网络为每个候选的外显子打分,或将神经网络与动态规划相结合,从而构造最优基因结构。然而使用标准的动态规划隐含说明仅仅考虑具有加和性的打分,而许多序列分析表明用非线性的函数有时会得到更好的效果。矢量动态规划方法为利用非线性函数提供了可能。矢量动态规划构造一组基因,并确保其中包含满足自然单调条件的函数所对应的最优基因。
这里首先介绍一种根据各个密码子出现频率识别编码区域的方法。例如,亮氨酸、丙氨酸、色氨酸分别有6个、4个和1个密码子,将一个随机均匀分布的DNA序列翻译成氨基酸序列,则在氨基酸序列中上述3种氨基酸出现的比例应该为6:4:1。但是,在真实的氨基酸序列中,上述比例并不正确。这说明DNA的编码区域并非随机序列。
假设在一条DNA序列中已经找到所有的ORF,那么,可以利用密码子频率进一步区分编码ORF和非编码ORF。将每个ORF转换为相应的密码子序列,得到一个64个状态的马尔柯夫链。这里,为每个密码子分配一个状态,状态转换概率即为一个密码子跟随在其他密码子后面的概率。利用这种方法,可以计算一个ORF成为编码区域的可能性。
在识别编码区域的马尔柯夫链模型中,一个密码子出现的概率依赖于其前面一个密码子。下面考虑另一个简单的统计模型,在该模型中,假设相继的密码子是独立的,不存在前后依赖关系。令fabc代表密码子abc在编码区域出现的频率。给定一个不知道阅读框的编码序列a1,b1,c1, a2,b2,c2,…, an+1,bn+1, 对于从密码子a1b1c1开始的阅读框,其n个密码子的出现概率为
同样,在第二种和第三种阅读框中,n个密码子出现的概率分别如下
令Pi代表第i个阅读框成为编码阅读框的概率,其值按下列公式计算:
在设计算法时,在给定的核酸序列上移动一个长度为n的窗口,对窗口内的每个序列片段按上式计算Pi,并根据Pi的值识别编码的阅读框。软件包CGC中的Codon Preference程序采用的就是这种方法。
可以将密码子使用偏性作为编码区域的一种统计特性。对现有的大量序列数据进行分析,不难发现:外显子和内含子在密码子的出现上存在着明显的差异。
在一个基因中,第i个(i=1,64)密码子相对使用倾向RSCUi的定义如下:
其中Obsi是该基因中第i个密码子实际出现的次数,而Expi是对应密码子期望的出现次数。
åaai是统计的第i个密码子出现的次数,åsyni是所有与第i个密码子同义密码子出现的次数。RSCU值大于1表示相应密码子出现的次数比期望次数高,而小于1则表示出现次数相对较少。
实验说明,连续的6个核苷酸出现频率的对比是预测一个窗口是否属于编码区域或非编码区域的最好的单个指标。若编码窗口的长度至少为50 bp,则最好的编码预测准确率约为70%。假设一段DNA序列为S,从S的第i位到第j位的双联密码统计度量IF6(i,j)定义为:
其中,fk是从第k位开始的双联密码的频率,Fk是该双联密码随机出现的频率。这里假设j的取值为大于等于6。
此外,利用密码子第三位的偏性,也可以预测编码区域。这种方法的准确率取决于对已知基因的统计,统计样本数必须足够多。
利用各种统计编码度量,可以预测一段DNA序列是否是编码区域。许多编码区域识别算法都是基于这种思想的。
分析实例:
G. 生物信息学
一, 生物信息学发展简介
生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就
必须先对分子生物学的发展有一个简单的了解.研究生物细胞的生物大分子的结
构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物
成分存在[1],1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),
在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们
仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色.
1944年Chargaff发现了着名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧
定的量总是相等,腺嘌呤与胸腺嘧啶的量相等.与此同时,Wilkins与Franklin
用X射线衍射技术测定了DNA纤维的结构.1953年James Watson 和Francis
Crick在Nature杂志上推测出DNA的三维结构(双螺旋).DNA以磷酸糖链形
成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基
对.这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的
遗传信息可以精确地进行复制.他们的理论奠定了分子生物学的基础.
DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大
肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接
成DNA.DNA的复制需要一个DNA作为模板.Meselson与Stahl(1958)用实验
方法证明了DNA复制是一种半保留复制.Crick于1954年提出了遗传信息传递
的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心
法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起
到了极其重要的指导作用.
经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码
得到了破译.限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程
的技术基础.
正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息
学的出现也就成了一种必然.
2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮.
由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每
天106bp速度增长,生物信息迅速地膨胀成数据的海洋.毫无疑问,我们正从一
个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发
现的可能,"生物信息学"正是从这一前提产生的交叉学科.粗略地说,该领域
的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA
序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,
分子演化及结构生物学,统计学及计算机科学等许多领域.
生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信
息的获取,处理,存储,分配和解释.基因组信息学的关键是"读懂"基因组的核
苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在
发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的
功能进行药物设计[2].了解基因表达的调控机理也是生物信息学的重要内容,根
据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律.它的研
究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗
传语言.生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研
究的前沿.
二, 生物信息学的主要研究方向
生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些
主要的研究重点.
1,序列比对(Sequence Alignment)
序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似
性.从生物学的初衷来看,这一问题包含了以下几个意义[3]:
从相互重叠的序列片断中重构DNA的完整序列.
在各种试验条件下从探测数据(probe data)中决定物理和基因图
存贮,遍历和比较数据库中的DNA序列
比较两个或多个序列的相似性
在数据库中搜索相关序列和子序列
寻找核苷酸(nucleotides)的连续产生模式
找出蛋白质和DNA序列中的信息成分
序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前
两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权
和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个
序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海
量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算
法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,着名的
BALST和FASTA算法及相应的改进方法均是从此前提出发的.
2, 蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.
蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般
相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),
蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸
的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.
研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找docking
drugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.
直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构
在进化中更稳定的保留,同时也包含了较AA序列更多的信息.
蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应
(不一定全真),物理上可用最小能量来解释.
从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同
源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用
于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较
进化族中不同的蛋白质结构.
然而,蛋白结构预测研究现状还远远不能满足实际需要.
3, 基因识别,非编码区分析研究.
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组
序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢
弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序
列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码
区DNA序列目前没有一般性的指导方法.
在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已
完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序
列是难以想象的.
侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔
可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden
Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进
化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相
关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似
性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.
早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化
的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角
度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:
Orthologous: 不同种族,相同功能的基因
Paralogous: 相同种族,不同功能的基因
Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.
这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白
质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统
的聚类方法(如UPGMA)来实现.
5, 序列重叠群(Contigs)装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,
如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列
全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直
至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个
NP-完全问题.
6, 遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上
一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.
不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说
来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源
和检验上述理论的真伪提供了新的素材.
7, 基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,
相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物
治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要
的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础
上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一
领域目的是发现新的基因药物,有着巨大的经济效益.
8, 其他
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,
逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的
学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组
学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学.
从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对
与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认
识.
三, 生物信息学与机器学习
生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.
常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问
题.究竟原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完
备的生命组织理论.
西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作
时更有效[4].机器学习的目的是期望能从数据中自动地获得相应的理论,通过采
用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"
模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.
机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能
[5].
机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,
而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花
费巨大的人工处理方法.早期的科学方法—观测和假设----面对高数据的体积,
快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了.因
而,生物信息学与机器学习相结合也就成了必然.
机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是
统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推
理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马
尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和
探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般
的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析
(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(Locally
Linear embedding).2)生成假设和形式化模型来解释现象[6].大多数聚类方法可
看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于
microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数
据库中获得相应的现象解释.
机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多
假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息
学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻
找数据集的内在结构.其次,机器学习方法中常采用"黑箱"操作,如神经网络
和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.
四, 生物信息学的数学问题
生物信息学中数学占了很大的比重.统计学,包括多元统计学,是生物信息
学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型
(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质
空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓
扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理
论或多或少在生物学研究中起到了相应的作用.
但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学
和度量空间为例来说明.
1, 统计学的悖论
数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显着的悖
论莫过于均值了,如图1:
图1 两组同心圆的数据集
图1是两组同心圆构成的数据集,显然,两组数据集的均值均在圆点,这也
就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多
的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法
和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于
对数据的结构缺乏一般性认识而产生的.
2, 度量空间的假设
在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举
例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分
值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.
那么,是否这种前提假设具有普适性呢
我们不妨给出一般的描述:假定两个向量为A,B,其中,
,则在假定且满足维数间线性无关的前提下,两个
向量的度量可定义为:
(1)
依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息
学中常采用的一般性描述,即假定了变量间线性无关.
然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考
虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的
度量公式可由下式给出:
(2)
上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足
(3)
时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线
性相关性,我们正在研究这个问题.
五, 几种统计学习理论在生物信息学中应用的困难
生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却
一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的
巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来
改善性能是必然的[7].以下对基于这一思想产生的统计学习理论[8],Kolmogorov
复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介
绍.
支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计
学习理论,是通过最大化两个数据集的最大间隔来实现分类,对于非线性问题则
采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性
质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函
数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核
函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选
择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中
又一个大气泡.
Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习
的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov
复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只
适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参
数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.
BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的
惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃刀("Occam Razor")原理,近
年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验
的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索
的空间.
六, 讨论与总结
人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平
上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互
关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这
些问题做出探讨和思索.
启发式方法:
Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优
的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得
到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的
困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能
达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,
要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,
要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工
智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.
问题规模不同的处理:
Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数
据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这
好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法
一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同
样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据
挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用
动态规划,而在大规模序列对齐时不得不引入启发式方法,如BALST,FASTA.
乐观中的隐扰
生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因
组时代",目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在
的隐扰呢
不妨回顾一下早期人工智能的发展史[11],在1960年左右,西蒙曾相信不出
十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相
同的机器人.而至今为止,这一诺言仍然遥遥无期.尽管人工智能研究得到的成
果已经渗入到各个领域,但对人的思维行为的了解远未完全明了.从本质来看,
这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的
本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不
能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现
实.
反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从
结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所
有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为,也来
自于早期分子生物学,生物物理和生物化学的成就.然而,从本质上来讲,与人
工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的
功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我
们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐
观呢 现在说肯定的话也许为时尚早.
综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,
是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为
各种学科的简单堆砌,相互之间的联系并不是特别的紧密.在处理大规模数据方
面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全
明了,这使得生物信息学的研究短期内很难有突破性的结果.那么,要得到真正
的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从
数学上的新思路来获得本质性的动力.
毫无疑问,正如Dulbecco1986年所说:"人类的DNA序列是人类的真谛,
这个世界上发生的一切事情,都与这一序列息息相关".但要完全破译这一序列
以及相关的内容,我们还有相当长的路要走.
(来源 ------[InfoBio.org | 生物信息学研讨组])http://www.infobio.org
生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
生物信息学是一门利用计算机技术研究生物系统之规律的学科。
目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。
1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?
生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。
生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学
姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。
原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。
H. 如下哪个生物信息学方法可以用来寻找新基因
生物信息学方法可以用来寻找新基因.
1,序列比对(Sequence Alignment)
序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,着名的BALST和FASTA算法及相应的改进方法均是从此前提出发的.
2, 蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要.
3, 基因识别,非编码区分析研究.
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因;Paralogous: 相同种族,不同功能的基因;Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现.
5, 序列重叠群(Contigs)装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题.
6, 遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材.
7, 基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益.
8.生物系统的建模和仿真
随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Schering Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系 统建模主要困难。系统描述和建模方法也需要开创性的发展。
9.生物信息学技术方法的研究
生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难, 需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。
10, 生物图像
没有血缘关系的人,为什么长得那么像呢?
外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合?
有什么生物学基础?基因是不是相似?我不知道,希望专家解答。
11, 其他
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.