基因識別演算法
A. 如果普通人想檢測自己基因,了解自己到底來自哪些人種,哪些族群的融合,應該通過什麼途徑去什麼機構
途徑如下:
根據23andMe所使用的屬於題主的需求叫作Ancestry Composition,中文暫且稱之為祖源成分。其根本邏輯就是沒有任何一個現代是純粹的某一種人群,都是若干族群的混合。利用大規模的數據量,以及古人類的DNA數據,輔以類似貝葉斯或者支持向量機之類的機器學習演算法。
就能推斷出一個人的基因組中各種族群所佔的比例。這種計算對數據量是有要求的。根據UCLA的Admixture軟體的說明,區分各大洲的人群,需要檢測的位點數一般不低於1萬個多態位點,要區分大洲內部的人群。
例如中國人和日本人,檢測的多態位點數一般不能低於10萬;如果要進一步區分中國的不同人群,例如南方漢族、北方漢族、各個少數民族等等,需要的多態位點數會進一步上升。因此,市場上,尤其是國內的絕大部分所謂的基因檢測所產生的數據量都不能用於來做這個分析。
一般消費者可以購買到的可以用於祖源成分分析服務,非官方信息,可能有些謬誤:
1、華大基因個人基因組服務:全外顯子測序服務,提供罕見突變的專業解讀服務,提供祖源分析報告,售價比較貴,購買請聯系華大基因在各地的銷售或代理。
2、23andme等:都是美國的高通量晶元檢測服務,提供用戶體驗一流的祖源成分報告,缺點是要海淘,而且樣品出入境都比較麻煩。欲購買,請上萬能的淘寶。
3、源基因:上海復旦大學嚴實老師擔任科學顧問的基因檢測公司,專門從事祖源相關的檢測和分析服務。
4、BTW:上海人類學學會提供的服務不包含祖源成分分析服務,暫時只有Y染色體單倍群和MT染色體單倍群等解讀服務。
5、利益相關:WeGene聯合創始人。
B. 誰知道指紋和DNA怎樣鑒別
指紋是人類手指末端指腹上由凹凸的皮膚所形成的紋路。指紋能使手在接觸物件時增加摩擦力,從而更容易發力及抓緊物件。是人類進化過程式中自然形成的。 指紋由遺傳影響,由於每個人的遺傳基因均不同,所以指紋也不同。然而,指紋的形成雖然主要受到遺傳影響,但也有環境因素,當胎兒在母體內發育三至四個月時,指紋就已經形成,但兒童在成長期間指紋會略有改變,直到青春期14歲左右時才會定型。在皮膚發育過程中,雖然表皮、真皮,以及基質層都在共同成長,但柔軟的皮下組織長得比相對堅硬的表皮快,因此會對表皮產生源源不斷的上頂壓力,迫使長得較慢的表皮向內層組織收縮塌陷,逐漸變彎打皺,以減輕皮下組織施加給它的壓力。如此一來,一方面使勁向上攻,一方面被迫往下撤,導致表皮長得曲曲彎彎,坑窪不平,形成紋路。這種變彎打皺的過程隨著內層組織產生的上層壓力的變化而波動起伏,形成凹凸不平的脊紋或皺褶,直到發育過程中止,最終定型為至死不變的指紋。 指紋有3種基本類型——環型、弓型和螺旋型。是皮下組織對指肚表皮頂壓方向的不同造就了這不同的類型。研究表明,如果某人指頭肚高而圓,其指紋的紋路將是螺旋型。現在,科學家已能夠通過模型再現那些較為常見的指紋,也能重復不太復雜的罕見指紋的形成過程。 目前尚未發現有不同的人擁有相同的指紋,所以每個人的指紋也是獨一無二。由於指紋是每個人獨有的標記,近幾百年來,罪犯在犯案現場留下的指紋,均成為警方追捕疑犯的重要線索。現今鑒別指紋方法已經電腦化,使鑒別程序更快更准。 DNA的科普知識: 1 DNA指紋圖的建立及發展 近百年來的研究認為,任何遺傳分析都是以遺傳標志為基礎的,而任何一個遺傳標志的價值又在於其變異 性(即多態性)的大小。有關遺傳多態性的研究對促進人類學、遺傳學、免疫學以及法醫學的發展, 以及對闡明某些疾病的發病機理乃至協助診斷等方面都起了十分重要的作用。但以往的研究都是利用各種外部表現型、生理缺陷型、同工酶、多態蛋白等作為遺傳標志,用間接分析來推論相應的遺傳基因。 70年代末,限制性內切酶和重組體DNA技術的出現以及分子生物學的飛速發展,使人們對遺傳標志的研究轉向DNA分子本身。由於各種遺傳信息都蘊藏在DNA分子上,生物個體間的差異在本質上是DNA分子的差異,因此DNA被認為是最可靠的遺傳標志。某些DNA序列的差異可通過限制性酶切片段長度的改變來反映,此即限制性片段長度多態性(restriction fragment length polymorphisms,RFLP),其產生是由於點突變、DNA重排、插入或缺失引起的〔1〕。隨著對RFLP研究的深入,人們發現了基因組中最有變異性的一類序列——高變異DNA序列,使DNA遺傳標志的發展和應用得到了一次飛躍。 1980年,Wyman和White描述了第一個多等位性的具有高度多態性的人類DNA標志。不久,在胰島素基因(Insulingene)的5′端區域、致癌基因(C-Haras I Oncogene)的3′端分別發現了相同的高度可變的標志(hypervariable marker)。在α-球蛋白(α-globin)基因群周圍還發現了其它三個標志〔2〕。1982年,Bell等〔3〕證實:這些高度多態性區域串聯著重復的短序列單位,重復單位數目的差異導致了這種高度的可變性,由於這些結構特徵,人們稱這些區域為小衛星(minisatellite)或高度可變區域(hypervariable)或可變數目的串聯重復(variable number of tandem repeats)。 1985年,Jeffreys 等〔4〕用肌紅蛋白基因第一內含子中的串聯重復序列(重復單位含33bp)作探針,從人的基因文庫中篩選出8個含有串聯重復序列(小衛星)的重組克隆。序列分析表明,這8個小衛星重復單位的長度和序列不完全相同,但都有相同的核心序列(core sequence)即GGCCAGGA/GGG。他們先後用兩個多核心小衛星(poly coreminisate -llite)33.6和33.15探針進行southern雜交,在低嚴謹條件下雜交得到了包含10多條帶的雜交圖譜,不同個體雜交圖譜上帶的位置就象人的指紋一樣千差萬別,Jeffrey稱之為DNA指紋(DNA fingerprint)〔5〕,又名遺傳指紋(genetic fingerprint)。 RFLP DNA指紋分析技術由於方法繁雜、周期長、實驗條件高等缺陷而無法大范圍推廣。1990年,Williams等〔6〕首次報道了AP-PCR技術,Welsh和McCelland〔7〕亦獨立地進行了這方面的工作,從而使DNA指紋技術應用更加廣泛。AP-PCR技術是採用隨意設計的1個或2個引物,對模板DNA進行PCR擴增,一般先是在低嚴格條件,即在高Mg2+濃度(大於傳統PCR Mg2+濃度1.5mmol/L)、較低退火溫度(36℃~50℃)下進行1~6個循環的PCR擴增,隨後在嚴格條件下進行PCR擴增,產物經2%瓊脂糖凝膠電泳或6%變性聚丙烯醯胺凝膠電泳分離,可得到DNA指紋圖譜。其基本原理是:在低嚴格復性條件下,引物與模板DNA非完全互補序列形成錯配,錯配引物在DNA聚合酶作用下沿模板鏈延伸,合成新鏈,當在一定距離內模板DNA另一單鏈也發生引物錯配時,即可對兩錯配引物間的DNA進行擴增。但是此種錯配並非隨機發生,引物和模板間,特別是在引物3′端必須存在一定的互補序列,即可產生不同的擴增片段或組合,通過DNA指紋圖譜,可得到配對DNA樣品中的差異片段,用於克隆、測序、染色體定位和基因片段的生物學功能研究。 我國楊建廠等〔8〕利用PCR的原理成功地建立了一種全新的DNA指紋檢測技術,稱之為隨機引物PCR人DNA指紋檢測技術(arbitrarily primed PCR human DNA fingerprinting,APHDP),此外還開發出處理DNA指紋數據應用軟體,應用於個人識別、遺傳素質與疾病的相關特徵研究等。 DNA指紋的識別 ________________________________________ 1984年英國萊斯特大學的遺傳學家Jefferys及其合作者首次將分離的人源小衛星DNA用作基因探針,同人體核DNA的酶切片段雜交,獲得了由多個位點上的等位基因組成的長度不等的雜交帶圖紋,這種圖紋極少有兩個人完全相同,故稱為"DNA指紋",意思是它同人的指紋一樣是每個人所特有的。DNA指紋的圖像在X光膠片中呈一系列條紋,很像商品上的條形碼。DNA指紋圖譜,開創了檢測DNA多態性(生物的不同個體或不同種群在DNA結構上存在著差異)的多種多樣的手段,如RFLP(限制性內切酶酶切片段長度多態性)分析、串聯重復序列分析、RAPD(隨機擴增多態性DNA)分析等等。各種分析方法均以DNA的多態性為基礎,產生具有高度個體特異性的DNA指紋圖譜,由於DNA指紋圖譜具有高度的變異性和穩定的遺傳性,且仍按簡單的孟德爾方式遺傳,成為目前最具吸引力的遺傳標記。 DNA指紋具有下述特點:1.高度的特異性:研究表明,兩個隨機個體具有相同DNA圖形的概率僅3×10-11;如果同時用兩種探針進行比較,兩個個體完全相同的概率小於5×10-19。全世界人口約50億,即5×109。因此,除非是同卵雙生子女,否則幾乎不可能有兩個人的DNA指紋的圖形完全相同。2.穩定的遺傳性:DNA是人的遺傳物質,其特徵是由父母遺傳的。分析發現,DNA指紋圖譜中幾乎每一條帶紋都能在其雙親之一的圖譜中找到,這種帶紋符合經典的孟德爾遺傳規律,即雙方的特徵平均傳遞50%給子代。3.體細胞穩定性:即同一個人的不同組織如血液、肌肉、毛發、精液等產生的DNA指紋圖形完全一致。 1985年Jefferys博士首先將DNA指紋技術應用於法醫鑒定。1989年該技術獲美國國會批准作為正式法庭物證手段。我國警方利用DNA指紋技術已偵破了數千例疑難案件。DNA指紋技術具有許多傳統法醫檢查方法不具備的優點,如它從四年前的精斑、血跡樣品中,仍能提取出DNA來作分析;如果用線粒體DNA檢查,時間還將延長。此外千年古屍的鑒定,在俄國革命時期被處決沙皇尼古拉的遺骸,以及最近在前南地區的一次意外事故中機毀人亡的已故美國商務部長布朗及其隨行人員的遺骸鑒定,都採用了DNA指紋技術。 此外,它在人類醫學中被用於個體鑒別、確定親緣關系、醫學診斷及尋找與疾病連鎖的遺傳標記;在動物進化學中可用於探明動物種群的起源及進化過程;在物種分類中,可用於區分不同物種,也有區分同一物種不同品系的潛力。在作物的基因定位及育種上也有非常廣泛的應用。 DNA指紋圖譜法的基本操作:從生物樣品中提取DNA(DNA一般都有部分的降解),可運用PCR技術擴增出高可變位點(如VNTR系統,串聯重復的小衛星DNA等)或者完整的基因組DNA,然後將擴增出的DNA酶切成DNA片斷,經瓊脂糖凝膠電泳,按分子量大小分離後,轉移至尼龍濾膜上,然後將已標記的小衛星DNA探針與膜上具有互補鹼基序列的DNA片段雜交,用放射自顯影便可獲得DNA指紋圖譜。 瓊脂糖凝膠電泳是分離,鑒定和純化DNA片段的常規方法。利用低濃度的熒光嵌入染料-溴化乙錠進行染色,可確定DNA在凝膠中的位置。如有必要,還可以從凝膠中 回收DNA條帶,用於各種克隆操作。瓊脂糖凝膠的分辨能力要比聚丙烯醯胺凝膠低,但其分離范圍較廣。用各種濃度的瓊脂糖凝膠可以分離長度為200bp至近50kbp的DNA。長度100kb或更大的DNA,可以通過電場方向呈周期性變化的脈沖電場凝膠電泳進行分離。 在基因工程的常規操作中,瓊脂糖凝膠電泳應用最為廣泛。它通常採用水平電泳裝置,在強度和方向恆定的電場下進行電泳。DNA分子在凝膠緩沖液(一般為鹼性)中帶負電荷,在電場中由負極向正極遷移。DNA分子遷移的速率受分子大小,構象。電場強度和方向,鹼基組成,溫度和嵌入染料等因素的影響。 2 DNA指紋技術所用的探針 自DNA指紋技術建立以來,這一技術迅速在動植物的進化關系、親緣關系分析以及法醫學方面得到廣泛應用。也正是由於DNA指紋技術在核酸分析中顯示出了強大的生命力,因而許多學者圍繞此技術所用的探針作了大量的工作,除Jeffrey等〔5〕的探針外,用人工化學合成或從生物組織中提取後再擴增的辦法生產出了一批高水平的探針。迄今,在DNA指紋技術中所用的探針大概有probe33.15、33.6〔5〕、bacteriophage MB〔9〕、pig repetitire clone p83、PGB 725、poly(GT) containing 18.1、(GTG)5/(CAC)5〔10,11〕、(CAC/TA)4及(GT)12等。同時,在探針的標志上也有了很大的發展,根據它們的結構可大致分為小衛星探針和簡單重復序列探針,簡單重復序列包括微衛星探針(microsatellite probe)和寡聚核苷酸探針。小衛星探針的核心序列為33bp,常定位在人常染色體前的末端(proterminal)區域,微衛星探針則在10~20bp之間,而寡聚核苷酸探針在10bp以下,普遍散布在人類整條染色體上,或者在基因間區域或者位於內含子內。 1988年,我國伍新堯等〔12〕根據DNA指紋是人基因組中重復序列的RFLP的原理和人與鼠的髓鞘鹼性蛋白(MBP)基因cDNA同源序列性高於90%的事實,選用鼠MBP cDNA3′端的一段序列(非表達區高度重序列,與人基因組中該類重復序列幾乎完全同源),長度為0.81kb的片段作探針,檢測用HaeⅢ酶解的人DNA限制性片段(RF),在人群中可分出22條譜帶,受檢 的30例無血緣關系的個體之間沒有兩個人的譜帶是完全相同的,顯示這一方法的高度個體特異性,這是國內首次用自已的力量找到DNA指紋的探針。 3 DNA指紋的應用3.1 法醫學方面 同以往的血型測定法相比,DNA指紋技術在法醫學領域上具有無可比擬的優越性。已成為鑒定犯罪、親子鑒定和確定個體間親緣關系的工具〔5,13〕。隨後,國內學者李伯齡〔14〕、姜先華〔15〕、伍新堯等〔12〕也先後對此項技術進行了研究,並應用於實際案件的鑒定中,解決了過去無法解決的疑難案例,如微量血痕、部分腐敗的碎屍塊的個人認定等。 3.2 在動植物科學中的應用 3.2.1 生物種群學研究 利用DNA指紋圖可以估算連鎖不平衡,比較等位基因的頻率,還能估計不同個體之間的重組率,在種群學研究上有助於建立某一個體在種群中的地位和關系,特別是對真菌的種群研究,有很多真菌可以通過有性和無性的方式繁殖,但是何時以何種方式繁殖,程度如何,並不清楚,而利用DNA指紋圖就能區分以有性和無性方式產生的後代,並能確定某一區域真菌的自然分布〔1,16〕。 3.2.2 測定物種之間的遺傳距離、物種分類鑒定 Jeffreys等〔5〕認為在一個群體的不同成員間拷貝數的串聯重復序列(VNTR)由於多態性程度高,在遺傳分析中尤其適合作為多態性標志,簡單重復的不穩定性可導致VNTR長度的迅速變化,根據家族中或育種群體中VNTR的分離重組頻率,可以測定出遺傳距離,可用統計學公式確定個體間的親緣關系:D=2Nab/(Na+Nb),,D值越大,親緣關系越近,遺傳距離就越小;D值越小,親緣關系越遠,遺傳距離就越大。為此,運用DNA指紋技術可檢測不同物種、同種及同種不同個體的親緣關系,用於物種分類鑒定,也可用於雜交後代親本決定,雜交後代群體分開,檢測近等基因系(或同類系)種的多態性,並對檢測基因進行定位。Welsh等〔7〕對布氏疏螺旋體菌株的DNA指紋進行分析,發現這種lyme病的病原菌實際上是由三個不同的種群組成。羅超權等〔12〕運用AP-PCR鑒定弓形蟲蟲株,在國內開創了運用DNA指紋技術作生物分類的先例。 3.3 在流行病學方面的運用 由於DNA指紋具有以下幾個特點:①能反映基因組的變異性;②具有高度的變異性;③具有簡單的穩定的遺傳性;④DNA指紋譜具有體細胞穩定性。所以,它同一般的流行病學方法相比較而言,具有無比的優越性,使其成為流行病調查的一種有效工具。Jan DA等〔17〕,Denise Chevrel-Dellagi等〔18〕運用IS6110序列作探針對結核病分支桿菌株進行DNA指紋分析,調查國際間結核病的種型、分析流行情況,改進了控制結核病的方法。而ZhenHua Yang等〔19〕從67個病人中分離出結核病分支桿菌株進行DNA指紋分析,發現分離到PTBN12型時易查明流行環節,從而為快速進行疾病控制提供了一個有力證據。在我國,童笑梅等〔20〕採用隨機擴增多態DNA指紋圖技術對醫院內感染的14例新生兒進行病原流行病學分析,發現患兒體內攜帶的與醫務人員鼻中攜帶的華納葡萄球菌菌株的DNA指紋圖完全一致,從而證明此次感染的病原菌為華納葡萄球菌,傳染源是攜帶病菌的醫務人員。郭永建等〔21〕在6個月內對121名產科新生兒中的30名檢出的31株銅綠假單胞菌進行RAPD指紋圖譜分析和血清學分型,結果表明,銅綠假單胞菌在產科新生兒中暴發流行,0∶6/R∶1型為暴發流行性菌株,對醫院感染病原菌分型、精確確定傳染源、阻斷傳播途徑、控制和預防醫院感染具有重要的指導意義。 3.4 疾病診斷及治療 鑒於DNA指紋所具有的上述特點,故DNA指紋廣泛應用於一些疾病的診斷及治療。Morral〔22〕等發現CF基因9號外顯子側翼含有一小衛星區,且此等位基因2.6帶常與△F508連鎖,相伴率為50.6%、41.6%,△F508是最主要的致病突變,可疑患者電泳圖只要發現2.6等位基因,就可對此病進行初步診斷。現已在Wilson病、外周神經纖維瘤、成人多束腎、多巴性肌緊張、Frecbreich共濟失調、Kallmunm綜合征性連鎖、視網膜病等基因內或旁側發現有高度的小衛星區域,從而可進行基因診斷。Okamoto R〔23〕用DNA指紋法預測慢性粒cell性白血病骨髓移植術後復發,取得了成功。 3.5 腫瘤的研究 腫瘤是多因素、多階段的變化過程,病因復雜、變化多樣,但歸根到底還是在DNA的變化上。一般說來,癌組織、轉移灶與正常組織或外周血細胞DNA指紋有差別,常見的是某條帶或幾條帶的缺失,某一條或某幾條帶密度降低,或者癌組織中出現新的帶。Thein等〔24〕用33.6和33.15為探針研究患者DNA指紋譜變化,發現胃腸腫瘤患者癌組織DNA指紋譜全有改變,並認為體細胞突 變還有種屬特異性。劉霜等〔25〕應用RAPD(隨機擴增多態性DNA)分析技術對6例肝癌患者的癌組織與非癌組織進行分析,發現所有肝癌組織基因組DNA的RAPD指紋圖譜均存在差異,其中3例配對肝癌基因組中均存在一相同的0.9Kb的隨機擴增片段。楊建廠等〔8〕用APHDFF技術對28例確診為鼻咽癌病人血DNA指紋圖的檢測,發現有3條DNA片段出現的頻率明顯低於健康人群。王黛等〔26〕用LE11.8、MYO和Mb探針,經Southern雜交法檢測12例兒童急性粒cell白血病患者的外周血或骨髓細胞的基因重排,結果發現初始或復發與完全緩解時的DNA指紋圖相比,譜帶有增加或減少,從而認為急性粒細胞白血病患兒的白血病細胞存在基因重排。 參考資料:http://..com/question/13180448.html
C. DNA的意思是什麼
脫氧核糖核酸(英語:deoxyribonucleic acid,縮寫:DNA)又稱去氧核糖核酸,是一種生物大分子,可組成遺傳指令,引導生物發育與生命機能運作。主要功能是信息儲存,可比喻為「藍圖」或「配方」。
其中包含的指令,是建構細胞內其他的化合物,如蛋白質與核糖核酸所需。帶有蛋白質編碼的DNA片段稱為基因。其他的DNA序列,有些直接以本身構造發揮作用,有些則參與調控遺傳信息的表現。
DNA是一種長鏈聚合物,組成單位稱為核苷酸,而糖類與磷酸藉由酯鍵相連,組成其長鏈骨架。每個糖單位都與四種鹼基里的其中一種相接,這些鹼基沿著DNA長鏈所排列而成的序列,可組成遺傳密碼,是蛋白質氨基酸序列合成的依據。
讀取密碼的過程稱為轉錄,是根據DNA序列復制出一段稱為RNA的核酸分子。多數RNA帶有合成蛋白質的信息,另有一些本身就擁有特殊功能,例如核糖體RNA、小核RNA與小干擾RNA。
在細胞內,DNA能組織成染色體結構,整組染色體則統稱為基因組。染色體在細胞分裂之前會先行復制,此過程稱為DNA復制。對真核生物,如動物、植物及真菌而言,染色體是存放於細胞核內;對於原核生物而言,如細菌,則是存放在細胞質中的擬核里。
染色體上的染色質蛋白,如組蛋白,能夠將DNA組織並壓縮,以幫助DNA與其他蛋白質進行交互作用,進而調節基因的轉錄。
(3)基因識別演算法擴展閱讀:
歷史
最早分離出脫氧核糖核酸的弗雷德里希·米歇爾是一名瑞士醫生,他在1869年,從廢棄綳帶里所殘留的膿液中,發現一些只有顯微鏡可觀察的物質。由於這些物質位於細胞核中,因此米歇爾稱之為「核素」(nuclein)。
到了1919年,菲巴斯·利文進一步辨識出組成脫氧核糖核酸的鹼基、糖類以及磷酸核苷酸單元,他認為脫氧核糖核酸可能是許多核苷酸經由磷酸基團的聯結,而串聯在一起。不過他所提出概念中,脫氧核糖核酸長鏈較短,且其中的鹼基是以固定順序重復排列。1937年,威廉·阿斯特伯里完成了第一張X光衍射圖,闡明了脫氧核糖核酸結構的規律性。
1928年,弗雷德里克·格里菲斯從格里菲斯實驗中發現,平滑型的肺炎球菌,能轉變成為粗糙型的同種細菌,方法是將已死的平滑型與粗糙型活體混合在一起。這種現象稱為「轉型」。
但造成此現象的因子,也就是脫氧核糖核酸,是直到1943年,才由奧斯瓦爾德·埃弗里等人所辨識出來。1953年,阿弗雷德·赫希與瑪莎·蔡斯確認了脫氧核糖核酸的遺傳功能,他們在赫希-蔡斯實驗中發現,脫氧核糖核酸是T2噬菌體的遺傳物質。
二、技術應用
1、遺傳工程
重組脫氧核糖核酸技術在現代生物學與生物化學中受到廣泛應用,所謂重組DNA,是指集合其他脫氧核糖核酸序列所製成的人造脫氧核糖核酸,可以質粒或以病毒載體搭載所想要的格式,將脫氧核糖核酸轉型到生物個體中。經過遺傳改造處里之後的生物體,可用來生產重組蛋白質,以供醫學研究使用,或是於農業上栽種。
2、法醫鑒識
法醫可利用犯罪現場遺留的血液、精液、皮膚、唾液或毛發中的脫氧核糖核酸,來辨識可能的加害人。此過程稱為遺傳指紋分析或脫氧核糖核酸特徵測定,此分析方法比較不同人類個體中許多的重復脫氧核糖核酸片段的長度,這些脫氧核糖核酸片段包括短串聯重復序列與小衛星序列等,一般來說是最為可靠的罪犯辨識技術。
不過如果犯罪現場遭受多人的脫氧核糖核酸污染,那麼將會變得較為復雜難解。
3、歷史學與人類學
由於脫氧核糖核酸在經歷一段時間後會積聚一些具有遺傳能力突變,因此其中所包含的歷史信息,可經由脫氧核糖核酸序列的比較,使遺傳學家了解生物體的演化歷史,也就是種系。這些研究是系統發生學的一部分,也是演化生物學上的有利工具。
假如對物種以內范圍的脫氧核糖核酸序列進行比較,那麼群體遺傳學家就可得知特定族群的歷史。此方法的應用范圍可從生態遺傳學到人類學,舉例而言,脫氧核糖核酸證據已被試圖用來尋找失蹤的以色列十支派。
DNA也可以用來調查現代家族的親戚關系,例如建構莎麗·海明斯與托馬斯·傑斐遜的後代之間的家族關系,研究方式則與上述的犯罪調查相當類似,因此有時候某些犯罪調查案件之所以能解決,是因為犯罪現場的脫氧核糖核酸與犯罪者親屬的脫氧核糖核酸相符。
4、生物信息學
生物信息學影響了脫氧核糖核酸序列數據的運用、搜索與數據挖掘工作,並發展出各種用於儲存並搜索脫氧核糖核酸序列的技術,可進一步應用於計算機科學,尤其是字串搜索演算法、機器學習以及資料庫理論[128]。字串搜索或比對演算法是從較大的序列或較多的字母中,尋找單一序列或少數字母的出現位置,可發展用來搜索特定的核苷酸序列。
在其他如文本編輯器的應用里,通常可用簡單的演算法來解決問題,但只有少量可辨識特徵的脫氧核糖核酸序列,卻造成這些演算法的運作不良。序列比對則試圖辨識出同源序列,並定位出使這些序列產生差異的特定突變位置,其中的多重序列比對技術可用來研究種系發生關系及蛋白質的功能。
由整個基因組所構成的數據含有的大量脫氧核糖核酸序列,例如人類基因組計劃的研究對象。若要將每個染色體上的每個基因,以及負責調控基因的位置都標示出來,會相當困難。
脫氧核糖核酸序列上具有蛋白質或RNA編碼特徵的區域,可利用基因識別演算法辨識出來,使研究者得以在進行實驗以前,就預測出生物體內可能表現出來的特殊基因產物。
D. 遺傳神經網路識別原理
4.3.1 遺傳BP簡介
遺傳識別是遺傳演算法+神經網路的一種新興的尋優技術,適合於復雜的、疊加的非線性系統的辨識描述。神經網路演算法是當前較為成熟的識別分類方法,但網路權值的訓練一直存在著缺陷。為此結合具體應用,在對遺傳演算法進行改進的基礎上,本文採用了一種基於遺傳學習權值的神經網路識別方法,並取得了較好的效果。
盡管常規遺傳演算法是穩健的,但針對一個具體問題遺傳演算法只有和其他方法(或稱原有演算法)有效地結合在一起,組成一個新的混合演算法,才能在實際中得到廣泛應用。混合演算法既要保持原有演算法的長處,又要保持遺傳演算法的優點,因此常規遺傳演算法中的適應值函數、編碼、遺傳運算元等必須做適當的修改以適應混合演算法的要求。
4.3.1.1 適應值信息
常規演算法中,適應值常被表示為全局極小,用歐氏距離來實現。例如,適應值常被表示為如下形式:
圖4-5 改進的 GABP計算流程圖
GABP的計算過程圖如圖4-5所示。
E. 無創親子鑒定準不準,和生下來一樣嗎
你好,只要是選擇正規的親子鑒定機構,無創親子鑒定結果是和生下來的一樣。
正規的親子鑒定機構是由省司法廳核實批準的鑒定機構,是有專業的物證鑒定資質的,結果有保障。
一、 國際最先進的生物信息數據分析,演算法優勢可減少測序錯誤帶來的誤差,大大提高准確性和靈敏度。
無創孕期基因檢測所用演算法原理是,將在母親血漿樣本中的平均深度大於100x且在父親樣本中的平均深度大於20x的所有有效位點進行累積親權指數的計算。由於不考慮單個位點鹼基的比例,只計算平均測序深度,可以減少測序錯誤帶來的誤差,因此准確率更高。另外,該演算法只需孕婦DNA中胎兒比例大於2%,且有效位點數大於1000個即可,靈敏度更高。
二、 搭建自動防污染監控系統,實時監測樣本污染,出錯零容忍。
1. 實驗室分區,建立室內質控。
2. 搭建無創孕期親子檢測實驗室,因血漿提取為胎兒微量DNA,為防止污染,不與其他項目的標本制備區共用。
3. 在檢測過程中,按照標準的SOP,樣本獨立操作,避免樣本交叉污染。
4. 數據自動分析系統添加防污染監控系統,可提示樣本污染,減少錯誤率。
F. DNA基因識別技術
當人類基因組研究進入一個系統測序階段時,急需可靠自動的基因組序列注釋方法和技術,以處理大量已測定的但未知功能或未經注釋的DNA序列,例如,將序列分為基因、啟動子、轉錄調控區等。基因組注釋的一個首要問題是找出所有的基因。對於基因組DNA序列中的基因識別方法,人們已研究了近二十年,這是生物信息學領域里的一個重要研究內容。由於DNA測序技術的迅速發展,我們已經得到一些完整的基因組序列,有效地解決基因識別問題顯得越來越迫切。基因識別中的一個關鍵問題是預測編碼區域。所謂編碼區域預測,一般是指預測DNA序列中編碼蛋白質的部分,即基因的外顯子部分。而基因識別的最終目標是預測完整的基因結構,正確地識別出一個基因的所有外顯子及其邊界。
識別DNA序列中蛋白質編碼區域的方法主要有兩類。一類是基於特徵信號的識別。真核基因外顯子(編碼區域)具有一些特別的序列信號,如內部的外顯子被剪切接受體位點和給體位點所界定,5』-端的外顯子一定是在核心啟動子(Core Promoter,例如TATA盒)的下游,而3』-端的外顯子的下游包含多聚A信號和終止編碼。根據這些序列特徵信號確定外顯子的邊界,從而達到識別編碼區域的目的。 然而沒有一個演算法在預測基因時僅僅檢測這些信號,因為這些信號的強度太弱,它們缺乏統計的顯著性。另一類是基於統計度量的方法,對編碼區進行統計特性分析。通過統計而獲得的經驗說明,DNA中密碼子的使用頻率不是平均分布的,某些密碼子會以較高的頻率使用,而另一些則較少使用。這樣就使得編碼區的序列呈現出可察覺的統計特異性,即「密碼子偏好性(codon biases)」。利用這一特性對未知序列進行統計學分析可以發現編碼區的粗略位置。統計度量方法主要包括:密碼子使用傾向(codon usage)、雙聯密碼統計度量(dicodon statistic measure)、核苷酸周期性分析(即分析同一個核苷酸在3,6,9,…位置上周期性出現的規律)、基因組中等值區(isochore)的分析等。
最初基因分析方法是進行簡單的核苷酸統計,而後加上剪切保守位點的檢測。以後採用了人工神經網路、隱馬爾柯夫模型等先進的信息處理和分析技術,並與同源序列搜索結合起來,通過與已知基因序列或者EST序列的比較,提高基因識別的准確率。基因識別方法又可以分成兩大類,即從頭算方法(或基於統計的方法)和基於同源序列比較的方法。從頭算方法根據蛋白質編碼基因的一般性質和特徵進行識別,通過統計值區分外顯子、內含子及基因間區域。基於同源的方法利用資料庫中現有與基因有關的信息(如EST序列、蛋白質序列),通過同源比較,幫助發現新基因。對於新的DNA序列,搜索與已知蛋白質、EST相似的區域,發現編碼區域。最理想的方法是綜合兩大類方法的優點,開發混合演算法。常見的編碼區分析工具通常將多種技術組合起來,給出對編碼區的綜合判別,如利用下文介紹的神經網路方法等。
5.5.1 最長ORFs法
對於任何給定的核酸序列(單鏈DNA或mRNA),根據密碼子的起始位置,可以按照三種方式進行解釋。例如,對於序列ATTCGATCGCAA,一種可能的密碼子閱讀順序為ATT、CGA、TCG、CAA,另外兩種可能的密碼子閱讀順序分別為A、TTC、GAT、CGC、AA和AT、TCG、ATC、GCA、A。這三種閱讀順序稱為閱讀框(reading frames)。一個開放閱讀框(ORF, open reading frame)是一個沒有終止編碼的密碼子序列。
可以用最長ORFs法識別原核基因。原核基因結構相對比較簡單,其基因識別任務的重點是識別開放閱讀框,或者說是識別長的編碼區域。辨別序列是編碼區域或是非編碼區域的一種方法是檢查終止密碼子的出現頻率。由於一共有64個密碼子,其中3個是終止密碼子,因此,如果一條核酸序列是均勻隨機分布的,那麼終止密碼子出現的期望次數為每21(»64/3)個密碼子出現一次終止密碼子。每個編碼區域只存在一個終止密碼子,該密碼子作為編碼區域的結束標志。因此,如果能夠找到一個比較長的序列,其相應的密碼子序列不含終止密碼子,那麼這段序列可能就是編碼區域。在實現基於上述思想的演算法時,掃描給定的DNA序列,在三個不同的閱讀框中尋找較長的ORF;當遇到終止密碼子以後,回頭尋找起始密碼子,以確定完整的編碼區域。
大部分早期的DNA序列數據來自於線粒體或細菌基因組,最早的基因識別方法就是針對這類序列數據而發展起來的。一個簡單的演算法,如果它能夠發現較長的ORF,並使用長度閾值(例如300bp),則該演算法將檢測到大多數基因,並且具有很好的特異性。當然,這種演算法比較簡單,不適合處理短的ORF或者交疊的ORF。
5.5.2 基於密碼子出現頻率的預測方法
真核基因遠比原核基因復雜,一方面,真核基因的編碼區域是非連續的,編碼區域被分割為若干個小片段。另一方面,真核基因具有更加豐富的基因調控信息,這些信息主要分布在基因上游區域。為了確定基因在一段序列上所處的位置,需要首先找出基因兩端的功能區域,即轉錄啟動區和終止區,然後在啟動區下游位置尋找翻譯起始密碼子,從而確定基因起始位置。為了取出外顯子,而將內含子剔除,必須識別轉錄剪切位點,即剪切給體位點和剪切接受體位點。
必須清楚,要想設計一個100%識別編碼區域的程序幾乎是不可能的。問題是如何提高一個識別演算法的敏感性Sn和特異性Sp。Sn 和Sp都應該比較高,若一個演算法的測試結果僅僅一個很高,而另一個很低,則該演算法是不成功的。例如,假設有一個識別編碼區域的演算法,它將所有介於AG和GT之間的序列片段都找出來作為識別結果,那麼該演算法的敏感性Sn將達到100%,但其特異性Sp卻近似於0%。因此,對於一個識別演算法,往往用敏感性和特異性的平均值作為衡量其准確率的指數,即(Sn+Sp)/2。在一般情況下,調整程序的參數,使得Sn»Sp。
真核DNA序列中基因的識別是一個復雜的問題,一種方法是首先通過統計分析預測編碼區域,挑選出候選的外顯子,然後利用動態規劃方法構造最優的基因結構,這個最優的基因結構被定義為一個外顯子一致的鏈。然而,直接運用這種方法會遇到概念上和計算上的困難。每一個候選的基因由許多統計參數來刻畫,但還不清楚如何將這些統計參數組合到一個打分函數中。這個問題在一定程度上可以用神經網路來解決,運用神經網路為每個候選的外顯子打分,或將神經網路與動態規劃相結合,從而構造最優基因結構。然而使用標準的動態規劃隱含說明僅僅考慮具有加和性的打分,而許多序列分析表明用非線性的函數有時會得到更好的效果。矢量動態規劃方法為利用非線性函數提供了可能。矢量動態規劃構造一組基因,並確保其中包含滿足自然單調條件的函數所對應的最優基因。
這里首先介紹一種根據各個密碼子出現頻率識別編碼區域的方法。例如,亮氨酸、丙氨酸、色氨酸分別有6個、4個和1個密碼子,將一個隨機均勻分布的DNA序列翻譯成氨基酸序列,則在氨基酸序列中上述3種氨基酸出現的比例應該為6:4:1。但是,在真實的氨基酸序列中,上述比例並不正確。這說明DNA的編碼區域並非隨機序列。
假設在一條DNA序列中已經找到所有的ORF,那麼,可以利用密碼子頻率進一步區分編碼ORF和非編碼ORF。將每個ORF轉換為相應的密碼子序列,得到一個64個狀態的馬爾柯夫鏈。這里,為每個密碼子分配一個狀態,狀態轉換概率即為一個密碼子跟隨在其他密碼子後面的概率。利用這種方法,可以計算一個ORF成為編碼區域的可能性。
在識別編碼區域的馬爾柯夫鏈模型中,一個密碼子出現的概率依賴於其前面一個密碼子。下面考慮另一個簡單的統計模型,在該模型中,假設相繼的密碼子是獨立的,不存在前後依賴關系。令fabc代表密碼子abc在編碼區域出現的頻率。給定一個不知道閱讀框的編碼序列a1,b1,c1, a2,b2,c2,…, an+1,bn+1, 對於從密碼子a1b1c1開始的閱讀框,其n個密碼子的出現概率為
同樣,在第二種和第三種閱讀框中,n個密碼子出現的概率分別如下
令Pi代表第i個閱讀框成為編碼閱讀框的概率,其值按下列公式計算:
在設計演算法時,在給定的核酸序列上移動一個長度為n的窗口,對窗口內的每個序列片段按上式計算Pi,並根據Pi的值識別編碼的閱讀框。軟體包CGC中的Codon Preference程序採用的就是這種方法。
可以將密碼子使用偏性作為編碼區域的一種統計特性。對現有的大量序列數據進行分析,不難發現:外顯子和內含子在密碼子的出現上存在著明顯的差異。
在一個基因中,第i個(i=1,64)密碼子相對使用傾向RSCUi的定義如下:
其中Obsi是該基因中第i個密碼子實際出現的次數,而Expi是對應密碼子期望的出現次數。
åaai是統計的第i個密碼子出現的次數,åsyni是所有與第i個密碼子同義密碼子出現的次數。RSCU值大於1表示相應密碼子出現的次數比期望次數高,而小於1則表示出現次數相對較少。
實驗說明,連續的6個核苷酸出現頻率的對比是預測一個窗口是否屬於編碼區域或非編碼區域的最好的單個指標。若編碼窗口的長度至少為50 bp,則最好的編碼預測准確率約為70%。假設一段DNA序列為S,從S的第i位到第j位的雙聯密碼統計度量IF6(i,j)定義為:
其中,fk是從第k位開始的雙聯密碼的頻率,Fk是該雙聯密碼隨機出現的頻率。這里假設j的取值為大於等於6。
此外,利用密碼子第三位的偏性,也可以預測編碼區域。這種方法的准確率取決於對已知基因的統計,統計樣本數必須足夠多。
利用各種統計編碼度量,可以預測一段DNA序列是否是編碼區域。許多編碼區域識別演算法都是基於這種思想的。
分析實例:
G. 生物信息學
一, 生物信息學發展簡介
生物信息學是建立在分子生物學的基礎上的,因此,要了解生物信息學,就
必須先對分子生物學的發展有一個簡單的了解.研究生物細胞的生物大分子的結
構與功能很早就已經開始,1866年孟德爾從實驗上提出了假設:基因是以生物
成分存在[1],1871年Miescher從死的白細胞核中分離出脫氧核糖核酸(DNA),
在Avery和McCarty於1944年證明了DNA是生命器官的遺傳物質以前,人們
仍然認為染色體蛋白質攜帶基因,而DNA是一個次要的角色.
1944年Chargaff發現了著名的Chargaff規律,即DNA中鳥嘌呤的量與胞嘧
定的量總是相等,腺嘌呤與胸腺嘧啶的量相等.與此同時,Wilkins與Franklin
用X射線衍射技術測定了DNA纖維的結構.1953年James Watson 和Francis
Crick在Nature雜志上推測出DNA的三維結構(雙螺旋).DNA以磷酸糖鏈形
成發雙股螺旋,脫氧核糖上的鹼基按Chargaff規律構成雙股磷酸糖鏈之間的鹼基
對.這個模型表明DNA具有自身互補的結構,根據鹼基對原則,DNA中貯存的
遺傳信息可以精確地進行復制.他們的理論奠定了分子生物學的基礎.
DNA雙螺旋模型已經預示出了DNA復制的規則,Kornberg於1956年從大
腸桿菌(E.coli)中分離出DNA聚合酶I(DNA polymerase I),能使4種dNTP連接
成DNA.DNA的復制需要一個DNA作為模板.Meselson與Stahl(1958)用實驗
方法證明了DNA復制是一種半保留復制.Crick於1954年提出了遺傳信息傳遞
的規律,DNA是合成RNA的模板,RNA又是合成蛋白質的模板,稱之為中心
法則(Central dogma),這一中心法則對以後分子生物學和生物信息學的發展都起
到了極其重要的指導作用.
經過Nirenberg和Matthai(1963)的努力研究,編碼20氨基酸的遺傳密碼
得到了破譯.限制性內切酶的發現和重組DNA的克隆(clone)奠定了基因工程
的技術基礎.
正是由於分子生物學的研究對生命科學的發展有巨大的推動作用,生物信息
學的出現也就成了一種必然.
2001年2月,人類基因組工程測序的完成,使生物信息學走向了一個高潮.
由於DNA自動測序技術的快速發展,DNA資料庫中的核酸序列公共數據量以每
天106bp速度增長,生物信息迅速地膨脹成數據的海洋.毫無疑問,我們正從一
個積累數據向解釋數據的時代轉變,數據量的巨大積累往往蘊含著潛在突破性發
現的可能,"生物信息學"正是從這一前提產生的交叉學科.粗略地說,該領域
的核心內容是研究如何通過對DNA序列的統計計算分析,更加深入地理解DNA
序列,結構,演化及其與生物功能之間的關系,其研究課題涉及到分子生物學,
分子演化及結構生物學,統計學及計算機科學等許多領域.
生物信息學是內涵非常豐富的學科,其核心是基因組信息學,包括基因組信
息的獲取,處理,存儲,分配和解釋.基因組信息學的關鍵是"讀懂"基因組的核
苷酸順序,即全部基因在染色體上的確切位置以及各DNA片段的功能;同時在
發現了新基因信息之後進行蛋白質空間結構模擬和預測,然後依據特定蛋白質的
功能進行葯物設計[2].了解基因表達的調控機理也是生物信息學的重要內容,根
據生物分子在基因調控中的作用,描述人類疾病的診斷,治療內在規律.它的研
究目標是揭示"基因組信息結構的復雜性及遺傳語言的根本規律",解釋生命的遺
傳語言.生物信息學已成為整個生命科學發展的重要組成部分,成為生命科學研
究的前沿.
二, 生物信息學的主要研究方向
生物信息學在短短十幾年間,已經形成了多個研究方向,以下簡要介紹一些
主要的研究重點.
1,序列比對(Sequence Alignment)
序列比對的基本問題是比較兩個或兩個以上符號序列的相似性或不相似
性.從生物學的初衷來看,這一問題包含了以下幾個意義[3]:
從相互重疊的序列片斷中重構DNA的完整序列.
在各種試驗條件下從探測數據(probe data)中決定物理和基因圖
存貯,遍歷和比較資料庫中的DNA序列
比較兩個或多個序列的相似性
在資料庫中搜索相關序列和子序列
尋找核苷酸(nucleotides)的連續產生模式
找出蛋白質和DNA序列中的信息成分
序列比對考慮了DNA序列的生物學特性,如序列局部發生的插入,刪除(前
兩種簡稱為indel)和替代,序列的目標函數獲得序列之間突變集最小距離加權
和或最大相似性和,對齊的方法包括全局對齊,局部對齊,代溝懲罰等.兩個
序列比對常採用動態規劃演算法,這種演算法在序列長度較小時適用,然而對於海
量基因序列(如人的DNA序列高達109bp),這一方法就不太適用,甚至採用算
法復雜性為線性的也難以奏效.因此,啟發式方法的引入勢在必然,著名的
BALST和FASTA演算法及相應的改進方法均是從此前提出發的.
2, 蛋白質結構比對和預測
基本問題是比較兩個或兩個以上蛋白質分子空間結構的相似性或不相似性.
蛋白質的結構與功能是密切相關的,一般認為,具有相似功能的蛋白質結構一般
相似.蛋白質是由氨基酸組成的長鏈,長度從50到1000~3000AA(Amino Acids),
蛋白質具有多種功能,如酶,物質的存貯和運輸,信號傳遞,抗體等等.氨基酸
的序列內在的決定了蛋白質的3維結構.一般認為,蛋白質有四級不同的結構.
研究蛋白質結構和預測的理由是:醫葯上可以理解生物的功能,尋找docking
drugs的目標,農業上獲得更好的農作物的基因工程,工業上有利用酶的合成.
直接對蛋白質結構進行比對的原因是由於蛋白質的3維結構比其一級結構
在進化中更穩定的保留,同時也包含了較AA序列更多的信息.
蛋白質3維結構研究的前提假設是內在的氨基酸序列與3維結構一一對應
(不一定全真),物理上可用最小能量來解釋.
從觀察和總結已知結構的蛋白質結構規律出發來預測未知蛋白質的結構.同
源建模(homology modeling)和指認(Threading)方法屬於這一范疇.同源建模用
於尋找具有高度相似性的蛋白質結構(超過30%氨基酸相同),後者則用於比較
進化族中不同的蛋白質結構.
然而,蛋白結構預測研究現狀還遠遠不能滿足實際需要.
3, 基因識別,非編碼區分析研究.
基因識別的基本問題是給定基因組序列後,正確識別基因的范圍和在基因組
序列中的精確位置.非編碼區由內含子組成(introns),一般在形成蛋白質後被丟
棄,但從實驗中,如果去除非編碼區,又不能完成基因的復制.顯然,DNA序
列作為一種遺傳語言,既包含在編碼區,又隱含在非編碼序列中.分析非編碼
區DNA序列目前沒有一般性的指導方法.
在人類基因組中,並非所有的序列均被編碼,即是某種蛋白質的模板,已
完成編碼部分僅占人類基因總序列的3~5%,顯然,手工的搜索如此大的基因序
列是難以想像的.
偵測密碼區的方法包括測量密碼區密碼子(codon)的頻率,一階和二階馬爾
可夫鏈,ORF(Open Reading Frames),啟動子(promoter)識別,HMM(Hidden
Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子進化和比較基因組學
分子進化是利用不同物種中同一基因序列的異同來研究生物的進化,構建進
化樹.既可以用DNA序列也可以用其編碼的氨基酸序列來做,甚至於可通過相
關蛋白質的結構比對來研究分子進化,其前提假定是相似種族在基因上具有相似
性.通過比較可以在基因組層面上發現哪些是不同種族中共同的,哪些是不同的.
早期研究方法常採用外在的因素,如大小,膚色,肢體的數量等等作為進化
的依據.近年來較多模式生物基因組測序任務的完成,人們可從整個基因組的角
度來研究分子進化.在匹配不同種族的基因時,一般須處理三種情況:
Orthologous: 不同種族,相同功能的基因
Paralogous: 相同種族,不同功能的基因
Xenologs: 有機體間採用其他方式傳遞的基因,如被病毒注入的基因.
這一領域常採用的方法是構造進化樹,通過基於特徵(即DNA序列或蛋白
質中的氨基酸的鹼基的特定位置)和基於距離(對齊的分數)的方法和一些傳統
的聚類方法(如UPGMA)來實現.
5, 序列重疊群(Contigs)裝配
根據現行的測序技術,每次反應只能測出500 或更多一些鹼基對的序列,
如人類基因的測量就採用了短槍(shortgun)方法,這就要求把大量的較短的序列
全體構成了重疊群(Contigs).逐步把它們拼接起來形成序列更長的重疊群,直
至得到完整序列的過程稱為重疊群裝配.從演算法層次來看,序列的重疊群是一個
NP-完全問題.
6, 遺傳密碼的起源
通常對遺傳密碼的研究認為,密碼子與氨基酸之間的關系是生物進化歷史上
一次偶然的事件而造成的,並被固定在現代生物的共同祖先里,一直延續至今.
不同於這種"凍結"理論,有人曾分別提出過選擇優化,化學和歷史等三種學說
來解釋遺傳密碼.隨著各種生物基因組測序任務的完成,為研究遺傳密碼的起源
和檢驗上述理論的真偽提供了新的素材.
7, 基於結構的葯物設計
人類基因工程的目的之一是要了解人體內約10萬種蛋白質的結構,功能,
相互作用以及與各種人類疾病之間的關系,尋求各種治療和預防方法,包括葯物
治療.基於生物大分子結構及小分子結構的葯物設計是生物信息學中的極為重要
的研究領域.為了抑制某些酶或蛋白質的活性,在已知其蛋白質3級結構的基礎
上,可以利用分子對齊演算法,在計算機上設計抑制劑分子,作為候選葯物.這一
領域目的是發現新的基因葯物,有著巨大的經濟效益.
8, 其他
如基因表達譜分析,代謝網路分析;基因晶元設計和蛋白質組學數據分析等,
逐漸成為生物信息學中新興的重要研究領域;在學科方面,由生物信息學衍生的
學科包括結構基因組學,功能基因組學,比較基因組學,蛋白質學,葯物基因組
學,中葯基因組學,腫瘤基因組學,分子流行病學和環境基因組學.
從現在的發展不難看出,基因工程已經進入了後基因組時代.我們也有應對
與生物信息學密切相關的如機器學習,和數學中可能存在的誤導有一個清楚的認
識.
三, 生物信息學與機器學習
生物信息的大規模給數據挖掘提出了新課題和挑戰,需要新的思想的加入.
常規的計算機演算法仍可以應用於生物數據分析中,但越來越不適用於序列分析問
題.究竟原因,是由於生物系統本質上的模型復雜性及缺乏在分子層上建立的完
備的生命組織理論.
西蒙曾給出學習的定義:學習是系統的變化,這種變化可使系統做相同工作
時更有效[4].機器學習的目的是期望能從數據中自動地獲得相應的理論,通過采
用如推理,模型擬合及從樣本中學習,尤其適用於缺乏一般性的理論,"雜訊"
模式,及大規模數據集.因此,機器學習形成了與常規方法互補的可行的方法.
機器學習使得利用計算機從海量的生物信息中提取有用知識,發現知識成為可能
[5].
機器學習方法在大樣本,多向量的數據分析工作中發揮著日益重要的作用,
而目前大量的基因資料庫處理需要計算機能自動識別,標注,以避免即耗時又花
費巨大的人工處理方法.早期的科學方法—觀測和假設----面對高數據的體積,
快速的數據獲取率和客觀分析的要求---已經不能僅依賴於人的感知來處理了.因
而,生物信息學與機器學習相結合也就成了必然.
機器學習中最基本的理論框架是建立在概率基礎上的,從某種意義來說,是
統計模型擬合的延續,其目的均為提取有用信息.機器學習與模式識別和統計推
理密切相關.學習方法包括數據聚類,神經網路分類器和非線性回歸等等.隱馬
爾可夫模型也廣泛用於預測DNA的基因結構.目前研究重心包括:1)觀測和
探索有趣的現象.目前ML研究的焦點是如何可視化和探索高維向量數據.一般
的方法是將其約簡至低維空間,如常規的主成分分析(PCA),核主成分分析
(KPCA),獨立成分分析(Independent component analysis),局部線性嵌套(Locally
Linear embedding).2)生成假設和形式化模型來解釋現象[6].大多數聚類方法可
看成是擬合向量數據至某種簡單分布的混合.在生物信息學中聚類方法已經用於
microarray數據分析中,癌症類型分類及其他方向中.機器學習也用於從基因數
據庫中獲得相應的現象解釋.
機器學習加速了生物信息學的進展,也帶了相應的問題.機器學習方法大多
假定數據符合某種相對固定的模型,而一般數據結構通常是可變的,在生物信息
學中尤其如此,因此,有必要建立一套不依賴於假定數據結構的一般性方法來尋
找數據集的內在結構.其次,機器學習方法中常採用"黑箱"操作,如神經網路
和隱馬爾可夫模型,對於獲得特定解的內在機理仍不清楚.
四, 生物信息學的數學問題
生物信息學中數學佔了很大的比重.統計學,包括多元統計學,是生物信息
學的數學基礎之一;概率論與隨機過程理論,如近年來興起的隱馬爾科夫鏈模型
(HMM),在生物信息學中有重要應用;其他如用於序列比對的運籌學;蛋白質
空間結構預測和分子對接研究中採用的最優化理論;研究DNA超螺旋結構的拓
撲學;研究遺傳密碼和DNA序列的對稱性方面的群論等等.總之,各種數學理
論或多或少在生物學研究中起到了相應的作用.
但並非所有的數學方法在引入生物信息學中都能普遍成立的,以下以統計學
和度量空間為例來說明.
1, 統計學的悖論
數學的發展是伴隨悖論而發展的.對於進化樹研究和聚類研究中最顯著的悖
論莫過於均值了,如圖1:
圖1 兩組同心圓的數據集
圖1是兩組同心圓構成的數據集,顯然,兩組數據集的均值均在圓點,這也
就說明了要採用常規的均值方法不能將這兩類分開,也表明均值並不能帶來更多
的數據的幾何性質.那麼,如果數據呈現類似的特有分布時,常有的進化樹演算法
和聚類演算法(如K-均值)往往會得錯誤的結論.統計上存在的陷阱往往是由於
對數據的結構缺乏一般性認識而產生的.
2, 度量空間的假設
在生物信息學中,進化樹的確立,基因的聚類等都需要引入度量的概念.舉
例來說,距離上相近或具有相似性的基因等具有相同的功能,在進化樹中滿足分
值最小的具有相同的父系,這一度量空間的前提假設是度量在全局意義下成立.
那麼,是否這種前提假設具有普適性呢
我們不妨給出一般的描述:假定兩個向量為A,B,其中,
,則在假定且滿足維數間線性無關的前提下,兩個
向量的度量可定義為:
(1)
依據上式可以得到滿足正交不變運動群的歐氏度量空間,這也是大多數生物信息
學中常採用的一般性描述,即假定了變數間線性無關.
然而,這種假設一般不能正確描述度量的性質,尤其在高維數據集時,不考
慮數據變數間的非線性相關性顯然存在問題,由此,我們可以認為,一個正確的
度量公式可由下式給出:
(2)
上式中採用了愛因斯坦和式約定,描述了變數間的度量關系.後者在滿足
(3)
時等價於(1),因而是更一般的描述,然而問題在於如何准確描述變數間的非線
性相關性,我們正在研究這個問題.
五, 幾種統計學習理論在生物信息學中應用的困難
生物信息學中面對的數據量和資料庫都是規模很大的,而相對的目標函數卻
一般難以給出明確的定義.生物信息學面臨的這種困難,可以描述成問題規模的
巨大以及問題定義的病態性之間的矛盾,一般從數學上來看,引入某個正則項來
改善性能是必然的[7].以下對基於這一思想產生的統計學習理論[8],Kolmogorov
復雜性[98]和BIC(Bayesian Information Criterion)[109]及其存在的問題給出簡要介
紹.
支持向量機(SVM)是近來較熱門的一種方法,其研究背景是Vapnik的統計
學習理論,是通過最大化兩個數據集的最大間隔來實現分類,對於非線性問題則
採用核函數將數據集映射至高維空間而又無需顯式描述數據集在高維空間的性
質,這一方法較之神經方法的好處在於將神經網路隱層的參數選擇簡化為對核函
數的選擇,因此,受到廣泛的注意.在生物信息學中也開始受到重視,然而,核
函數的選擇問題本身是一個相當困難的問題,從這個層次來看,最優核函數的選
擇可能只是一種理想,SVM也有可能象神經網路一樣只是機器學習研究進程中
又一個大氣泡.
Kolmogorov復雜性思想與統計學習理論思想分別從不同的角度描述了學習
的性質,前者從編碼的角度,後者基於有限樣本來獲得一致收斂性.Kolmogorov
復雜性是不可計算的,因此由此衍生了MDL原則(最小描述長度),其最初只
適用於離散數據,最近已經推廣至連續數據集中,試圖從編碼角度獲得對模型參
數的最小描述.其缺陷在於建模的復雜性過高,導致在大數據集中難以運用.
BIC准則從模型復雜性角度來考慮,BIC准則對模型復雜度較高的給予大的
懲罰,反之,懲罰則小,隱式地體現了奧卡姆剃刀("Occam Razor")原理,近
年也廣泛應用於生物信息學中.BIC准則的主要局限是對參數模型的假定和先驗
的選擇的敏感性,在數據量較大時處理較慢.因此,在這一方面仍然有許多探索
的空間.
六, 討論與總結
人類對基因的認識,從以往的對單個基因的了解,上升到在整個基因組水平
上考察基因的組織結構和信息結構,考察基因之間在位置,結構和功能上的相互
關系.這就要求生物信息學在一些基本的思路上要做本質的觀念轉變,本節就這
些問題做出探討和思索.
啟發式方法:
Simond在人類的認知一書中指出,人在解決問題時,一般並不去尋找最優
的方法,而只要求找到一個滿意的方法.因為即使是解決最簡單的問題,要想得
到次數最少,效能最高的解決方法也是非常困難的.最優方法和滿意方法之間的
困難程度相差很大,後者不依賴於問題的空間,不需要進行全部搜索,而只要能
達到解決的程度就可以了.正如前所述,面對大規模的序列和蛋白質結構數據集,
要獲得全局結果,往往是即使演算法復雜度為線性時也不能夠得到好的結果,因此,
要通過變換解空間或不依賴於問題的解空間獲得滿意解,生物信息學仍需要人工
智能和認知科學對人腦的進一步認識,並從中得到更好的啟發式方法.
問題規模不同的處理:
Marvin Minsky在人工智慧研究中曾指出:小規模數據量的處理向大規模數
據量推廣時,往往並非演算法上的改進能做到的,更多的是要做本質性的變化.這
好比一個人爬樹,每天都可以爬高一些,但要想爬到月球,就必須採用其他方法
一樣.在分子生物學中,傳統的實驗方法已不適應處理飛速增長的海量數據.同
樣,在採用計算機處理上,也並非依靠原有的計算機演算法就能夠解決現有的數據
挖掘問題.如在序列對齊(sequence Alignment)問題上,在小規模數據中可以採用
動態規劃,而在大規模序列對齊時不得不引入啟發式方法,如BALST,FASTA.
樂觀中的隱擾
生物信息學是一門新興學科,起步於20世紀90年代,至今已進入"後基因
組時代",目前在這一領域的研究人員均呈普遍樂觀態度,那麼,是否存在潛在
的隱擾呢
不妨回顧一下早期人工智慧的發展史[11],在1960年左右,西蒙曾相信不出
十年,人類即可象完成登月一樣完成對人的模擬,造出一個與人智能行為完全相
同的機器人.而至今為止,這一諾言仍然遙遙無期.盡管人工智慧研究得到的成
果已經滲入到各個領域,但對人的思維行為的了解遠未完全明了.從本質來看,
這是由於最初人工智慧研究上定位錯誤以及沒有從認識論角度看清人工智慧的
本質造成的;從研究角度來看,將智能行為還原成一般的形式化語言和規則並不
能完整描述人的行為,期望物理科學的成功同樣在人工智慧研究中適用並不現
實.
反觀生物信息學,其目的是期望從基因序列上解開一切生物的基本奧秘,從
結構上獲得生命的生理機制,這從哲學上來看是期望從分子層次上解釋人類的所
有行為和功能和致病原因.這類似於人工智慧早期發展中表現的樂觀行為,也來
自於早期分子生物學,生物物理和生物化學的成就.然而,從本質上來講,與人
工智能研究相似,都是希望將生命的奧秘還原成孤立的基因序列或單個蛋白質的
功能,而很少強調基因序列或蛋白質組作為一個整體在生命體中的調控作用.我
們因此也不得不思考,這種研究的最終結果是否能夠支撐我們對生物信息學的樂
觀呢 現在說肯定的話也許為時尚早.
綜上所述,不難看出,生物信息學並不是一個足以樂觀的領域,究竟原因,
是由於其是基於分子生物學與多種學科交叉而成的新學科,現有的形勢仍表現為
各種學科的簡單堆砌,相互之間的聯系並不是特別的緊密.在處理大規模數據方
面,沒有行之有效的一般性方法;而對於大規模數據內在的生成機制也沒有完全
明了,這使得生物信息學的研究短期內很難有突破性的結果.那麼,要得到真正
的解決,最終不能從計算機科學得到,真正地解決可能還是得從生物學自身,從
數學上的新思路來獲得本質性的動力.
毫無疑問,正如Dulbecco1986年所說:"人類的DNA序列是人類的真諦,
這個世界上發生的一切事情,都與這一序列息息相關".但要完全破譯這一序列
以及相關的內容,我們還有相當長的路要走.
(來源 ------[InfoBio.org | 生物信息學研討組])http://www.infobio.org
生物信息學(Bioinformatics)是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一。其研究重點主要體現在基因組學(Genomics)和蛋白學(Proteomics)兩方面,具體說就是從核酸和蛋白質序列出發,分析序列中表達的結構功能的生物信息。
生物信息學是一門利用計算機技術研究生物系統之規律的學科。
目前的生物信息學基本上只是分子生物學與信息技術(尤其是網際網路技術)的結合體。生物信息學的研究材料和結果就是各種各樣的生物學數據,其研究工具是計算機,研究方法包括對生物學數據的搜索(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計算、模擬)。
1990年代以來,伴隨著各種基因組測序計劃的展開和分子結構測定技術的突破和Internet的普及,數以百計的生物學資料庫如雨後春筍般迅速出現和成長。對生物信息學工作者提出了嚴峻的挑戰:數以億計的ACGT序列中包涵著什麼信息?基因組中的這些信息怎樣控制有機體的發育?基因組本身又是怎樣進化的?
生物信息學的另一個挑戰是從蛋白質的氨基酸序列預測蛋白質結構。這個難題已困擾理論生物學家達半個多世紀,如今找到問題答案要求正變得日益迫切。諾貝爾獎獲得者W. Gilbert在1991年曾經指出:「傳統生物學解決問題的方式是實驗的。現在,基於全部基因都將知曉,並以電子可操作的方式駐留在資料庫中,新的生物學研究模式的出發點應是理論的。一個科學家將從理論推測出發,然後再回到實驗中去,追蹤或驗證這些理論假設」。
生物信息學的主要研究方向: 基因組學 - 蛋白質組學 - 系統生物學 - 比較基因組學
姑且不去引用生物信息學冗長的定義,以通俗的語言闡述其核心應用即是:隨著包括人類基因組計劃在內的生物基因組測序工程的里程碑式的進展,由此產生的包括生物體生老病死的生物數據以前所未有的速度遞增,目前已達到每14個月翻一番的速度。同時隨著互聯網的普及,數以百計的生物學資料庫如雨後春筍般迅速出現和成長。然而這些僅僅是原始生物信息的獲取,是生物信息學產業發展的初組階段,這一階段的生物信息學企業大都以出售生物資料庫為生。以人類基因組測序而聞名的塞萊拉公司即是這一階段的成功代表。
原始的生物信息資源挖掘出來後,生命科學工作者面臨著嚴峻的挑戰:數以億計的ACGT序列中包涵著什麼信息?基因組中的這些信息怎樣控制有機體的發育?基因組本身又是怎樣進化的?生物信息學產業的高級階段體現於此,人類從此進入了以生物信息學為中心的後基因組時代。結合生物信息學的新葯創新工程即是這一階段的典型應用。
H. 如下哪個生物信息學方法可以用來尋找新基因
生物信息學方法可以用來尋找新基因.
1,序列比對(Sequence Alignment)
序列比對的基本問題是比較兩個或兩個以上符號序列的相似性或不相似性.從生物學的初衷來看,這一問題包含了以下幾個意義:從相互重疊的序列片斷中重構DNA的完整序列.在各種試驗條件下從探測數據(probe data)中決定物理和基因圖存貯,遍歷和比較資料庫中的DNA序列比較兩個或多個序列的相似性在資料庫中搜索相關序列和子序列尋找核苷酸(nucleotides)的連續產生模式找出蛋白質和DNA序列中的信息成分序列比對考慮了DNA序列的生物學特性,如序列局部發生的插入,刪除(前兩種簡稱為indel)和替代,序列的目標函數獲得序列之間突變集最小距離加權和或最大相似性和,對齊的方法包括全局對齊,局部對齊,代溝懲罰等.兩個序列比對常採用動態規劃演算法,這種演算法在序列長度較小時適用,然而對於海量基因序列(如人的DNA序列高達109bp),這一方法就不太適用,甚至採用演算法復雜性為線性的也難以奏效.因此,啟發式方法的引入勢在必然,著名的BALST和FASTA演算法及相應的改進方法均是從此前提出發的.
2, 蛋白質結構比對和預測
基本問題是比較兩個或兩個以上蛋白質分子空間結構的相似性或不相似性.蛋白質的結構與功能是密切相關的,一般認為,具有相似功能的蛋白質結構一般相似.蛋白質是由氨基酸組成的長鏈,長度從50到1000~3000AA(Amino Acids),蛋白質具有多種功能,如酶,物質的存貯和運輸,信號傳遞,抗體等等.氨基酸的序列內在的決定了蛋白質的3維結構.一般認為,蛋白質有四級不同的結構.研究蛋白質結構和預測的理由是:醫葯上可以理解生物的功能,尋找dockingdrugs的目標,農業上獲得更好的農作物的基因工程,工業上有利用酶的合成.直接對蛋白質結構進行比對的原因是由於蛋白質的3維結構比其一級結構在進化中更穩定的保留,同時也包含了較AA序列更多的信息.蛋白質3維結構研究的前提假設是內在的氨基酸序列與3維結構一一對應(不一定全真),物理上可用最小能量來解釋.從觀察和總結已知結構的蛋白質結構規律出發來預測未知蛋白質的結構.同源建模(homology modeling)和指認(Threading)方法屬於這一范疇.同源建模用於尋找具有高度相似性的蛋白質結構(超過30%氨基酸相同),後者則用於比較進化族中不同的蛋白質結構.然而,蛋白結構預測研究現狀還遠遠不能滿足實際需要.
3, 基因識別,非編碼區分析研究.
基因識別的基本問題是給定基因組序列後,正確識別基因的范圍和在基因組序列中的精確位置.非編碼區由內含子組成(introns),一般在形成蛋白質後被丟棄,但從實驗中,如果去除非編碼區,又不能完成基因的復制.顯然,DNA序列作為一種遺傳語言,既包含在編碼區,又隱含在非編碼序列中.分析非編碼區DNA序列目前沒有一般性的指導方法.在人類基因組中,並非所有的序列均被編碼,即是某種蛋白質的模板,已完成編碼部分僅占人類基因總序列的3~5%,顯然,手工的搜索如此大的基因序列是難以想像的.偵測密碼區的方法包括測量密碼區密碼子(codon)的頻率,一階和二階馬爾可夫鏈,ORF(Open Reading Frames),啟動子(promoter)識別,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子進化和比較基因組學
分子進化是利用不同物種中同一基因序列的異同來研究生物的進化,構建進化樹.既可以用DNA序列也可以用其編碼的氨基酸序列來做,甚至於可通過相關蛋白質的結構比對來研究分子進化,其前提假定是相似種族在基因上具有相似性.通過比較可以在基因組層面上發現哪些是不同種族中共同的,哪些是不同的.早期研究方法常採用外在的因素,如大小,膚色,肢體的數量等等作為進化的依據.近年來較多模式生物基因組測序任務的完成,人們可從整個基因組的角度來研究分子進化.在匹配不同種族的基因時,一般須處理三種情況:Orthologous: 不同種族,相同功能的基因;Paralogous: 相同種族,不同功能的基因;Xenologs: 有機體間採用其他方式傳遞的基因,如被病毒注入的基因.這一領域常採用的方法是構造進化樹,通過基於特徵(即DNA序列或蛋白質中的氨基酸的鹼基的特定位置)和基於距離(對齊的分數)的方法和一些傳統的聚類方法(如UPGMA)來實現.
5, 序列重疊群(Contigs)裝配
根據現行的測序技術,每次反應只能測出500 或更多一些鹼基對的序列,如人類基因的測量就採用了短槍(shortgun)方法,這就要求把大量的較短的序列全體構成了重疊群(Contigs).逐步把它們拼接起來形成序列更長的重疊群,直至得到完整序列的過程稱為重疊群裝配.從演算法層次來看,序列的重疊群是一個NP-完全問題.
6, 遺傳密碼的起源
通常對遺傳密碼的研究認為,密碼子與氨基酸之間的關系是生物進化歷史上一次偶然的事件而造成的,並被固定在現代生物的共同祖先里,一直延續至今.不同於這種"凍結"理論,有人曾分別提出過選擇優化,化學和歷史等三種學說來解釋遺傳密碼.隨著各種生物基因組測序任務的完成,為研究遺傳密碼的起源和檢驗上述理論的真偽提供了新的素材.
7, 基於結構的葯物設計
人類基因工程的目的之一是要了解人體內約10萬種蛋白質的結構,功能,相互作用以及與各種人類疾病之間的關系,尋求各種治療和預防方法,包括葯物治療.基於生物大分子結構及小分子結構的葯物設計是生物信息學中的極為重要的研究領域.為了抑制某些酶或蛋白質的活性,在已知其蛋白質3級結構的基礎上,可以利用分子對齊演算法,在計算機上設計抑制劑分子,作為候選葯物.這一領域目的是發現新的基因葯物,有著巨大的經濟效益.
8.生物系統的建模和模擬
隨著大規模實驗技術的發展和數據累積,從全局和系統水平研究和分析生物學系統,揭示其發展規律已經成為後基因組時代的另外一個研究 熱點-系統生物學。目前來看,其研究內容包括生物系統的模擬(Curr Opin Rheumatol,2007,463-70),系統穩定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系統魯棒性分析(Ernst Schering Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)為代表的建模語言在迅速發展之中,以布爾網路 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、隨機過程(Neural Comput,2007,3262-92)、離散動態事件系統等(Bioinformatics,2007,336-43)方法在系統分析中已經得到應 用。很多模型的建立借鑒了電路和其它物理系統建模的方法,很多研究試圖從信息流、熵和能量流等宏觀分析思想來解決系統的復雜性問題(Anal Quant Cytol Histol,2007,296-308)。當然,建立生物系統的理論模型還需要很長時間的努力,現在實驗觀測數據雖然在海量增加,但是生物系統的模型辨 識所需要的數據遠遠超過了目前數據的產出能力。例如,對於時間序列的晶元數據,采樣點的數量還不足以使用傳統的時間序列建模方法,巨大的實驗代價是目前系 統建模主要困難。系統描述和建模方法也需要開創性的發展。
9.生物信息學技術方法的研究
生物信息學不僅僅是生物學知識的簡單整理和、數學、物理學、信息科學等學科知識的簡單應用。海量數據和復雜的背景導致機器學習、統 計數據分析和系統描述等方法需要在生物信息學所面臨的背景之中迅速發展。巨大的計算量、復雜的雜訊模式、海量的時變數據給傳統的統計分析帶來了巨大的困難, 需要像非參數統計(BMC Bioinformatics,2007,339)、聚類分析(Qual Life Res,2007,1655-63)等更加靈活的數據分析技術。高維數據的分析需要偏最小二乘(partial least squares,PLS)等特徵空間的壓縮技術。在計算機演算法的開發中,需要充分考慮演算法的時間和空間復雜度,使用並行計算、網格計算等技術來拓展演算法的 可實現性。
10, 生物圖像
沒有血緣關系的人,為什麼長得那麼像呢?
外貌是像點組成的,像點愈重合兩人長得愈像,那兩個沒有血緣關系的人像點為什麼重合?
有什麼生物學基礎?基因是不是相似?我不知道,希望專家解答。
11, 其他
如基因表達譜分析,代謝網路分析;基因晶元設計和蛋白質組學數據分析等,逐漸成為生物信息學中新興的重要研究領域;在學科方面,由生物信息學衍生的學科包括結構基因組學,功能基因組學,比較基因組學,蛋白質學,葯物基因組學,中葯基因組學,腫瘤基因組學,分子流行病學和環境基因組學,成為系統生物學的重要研究方法.從現在的發展不難看出,基因工程已經進入了後基因組時代.我們也有應對與生物信息學密切相關的如機器學習,和數學中可能存在的誤導有一個清楚的認識.