基因拼接演算法
㈠ 全基因合成方法
全基因合成是指在體外利用人工方法合成雙鏈DNA分子的技術。基因合成無需模板,是獲取基因的重要手段之一。目前該技術主要應用在克隆一些不易獲取模板的基因、自然界不存在的新基因以及異源基因表達上,經常在對基因密碼子優化後進行。密碼子優化的必要性及方法,已經在前面的文章中介紹,想要回顧的點這里 密碼子優化 。
全基因合成技術很成熟,一般的做法是:設計合成相互重疊的單鏈寡核苷酸,通過重疊延伸PCR法拼接出全長。關於全基因合成方法的資料網上一大堆,單全基因合成的相關專利都上百篇,常見的有重疊延伸PCR(OE-PCR)法[1,7],雙不對稱PCR(DA-PCR)法[2],聚合酶連反應(PCR)法[3],連接酶鏈反應(LCR)法[4],熱力學平衡由內向外(TBIO)法[5],PCR介導兩步(PTDS)法[6]。說實話我並沒有仔細研究這些方法,它們叫什麼名字不重要,萬變不離其宗:PCR,基於一定重疊的短引物通過聚合酶逐漸延伸成長片段。
全基因合成最簡單的方法是什麼?
當然是讓DNA合成公司來合成,我們只需要提供DNA序列信息,他們會合成dsDNA並克隆在通用載體上,一般還提供測序信息,確保合成的正確性。這無疑是最簡單、最省事的方法。而且現在全基因合成十分廉價,1bp不到一塊錢還帶測序的那種。
既然DNA合成公司那麼方便,為什麼還要自己合成呢?
① 公司合成慢,一般需要1-2周,如果碰到特殊序列比如對大腸桿菌毒性極大的編碼序列,那周期就難說了(我做過一個核酸酶,合成公司一個月沒搞定,自己合成一周搞定)。
② 不自由,合成公司提供的一般是攜帶目標基因的重組載體,拿到後還要用酶切切下來,如果基因內部含有酶切位點還需要避開,當然這些一般不是什麼大問題,但你確實沒得選。
③ 如前所述,全基因合成一般用於異源基因表達,異源表達的對象大多是酶,研究酶的性質可能又需要構建大量突變體。合成公司只提供一個序列,構建突變體還得自己設計引物重新構建,如果自己合成全基因,只需要將包含突變的引物替換掉,就可以同時獲得各類突變體,這在構建含大量突變的突變體時,更有優勢。
④ 序列需要保密,畢竟自己才最可靠。
總有人喜歡自己動手豐衣足食,本文我要介紹的是自己合成的方法,介紹兩種方法:
1 基於「搭橋」PCR的一次拼接法
這種方法依賴於引物間的相互退火,彼此作為模板相互延伸,因此需要的引物總是一正一反。首先把全基因序列打斷為短的oligos,一般不大於59bp,因為一般引物合成以59bp為分水嶺,超過59bp價格和時間成本都會高很多。oligos靠3'末端互補序列相互退火,形成帶有gaps的雙鏈產物,再由DNA聚合酶補齊gaps,形成帶有切刻的DNA雙鏈,這種產物經過Taq DNA Ligase鏈接形成完整的雙鏈產物,依此為模板進行PCR擴增即可得到目標基因,也可以直接使用帶有切刻的DNA雙鏈作為模板進行PCR擴增。
2 基於逐漸延伸的step by step法
這種方法僅最後一條引物為反向,其餘均為正向,正向引物間具有重疊序列。倒數第一條oligo與倒數第二條oligo靠末端互補序列相互退火,經過第一次PCR循環,雙鏈延長,延長的雙鏈與倒數第三條oligo繼續退火、延長,......,依此類推,直至全長序列合成。這種方法理論上一次PCR循環只能延伸一條引物,N條oliogs就至少需要經過N個PCR循環,由於只有一個延伸端,引物設計比方法1簡單,而且引物數目不需要必須為偶數。
⒈ 設計PCR引物
可以藉助自動設計工具也可以人工設計,藉助工具後面會詳細介紹。如果人工設計,推薦使用SnapGene(這款軟體的強大就不多說了,搞分子生物學應該都知道,網上有很多破解版,沒安裝的話自己去網路一個吧),將全基因序列復制進去之後,先調出「Preferences」面板,找到「Primer」選項,把3』端最短匹配長度和最低Tm分別設置為10bp和40℃,這樣當你添加引物時軟體就會自動提醒有沒有次級結合位點(如下圖)。
因為3』端錯配對本文中的全基因合成方法十分不利,如果這兩個設置太低實在難以設計出引物,可以適當調高至12bp和45℃,還不行的話只能優化密碼子後再重新設計。
引物的長度預設為59bp,重點是重疊區的設計,一般應該根據重疊區的Tm來確定,不同重疊區之間的Tm平衡很重要,一般∆Tm不超過3℃,推薦把Tm設置在55-58℃之間。需要注意的是,針對本文的方法一,引物數目必須是偶數,從序列開頭往後一條一條的拉,下一條oligo的起點是上一條的終點-重疊區,上正下反,如果最後為奇數條,要調整最後幾條長度,補出一條反向引物。
針對方法二,從序列開頭拉一條正向,剩餘全部為反向直到末尾,也可以從末尾拉一條反向,剩餘為正向直到開頭,這種方法不用管引物數目。
⒉ PCR獲得全長產物
一般需要兩輪PCR。第一輪,加入少量引物,推薦50uL體系中0.5-1pmol/個oligo,10-15個循環,獲得全長模板,本輪PCR推薦使用的DNA聚合酶應該同時缺失3』-5』和5』-3』外切酶活性,這兩種活性會損傷重疊區的Tm平衡;第二輪,取1uLPCR產物做模板,加入20pmol全長上下游引物,20-25個循環獲得目標基因,本輪PCR應使用高保真DNA聚合酶。
⒊ 克隆至表達載體
通過同源重組,酶切鏈接等方法將目標基因插入載體中,轉化大腸桿菌或其他宿主感受態細胞,獲取單克隆子。提示:在全基因合成前,一定要針對克隆/表達載體設計好同源臂或者酶切位點,直接加在全基因序列上,否則還要單獨設計引物添加同源臂或者酶切位點。
⒋ 測序鑒定
菌體PCR鑒定陽性克隆子並挑選陽性克隆子測序,正確的克隆可用於下游的表達和純化。
OPTIMIZER : http://genomes.urv.es/OPTIMIZER/ ,這是一個非常優秀的在線設計工具,集密碼子優化和全基因合成於一身,不過他生成的oligo只能是50、55、60等5的整倍(60就很尷尬了),而且它不檢查引物條數,最後一條可能形成錯配,這可以通過再設計額外的全長引物彌補。不過我現在發現打不開了,不知道是我的網路問題還是網址/伺服器出了問題。
DNA Works [8]:這個工具來源於《Nucleic Acids Research》,論文中的連接失效了,這是我新找到的連接: https://hpcwebapps.cit.nih.gov/dnaworks/ ,也支持密碼子優化,不過我覺得不是太好用,參數太多有點復雜了。
Gene2oligo [9]:也來源於《Nucleic Acids Research》,它設計的引物之間是沒有空隙(gaps)的,論文中的連接也失效了(原來的鏈接: http://berry.engin.umich.e/gene2oligo ),我也沒找到新的。
Assembly PCR Oligo Maker [10]:來源於《Nucleic Acids Research》,論文中的鏈接為: http://publish.yorku.ca/~pjohnson/AssemblyPCRoligomaker.html ,我還是打不開(我都快哭了)。
GeMS [11]:來源於《Nucleic Acids Research》,這是一個軟體套件,功能很多,鏈接是: http://software.kosan.com/GeMS ,打不開。
GeneDesign [12]:來源於《Genome Research》,論文中的鏈接是: http://slam.bs.jhmi.e/gd ,但依然打不開,從論文內容看與我的工具比較像,也根據Tm計算重疊區,可惜沒辦法看到源碼。
gene2oligos : http://www.liuzhen106.com/tools/104.html ,這個一定打得開,這是我自己寫的工具,包括密碼子分析與優化,將基因自動轉化為oligos,生成參考實驗方案三個功能。生成的oligos,具有統一長度,重疊區具有相同的Tm值,Tm計算公式為:Tm = 64 + 0.41×GC - 528/n,怎麼來的參考我的 《PCR引物設計大法》 。生成的oligos可以,一鍵復制,格式為oligo+序列編號+空格+Tab+序列(5』-3』),可以直接導入SnapGene。
我的程序輸出的引物可以被SnapGene識別,菜單欄點擊「Primer」工具,點擊」Import Primer from a List「選項,選擇從剪貼板導入序列,
可以查看個引物是否完全覆蓋目標序列,引物的「頭尾「是否沖突等等。
以GFP為目標序列測試一下:
①從NCBI上找到GFP的序列,粘貼到文本框中,首先分析密碼子偏性;
大腸桿菌的稀有密碼子用紅色標出,可見GFP原生基因中含有很多稀有密碼子,可以先執行密碼子優化。
②生成oligos,有兩種方式,默認為方法一,如果引物見相似性高,會提示使用方法二。
點擊生成oligos按鈕後,會彈出總鹼基數的統計信息,然後輸出oliogs序號及序列,同時生成實驗方案按鈕和復制按鈕,一鍵復制後可導入SanpGene分析。
③SanpGene分析
完全覆蓋了GFP的基因,並且為偶數條引物,引物間的Tm基本一致(由於程序與SnapGene的Tm演算法不一致,在SnapGene上只能看到基本一致。
④生成實驗方案
體外全基因合成一般一次不超過1000bp,一次性合成太長會增加出錯的概率,我推薦按800bp分段,程序會根據你輸入的序列長度推薦分段數。
希望這個工具能幫到你完成全基因合成,我還寫了輔助載體構建的工具,以後有機會再介紹。
參考文獻
[1] Prodromou,C. and Pearl,L. (1992) Recursive PCR: a novel technique for total gene synthesis. Protein Eng., 5, 827–829.
[2] Sandhu,G.S, Aleff,R.A. and Kline,B.C. (1992) Dual asymmetric PCR: one-step construction of synthetic genes. Biotechniques, 12, 14–16.
[3] Stemmer,W.P., Crameri,A., Ha,K.D., Brennan,T.M. and Heyneker,H.L. (1995) Single-step assembly of a gene and entire plasmid from large numbers of oligodeoxyribonucleotides. Gene, 164, 49–53.
[4] Au,L.C., Yang,F.Y., Yang,W.J., Lo,S.H. and Kao,C.F. (1998) Gene synthesis by a LCR-based approach: high-level proction of leptin-L54 using synthetic gene in Escherichia coli. Biochem. Biophys. Res. Commun., 248, 200–203.
[5] Gao,X., Yo,P., Keith,A., Ragan,T.J. and Harris,T.K. (2003) Thermodynamically balanced inside-out (TBIO) PCR-based gene synthesis: a novel method of primer design for high-fidelity assembly of longer gene sequences. Nucleic Acids Res.,31, e143.
[6] Xiong,A.-S., Yao,Q.-H., Peng,R.-H., Li,X., Fan,H.-Q., Cheng,Z.-M. and Li,Y. (2004) A simple, rapid, high-fidelity and cost-effective PCR-based two-step DNA synthesis method for long gene sequences. Nucleic Acids Res., 32, e98.
[7] Young,L. and Dong,Q. (2004) Two-step total gene synthesis method. Nucleic Acids Res., 32, e59.
[8] Hoover,D.M. and Lubkowski,J. (2002) DNAWorks: an automated method for designing oligonucleotides for PCR-based gene synthesis. Nucleic Acids Res., 30, e43.
[9] Rouillard,J.-M., Lee,W., Truan,G., Gao,X., Zhou,X. and Gulari,E.(2004) Gene2oligo: oligonucleotide design for in vitro gene synthesis. Nucleic Acids Res., 32, W176–W180.
[10] Rydzanicz,R., Zhao,X.S. and Johnson,P.E. (2005) Assembly PCR oligo maker: a tool for designing oligodeoxynucleotides for constructing long DNA molecules for RNA proction. Nucleic Acids Res., 33, W521–W525.
[11] Jayaraj,S., Reid,R. and Santi,D.V. (2005) GeMS: an advanced software package for designing synthetic genes. Nucleic Acids Res., 33, 3011–3016.
[12] Richardson,S.M., Wheelan,S.J., Yarrington,R.M. and Boeke,J.D. (2006) GeneDesign: rapid, automated design of multikilobase synthetic genes. Genome Res., 16, 550–556.
㈡ 重疊區擴增基因拼接法的原理是什麼
原理就是有3對引物。第3對引物分別與另外2個產物的5『和3』有重疊,從而將2個產物接在一起
㈢ 淺析現階段高通量測序中的拼接問題論文
淺析現階段高通量測序中的拼接問題論文
摘要:近年來,隨著第二代測序技術的普及和第三代測序技術的逐步發展,高通量測序技術在實際研究中的應用越來越廣泛。高速率、高性價比是其主要優點。相對於傳統的桑格(Sanger)法測序來言,高通量測序得到的片段長度較為短小,故如何拼接得到完整的序列一直是炙手可熱的研究方向。本文總結了現階段高通量測序中拼接問題的研究結果,針對現在流行的各種演算法進行了簡單介紹。
關鍵詞:高通量測序;reads 拼接;contigs 組裝;OLC、De brujin 圖
一、測序技術的發展過程和現狀[1]
(一)桑格法
桑格法又叫做雙脫氧鏈終止法,由Sanger在1977年提出。通過加入帶有放射標記的dd NTP(雙脫氧核苷酸)使DNA合成終止。再通過電泳,並使用放射自顯影技術讀出鹼基。此方法得到的片段較長,能達到1000bp左右。
(二)第二代測序技術
隨著科學技術的發展,傳統的桑格法已經不能滿足研究的需要。科學家們需要更快的速度、更高的通量以及更低廉的價格,於是第二代測序技術應運而生。其核心思想是邊合成邊測序。現在主要有454 GS FLX、SOLi D和Illumina/Solexa GenomeAnalyzer三個平台。第二代測序是現階段測序技術的主流,也是高通量測序的開始。
(三)第三代測序技術
第三代測序技術是指單分子測序技術。不需要經過PCR的過程即可測序,速度可以達到每秒十個鹼基。通量更大,讀長更短,是現階段測序技術的發展方向。
二、高通量測序中的拼接工作
(一)高通量測序所得片段的特點
高通量測序之後所得到的序列片段稱為reads(讀取),其主要特點兩點。一是長度短,一般在200bp以 下,最長的454平台能達到的長度也不過1000bp,因此需要進行 大量的拼接才能得到整條DNA序列。二是有部分重疊,由於測序位置具有隨機性,故各reads總會有一定的重疊,這些重疊是拼接工作的關鍵。
(二)拼接過程
整個拼接過程分為兩步。第一步,考察reads的重復序列,並拼接成更長的片段,稱為contigs(重疊群),這一步稱為reads的拼接;第二步,確定contigs之間的順序關系,並按此排列,形成稱為scaffolds的序列,這一步叫做contigs的組裝。
三、Reads的`拼接
(一)拼接過程的難點
reads拼接過程中要克服的難點主 要有兩點,一是高通量測序得到的reads長度較短,故內含信息較少,不易確認相對順序。二是遠程連接信息(Long-range linking information)的不可靠性。 2這兩點制約著reads拼接過程的准確率。
(二)方法[3]
reads拼接過程中演算法的基本要求是de novo(從頭測序),即不需要任何序列信息即可對原料進行測序。由此衍生出兩種主流的演算法:
1.OLC
OLC,即交疊-排列-共有序列演算法(Overlap-layout-consensus),是一個比較傳統的演算法,其基本思想為根據reads間的重復部分,確定可能性的reads連接順序。
其步驟為:構建交疊圖:對每兩個reads進行比對,計算它們的重疊度---排列reads:將reads進行排列,確定它們之間的相對位置,建立overlap圖---生成共有序列:通過多序列比對等方法,確立最後的contig.
OLC演算法的計算量主要體現在交疊圖的構建,而高通量測序得到的海量短序列有大量的交疊,往往需要大量的運算時間。故OLC演算法並不適合現在高通量測序的發展趨勢。現在某些拼接軟體,如Shorty、CABOG等仍在使用基於此的演算法。雖然這些軟體針對OLC演算法有一定的改進和優化,但其拼接速度和准確性仍受到限制。
2.De brujin圖
基於De brujin圖(DBG)的演算法是現在最流行的演算法,許多常用的拼接軟體如Velvet、ABy SS等都在使用這種演算法。其特點為把基因序列的拼接問題轉化為了數學上的圖論問題,大大提高了拼接效率。
(1)基本思想
reads中 連 續 的k個 鹼 基 稱 為k -mer,作 為DBG的節點,兩個k-mer如 果在同一read中 相鄰,則形成一條邊。故每個read都會對一些邊加權,最後形成一個含有節點、有權值的邊的DBG,由此生成最佳的contig.
(2)步驟
篩選reads:對reads進行檢測,去除掉可能錯誤的reads---確定k值:k的值直接影響速度和精度。 K值較大時,精度有所提高,但更容易受覆蓋率的影響。故應該根據覆蓋率、reads長度等確定合適的k值---處 理DBG:根 據 確 定 的k值,做 出DBG,同時完成化簡和修正---根據DBG,拼接成contig.
(3)優缺點
DBG演算法在處理海量短reads的時候效果優秀,與現在測序技術的發展趨勢相匹配。然而,由於k-mer的長度較短,此方法受重復序列、測序錯誤的影響較大。
(三)不同拼接軟體的效果差異
不同的拼接軟體在reads拼接過程中表現為三點:一是比起軟體來說,reads質量對拼接結果影響更大;二是與標准序列的接近度隨reads和拼接軟體的不同有很大改變;三是各軟體拼接的正確率差別很大,但與接近度的結果不一致。
四、Contigs的組裝
與reads的拼接相比,contigs的組裝的難度相對較小。這是因為contigs的長度較reads長很多,所含信息較多。故可以較為准確的組裝成scaffold
(一)組裝過程的難點[4]
Contigs組 裝 過 程 中 的 難 點 主 要 有 二。一 是contigs中 含有大量的重復序列,不易確定contigs之間的相對順序;二是由於contigs由reads拼接而成,其中不 免 會 有 一 些 錯 誤,這 些 錯 誤 也 會 對contigs的組裝產生干擾。
(二)方法
Contigs組 裝的方法較reads拼 接而言較多,一般常用的有圖論法和光學圖譜法(Optical mapping)兩種。
1.圖論法[5]
圖論法是比較傳統的方法,與reads拼接有相似的地方。它以contigs作為節點,由相連的讀取對(Linking reads pair)作為邊,由此形成算圖。
其一般步驟為:庫的構建:構建出含有所有reads的 庫---計算相連讀取對之 間的距離,並由此計算gap的長度---把長度放在邊上,作為算圖的數據。
其理想的輸出結果是一條scaffold序列,對應一條染色體,包含以正確順序排 列 的contigs和contigs之間gap的長度。
2.光學圖譜法[6]
光學圖譜法是一種較為新穎的方法。通過內切酶將DNA切斷,此時DNA的片段的譜表現出一種特殊的指紋或是識別碼的性質。利用光學方法追蹤此信息得到相對位置,由此組裝成正確的scaffold.
主要步驟為:將contigs放 置 在 光 學 圖 譜上---修正光學圖譜---做出contigs的連接圖,由此決定最佳的contigs連接順序。
光學圖譜法的組裝結果有著很高的覆蓋率,巧妙運用光學圖譜法可以獲得很高的成本效益。
有研究表明,當與454平台獲得的實驗結果相結合的時候,光學圖譜法可以迅速、價廉的得到排列好的定向的contigs組,由此可以產生一個將近完整的基因組。
(三)發展方向
Contigs組裝過程的關鍵點 在於如何得到正確的連接順序。現階段此方面研究多集中在這一方向。
五、前景與展望
隨著生物學研究向微觀、向基因領域逐步延伸,高通量測序作為獲得基因序列的主要方法,越來越受到重視,拼接技術也在不斷發展。高通量測序的基因片段會變得海量且短小,應對此變化,拼接技術也會由確定「唯一的基因序列」向確定「最可能的基因序列」完成轉變。因此,新一代的拼接技術會在准確率、覆蓋率和速度上,作出超於現在拼接技術的改進。
參考文獻:
[1]Anderson MW, Schrijver I. Next Generation DNASequencing and the Future of Genomic Medicine.?Genes.2010;1(1):38-69. doi:10.3390/genes1010038.
[2]Salzberg SL, Phillippy AM, Zimin A, et al. GAGE: Acritical evaluation of genome assemblies and assemblyalgorithms.Genome Research. 2012;22 (3):557 -567. doi:10.1101/gr.131383.111.
[3]Deng X, Naccache SN, Ng T, et al. An ensemble strategythat significantly improves de novo assembly of microbialgenomes from metagenomic next -generation sequencingdata.Nucleic Acids Research. 2015;43 (7):e46. doi:10.1093/nar/gkv002.
[4]Latreille P, Norton S, Goldman BS, et al. Opticalmapping as a routine tool for bacterial genome sequencefinishing.BMC Genomics. 2007;8:321. doi:10.1186/1471 -2164-8-321.
[5]Hunt M, Newbold C, Berriman M, Otto TD. Acomprehensive evaluation of assembly scaffolding tools.Genome Biology. 2014;15 (3):R42. doi:10.1186/gb -2014 -15-3-r42.
[6]Nagarajan N, Read TD, Pop M. Scaffolding andvalidation of bacterial genome assemblies using opticalrestriction maps.Bioinformatics. 2008;24 (10):1229 -1235.doi:10.1093/bioinformatics/btn102.
;㈣ 怎樣切除、拼接基因
需要用到一些酶
首先是用於切割,要用限制性核酸內切酶,高中學到的有兩種,其一為EcoRI,是從大腸桿菌內提取的,識別GAATTC的鹼基序列並在GA處切割二酯鍵,切出的為粘性末端。其二為T4酶(從T4噬菌體內獲得),切割CG間的二酯鍵,切出的是平末端。
接著是連接酶,有Ecoli和T4,前者連接所有粘性末端,後者都可連接,但效率較低。
㈤ 有哪些經典的演算法或者輕量應用適合並行化
反對,不會顯示你的姓名
知乎用戶 計算機博士生,做生物信息
6 人贊同
挖個坑,說幾個生物信息領域的經典演算法吧。 1. Smith-Waterman 和 Needleman-Wunsch,倆生物信息最經典的動態規劃演算法, 並行演算法的論文不知道發了多少篇了,Xeon,Xeon Phi, CUDA,SIMD的,一般並行先從這個演算法開始講 2. 基因組拼接的演算法 de brijin Gra… 顯示全部
挖個坑,說幾個生物信息領域的經典演算法吧。
1. Smith-Waterman 和 Needleman-Wunsch,倆生物信息最經典的動態規劃演算法, 並行演算法的論文不知道發了多少篇了,Xeon,Xeon Phi, CUDA,SIMD的,一般並行先從這個演算法開始講
2. 基因組拼接的演算法 de brijin Graph 的構建和查詢的並行演算法
3. 序列比對,BWT 構建的並行演算法
以後慢慢補充
最後來一發,之前給物理學裡面的QMC演算法(一種MCMC演算法,用來計算分子結構的)做Xeon Phi上並行的優化,題主有興趣可以看看,已經有現成的軟體包QMCPACK,可以支持Xeon和GPU並行了。