基因拼接演算法

發布時間: 2022-12-23 04:55:36

㈠全基因合成方法

全基因合成是指在體外利用人工方法合成雙鏈DNA分子的技術。基因合成無需模板，是獲取基因的重要手段之一。目前該技術主要應用在克隆一些不易獲取模板的基因、自然界不存在的新基因以及異源基因表達上，經常在對基因密碼子優化後進行。密碼子優化的必要性及方法，已經在前面的文章中介紹，想要回顧的點這里密碼子優化。

全基因合成技術很成熟，一般的做法是：設計合成相互重疊的單鏈寡核苷酸，通過重疊延伸PCR法拼接出全長。關於全基因合成方法的資料網上一大堆，單全基因合成的相關專利都上百篇，常見的有重疊延伸PCR（OE-PCR）法[1,7]，雙不對稱PCR（DA-PCR）法[2]，聚合酶連反應（PCR）法[3]，連接酶鏈反應（LCR）法[4]，熱力學平衡由內向外（TBIO）法[5]，PCR介導兩步（PTDS）法[6]。說實話我並沒有仔細研究這些方法，它們叫什麼名字不重要，萬變不離其宗：PCR，基於一定重疊的短引物通過聚合酶逐漸延伸成長片段。

全基因合成最簡單的方法是什麼？

當然是讓DNA合成公司來合成，我們只需要提供DNA序列信息，他們會合成dsDNA並克隆在通用載體上，一般還提供測序信息，確保合成的正確性。這無疑是最簡單、最省事的方法。而且現在全基因合成十分廉價，1bp不到一塊錢還帶測序的那種。

既然DNA合成公司那麼方便，為什麼還要自己合成呢？

① 公司合成慢，一般需要1-2周，如果碰到特殊序列比如對大腸桿菌毒性極大的編碼序列，那周期就難說了（我做過一個核酸酶，合成公司一個月沒搞定，自己合成一周搞定）。

② 不自由，合成公司提供的一般是攜帶目標基因的重組載體，拿到後還要用酶切切下來，如果基因內部含有酶切位點還需要避開，當然這些一般不是什麼大問題，但你確實沒得選。

③ 如前所述，全基因合成一般用於異源基因表達，異源表達的對象大多是酶，研究酶的性質可能又需要構建大量突變體。合成公司只提供一個序列，構建突變體還得自己設計引物重新構建，如果自己合成全基因，只需要將包含突變的引物替換掉，就可以同時獲得各類突變體，這在構建含大量突變的突變體時，更有優勢。

④ 序列需要保密，畢竟自己才最可靠。

總有人喜歡自己動手豐衣足食，本文我要介紹的是自己合成的方法，介紹兩種方法：

1 基於「搭橋」PCR的一次拼接法

這種方法依賴於引物間的相互退火，彼此作為模板相互延伸，因此需要的引物總是一正一反。首先把全基因序列打斷為短的oligos，一般不大於59bp，因為一般引物合成以59bp為分水嶺，超過59bp價格和時間成本都會高很多。oligos靠3'末端互補序列相互退火，形成帶有gaps的雙鏈產物，再由DNA聚合酶補齊gaps，形成帶有切刻的DNA雙鏈，這種產物經過Taq DNA Ligase鏈接形成完整的雙鏈產物，依此為模板進行PCR擴增即可得到目標基因，也可以直接使用帶有切刻的DNA雙鏈作為模板進行PCR擴增。

2 基於逐漸延伸的step by step法

這種方法僅最後一條引物為反向，其餘均為正向，正向引物間具有重疊序列。倒數第一條oligo與倒數第二條oligo靠末端互補序列相互退火，經過第一次PCR循環，雙鏈延長，延長的雙鏈與倒數第三條oligo繼續退火、延長，......，依此類推，直至全長序列合成。這種方法理論上一次PCR循環只能延伸一條引物，N條oliogs就至少需要經過N個PCR循環，由於只有一個延伸端，引物設計比方法1簡單，而且引物數目不需要必須為偶數。

⒈ 設計PCR引物

可以藉助自動設計工具也可以人工設計，藉助工具後面會詳細介紹。如果人工設計，推薦使用SnapGene（這款軟體的強大就不多說了，搞分子生物學應該都知道，網上有很多破解版，沒安裝的話自己去網路一個吧），將全基因序列復制進去之後，先調出「Preferences」面板，找到「Primer」選項，把3』端最短匹配長度和最低Tm分別設置為10bp和40℃，這樣當你添加引物時軟體就會自動提醒有沒有次級結合位點（如下圖）。

因為3』端錯配對本文中的全基因合成方法十分不利，如果這兩個設置太低實在難以設計出引物，可以適當調高至12bp和45℃，還不行的話只能優化密碼子後再重新設計。

引物的長度預設為59bp，重點是重疊區的設計，一般應該根據重疊區的Tm來確定，不同重疊區之間的Tm平衡很重要，一般∆Tm不超過3℃，推薦把Tm設置在55-58℃之間。需要注意的是，針對本文的方法一，引物數目必須是偶數，從序列開頭往後一條一條的拉，下一條oligo的起點是上一條的終點-重疊區，上正下反，如果最後為奇數條，要調整最後幾條長度，補出一條反向引物。

針對方法二，從序列開頭拉一條正向，剩餘全部為反向直到末尾，也可以從末尾拉一條反向，剩餘為正向直到開頭，這種方法不用管引物數目。

⒉ PCR獲得全長產物

一般需要兩輪PCR。第一輪，加入少量引物，推薦50uL體系中0.5-1pmol/個oligo，10-15個循環，獲得全長模板，本輪PCR推薦使用的DNA聚合酶應該同時缺失3』-5』和5』-3』外切酶活性，這兩種活性會損傷重疊區的Tm平衡；第二輪，取1uLPCR產物做模板，加入20pmol全長上下游引物，20-25個循環獲得目標基因，本輪PCR應使用高保真DNA聚合酶。

⒊ 克隆至表達載體

通過同源重組，酶切鏈接等方法將目標基因插入載體中，轉化大腸桿菌或其他宿主感受態細胞，獲取單克隆子。提示：在全基因合成前，一定要針對克隆/表達載體設計好同源臂或者酶切位點，直接加在全基因序列上，否則還要單獨設計引物添加同源臂或者酶切位點。

⒋ 測序鑒定

菌體PCR鑒定陽性克隆子並挑選陽性克隆子測序，正確的克隆可用於下游的表達和純化。

OPTIMIZER ： http://genomes.urv.es/OPTIMIZER/ ，這是一個非常優秀的在線設計工具，集密碼子優化和全基因合成於一身，不過他生成的oligo只能是50、55、60等5的整倍（60就很尷尬了），而且它不檢查引物條數，最後一條可能形成錯配，這可以通過再設計額外的全長引物彌補。不過我現在發現打不開了，不知道是我的網路問題還是網址/伺服器出了問題。

DNA Works [8]：這個工具來源於《Nucleic Acids Research》，論文中的連接失效了，這是我新找到的連接： https://hpcwebapps.cit.nih.gov/dnaworks/ ，也支持密碼子優化，不過我覺得不是太好用，參數太多有點復雜了。

Gene2oligo [9]：也來源於《Nucleic Acids Research》，它設計的引物之間是沒有空隙（gaps）的，論文中的連接也失效了（原來的鏈接： http://berry.engin.umich.e/gene2oligo ），我也沒找到新的。

Assembly PCR Oligo Maker [10]：來源於《Nucleic Acids Research》，論文中的鏈接為： http://publish.yorku.ca/~pjohnson/AssemblyPCRoligomaker.html ，我還是打不開（我都快哭了）。

GeMS [11]：來源於《Nucleic Acids Research》，這是一個軟體套件，功能很多，鏈接是： http://software.kosan.com/GeMS ，打不開。

GeneDesign [12]：來源於《Genome Research》，論文中的鏈接是： http://slam.bs.jhmi.e/gd ，但依然打不開，從論文內容看與我的工具比較像，也根據Tm計算重疊區，可惜沒辦法看到源碼。

gene2oligos ： http://www.liuzhen106.com/tools/104.html ，這個一定打得開，這是我自己寫的工具，包括密碼子分析與優化，將基因自動轉化為oligos，生成參考實驗方案三個功能。生成的oligos，具有統一長度，重疊區具有相同的Tm值，Tm計算公式為：Tm = 64 + 0.41×GC - 528/n，怎麼來的參考我的《PCR引物設計大法》。生成的oligos可以，一鍵復制，格式為oligo+序列編號+空格+Tab+序列(5』-3』)，可以直接導入SnapGene。

我的程序輸出的引物可以被SnapGene識別，菜單欄點擊「Primer」工具，點擊」Import Primer from a List「選項，選擇從剪貼板導入序列，

可以查看個引物是否完全覆蓋目標序列，引物的「頭尾「是否沖突等等。

以GFP為目標序列測試一下：

①從NCBI上找到GFP的序列，粘貼到文本框中，首先分析密碼子偏性；

大腸桿菌的稀有密碼子用紅色標出，可見GFP原生基因中含有很多稀有密碼子，可以先執行密碼子優化。

②生成oligos，有兩種方式，默認為方法一，如果引物見相似性高，會提示使用方法二。

點擊生成oligos按鈕後，會彈出總鹼基數的統計信息，然後輸出oliogs序號及序列，同時生成實驗方案按鈕和復制按鈕，一鍵復制後可導入SanpGene分析。

③SanpGene分析

完全覆蓋了GFP的基因，並且為偶數條引物，引物間的Tm基本一致（由於程序與SnapGene的Tm演算法不一致，在SnapGene上只能看到基本一致。

④生成實驗方案

體外全基因合成一般一次不超過1000bp，一次性合成太長會增加出錯的概率，我推薦按800bp分段，程序會根據你輸入的序列長度推薦分段數。

希望這個工具能幫到你完成全基因合成，我還寫了輔助載體構建的工具，以後有機會再介紹。

參考文獻

[1] Prodromou,C. and Pearl,L. (1992) Recursive PCR: a novel technique for total gene synthesis. Protein Eng., 5, 827–829.
[2] Sandhu,G.S, Aleff,R.A. and Kline,B.C. (1992) Dual asymmetric PCR: one-step construction of synthetic genes. Biotechniques, 12, 14–16.
[3] Stemmer,W.P., Crameri,A., Ha,K.D., Brennan,T.M. and Heyneker,H.L. (1995) Single-step assembly of a gene and entire plasmid from large numbers of oligodeoxyribonucleotides. Gene, 164, 49–53.
[4] Au,L.C., Yang,F.Y., Yang,W.J., Lo,S.H. and Kao,C.F. (1998) Gene synthesis by a LCR-based approach: high-level proction of leptin-L54 using synthetic gene in Escherichia coli. Biochem. Biophys. Res. Commun., 248, 200–203.
[5] Gao,X., Yo,P., Keith,A., Ragan,T.J. and Harris,T.K. (2003) Thermodynamically balanced inside-out (TBIO) PCR-based gene synthesis: a novel method of primer design for high-fidelity assembly of longer gene sequences. Nucleic Acids Res.,31, e143.
[6] Xiong,A.-S., Yao,Q.-H., Peng,R.-H., Li,X., Fan,H.-Q., Cheng,Z.-M. and Li,Y. (2004) A simple, rapid, high-fidelity and cost-effective PCR-based two-step DNA synthesis method for long gene sequences. Nucleic Acids Res., 32, e98.
[7] Young,L. and Dong,Q. (2004) Two-step total gene synthesis method. Nucleic Acids Res., 32, e59.
[8] Hoover,D.M. and Lubkowski,J. (2002) DNAWorks: an automated method for designing oligonucleotides for PCR-based gene synthesis. Nucleic Acids Res., 30, e43.
[9] Rouillard,J.-M., Lee,W., Truan,G., Gao,X., Zhou,X. and Gulari,E.(2004) Gene2oligo: oligonucleotide design for in vitro gene synthesis. Nucleic Acids Res., 32, W176–W180.
[10] Rydzanicz,R., Zhao,X.S. and Johnson,P.E. (2005) Assembly PCR oligo maker: a tool for designing oligodeoxynucleotides for constructing long DNA molecules for RNA proction. Nucleic Acids Res., 33, W521–W525.
[11] Jayaraj,S., Reid,R. and Santi,D.V. (2005) GeMS: an advanced software package for designing synthetic genes. Nucleic Acids Res., 33, 3011–3016.
[12] Richardson,S.M., Wheelan,S.J., Yarrington,R.M. and Boeke,J.D. (2006) GeneDesign: rapid, automated design of multikilobase synthetic genes. Genome Res., 16, 550–556.

㈡重疊區擴增基因拼接法的原理是什麼

原理就是有3對引物。第3對引物分別與另外2個產物的5『和3』有重疊，從而將2個產物接在一起

㈢淺析現階段高通量測序中的拼接問題論文

淺析現階段高通量測序中的拼接問題論文

摘要：近年來，隨著第二代測序技術的普及和第三代測序技術的逐步發展，高通量測序技術在實際研究中的應用越來越廣泛。高速率、高性價比是其主要優點。相對於傳統的桑格（Sanger）法測序來言，高通量測序得到的片段長度較為短小，故如何拼接得到完整的序列一直是炙手可熱的研究方向。本文總結了現階段高通量測序中拼接問題的研究結果，針對現在流行的各種演算法進行了簡單介紹。

關鍵詞：高通量測序；reads 拼接；contigs 組裝；OLC、De brujin 圖

一、測序技術的發展過程和現狀[1]

（一）桑格法

桑格法又叫做雙脫氧鏈終止法，由Sanger在1977年提出。通過加入帶有放射標記的dd NTP（雙脫氧核苷酸）使DNA合成終止。再通過電泳，並使用放射自顯影技術讀出鹼基。此方法得到的片段較長，能達到1000bp左右。

（二）第二代測序技術

隨著科學技術的發展，傳統的桑格法已經不能滿足研究的需要。科學家們需要更快的速度、更高的通量以及更低廉的價格，於是第二代測序技術應運而生。其核心思想是邊合成邊測序。現在主要有454 GS FLX、SOLi D和Illumina/Solexa GenomeAnalyzer三個平台。第二代測序是現階段測序技術的主流，也是高通量測序的開始。

（三）第三代測序技術

第三代測序技術是指單分子測序技術。不需要經過PCR的過程即可測序，速度可以達到每秒十個鹼基。通量更大，讀長更短，是現階段測序技術的發展方向。

二、高通量測序中的拼接工作

（一）高通量測序所得片段的特點

高通量測序之後所得到的序列片段稱為reads（讀取），其主要特點兩點。一是長度短，一般在200bp以下，最長的454平台能達到的長度也不過1000bp,因此需要進行大量的拼接才能得到整條DNA序列。二是有部分重疊，由於測序位置具有隨機性，故各reads總會有一定的重疊，這些重疊是拼接工作的關鍵。

（二）拼接過程

整個拼接過程分為兩步。第一步，考察reads的重復序列，並拼接成更長的片段，稱為contigs（重疊群），這一步稱為reads的拼接；第二步，確定contigs之間的順序關系，並按此排列，形成稱為scaffolds的序列，這一步叫做contigs的組裝。

三、Reads的`拼接

（一）拼接過程的難點

reads拼接過程中要克服的難點主要有兩點，一是高通量測序得到的reads長度較短，故內含信息較少，不易確認相對順序。二是遠程連接信息（Long-range linking information）的不可靠性。 2這兩點制約著reads拼接過程的准確率。

（二）方法[3]

reads拼接過程中演算法的基本要求是de novo（從頭測序），即不需要任何序列信息即可對原料進行測序。由此衍生出兩種主流的演算法：

1.OLC

OLC,即交疊-排列-共有序列演算法（Overlap-layout-consensus），是一個比較傳統的演算法，其基本思想為根據reads間的重復部分，確定可能性的reads連接順序。

其步驟為：構建交疊圖：對每兩個reads進行比對，計算它們的重疊度---排列reads:將reads進行排列，確定它們之間的相對位置，建立overlap圖---生成共有序列：通過多序列比對等方法，確立最後的contig.

OLC演算法的計算量主要體現在交疊圖的構建，而高通量測序得到的海量短序列有大量的交疊，往往需要大量的運算時間。故OLC演算法並不適合現在高通量測序的發展趨勢。現在某些拼接軟體，如Shorty、CABOG等仍在使用基於此的演算法。雖然這些軟體針對OLC演算法有一定的改進和優化，但其拼接速度和准確性仍受到限制。

2.De brujin圖

基於De brujin圖（DBG）的演算法是現在最流行的演算法，許多常用的拼接軟體如Velvet、ABy SS等都在使用這種演算法。其特點為把基因序列的拼接問題轉化為了數學上的圖論問題，大大提高了拼接效率。

（1）基本思想

reads中連續的k個鹼基稱為k -mer,作為DBG的節點，兩個k-mer如果在同一read中相鄰，則形成一條邊。故每個read都會對一些邊加權，最後形成一個含有節點、有權值的邊的DBG,由此生成最佳的contig.

（2）步驟

篩選reads:對reads進行檢測，去除掉可能錯誤的reads---確定k值：k的值直接影響速度和精度。 K值較大時，精度有所提高，但更容易受覆蓋率的影響。故應該根據覆蓋率、reads長度等確定合適的k值---處理DBG:根據確定的k值，做出DBG,同時完成化簡和修正---根據DBG,拼接成contig.

（3）優缺點

DBG演算法在處理海量短reads的時候效果優秀，與現在測序技術的發展趨勢相匹配。然而，由於k-mer的長度較短，此方法受重復序列、測序錯誤的影響較大。

（三）不同拼接軟體的效果差異

不同的拼接軟體在reads拼接過程中表現為三點：一是比起軟體來說，reads質量對拼接結果影響更大；二是與標准序列的接近度隨reads和拼接軟體的不同有很大改變；三是各軟體拼接的正確率差別很大，但與接近度的結果不一致。

四、Contigs的組裝

與reads的拼接相比，contigs的組裝的難度相對較小。這是因為contigs的長度較reads長很多，所含信息較多。故可以較為准確的組裝成scaffold

（一）組裝過程的難點[4]

Contigs組裝過程中的難點主要有二。一是contigs中含有大量的重復序列，不易確定contigs之間的相對順序；二是由於contigs由reads拼接而成，其中不免會有一些錯誤，這些錯誤也會對contigs的組裝產生干擾。

（二）方法

Contigs組裝的方法較reads拼接而言較多，一般常用的有圖論法和光學圖譜法（Optical mapping）兩種。

1.圖論法[5]

圖論法是比較傳統的方法，與reads拼接有相似的地方。它以contigs作為節點，由相連的讀取對（Linking reads pair）作為邊，由此形成算圖。

其一般步驟為：庫的構建：構建出含有所有reads的庫---計算相連讀取對之間的距離，並由此計算gap的長度---把長度放在邊上，作為算圖的數據。

其理想的輸出結果是一條scaffold序列，對應一條染色體，包含以正確順序排列的contigs和contigs之間gap的長度。

2.光學圖譜法[6]

光學圖譜法是一種較為新穎的方法。通過內切酶將DNA切斷，此時DNA的片段的譜表現出一種特殊的指紋或是識別碼的性質。利用光學方法追蹤此信息得到相對位置，由此組裝成正確的scaffold.

主要步驟為：將contigs放置在光學圖譜上---修正光學圖譜---做出contigs的連接圖，由此決定最佳的contigs連接順序。

光學圖譜法的組裝結果有著很高的覆蓋率，巧妙運用光學圖譜法可以獲得很高的成本效益。

有研究表明，當與454平台獲得的實驗結果相結合的時候，光學圖譜法可以迅速、價廉的得到排列好的定向的contigs組，由此可以產生一個將近完整的基因組。

（三）發展方向

Contigs組裝過程的關鍵點在於如何得到正確的連接順序。現階段此方面研究多集中在這一方向。

五、前景與展望

隨著生物學研究向微觀、向基因領域逐步延伸，高通量測序作為獲得基因序列的主要方法，越來越受到重視，拼接技術也在不斷發展。高通量測序的基因片段會變得海量且短小，應對此變化，拼接技術也會由確定「唯一的基因序列」向確定「最可能的基因序列」完成轉變。因此，新一代的拼接技術會在准確率、覆蓋率和速度上，作出超於現在拼接技術的改進。

參考文獻：

[1]Anderson MW, Schrijver I. Next Generation DNASequencing and the Future of Genomic Medicine.?Genes.2010;1（1）：38-69. doi:10.3390/genes1010038.

[2]Salzberg SL, Phillippy AM, Zimin A, et al. GAGE: Acritical evaluation of genome assemblies and assemblyalgorithms.Genome Research. 2012;22 （3）：557 -567. doi:10.1101/gr.131383.111.

[3]Deng X, Naccache SN, Ng T, et al. An ensemble strategythat significantly improves de novo assembly of microbialgenomes from metagenomic next -generation sequencingdata.Nucleic Acids Research. 2015;43 （7）：e46. doi:10.1093/nar/gkv002.

[4]Latreille P, Norton S, Goldman BS, et al. Opticalmapping as a routine tool for bacterial genome sequencefinishing.BMC Genomics. 2007;8:321. doi:10.1186/1471 -2164-8-321.

[5]Hunt M, Newbold C, Berriman M, Otto TD. Acomprehensive evaluation of assembly scaffolding tools.Genome Biology. 2014;15 （3）：R42. doi:10.1186/gb -2014 -15-3-r42.

[6]Nagarajan N, Read TD, Pop M. Scaffolding andvalidation of bacterial genome assemblies using opticalrestriction maps.Bioinformatics. 2008;24 （10）：1229 -1235.doi:10.1093/bioinformatics/btn102.

;

㈣怎樣切除、拼接基因

需要用到一些酶
首先是用於切割，要用限制性核酸內切酶，高中學到的有兩種，其一為EcoRI，是從大腸桿菌內提取的，識別GAATTC的鹼基序列並在GA處切割二酯鍵，切出的為粘性末端。其二為T4酶（從T4噬菌體內獲得），切割CG間的二酯鍵，切出的是平末端。
接著是連接酶，有Ecoli和T4，前者連接所有粘性末端，後者都可連接，但效率較低。

㈤有哪些經典的演算法或者輕量應用適合並行化

反對，不會顯示你的姓名
知乎用戶計算機博士生，做生物信息
6 人贊同
挖個坑，說幾個生物信息領域的經典演算法吧。 1. Smith-Waterman 和 Needleman-Wunsch，倆生物信息最經典的動態規劃演算法，並行演算法的論文不知道發了多少篇了，Xeon，Xeon Phi， CUDA，SIMD的，一般並行先從這個演算法開始講 2. 基因組拼接的演算法 de brijin Gra… 顯示全部
挖個坑，說幾個生物信息領域的經典演算法吧。
1. Smith-Waterman 和 Needleman-Wunsch，倆生物信息最經典的動態規劃演算法，並行演算法的論文不知道發了多少篇了，Xeon，Xeon Phi， CUDA，SIMD的，一般並行先從這個演算法開始講

2. 基因組拼接的演算法 de brijin Graph 的構建和查詢的並行演算法

3. 序列比對，BWT 構建的並行演算法

以後慢慢補充

最後來一發，之前給物理學裡面的QMC演算法（一種MCMC演算法，用來計算分子結構的）做Xeon Phi上並行的優化，題主有興趣可以看看，已經有現成的軟體包QMCPACK，可以支持Xeon和GPU並行了。

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：809

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1077

python中的init方法發布：2025-10-20 08:17:33 瀏覽：781

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：946

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：839

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1190

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：412

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：291

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：967

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：936

基因拼接演算法

與基因拼接演算法相關的資訊