基因拼接算法

发布时间: 2022-12-23 04:55:36

㈠全基因合成方法

全基因合成是指在体外利用人工方法合成双链DNA分子的技术。基因合成无需模板，是获取基因的重要手段之一。目前该技术主要应用在克隆一些不易获取模板的基因、自然界不存在的新基因以及异源基因表达上，经常在对基因密码子优化后进行。密码子优化的必要性及方法，已经在前面的文章中介绍，想要回顾的点这里密码子优化。

全基因合成技术很成熟，一般的做法是：设计合成相互重叠的单链寡核苷酸，通过重叠延伸PCR法拼接出全长。关于全基因合成方法的资料网上一大堆，单全基因合成的相关专利都上百篇，常见的有重叠延伸PCR（OE-PCR）法[1,7]，双不对称PCR（DA-PCR）法[2]，聚合酶连反应（PCR）法[3]，连接酶链反应（LCR）法[4]，热力学平衡由内向外（TBIO）法[5]，PCR介导两步（PTDS）法[6]。说实话我并没有仔细研究这些方法，它们叫什么名字不重要，万变不离其宗：PCR，基于一定重叠的短引物通过聚合酶逐渐延伸成长片段。

全基因合成最简单的方法是什么？

当然是让DNA合成公司来合成，我们只需要提供DNA序列信息，他们会合成dsDNA并克隆在通用载体上，一般还提供测序信息，确保合成的正确性。这无疑是最简单、最省事的方法。而且现在全基因合成十分廉价，1bp不到一块钱还带测序的那种。

既然DNA合成公司那么方便，为什么还要自己合成呢？

① 公司合成慢，一般需要1-2周，如果碰到特殊序列比如对大肠杆菌毒性极大的编码序列，那周期就难说了（我做过一个核酸酶，合成公司一个月没搞定，自己合成一周搞定）。

② 不自由，合成公司提供的一般是携带目标基因的重组载体，拿到后还要用酶切切下来，如果基因内部含有酶切位点还需要避开，当然这些一般不是什么大问题，但你确实没得选。

③ 如前所述，全基因合成一般用于异源基因表达，异源表达的对象大多是酶，研究酶的性质可能又需要构建大量突变体。合成公司只提供一个序列，构建突变体还得自己设计引物重新构建，如果自己合成全基因，只需要将包含突变的引物替换掉，就可以同时获得各类突变体，这在构建含大量突变的突变体时，更有优势。

④ 序列需要保密，毕竟自己才最可靠。

总有人喜欢自己动手丰衣足食，本文我要介绍的是自己合成的方法，介绍两种方法：

1 基于“搭桥”PCR的一次拼接法

这种方法依赖于引物间的相互退火，彼此作为模板相互延伸，因此需要的引物总是一正一反。首先把全基因序列打断为短的oligos，一般不大于59bp，因为一般引物合成以59bp为分水岭，超过59bp价格和时间成本都会高很多。oligos靠3'末端互补序列相互退火，形成带有gaps的双链产物，再由DNA聚合酶补齐gaps，形成带有切刻的DNA双链，这种产物经过Taq DNA Ligase链接形成完整的双链产物，依此为模板进行PCR扩增即可得到目标基因，也可以直接使用带有切刻的DNA双链作为模板进行PCR扩增。

2 基于逐渐延伸的step by step法

这种方法仅最后一条引物为反向，其余均为正向，正向引物间具有重叠序列。倒数第一条oligo与倒数第二条oligo靠末端互补序列相互退火，经过第一次PCR循环，双链延长，延长的双链与倒数第三条oligo继续退火、延长，......，依此类推，直至全长序列合成。这种方法理论上一次PCR循环只能延伸一条引物，N条oliogs就至少需要经过N个PCR循环，由于只有一个延伸端，引物设计比方法1简单，而且引物数目不需要必须为偶数。

⒈ 设计PCR引物

可以借助自动设计工具也可以人工设计，借助工具后面会详细介绍。如果人工设计，推荐使用SnapGene（这款软件的强大就不多说了，搞分子生物学应该都知道，网上有很多破解版，没安装的话自己去网络一个吧），将全基因序列复制进去之后，先调出“Preferences”面板，找到“Primer”选项，把3’端最短匹配长度和最低Tm分别设置为10bp和40℃，这样当你添加引物时软件就会自动提醒有没有次级结合位点（如下图）。

因为3’端错配对本文中的全基因合成方法十分不利，如果这两个设置太低实在难以设计出引物，可以适当调高至12bp和45℃，还不行的话只能优化密码子后再重新设计。

引物的长度预设为59bp，重点是重叠区的设计，一般应该根据重叠区的Tm来确定，不同重叠区之间的Tm平衡很重要，一般∆Tm不超过3℃，推荐把Tm设置在55-58℃之间。需要注意的是，针对本文的方法一，引物数目必须是偶数，从序列开头往后一条一条的拉，下一条oligo的起点是上一条的终点-重叠区，上正下反，如果最后为奇数条，要调整最后几条长度，补出一条反向引物。

针对方法二，从序列开头拉一条正向，剩余全部为反向直到末尾，也可以从末尾拉一条反向，剩余为正向直到开头，这种方法不用管引物数目。

⒉ PCR获得全长产物

一般需要两轮PCR。第一轮，加入少量引物，推荐50uL体系中0.5-1pmol/个oligo，10-15个循环，获得全长模板，本轮PCR推荐使用的DNA聚合酶应该同时缺失3’-5’和5’-3’外切酶活性，这两种活性会损伤重叠区的Tm平衡；第二轮，取1uLPCR产物做模板，加入20pmol全长上下游引物，20-25个循环获得目标基因，本轮PCR应使用高保真DNA聚合酶。

⒊ 克隆至表达载体

通过同源重组，酶切链接等方法将目标基因插入载体中，转化大肠杆菌或其他宿主感受态细胞，获取单克隆子。提示：在全基因合成前，一定要针对克隆/表达载体设计好同源臂或者酶切位点，直接加在全基因序列上，否则还要单独设计引物添加同源臂或者酶切位点。

⒋ 测序鉴定

菌体PCR鉴定阳性克隆子并挑选阳性克隆子测序，正确的克隆可用于下游的表达和纯化。

OPTIMIZER ： http://genomes.urv.es/OPTIMIZER/ ，这是一个非常优秀的在线设计工具，集密码子优化和全基因合成于一身，不过他生成的oligo只能是50、55、60等5的整倍（60就很尴尬了），而且它不检查引物条数，最后一条可能形成错配，这可以通过再设计额外的全长引物弥补。不过我现在发现打不开了，不知道是我的网络问题还是网址/服务器出了问题。

DNA Works [8]：这个工具来源于《Nucleic Acids Research》，论文中的连接失效了，这是我新找到的连接： https://hpcwebapps.cit.nih.gov/dnaworks/ ，也支持密码子优化，不过我觉得不是太好用，参数太多有点复杂了。

Gene2oligo [9]：也来源于《Nucleic Acids Research》，它设计的引物之间是没有空隙（gaps）的，论文中的连接也失效了（原来的链接： http://berry.engin.umich.e/gene2oligo ），我也没找到新的。

Assembly PCR Oligo Maker [10]：来源于《Nucleic Acids Research》，论文中的链接为： http://publish.yorku.ca/~pjohnson/AssemblyPCRoligomaker.html ，我还是打不开（我都快哭了）。

GeMS [11]：来源于《Nucleic Acids Research》，这是一个软件套件，功能很多，链接是： http://software.kosan.com/GeMS ，打不开。

GeneDesign [12]：来源于《Genome Research》，论文中的链接是： http://slam.bs.jhmi.e/gd ，但依然打不开，从论文内容看与我的工具比较像，也根据Tm计算重叠区，可惜没办法看到源码。

gene2oligos ： http://www.liuzhen106.com/tools/104.html ，这个一定打得开，这是我自己写的工具，包括密码子分析与优化，将基因自动转化为oligos，生成参考实验方案三个功能。生成的oligos，具有统一长度，重叠区具有相同的Tm值，Tm计算公式为：Tm = 64 + 0.41×GC - 528/n，怎么来的参考我的《PCR引物设计大法》。生成的oligos可以，一键复制，格式为oligo+序列编号+空格+Tab+序列(5’-3’)，可以直接导入SnapGene。

我的程序输出的引物可以被SnapGene识别，菜单栏点击“Primer”工具，点击”Import Primer from a List“选项，选择从剪贴板导入序列，

可以查看个引物是否完全覆盖目标序列，引物的“头尾“是否冲突等等。

以GFP为目标序列测试一下：

①从NCBI上找到GFP的序列，粘贴到文本框中，首先分析密码子偏性；

大肠杆菌的稀有密码子用红色标出，可见GFP原生基因中含有很多稀有密码子，可以先执行密码子优化。

②生成oligos，有两种方式，默认为方法一，如果引物见相似性高，会提示使用方法二。

点击生成oligos按钮后，会弹出总碱基数的统计信息，然后输出oliogs序号及序列，同时生成实验方案按钮和复制按钮，一键复制后可导入SanpGene分析。

③SanpGene分析

完全覆盖了GFP的基因，并且为偶数条引物，引物间的Tm基本一致（由于程序与SnapGene的Tm算法不一致，在SnapGene上只能看到基本一致。

④生成实验方案

体外全基因合成一般一次不超过1000bp，一次性合成太长会增加出错的概率，我推荐按800bp分段，程序会根据你输入的序列长度推荐分段数。

希望这个工具能帮到你完成全基因合成，我还写了辅助载体构建的工具，以后有机会再介绍。

参考文献

[1] Prodromou,C. and Pearl,L. (1992) Recursive PCR: a novel technique for total gene synthesis. Protein Eng., 5, 827–829.
[2] Sandhu,G.S, Aleff,R.A. and Kline,B.C. (1992) Dual asymmetric PCR: one-step construction of synthetic genes. Biotechniques, 12, 14–16.
[3] Stemmer,W.P., Crameri,A., Ha,K.D., Brennan,T.M. and Heyneker,H.L. (1995) Single-step assembly of a gene and entire plasmid from large numbers of oligodeoxyribonucleotides. Gene, 164, 49–53.
[4] Au,L.C., Yang,F.Y., Yang,W.J., Lo,S.H. and Kao,C.F. (1998) Gene synthesis by a LCR-based approach: high-level proction of leptin-L54 using synthetic gene in Escherichia coli. Biochem. Biophys. Res. Commun., 248, 200–203.
[5] Gao,X., Yo,P., Keith,A., Ragan,T.J. and Harris,T.K. (2003) Thermodynamically balanced inside-out (TBIO) PCR-based gene synthesis: a novel method of primer design for high-fidelity assembly of longer gene sequences. Nucleic Acids Res.,31, e143.
[6] Xiong,A.-S., Yao,Q.-H., Peng,R.-H., Li,X., Fan,H.-Q., Cheng,Z.-M. and Li,Y. (2004) A simple, rapid, high-fidelity and cost-effective PCR-based two-step DNA synthesis method for long gene sequences. Nucleic Acids Res., 32, e98.
[7] Young,L. and Dong,Q. (2004) Two-step total gene synthesis method. Nucleic Acids Res., 32, e59.
[8] Hoover,D.M. and Lubkowski,J. (2002) DNAWorks: an automated method for designing oligonucleotides for PCR-based gene synthesis. Nucleic Acids Res., 30, e43.
[9] Rouillard,J.-M., Lee,W., Truan,G., Gao,X., Zhou,X. and Gulari,E.(2004) Gene2oligo: oligonucleotide design for in vitro gene synthesis. Nucleic Acids Res., 32, W176–W180.
[10] Rydzanicz,R., Zhao,X.S. and Johnson,P.E. (2005) Assembly PCR oligo maker: a tool for designing oligodeoxynucleotides for constructing long DNA molecules for RNA proction. Nucleic Acids Res., 33, W521–W525.
[11] Jayaraj,S., Reid,R. and Santi,D.V. (2005) GeMS: an advanced software package for designing synthetic genes. Nucleic Acids Res., 33, 3011–3016.
[12] Richardson,S.M., Wheelan,S.J., Yarrington,R.M. and Boeke,J.D. (2006) GeneDesign: rapid, automated design of multikilobase synthetic genes. Genome Res., 16, 550–556.

㈡重叠区扩增基因拼接法的原理是什么

原理就是有3对引物。第3对引物分别与另外2个产物的5‘和3’有重叠，从而将2个产物接在一起

㈢浅析现阶段高通量测序中的拼接问题论文

浅析现阶段高通量测序中的拼接问题论文

摘要：近年来，随着第二代测序技术的普及和第三代测序技术的逐步发展，高通量测序技术在实际研究中的应用越来越广泛。高速率、高性价比是其主要优点。相对于传统的桑格（Sanger）法测序来言，高通量测序得到的片段长度较为短小，故如何拼接得到完整的序列一直是炙手可热的研究方向。本文总结了现阶段高通量测序中拼接问题的研究结果，针对现在流行的各种算法进行了简单介绍。

关键词：高通量测序；reads 拼接；contigs 组装；OLC、De brujin 图

一、测序技术的发展过程和现状[1]

（一）桑格法

桑格法又叫做双脱氧链终止法，由Sanger在1977年提出。通过加入带有放射标记的dd NTP（双脱氧核苷酸）使DNA合成终止。再通过电泳，并使用放射自显影技术读出碱基。此方法得到的片段较长，能达到1000bp左右。

（二）第二代测序技术

随着科学技术的发展，传统的桑格法已经不能满足研究的需要。科学家们需要更快的速度、更高的通量以及更低廉的价格，于是第二代测序技术应运而生。其核心思想是边合成边测序。现在主要有454 GS FLX、SOLi D和Illumina/Solexa GenomeAnalyzer三个平台。第二代测序是现阶段测序技术的主流，也是高通量测序的开始。

（三）第三代测序技术

第三代测序技术是指单分子测序技术。不需要经过PCR的过程即可测序，速度可以达到每秒十个碱基。通量更大，读长更短，是现阶段测序技术的发展方向。

二、高通量测序中的拼接工作

（一）高通量测序所得片段的特点

高通量测序之后所得到的序列片段称为reads（读取），其主要特点两点。一是长度短，一般在200bp以下，最长的454平台能达到的长度也不过1000bp,因此需要进行大量的拼接才能得到整条DNA序列。二是有部分重叠，由于测序位置具有随机性，故各reads总会有一定的重叠，这些重叠是拼接工作的关键。

（二）拼接过程

整个拼接过程分为两步。第一步，考察reads的重复序列，并拼接成更长的片段，称为contigs（重叠群），这一步称为reads的拼接；第二步，确定contigs之间的顺序关系，并按此排列，形成称为scaffolds的序列，这一步叫做contigs的组装。

三、Reads的`拼接

（一）拼接过程的难点

reads拼接过程中要克服的难点主要有两点，一是高通量测序得到的reads长度较短，故内含信息较少，不易确认相对顺序。二是远程连接信息（Long-range linking information）的不可靠性。 2这两点制约着reads拼接过程的准确率。

（二）方法[3]

reads拼接过程中算法的基本要求是de novo（从头测序），即不需要任何序列信息即可对原料进行测序。由此衍生出两种主流的算法：

1.OLC

OLC,即交叠-排列-共有序列算法（Overlap-layout-consensus），是一个比较传统的算法，其基本思想为根据reads间的重复部分，确定可能性的reads连接顺序。

其步骤为：构建交叠图：对每两个reads进行比对，计算它们的重叠度---排列reads:将reads进行排列，确定它们之间的相对位置，建立overlap图---生成共有序列：通过多序列比对等方法，确立最后的contig.

OLC算法的计算量主要体现在交叠图的构建，而高通量测序得到的海量短序列有大量的交叠，往往需要大量的运算时间。故OLC算法并不适合现在高通量测序的发展趋势。现在某些拼接软件，如Shorty、CABOG等仍在使用基于此的算法。虽然这些软件针对OLC算法有一定的改进和优化，但其拼接速度和准确性仍受到限制。

2.De brujin图

基于De brujin图（DBG）的算法是现在最流行的算法，许多常用的拼接软件如Velvet、ABy SS等都在使用这种算法。其特点为把基因序列的拼接问题转化为了数学上的图论问题，大大提高了拼接效率。

（1）基本思想

reads中连续的k个碱基称为k -mer,作为DBG的节点，两个k-mer如果在同一read中相邻，则形成一条边。故每个read都会对一些边加权，最后形成一个含有节点、有权值的边的DBG,由此生成最佳的contig.

（2）步骤

筛选reads:对reads进行检测，去除掉可能错误的reads---确定k值：k的值直接影响速度和精度。 K值较大时，精度有所提高，但更容易受覆盖率的影响。故应该根据覆盖率、reads长度等确定合适的k值---处理DBG:根据确定的k值，做出DBG,同时完成化简和修正---根据DBG,拼接成contig.

（3）优缺点

DBG算法在处理海量短reads的时候效果优秀，与现在测序技术的发展趋势相匹配。然而，由于k-mer的长度较短，此方法受重复序列、测序错误的影响较大。

（三）不同拼接软件的效果差异

不同的拼接软件在reads拼接过程中表现为三点：一是比起软件来说，reads质量对拼接结果影响更大；二是与标准序列的接近度随reads和拼接软件的不同有很大改变；三是各软件拼接的正确率差别很大，但与接近度的结果不一致。

四、Contigs的组装

与reads的拼接相比，contigs的组装的难度相对较小。这是因为contigs的长度较reads长很多，所含信息较多。故可以较为准确的组装成scaffold

（一）组装过程的难点[4]

Contigs组装过程中的难点主要有二。一是contigs中含有大量的重复序列，不易确定contigs之间的相对顺序；二是由于contigs由reads拼接而成，其中不免会有一些错误，这些错误也会对contigs的组装产生干扰。

（二）方法

Contigs组装的方法较reads拼接而言较多，一般常用的有图论法和光学图谱法（Optical mapping）两种。

1.图论法[5]

图论法是比较传统的方法，与reads拼接有相似的地方。它以contigs作为节点，由相连的读取对（Linking reads pair）作为边，由此形成算图。

其一般步骤为：库的构建：构建出含有所有reads的库---计算相连读取对之间的距离，并由此计算gap的长度---把长度放在边上，作为算图的数据。

其理想的输出结果是一条scaffold序列，对应一条染色体，包含以正确顺序排列的contigs和contigs之间gap的长度。

2.光学图谱法[6]

光学图谱法是一种较为新颖的方法。通过内切酶将DNA切断，此时DNA的片段的谱表现出一种特殊的指纹或是识别码的性质。利用光学方法追踪此信息得到相对位置，由此组装成正确的scaffold.

主要步骤为：将contigs放置在光学图谱上---修正光学图谱---做出contigs的连接图，由此决定最佳的contigs连接顺序。

光学图谱法的组装结果有着很高的覆盖率，巧妙运用光学图谱法可以获得很高的成本效益。

有研究表明，当与454平台获得的实验结果相结合的时候，光学图谱法可以迅速、价廉的得到排列好的定向的contigs组，由此可以产生一个将近完整的基因组。

（三）发展方向

Contigs组装过程的关键点在于如何得到正确的连接顺序。现阶段此方面研究多集中在这一方向。

五、前景与展望

随着生物学研究向微观、向基因领域逐步延伸，高通量测序作为获得基因序列的主要方法，越来越受到重视，拼接技术也在不断发展。高通量测序的基因片段会变得海量且短小，应对此变化，拼接技术也会由确定“唯一的基因序列”向确定“最可能的基因序列”完成转变。因此，新一代的拼接技术会在准确率、覆盖率和速度上，作出超于现在拼接技术的改进。

参考文献：

[1]Anderson MW, Schrijver I. Next Generation DNASequencing and the Future of Genomic Medicine.?Genes.2010;1（1）：38-69. doi:10.3390/genes1010038.

[2]Salzberg SL, Phillippy AM, Zimin A, et al. GAGE: Acritical evaluation of genome assemblies and assemblyalgorithms.Genome Research. 2012;22 （3）：557 -567. doi:10.1101/gr.131383.111.

[3]Deng X, Naccache SN, Ng T, et al. An ensemble strategythat significantly improves de novo assembly of microbialgenomes from metagenomic next -generation sequencingdata.Nucleic Acids Research. 2015;43 （7）：e46. doi:10.1093/nar/gkv002.

[4]Latreille P, Norton S, Goldman BS, et al. Opticalmapping as a routine tool for bacterial genome sequencefinishing.BMC Genomics. 2007;8:321. doi:10.1186/1471 -2164-8-321.

[5]Hunt M, Newbold C, Berriman M, Otto TD. Acomprehensive evaluation of assembly scaffolding tools.Genome Biology. 2014;15 （3）：R42. doi:10.1186/gb -2014 -15-3-r42.

[6]Nagarajan N, Read TD, Pop M. Scaffolding andvalidation of bacterial genome assemblies using opticalrestriction maps.Bioinformatics. 2008;24 （10）：1229 -1235.doi:10.1093/bioinformatics/btn102.

;

㈣怎样切除、拼接基因

需要用到一些酶
首先是用于切割，要用限制性核酸内切酶，高中学到的有两种，其一为EcoRI，是从大肠杆菌内提取的，识别GAATTC的碱基序列并在GA处切割二酯键，切出的为粘性末端。其二为T4酶（从T4噬菌体内获得），切割CG间的二酯键，切出的是平末端。
接着是连接酶，有Ecoli和T4，前者连接所有粘性末端，后者都可连接，但效率较低。

㈤有哪些经典的算法或者轻量应用适合并行化

反对，不会显示你的姓名
知乎用户计算机博士生，做生物信息
6 人赞同
挖个坑，说几个生物信息领域的经典算法吧。 1. Smith-Waterman 和 Needleman-Wunsch，俩生物信息最经典的动态规划算法，并行算法的论文不知道发了多少篇了，Xeon，Xeon Phi， CUDA，SIMD的，一般并行先从这个算法开始讲 2. 基因组拼接的算法 de brijin Gra… 显示全部
挖个坑，说几个生物信息领域的经典算法吧。
1. Smith-Waterman 和 Needleman-Wunsch，俩生物信息最经典的动态规划算法，并行算法的论文不知道发了多少篇了，Xeon，Xeon Phi， CUDA，SIMD的，一般并行先从这个算法开始讲

2. 基因组拼接的算法 de brijin Graph 的构建和查询的并行算法

3. 序列比对，BWT 构建的并行算法

以后慢慢补充

最后来一发，之前给物理学里面的QMC算法（一种MCMC算法，用来计算分子结构的）做Xeon Phi上并行的优化，题主有兴趣可以看看，已经有现成的软件包QMCPACK，可以支持Xeon和GPU并行了。

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：809

制作脚本网站发布：2025-10-20 08:17:34 浏览：1077

python中的init方法发布：2025-10-20 08:17:33 浏览：781

图案密码什么意思发布：2025-10-20 08:16:56 浏览：946

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：839

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1190

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：412

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：291

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：967

python股票数据获取发布：2025-10-20 07:39:44 浏览：936

基因拼接算法

与基因拼接算法相关的资讯