当前位置:首页 » 操作系统 » 基因拼接算法

基因拼接算法

发布时间: 2022-12-23 04:55:36

㈠ 全基因合成方法

全基因合成是指在体外利用人工方法合成双链DNA分子的技术。基因合成无需模板,是获取基因的重要手段之一。目前该技术主要应用在克隆一些不易获取模板的基因、自然界不存在的新基因以及异源基因表达上,经常在对基因密码子优化后进行。密码子优化的必要性及方法,已经在前面的文章中介绍,想要回顾的点这里 密码子优化 。

全基因合成技术很成熟,一般的做法是:设计合成相互重叠的单链寡核苷酸,通过重叠延伸PCR法拼接出全长。关于全基因合成方法的资料网上一大堆,单全基因合成的相关专利都上百篇,常见的有重叠延伸PCR(OE-PCR)法[1,7],双不对称PCR(DA-PCR)法[2],聚合酶连反应(PCR)法[3],连接酶链反应(LCR)法[4],热力学平衡由内向外(TBIO)法[5],PCR介导两步(PTDS)法[6]。说实话我并没有仔细研究这些方法,它们叫什么名字不重要,万变不离其宗:PCR,基于一定重叠的短引物通过聚合酶逐渐延伸成长片段。

全基因合成最简单的方法是什么?

当然是让DNA合成公司来合成,我们只需要提供DNA序列信息,他们会合成dsDNA并克隆在通用载体上,一般还提供测序信息,确保合成的正确性。这无疑是最简单、最省事的方法。而且现在全基因合成十分廉价,1bp不到一块钱还带测序的那种。

既然DNA合成公司那么方便,为什么还要自己合成呢?

① 公司合成慢,一般需要1-2周,如果碰到特殊序列比如对大肠杆菌毒性极大的编码序列,那周期就难说了(我做过一个核酸酶,合成公司一个月没搞定,自己合成一周搞定)。

② 不自由,合成公司提供的一般是携带目标基因的重组载体,拿到后还要用酶切切下来,如果基因内部含有酶切位点还需要避开,当然这些一般不是什么大问题,但你确实没得选。

③ 如前所述,全基因合成一般用于异源基因表达,异源表达的对象大多是酶,研究酶的性质可能又需要构建大量突变体。合成公司只提供一个序列,构建突变体还得自己设计引物重新构建,如果自己合成全基因,只需要将包含突变的引物替换掉,就可以同时获得各类突变体,这在构建含大量突变的突变体时,更有优势。

④ 序列需要保密,毕竟自己才最可靠。

总有人喜欢自己动手丰衣足食,本文我要介绍的是自己合成的方法,介绍两种方法:

1 基于“搭桥”PCR的一次拼接法

这种方法依赖于引物间的相互退火,彼此作为模板相互延伸,因此需要的引物总是一正一反。首先把全基因序列打断为短的oligos,一般不大于59bp,因为一般引物合成以59bp为分水岭,超过59bp价格和时间成本都会高很多。oligos靠3'末端互补序列相互退火,形成带有gaps的双链产物,再由DNA聚合酶补齐gaps,形成带有切刻的DNA双链,这种产物经过Taq DNA Ligase链接形成完整的双链产物,依此为模板进行PCR扩增即可得到目标基因,也可以直接使用带有切刻的DNA双链作为模板进行PCR扩增。

2 基于逐渐延伸的step by step法

这种方法仅最后一条引物为反向,其余均为正向,正向引物间具有重叠序列。倒数第一条oligo与倒数第二条oligo靠末端互补序列相互退火,经过第一次PCR循环,双链延长,延长的双链与倒数第三条oligo继续退火、延长,......,依此类推,直至全长序列合成。这种方法理论上一次PCR循环只能延伸一条引物,N条oliogs就至少需要经过N个PCR循环,由于只有一个延伸端,引物设计比方法1简单,而且引物数目不需要必须为偶数。

⒈ 设计PCR引物

可以借助自动设计工具也可以人工设计,借助工具后面会详细介绍。如果人工设计,推荐使用SnapGene(这款软件的强大就不多说了,搞分子生物学应该都知道,网上有很多破解版,没安装的话自己去网络一个吧),将全基因序列复制进去之后,先调出“Preferences”面板,找到“Primer”选项,把3’端最短匹配长度和最低Tm分别设置为10bp和40℃,这样当你添加引物时软件就会自动提醒有没有次级结合位点(如下图)。

因为3’端错配对本文中的全基因合成方法十分不利,如果这两个设置太低实在难以设计出引物,可以适当调高至12bp和45℃,还不行的话只能优化密码子后再重新设计。

引物的长度预设为59bp,重点是重叠区的设计,一般应该根据重叠区的Tm来确定,不同重叠区之间的Tm平衡很重要,一般∆Tm不超过3℃,推荐把Tm设置在55-58℃之间。需要注意的是,针对本文的方法一,引物数目必须是偶数,从序列开头往后一条一条的拉,下一条oligo的起点是上一条的终点-重叠区,上正下反,如果最后为奇数条,要调整最后几条长度,补出一条反向引物。

针对方法二,从序列开头拉一条正向,剩余全部为反向直到末尾,也可以从末尾拉一条反向,剩余为正向直到开头,这种方法不用管引物数目。

⒉ PCR获得全长产物

一般需要两轮PCR。第一轮,加入少量引物,推荐50uL体系中0.5-1pmol/个oligo,10-15个循环,获得全长模板,本轮PCR推荐使用的DNA聚合酶应该同时缺失3’-5’和5’-3’外切酶活性,这两种活性会损伤重叠区的Tm平衡;第二轮,取1uLPCR产物做模板,加入20pmol全长上下游引物,20-25个循环获得目标基因,本轮PCR应使用高保真DNA聚合酶。

⒊ 克隆至表达载体

通过同源重组,酶切链接等方法将目标基因插入载体中,转化大肠杆菌或其他宿主感受态细胞,获取单克隆子。提示:在全基因合成前,一定要针对克隆/表达载体设计好同源臂或者酶切位点,直接加在全基因序列上,否则还要单独设计引物添加同源臂或者酶切位点。

⒋ 测序鉴定

菌体PCR鉴定阳性克隆子并挑选阳性克隆子测序,正确的克隆可用于下游的表达和纯化。

OPTIMIZER : http://genomes.urv.es/OPTIMIZER/ ,这是一个非常优秀的在线设计工具,集密码子优化和全基因合成于一身,不过他生成的oligo只能是50、55、60等5的整倍(60就很尴尬了),而且它不检查引物条数,最后一条可能形成错配,这可以通过再设计额外的全长引物弥补。不过我现在发现打不开了,不知道是我的网络问题还是网址/服务器出了问题。

DNA Works [8]:这个工具来源于《Nucleic Acids Research》,论文中的连接失效了,这是我新找到的连接: https://hpcwebapps.cit.nih.gov/dnaworks/ ,也支持密码子优化,不过我觉得不是太好用,参数太多有点复杂了。

Gene2oligo [9]:也来源于《Nucleic Acids Research》,它设计的引物之间是没有空隙(gaps)的,论文中的连接也失效了(原来的链接: http://berry.engin.umich.e/gene2oligo ),我也没找到新的。

Assembly PCR Oligo Maker [10]:来源于《Nucleic Acids Research》,论文中的链接为: http://publish.yorku.ca/~pjohnson/AssemblyPCRoligomaker.html ,我还是打不开(我都快哭了)。

GeMS [11]:来源于《Nucleic Acids Research》,这是一个软件套件,功能很多,链接是: http://software.kosan.com/GeMS ,打不开。

GeneDesign [12]:来源于《Genome Research》,论文中的链接是: http://slam.bs.jhmi.e/gd ,但依然打不开,从论文内容看与我的工具比较像,也根据Tm计算重叠区,可惜没办法看到源码

gene2oligos : http://www.liuzhen106.com/tools/104.html ,这个一定打得开,这是我自己写的工具,包括密码子分析与优化,将基因自动转化为oligos,生成参考实验方案三个功能。生成的oligos,具有统一长度,重叠区具有相同的Tm值,Tm计算公式为:Tm = 64 + 0.41×GC - 528/n,怎么来的参考我的 《PCR引物设计大法》 。生成的oligos可以,一键复制,格式为oligo+序列编号+空格+Tab+序列(5’-3’),可以直接导入SnapGene。

我的程序输出的引物可以被SnapGene识别,菜单栏点击“Primer”工具,点击”Import Primer from a List“选项,选择从剪贴板导入序列,

可以查看个引物是否完全覆盖目标序列,引物的“头尾“是否冲突等等。

以GFP为目标序列测试一下:

①从NCBI上找到GFP的序列,粘贴到文本框中,首先分析密码子偏性;

大肠杆菌的稀有密码子用红色标出,可见GFP原生基因中含有很多稀有密码子,可以先执行密码子优化。

②生成oligos,有两种方式,默认为方法一,如果引物见相似性高,会提示使用方法二。

点击生成oligos按钮后,会弹出总碱基数的统计信息,然后输出oliogs序号及序列,同时生成实验方案按钮和复制按钮,一键复制后可导入SanpGene分析。

③SanpGene分析

完全覆盖了GFP的基因,并且为偶数条引物,引物间的Tm基本一致(由于程序与SnapGene的Tm算法不一致,在SnapGene上只能看到基本一致。

④生成实验方案

体外全基因合成一般一次不超过1000bp,一次性合成太长会增加出错的概率,我推荐按800bp分段,程序会根据你输入的序列长度推荐分段数。

希望这个工具能帮到你完成全基因合成,我还写了辅助载体构建的工具,以后有机会再介绍。

参考文献

[1] Prodromou,C. and Pearl,L. (1992) Recursive PCR: a novel technique for total gene synthesis. Protein Eng., 5, 827–829.
[2] Sandhu,G.S, Aleff,R.A. and Kline,B.C. (1992) Dual asymmetric PCR: one-step construction of synthetic genes. Biotechniques, 12, 14–16.
[3] Stemmer,W.P., Crameri,A., Ha,K.D., Brennan,T.M. and Heyneker,H.L. (1995) Single-step assembly of a gene and entire plasmid from large numbers of oligodeoxyribonucleotides. Gene, 164, 49–53.
[4] Au,L.C., Yang,F.Y., Yang,W.J., Lo,S.H. and Kao,C.F. (1998) Gene synthesis by a LCR-based approach: high-level proction of leptin-L54 using synthetic gene in Escherichia coli. Biochem. Biophys. Res. Commun., 248, 200–203.
[5] Gao,X., Yo,P., Keith,A., Ragan,T.J. and Harris,T.K. (2003) Thermodynamically balanced inside-out (TBIO) PCR-based gene synthesis: a novel method of primer design for high-fidelity assembly of longer gene sequences. Nucleic Acids Res.,31, e143.
[6] Xiong,A.-S., Yao,Q.-H., Peng,R.-H., Li,X., Fan,H.-Q., Cheng,Z.-M. and Li,Y. (2004) A simple, rapid, high-fidelity and cost-effective PCR-based two-step DNA synthesis method for long gene sequences. Nucleic Acids Res., 32, e98.
[7] Young,L. and Dong,Q. (2004) Two-step total gene synthesis method. Nucleic Acids Res., 32, e59.
[8] Hoover,D.M. and Lubkowski,J. (2002) DNAWorks: an automated method for designing oligonucleotides for PCR-based gene synthesis. Nucleic Acids Res., 30, e43.
[9] Rouillard,J.-M., Lee,W., Truan,G., Gao,X., Zhou,X. and Gulari,E.(2004) Gene2oligo: oligonucleotide design for in vitro gene synthesis. Nucleic Acids Res., 32, W176–W180.
[10] Rydzanicz,R., Zhao,X.S. and Johnson,P.E. (2005) Assembly PCR oligo maker: a tool for designing oligodeoxynucleotides for constructing long DNA molecules for RNA proction. Nucleic Acids Res., 33, W521–W525.
[11] Jayaraj,S., Reid,R. and Santi,D.V. (2005) GeMS: an advanced software package for designing synthetic genes. Nucleic Acids Res., 33, 3011–3016.
[12] Richardson,S.M., Wheelan,S.J., Yarrington,R.M. and Boeke,J.D. (2006) GeneDesign: rapid, automated design of multikilobase synthetic genes. Genome Res., 16, 550–556.

㈡ 重叠区扩增基因拼接法的原理是什么

原理就是有3对引物。第3对引物分别与另外2个产物的5‘和3’有重叠,从而将2个产物接在一起

㈢ 浅析现阶段高通量测序中的拼接问题论文

浅析现阶段高通量测序中的拼接问题论文

摘要:近年来,随着第二代测序技术的普及和第三代测序技术的逐步发展,高通量测序技术在实际研究中的应用越来越广泛。高速率、高性价比是其主要优点。相对于传统的桑格(Sanger)法测序来言,高通量测序得到的片段长度较为短小,故如何拼接得到完整的序列一直是炙手可热的研究方向。本文总结了现阶段高通量测序中拼接问题的研究结果,针对现在流行的各种算法进行了简单介绍。

关键词:高通量测序;reads 拼接;contigs 组装;OLC、De brujin 图

一、测序技术的发展过程和现状[1]

(一)桑格法

桑格法又叫做双脱氧链终止法,由Sanger在1977年提出。通过加入带有放射标记的dd NTP(双脱氧核苷酸)使DNA合成终止。再通过电泳,并使用放射自显影技术读出碱基。此方法得到的片段较长,能达到1000bp左右。

(二)第二代测序技术

随着科学技术的发展,传统的桑格法已经不能满足研究的需要。科学家们需要更快的速度、更高的通量以及更低廉的价格,于是第二代测序技术应运而生。其核心思想是边合成边测序。现在主要有454 GS FLX、SOLi D和Illumina/Solexa GenomeAnalyzer三个平台。第二代测序是现阶段测序技术的主流,也是高通量测序的开始。

(三)第三代测序技术

第三代测序技术是指单分子测序技术。不需要经过PCR的过程即可测序,速度可以达到每秒十个碱基。通量更大,读长更短,是现阶段测序技术的发展方向。

二、高通量测序中的拼接工作

(一)高通量测序所得片段的特点

高通量测序之后所得到的序列片段称为reads(读取),其主要特点两点。一是长度短,一般在200bp以 下,最长的454平台能达到的长度也不过1000bp,因此需要进行 大量的拼接才能得到整条DNA序列。二是有部分重叠,由于测序位置具有随机性,故各reads总会有一定的重叠,这些重叠是拼接工作的关键。

(二)拼接过程

整个拼接过程分为两步。第一步,考察reads的重复序列,并拼接成更长的片段,称为contigs(重叠群),这一步称为reads的拼接;第二步,确定contigs之间的顺序关系,并按此排列,形成称为scaffolds的序列,这一步叫做contigs的组装。

三、Reads的`拼接

(一)拼接过程的难点

reads拼接过程中要克服的难点主 要有两点,一是高通量测序得到的reads长度较短,故内含信息较少,不易确认相对顺序。二是远程连接信息(Long-range linking information)的不可靠性。 2这两点制约着reads拼接过程的准确率。

(二)方法[3]

reads拼接过程中算法的基本要求是de novo(从头测序),即不需要任何序列信息即可对原料进行测序。由此衍生出两种主流的算法:

1.OLC

OLC,即交叠-排列-共有序列算法(Overlap-layout-consensus),是一个比较传统的算法,其基本思想为根据reads间的重复部分,确定可能性的reads连接顺序。

其步骤为:构建交叠图:对每两个reads进行比对,计算它们的重叠度---排列reads:将reads进行排列,确定它们之间的相对位置,建立overlap图---生成共有序列:通过多序列比对等方法,确立最后的contig.

OLC算法的计算量主要体现在交叠图的构建,而高通量测序得到的海量短序列有大量的交叠,往往需要大量的运算时间。故OLC算法并不适合现在高通量测序的发展趋势。现在某些拼接软件,如Shorty、CABOG等仍在使用基于此的算法。虽然这些软件针对OLC算法有一定的改进和优化,但其拼接速度和准确性仍受到限制。

2.De brujin图

基于De brujin图(DBG)的算法是现在最流行的算法,许多常用的拼接软件如Velvet、ABy SS等都在使用这种算法。其特点为把基因序列的拼接问题转化为了数学上的图论问题,大大提高了拼接效率。

(1)基本思想

reads中 连 续 的k个 碱 基 称 为k -mer,作 为DBG的节点,两个k-mer如 果在同一read中 相邻,则形成一条边。故每个read都会对一些边加权,最后形成一个含有节点、有权值的边的DBG,由此生成最佳的contig.

(2)步骤

筛选reads:对reads进行检测,去除掉可能错误的reads---确定k值:k的值直接影响速度和精度。 K值较大时,精度有所提高,但更容易受覆盖率的影响。故应该根据覆盖率、reads长度等确定合适的k值---处 理DBG:根 据 确 定 的k值,做 出DBG,同时完成化简和修正---根据DBG,拼接成contig.

(3)优缺点

DBG算法在处理海量短reads的时候效果优秀,与现在测序技术的发展趋势相匹配。然而,由于k-mer的长度较短,此方法受重复序列、测序错误的影响较大。

(三)不同拼接软件的效果差异

不同的拼接软件在reads拼接过程中表现为三点:一是比起软件来说,reads质量对拼接结果影响更大;二是与标准序列的接近度随reads和拼接软件的不同有很大改变;三是各软件拼接的正确率差别很大,但与接近度的结果不一致。

四、Contigs的组装

与reads的拼接相比,contigs的组装的难度相对较小。这是因为contigs的长度较reads长很多,所含信息较多。故可以较为准确的组装成scaffold

(一)组装过程的难点[4]

Contigs组 装 过 程 中 的 难 点 主 要 有 二。一 是contigs中 含有大量的重复序列,不易确定contigs之间的相对顺序;二是由于contigs由reads拼接而成,其中不 免 会 有 一 些 错 误,这 些 错 误 也 会 对contigs的组装产生干扰。

(二)方法

Contigs组 装的方法较reads拼 接而言较多,一般常用的有图论法和光学图谱法(Optical mapping)两种。

1.图论法[5]

图论法是比较传统的方法,与reads拼接有相似的地方。它以contigs作为节点,由相连的读取对(Linking reads pair)作为边,由此形成算图。

其一般步骤为:库的构建:构建出含有所有reads的 库---计算相连读取对之 间的距离,并由此计算gap的长度---把长度放在边上,作为算图的数据。

其理想的输出结果是一条scaffold序列,对应一条染色体,包含以正确顺序排 列 的contigs和contigs之间gap的长度。

2.光学图谱法[6]

光学图谱法是一种较为新颖的方法。通过内切酶将DNA切断,此时DNA的片段的谱表现出一种特殊的指纹或是识别码的性质。利用光学方法追踪此信息得到相对位置,由此组装成正确的scaffold.

主要步骤为:将contigs放 置 在 光 学 图 谱上---修正光学图谱---做出contigs的连接图,由此决定最佳的contigs连接顺序。

光学图谱法的组装结果有着很高的覆盖率,巧妙运用光学图谱法可以获得很高的成本效益。

有研究表明,当与454平台获得的实验结果相结合的时候,光学图谱法可以迅速、价廉的得到排列好的定向的contigs组,由此可以产生一个将近完整的基因组。

(三)发展方向

Contigs组装过程的关键点 在于如何得到正确的连接顺序。现阶段此方面研究多集中在这一方向。

五、前景与展望

随着生物学研究向微观、向基因领域逐步延伸,高通量测序作为获得基因序列的主要方法,越来越受到重视,拼接技术也在不断发展。高通量测序的基因片段会变得海量且短小,应对此变化,拼接技术也会由确定“唯一的基因序列”向确定“最可能的基因序列”完成转变。因此,新一代的拼接技术会在准确率、覆盖率和速度上,作出超于现在拼接技术的改进。

参考文献:

[1]Anderson MW, Schrijver I. Next Generation DNASequencing and the Future of Genomic Medicine.?Genes.2010;1(1):38-69. doi:10.3390/genes1010038.

[2]Salzberg SL, Phillippy AM, Zimin A, et al. GAGE: Acritical evaluation of genome assemblies and assemblyalgorithms.Genome Research. 2012;22 (3):557 -567. doi:10.1101/gr.131383.111.

[3]Deng X, Naccache SN, Ng T, et al. An ensemble strategythat significantly improves de novo assembly of microbialgenomes from metagenomic next -generation sequencingdata.Nucleic Acids Research. 2015;43 (7):e46. doi:10.1093/nar/gkv002.

[4]Latreille P, Norton S, Goldman BS, et al. Opticalmapping as a routine tool for bacterial genome sequencefinishing.BMC Genomics. 2007;8:321. doi:10.1186/1471 -2164-8-321.

[5]Hunt M, Newbold C, Berriman M, Otto TD. Acomprehensive evaluation of assembly scaffolding tools.Genome Biology. 2014;15 (3):R42. doi:10.1186/gb -2014 -15-3-r42.

[6]Nagarajan N, Read TD, Pop M. Scaffolding andvalidation of bacterial genome assemblies using opticalrestriction maps.Bioinformatics. 2008;24 (10):1229 -1235.doi:10.1093/bioinformatics/btn102.

;

㈣ 怎样切除、拼接基因

需要用到一些酶
首先是用于切割,要用限制性核酸内切酶,高中学到的有两种,其一为EcoRI,是从大肠杆菌内提取的,识别GAATTC的碱基序列并在GA处切割二酯键,切出的为粘性末端。其二为T4酶(从T4噬菌体内获得),切割CG间的二酯键,切出的是平末端。
接着是连接酶,有Ecoli和T4,前者连接所有粘性末端,后者都可连接,但效率较低。

㈤ 有哪些经典的算法或者轻量应用适合并行化

反对,不会显示你的姓名
知乎用户 计算机博士生,做生物信息
6 人赞同
挖个坑,说几个生物信息领域的经典算法吧。 1. Smith-Waterman 和 Needleman-Wunsch,俩生物信息最经典的动态规划算法, 并行算法的论文不知道发了多少篇了,Xeon,Xeon Phi, CUDA,SIMD的,一般并行先从这个算法开始讲 2. 基因组拼接的算法 de brijin Gra… 显示全部
挖个坑,说几个生物信息领域的经典算法吧。
1. Smith-Waterman 和 Needleman-Wunsch,俩生物信息最经典的动态规划算法, 并行算法的论文不知道发了多少篇了,Xeon,Xeon Phi, CUDA,SIMD的,一般并行先从这个算法开始讲

2. 基因组拼接的算法 de brijin Graph 的构建和查询的并行算法

3. 序列比对,BWT 构建的并行算法

以后慢慢补充

最后来一发,之前给物理学里面的QMC算法(一种MCMC算法,用来计算分子结构的)做Xeon Phi上并行的优化,题主有兴趣可以看看,已经有现成的软件包QMCPACK,可以支持Xeon和GPU并行了。

热点内容
我的世界网易服务器如何添加模组 发布:2025-05-11 13:28:10 浏览:944
内存哪些配置比较好 发布:2025-05-11 13:24:24 浏览:771
宝马编程价格 发布:2025-05-11 13:10:36 浏览:579
切人切面算法 发布:2025-05-11 13:09:17 浏览:299
linux线程串口 发布:2025-05-11 13:03:00 浏览:77
nds服务器ip地址 发布:2025-05-11 12:43:32 浏览:869
舒听澜卓禹安书名叫什么 发布:2025-05-11 12:36:44 浏览:268
java开发web应用 发布:2025-05-11 12:35:51 浏览:696
鲨鱼影视怎么缓存电视 发布:2025-05-11 12:35:48 浏览:549
ios小项目源码 发布:2025-05-11 12:35:47 浏览:756