端粒数据库
1. 关于论文前言
我是复制的,希望对楼主能有所帮助
※ Multiplexing:一种同时采用多种样品的测序方法,能够大大提高测序速度。
※ 突变(Mutation):DNA序列上任一种可以被遗传的变易。
※ 核苷酸(Nucleotide):DNA和RNA的基本组成部分,通常包含一分子核糖,一分子磷酸和一分子碱基。多个核苷酸通过磷酸二酯键连接成一条链状。
※ 细胞核(Nucleos):真核细胞中的一种细胞器,内含遗传物质。
癌基因(Oncogene):一种能够导致癌症的基因。许多致癌基因都直接或间接地控制细胞的成长速度。
※ 噬菌体(phage):一种以细菌为宿主细胞的病毒。
※ 物理图谱(Physics Map):物理图谱描绘DNA上可以识别的标记的位置和相互之间的距离(以碱基对的数目为衡量单位),这些可以识别的标记包括限制性内切酶的酶切位点,基因等。物理图谱不考虑两个标记共同遗传的概率等信息。对于人类基因组来说,最粗的物理图谱是染色体的条带染色模式,最精细的图谱是测出DNA的完整碱基序列。
※ 质粒(Plasmid):质粒是细菌的染色体外能够自我复制的环状DNA分子。它能够和细胞核中的染色体明显地区别开来,而且并不是细胞生存的必要物质。一些质粒适宜于引入到宿主细胞中去,并利用宿主细胞的DNA大量繁殖,因此我们常常采用质粒作为外源DNA的载体,外源DNA借助于质粒在宿主细胞中大量繁殖。
※ 多基因病(Polygenic Disorder):有多个基因位点共同决定的遗传病(如心脏病、糖尿病、一些癌症等)。这类疾病的遗传由多个基因位点共同控制,因而比单基因病的遗传更为复杂。
※ 多聚酶链式反应(PCR):一种体外扩增DNA的方法。PCR使用一种耐热的多聚酶,以及两个含有20个碱基的单链引物。经过高温变性将模板DNA分离成两条链,低温退火使得引物和一条模板单链结合,然后是中温延伸,反应液的游离核苷酸紧接着引物从5‘端到3’端合成一条互补的新链。而新合成的DNA又可以继续进行上述循环,因此DNA的数目不断倍增。
※ 多聚酶(Polymerase):多聚酶具有催化作用,能够加快游离的核苷酸和DNA模板结合形成新链的反应速度。
※ 多态性(Polymorphism):多个个体之间DNA的差异称为多态性。DNA变异概率超过1%的变异,比较适宜作为绘制连接图谱的证据。
※ 引物(Primer):预先制备的比较短的核苷酸链,在新链合成过程中作为引物,游离的核苷酸在引物之后按顺序和模板上的碱基结合,形成新链。
※ 原核生物(Prokaryote):原核生物没有细胞膜,结构清晰的核以及其他细胞器。细菌是原核生物。
※ 探针(Probe):是一条DNA单链或者一条RNA链,具有特定的序列,并且使用放射性元素或者免疫特性物质进行标记。探针和克隆库中的某条互补片段结合成一条双链结构,我们可以借助于探针的检测来获知与其互补的链的位置。
※ 启动子(Promoter):DNA上的一个特定位点,RNA聚合酶在此和DNA结合,并由此开始转录过程。
※ 蛋白质(Protein):一种由一条或者多条肽链构成的大分子。每条肽链上核苷酸的顺序是由基因外显子部分的碱基序列决定的。蛋白质是细胞、组织和器官的重要组成部分,每种蛋白质都具有特定的功能。酶、抗体和激素等都是蛋白质。
※ 嘌呤(Purine):一种含氮的单环结构物。是核苷酸的重要组成部分,有腺嘌呤A和鸟嘌呤G两种。
※ 嘧啶(Pyrimidine):一种含氮的双环结构,是核苷酸的重要组成部分。分为胞嘧啶C,胸腺嘧啶T和尿嘧啶U三种。
※ 重组克隆(Recombinant Clone):将不同来源的DNA片段合成在一个DNA分子中,这种技术称为重组,得到的分子为重组克隆。
※ DNA重组技术(Recombinant DNA Technology):在细胞体外将两个DNA片段连接成一个DNA分子的技术。在适宜的条件下,一个重组DNA分子能够被引入到宿主细胞中并在宿主细胞中大量繁殖。
※ 调控序列(regulatory regions and sequence):一段控制基因表达的DNA片段。
※ 限制性内切酶(Restriction enzyme, endonuclease):这种酶能够识别出DNA上特定的碱基序列,并在这个位点将DNA酶切。细菌中有400中限制性内切酶,能够识别出100中DNA序列。
※ 酶切位点(Restriction Enzyme cutting site):DNA上一段碱基的特定序列,限制性内切酶能够识别出这个序列并在此将DNA酶切成两段。
※ 限制性长度多态性(Restriction fragment length polymorphsm):从不同个体制备的DNA,使用同一种限制性内切酶酶切,切得的片段长度各不相同。酶切片段的长度可以作为物理图谱或者连接图谱中的标记子。通常是在酶切位点处发生突变而引发的。
※ 核糖核酸RNA(Ribonucleic acid):从细胞的细胞核和细胞质部分分离出来的化学物质。在蛋白质合成和其他生化反应中起着重要作用,RNA的结构和DNA的结构类似,都是有核苷酸按照一定顺序排列成的长链。RNA可以分为信使RNA、转运RNA、核糖体RNA以及其他类型的RNA。
※ 核糖体RNA(Ribonsomal RNA rRNA):存在于核糖体中的RNA。
※ 核糖体(Ribonsome):细胞质中含有rRNA和相关蛋白质的细胞器,是蛋白质的合成场所。
序列位置标签(Sequence Tagged Site, STS):一段短的DNA序列(200-500个碱基对),这种序列在染色体上只出现一次,其位置和碱基顺序都是已知的。在PCR反应中可以检测处STS来,STS适宜于作为人类基因组的一种地标,据此可以判定DNA的方向和特定序列的相对位置。ETS是cDNA上的STS。
※ 性染色体(Sex Chromosome):在人类细胞中是X或者Y染色体,性染色体决定了个体的性别。雌性细胞中含有两个X染色体,而雄性细胞中含有1个X染色体和1个Y染色体。
※ 鸟枪法(Shotgun method):使用基因组中的随机产生的片段作为模板进行克隆的方法。
※ 单基因病(Single Gene Disorder):一个基因的等位基因之间发生了突变造成的疾病。
※ 体细胞(Somatic Cells):个体中除了生殖细胞及其母细胞之外的细胞,都是体细胞。
※ 串联重复序列(Tandem repeat sequences):在染色体上一段序列的多次重复,称为串联重复序列。常用来作为物理图谱中的标记子。
※ 端粒(Telomere):是染色体的末端部分,这一特殊结构区域对于线型染色体的结构和稳定起重要作用。
※ 转录(Transcription):以某一DNA链为模板,按照碱基互补原则形成一条新的RNA链的过程,是基因表达的第一步。
※ 转运RNA(tRNA):转运RNA具有特殊的结构,其一端包含3个特定的核苷酸序列,能和信使RNA上的密码子按照碱基配对原则进行结合。另一端则带有一个氨基酸。因此转运RNA能够同细胞质中游离的氨基酸结合并运到核糖体上,核糖体按mRNA上的遗传信息将氨基酸装配成蛋白质。
※ 转化(Transformation):将外源DNA整合到某一细胞基因组中的过程。。
※ 翻译(Translation):mRNA上携带的遗传信息指导蛋白质的合成过程,称为翻译。
※ 病毒(Virus):一种不具备细胞结构的生物体。只能寄生在宿主细胞中才能生存。病毒一般包含核酸以及外壳蛋白,有些动物的病毒的外面也偶尔覆盖一层细胞膜。病毒进入宿主细胞之后,利用宿主的合成机制复制出大量的后代。。
※ 酵母菌人工合成染色体(Yeast Artificial Chromosome):一种能够克隆长达400Kb的DNA片段的载体,含有酵母细胞中必需的端粒、着丝点和复制起始序列。
(卜东波、伍树明翻译整理)
生物信息名词
§§§ BLAST (Basic Local Alignment Search Tool),基本的基于局部对准的搜索工具;一种快速查找与给定序列具有连续相同片断的序列的技术。
§§§ Entrez 美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文献出处链接在一起。
§§§ NCBI 美国国立生物技术信息中心(National Center for Biotechnology Information),1988年设立,为美国国家医学图书馆(NLM)和国家健康协会(NIH)下属部门之一。提供生物医学领域的信息学服务,如世界三大核酸数据库之一的GenBank数据库,PubMed医学文献检索数据库等。
§§§ Conserved sequence 保守序列。演化过程中基本上不变的DNA中的碱基序列或蛋白质中的氨基酸序列。
§§§ Domain 功能域。蛋白质中具有某种特定功能的部分,它在序列上未必是连续的。某蛋白质中所有功能域组合其起来决定着该蛋白质的全部功能。
§§§ EBI 欧洲生物信息学研究所(European Bioinformatics Institute)。 The National Center for Biotechnology Information (NCBI) at the NationalLibrary of Medicine (NLM), National Institutes of Health (NIH)
§§§ EMBL 欧洲分子生物学实验室(uropean Molecular Biology Laboratory)。
§§§ GenBank 由美国国家生物技术信息中心提供的核酸序列数据库。
§§§ Gene 基因。遗传的基本的物理和功能单位。一个基因就是位于某条染色体的某个位置上的核苷酸序列,其中蕴含着某种特定功能产物(如蛋白质或RNA分子)的编码。
§§§ DUST A program for filtering low complexity regions from nucleic acid sequences.
§§§ Gene expression 基因表达。基因中的编码信息被转换成行使特定功能的结构产物的过程。
§§§ Gene family 基因家族。一组密切相关的编码相似产物的基因。
§§§ Gene mapping 基因作图。对DNA分子(染色体或质粒)中基因的相对位置和距离进行确定的过程。
§§§ Genetic code 遗传密码。以三联体密码子的形式编码于mRNA中的核苷酸序列,决定着所合成蛋白质中的氨基酸序列。
Genome 基因组。某一物种的一套完整染色体组中的所有遗传物质。其大小一般以其碱基对总数表示。
§§§ Genomics 基因组学。从事基因组的序列测定和表征描述,以及基因活性与细胞功能关系的研究。
§§§ HGMP 英国剑桥的人类基因组绘图计划(Human Genome Mapping Project)。
§§§ Informatics 信息学。研究计算机和统计学技术在信息处理中的应用的学科。在基因组计划中,信息学的内容包括快速搜索数据库方法的开发、DNA序列信息分析方法的开发和从DNA序列数据中预测蛋白质序列和结构方法的开发。
§§§ Physical map 物理图谱。不考虑遗传,DNA中可识别的界标(如限制性酶切位点和基因等)的位置图。界标之间的距离用碱基对度量。对人类基因组而言,最低分辨率的物理图谱是染色体上的条带图谱;最高分辨率的物理图谱是染色体中完整的核苷酸序列。
§§§ Promoter 启动子。DNA中被RNA聚合酶结合并从此起始转录的位点。
§§§ Proteome 蛋白质组。一个基因组的全部蛋白产物及其表达情况。
§§§ Regulatory region or sequence 调控区或调控序列。控制基因表达的DNA碱基序列。
§§§ Ribosomal RNA 核糖体RNA。简写为rRNA。是一组存在于核糖体中的RNA分子。
§§§ Sequence tagged site 序列示踪位点,简写为STS。在人类基因组中只出现一次的位置和序列已知的长约200到500bp的短DNA序列片断。由于可以通过PCR检测到,STS在将来源于许多不同实验室的基因图谱和测序数据进行定位和定向时非常有用,并且STS在人类基因组的物理图谱中也具有界标的作用。表达的序列标签(ESTs)就是那些得自cDNAs的STSs。
§§§ Single-gene disorder 单基因病。由单个基因的等位基因的突变所导致的遗传病(如杜兴肌营养不良和成视网膜细胞瘤等)。
§§§ UniGene 美国国家生物技术信息中心提供的公用数据库,该数据库将GenBank中属于同一条基因的所有片断拼接成完整的基因进行收录。
§§§ 非蛋白质编码区(“Junk”DNA)占据了人类基因组的大部分,研究表明“Junk”是许多对生命过程富有活力的不同类型的DNA的复合体,它们至少包括以下类型的DNA成份或由其表达的RNA成分:内含子(intron)、卫星(Satellite)DNA、小卫星(minisatellite)DNA、微卫星(microsatellite)DNA、非均一核RNA(hmRNA)、短散置元(short interspersed elements)、长散置元(long interspersed elements)、伪基因(pseudogenes)等。除此之外,顺式调控元件,如启动子、增强子等也属于非编码序列。
双重序列对比 两序列间的对比分析。最常见的方法为Needle-Wunsch方法。能够利用的软件如BLAST、FASTA等。
§§§ Autosome 常染色体。与性别决定无关的染色体,人双倍体染色体组含有46条染色体,其中22对常染色体,一对与性别决定有关的性染色体(X和Y染色体)。
sex chromosome. 包括序列(核酸与蛋白)搜索,结构比较,结构预测,蛋白质域,模体(Motif ),测序,发育与进化分析,双向电泳成像分析,质谱蛋白质鉴定,三维蛋白结构模建与成像,基因组图谱比较,基因预测,非编码区功能位点识别,基因组重叠群集装,后基因组功能分析,结构基因组学以及药物基因组学等等。
在BLAST2.0,2.05新版中启用了gapped BLAST、PSI-BLAST 和PHI-BLAST。gapped BLAST是比原BLAST 更灵敏更快的局部相似联配(俗称局部同源)搜索法;PSI- BLAST用迭代型的剖面打分算法,每次迭代所费时间与前者相同,它可检索弱同源的目标;PHI-BLAST 98年刚出台,是模体(Motif )构造与搜索软件,是更灵敏的同源搜索软件。例如线虫§§§ 的CED4是apoptosis 的调控蛋白,含有涉及磷酸结合的P 环模体,在各种ATP 酶和GTP 酶中可发现。在用gapped BLAST搜索NR数据库时,CED4仅跟人凋亡调控蛋白Apaf-1显着同源或相似(其中含有P-loop保守区)。但PHI- BLAST搜索,另有一个显着同源(E=0.038 )目标,是植物抗病蛋白Arabidopsis thaliana T7N9.18,证实此动物与植物蛋白确实在apoptosis 中有相似的功能。另有,按PHI- BLAST搜索在MutL DNA修复蛋白中的ATP 酶域,II型拓扑异构酶,组氨酸激酶和HS90家族蛋白,发现一个新的真核蛋白族,共有HS90型ATP 酶域。再有在古核tRNA核苷酸转移酶中发现核苷酸转移酶域,在细菌DNA 引物酶的古核同源体中发现螺旋酶超家族II的模体VI。用以往的搜索法这些是得不到的。
深层事项:
后基因组时期的主要任务:Data mining ,即从完全测序的基因组中预测功能。
1 、序列、结构和功能 自分子生物学产生以来,均相信序列决定结构,结构决定功能。随着基因组学的发展,对此理解已有长足的深化。同源序列(具有共同祖先)未必具有相同的功能;相同功能未必源自同源序列。相异序列可能有相似的结构;序列与结构不相似的蛋白可能会有相似的功能。现在发现存在不相似(在序列与结构水平上)酶催化相同的生化反应。当然亦存在甚至结构水平上很相似的酶催化不同的生化反应。例如人与鼠的3?- 羟甾类脱氢酶,1AHH和1RAL;前者是Rossmann折叠,而后者是TIM-桶。肯定,这些相似酶不是共同祖先趋异的结果,而是不同祖先趋同的结果。如结构决定功能还是合理的,那么至少在功能活性位点具有相似结构特征(即3D- 功能模体)。属于今后研究的课题,对了解酶催化机制与功能蛋白的小分子模拟具有很大价值。 何谓功能?功能有层次的:表型的,细胞的和分子的。 目前开始高层功能预测,分子相互作用、代谢途径和调控网络。目前,已从结构基因组学,功能基因组学和蛋白质组学多种角度研究基因组功能。
2 、结构基因组学中的生物信息学 希望大通量地测定和模建完全测序基因组的全部蛋白三维结构。生物信息学可以发挥作用,一方面规划好测定的对象,另一方面可靠地模建结构。
3 、功能基因组学中的生物信息学 美国HGP 已编制1998-2003 的新五年计划。提出八项目标:其中目标7 特指生物信息学和计算生物学,其实几乎每项目标都要生物信息学,例如目标4 功能基因组学中的非编码区功能位点预测,基因表达分析(如DNA Chip)以及蛋白质全局分析(如蛋白质组学)。
§§§ 蛋 白 质 组 学(Proteomics)
1.蛋白质组学研究的目的和任务 20世纪中期以来,随着DNA双螺旋结构的提出和蛋白质空间结构的X射线解析,开始了分子生物学时代,对遗传信息载体DNA和生命功能的主要体现者蛋白质的研究,成为生命科学研究的主要内容。90年代初期,美国生物学家提出并实施了人类基因组计划,预计用15年的时间,30亿美元的资助,对人类基因组的全部DNA序列进行测定,希望在分子水平上破译人类所有的遗传信息,即测定大约30亿碱基对的DNA序列和识别其中所有的基因(基因组中转录表达的功能单位)。经过各国科学家8年多的努力,人类基因组计划已经取得了巨大的成绩,一些低等生物的DNA全序列已被阐明,人类3%左右DNA的序列也已测定,迄今已测定的表达序列标志(EST)已大体涵盖人类的所有基因。在这样的形势下,科学家们认为,生命科学已经入了后基因组时代。在后基因组时代,生物学家们的研究重心已经从解释生命的所有遗传信息转移到在整体水平上对生物功能的研究。这种转向的第一个标志就是产生了一门成为功能基因组学(Functional Genomics)的新学科。它采用一些新的技术,如SAGE、DNA芯片,对成千上万的基因表达进行分析和比较,力图从基因组整体水平上对基因的活动规律进行阐述。但是,由于生物功能的主要体现者是蛋白质,而蛋白质有其自身特有的活动规律,仅仅从基因的角度来研究是远远不够的。例如蛋白质的修饰加工、转运定位、结构变化、蛋白质与蛋白质的相互作用、蛋白质与其它生物分子的相互作用等活动,均无法在基因组水平上获知。正是因为基因组学(Genomics)有这样的局限性,于90年代中期,在人类基因组计划研究发展及功能基因组学的基础上,国际上萌发产生了一门在整体水平上研究细胞内蛋白质的组成及其活动规律的新兴学科——蛋白质组学(Proteomics),它以蛋白质组(Proteome)为研究对象。蛋白质组是指“由一个细胞或一个组织的基因组所表达的全部相应的蛋白质”。测定一个有机体的基因组所表达的全部蛋白质的设想,萌发在1975年双向凝胶电泳发明之时。1994年Williams正式提出了这个问题,而“蛋白质组”的名词则是由Wilkins创造的,发表在1995年7月的Electrophoresis杂志上。蛋白质组与基因组相对应,但二者又有根本不同之处:一个有机体只有一个确定的基因组,组成该有机体的所有不同细胞斗拱享用一个确定的基因组;而蛋白质组则是一个动态的概念,她不仅在同一个机体的不同组织和细胞中不同,在同一机体的不同发育阶段,在不同的生理状态下,乃至在不同的外界环境下都是不同的。正是这种复杂的基因表达模式,表现了各种复杂的生命活动,每一种生命运动形式,都是特定蛋白质群体在不同时间和空间出现,并发挥功能的不同组合的结果。基因DNA的序列并不能提供这些信息,再加上由于基因剪接,蛋白质翻译后修饰和蛋白质剪接,基因遗传信息的表现规律就更加复杂,不再是经典的一个基因一个蛋白的对应关系,一个基因可以表达的蛋白质数目可能远大于一。对细菌,可能为1.2~1.3;对酵母则为3;而对人,可高达10。后基因组和蛋白质组研究,是为阐明生命活动本质所不可缺少的基因组研究的远为复杂的后续部分,无疑将成为21世纪生命科学研究的主要任务。
2. 怎么利用ura3筛选酿酒酵母端粒控制基因
酿酒酵母是第一个完成基因组测序的真核生物,测序工作于1996年完成。酿酒酵母的基因组包含大约1200万碱基对,分成16组染色体,共有6275个基因,其中可能约有5800个真正具有功能。据估计其基因约有23%与人类同源。酵母基因组数据库包含有酵母基因组的详细注释(annotation),是研究真核细胞遗传学和生理学的重要工具。另一个重要的酿酒酵母数据库[1]由慕尼黑蛋白质序列信息中心维护。在酿酒酵母测序计划开始之前,人们通过传统的遗传学方法已确定了酵母中编码RNA或蛋白质的大约2600个基因。通过对酿酒酵母的完整基因组测序,发现在12068kb的全基因组序列中有5885个编码专一性蛋白质的开放阅读框。这意味着在酵母基因组中平均每隔2kb就存在一个编码蛋白质的基因,即整个基因组有72%的核苷酸顺序由开放阅读框组成。这说明酵母基因比其它高等真核生物基因排列紧密。如在线虫基因组中,平均每隔6kb存在一个编码蛋白质的基因;在人类基因组中,平均每隔30kb或的碱基才能发现一个编码蛋白质的基因。酵母基因组的紧密性是因为基因间隔区较短与基因中内含子稀少。酵母基因组的开放阅读框平均长度为1450bp即483个密码子,最长的是位于Ⅻ号染色体上的一个功能未知的开放阅读框(4910个密码子),还有极少数的开放阅读框长度超过1500个密码子。在酵母基因组中,也有编码短蛋白的基因,例如,编码由40个氨基酸组成的细胞质膜蛋白脂质的PMP1基因。此外,酵母基因组中还包含:约140个编码RNA的基因,排列在Ⅻ号染色体的长末端;40个编码SnRNA的基因,散布于16条染色体;属于43个家族的275个tRNA基因也广泛分布于基因组中。表1提供了酵母基因在各染色体上分布的大致情况。表1酵母染色体简况染色体编号长度(bp)基因数tRNA基因数I23×103894Ⅱ80718841013Ⅲ315×10318210Ⅳ153197479627V56920227113Ⅵ270×10312910Ⅶ109093657233Ⅷ561×10326911Ⅸ43988622110X74544237924Ⅺ66644833116Ⅻ107817153422ⅫI92443045921ⅪV78432841915XV109228356020XⅥ94806148717序列测定揭示了酵母基因组中大范围的碱基组成变化。多数酵母染色体由不同程度的、大范围的GC丰富DNA序列和GC缺乏DNA序列镶嵌组成。这种GC含量的变化与染色体的结构、基因的密度以及重组频率有关。GC含量高的区域一般位于染色体臂的中部,这些区域的基因密度较高;GC含量低的区域一般靠近端粒和着丝粒,这些区域内基因数目较为贫乏。Simchen等证实,酵母的遗传重组即双链断裂的相对发生率与染色体的GC丰富区相耦合,而且不同染色体的重组频率有所差别,较小的Ⅰ、Ⅲ、Ⅳ和Ⅸ号染色体的重组频率比整个基因组的平均重组频率高。酵母基因组另一个明显的特征是含有许多DNA重复序列,其中一部分为完全相同的DNA序列,如rDNA与CUP1基因、Ty因子及其衍生的单一LTR序列等。在开放阅读框或者基因的间隔区包含大量的三核苷酸重复,引起了人们的高度重视。因为一部分人类遗传疾病是由三核苷酸重复数目的变化所引起的。还有的DNA序列彼此间具有较高的同源性,这些DNA序列被称为遗传丰余(geneticrendancy)。酵母多条染色体末端具有长度超过几十个kb的高度同源区,它们是遗传丰余的主要区域,这些区域至今仍然在发生着频繁的DNA重组过程。遗传丰余的另一种形式是单个基因重复,其中以分散类型最为典型,另外还有一种较为少见的类型是成簇分布的基因家族。成簇同源区(clusterhomologyregion,简称CHR)是酵母基因组测序揭示的一些位于多条染色体的同源大片段,各片段含有相互对应的多个同源基因,它们的排列顺序与转录方向十分保守,同时还可能存在小片段的插入或缺失。这些特征表明,成簇同源区是介于染色体大片段重复与完全分化之间的中间产物,因此是研究基因组进化的良好材料,被称为基因重复的化石。染色体末端重复、单个基因重复与成簇同源区组成了酵母基因组遗传丰余的大致结构。研究表明,遗传丰余中的一组基因往往具有相同或相似的生理功能,因而它们中单个或少数几个基因的突变并不能表现出可以辨别的表型,这对酵母基因的功能研究是很不利的。所以许多酵母遗传学家认为,弄清遗传丰余的真正本质和功能意义,以及发展与此有关的实验方法,是揭示酵母基因组全部基因功能的主要困难和中心问题。
3. 为什么端粒每复制一次就脱落一点,就算全掉了,DNA为什么就不能复制了
端粒是DNA两端的特殊序列,由于DNA聚合酶只能从5‘-3’的方式进行DNA的复制,且复制并非从DNA的一段开始,而是从一定数量的DNA之后开始,多数情况下,DNA复制后会在5‘端留下不完整的后随链,所以每次复制都会使端粒变短。
每次复制的过程都缩短,长此以往,端粒最终就会消失,然后缩短的就是需表达的基因,这时基因库就不完整了,细胞也会出现凋亡或者癌变。
所以端粒的长度在一定程度上决定着细胞的寿命。
4. 人类染色体的形态特征
染色体在细胞分裂(cell division)之前才形成。在细胞的代谢期或间期,染色体分散成一级结构或伸展开的脱氧核糖核酸分子,组成细胞核内的染色质(chromatin)或核质(nucleoplasm or karyoplasm)。
染色体的形态以中期时最为典型。每条染色体由两条染色单体组成,中间狭窄处称为着丝点(centromere),又称主缢痕(primary constriction),它将染色体分为短臂(p)和长臂(q)。
按着丝粒位置的不同,人类染色体可分为中着丝粒染色体、亚中着丝粒染色体和近端着丝粒染色体等3种类型。近端着丝粒染色体的短臂末端有一个叫做随体(satellite)的结构,它呈圆球形,中间以细丝与短臂相连。
有的染色体长臂上还可看到另一些较小的狭窄区,称为次缢痕(secondary constriction)。染色体臂的末端存在着一种叫做端粒(telomere)的结构,它有保持染色体完整性的功能。
(4)端粒数据库扩展阅读:
人类染色体可分为两种类型:常染色体(体染色体)和性染色体(异体染色体)。某些遗传特征与一个人的性别有关,并通过性染色体传播。常染色体因此包含其余部分的遗传信息。常染色体和性染色体的复制、有丝分裂和减数分裂过程一致。
人类细胞有23对染色体(22对常染色体和一对性染色体),即每个细胞共有46个染色单体。除此之外,人类细胞还有数百个线粒体染色体拷贝。人类基因组的测序提供了关于每条染色体的大量信息。
根据Sanger Institute在脊椎动物基因组注释(VEGA)数据库中的人类基因组信息编制的染色体统计数据。基因数量是估计值,因为它部分基于基因预测。总染色体长度也是估计值,是基于未测序异染色质区域的大小估计的。
5. 万思立得衰老检测什么原理
通过细胞端粒的高科技衰老检测技术,从0.1毫升血液进行分离、提取、扩增、培养、比对,可以解读出人体现阶段衰老程度、更早期预知患重大疾病风险概率(如癌症、心脑血管疾病、糖尿病、高血压、老年痴呆),尤其是大病前后的端粒检测和得糖尿病后的端粒检测,可以实时监控病情进展及血管损伤状况,更便于有针对性的预防疾病,保卫健康。
端粒在细胞中发挥了必不可少的作用,它防止染色体互相粘连。它们更重要的是在防止老化上的可能作用。细胞每分裂一次,端粒就缩短一点。经过很多年和很多代,它们缩短为一点,刺激细胞自杀,或停止分裂,进入一种半退休状态。随着越来越多的细胞死亡或衰老,皮肤和其他组织也就逐渐丧失了自我更新的能力。故通过端粒长度的检测,并结合我们现有数据库的比对,可以解读出大量有关衰老和疾病的信息,为健康生活提供参考。
总而言之,都是玩高科技的。
6. 人类基因组图谱的介绍
由美国国立人类基因组研究所(nhgri)和能源部(doe)领导的ihgsc不久前宣布,人类基因组测序工作已圆满完成,其发表在2004年10月21日nature(2004,431:931)上的分析
报告对2001年2月发表的初步分析报告进行了补充。这篇最新分析报告不但为世人展现了一张精度大于99%、误差小于10万分之一的精确版人类基因组图谱,而且还进一步纠正了蛋白编码基因的数量,仅为2万~2.5万个,而非原先估计的3万~3.5万个。新基因组图谱 准确率达99.999%
旨在破译人类基因组常染色质遗传密码的人类基因组计划(hgp)自1990年启动至2003年结束,历时共13年, 该计划由ihgsc来完成。ihgsc是由法国、德国、日本、中国、英国和美国等6个国家20个研究所的科学家组成的开放性国际协作组织,全球2800余名科学家参加了ihgsc的工作。
2001年2月,ihgsc宣布,人类基因组草图已经完成。以今天的眼光来看,草图显然存在很多重要的不足,例如,仅测出了约90%的常染色质基因组序列,而且序列之间存在147821个未检测出的空缺等等。
在2001-2003年之间,ihgsc的不懈努力终于将此草图转化为今天这张既高度精确又相当完整的人类基因组图。此外,在这段时间内,还陆续发表了关于第2、6、7、9、10、13、14、19、20、21、22号染色体和y染色体的详细评注和分析,其余12条染色体的资料不久也将发表。
现在的基因组序列(buiid35)共包含28.5亿个核苷酸,它近乎完整,涵盖了99%以上的常染色质基因组序列;准确率为99.999%,也就是说误差率只有1个碱基/10万个碱基对,比最初制订的目标精确了10倍。
序列的连续性亦获得了显着改善,常染色质基因组序列中仅存在341个空缺。现在,平均每一段连续序列含有3850万个碱基对,约比2001年版草图的81500个碱基对长475倍。这些没有中断的已知序列可以在很大程度上帮助科学家寻找目标基因及其邻近的调节目标基因活性的序列,并显着减少他们寻找疾病相关性短而少见的序列的工作量和费用。在剩余的341个空缺中,很多与片段的重复(segmentalplications)相关,需要采用新的方法才能将其填满。
ihgsc所完成的测序工作不仅完整而且精确,足以进行一些对敏感性要求较高的科学分析,例如基因数目的研究,疾病相关性重复片段的研究,以及进化过程中基因“生”或“死”
的研究。该基因组序列的资料已于2003年4月被载入免费公用数据库。“完成”并非意味着现在的人类基因组图就是完美无缺的。虽然与2001版草图相比,空缺已经从近15万个减少至341个,但是人类基因组序列的这些顽固空缺已很难用现有的技术来填补。填补这些空隙需要做进一步的研究,并需要采用新的技术。
美国马萨诸塞州麻省理工学院和哈佛大学broad研究所所长lander说:“已完成的人类基因组序列在准确率、完整性和连续性方面远远超过了我们的预期目标。它反映出全球数百名科学家为了一个共同目标——为21世纪的生物医学奠定扎实的基础——而进行大协作的奉献精神。”
仅有2万~2.5万个蛋白编码基因
ihgsc最新分析所得出的最出人意料的结果就是,人类基因组只含有2万~2.5万个蛋白编码基因。
nhgri所长collins说:“仅仅在10年以前,大多数科学家还认为,人类基因组大约含有10万个蛋白编码基因。3年前,当我们对人类基因组序列草图进行分析时,我们估计人类约有3万~3.5万个蛋白编码基因,这在当时已经使很多人感到震惊。而刚刚结束的分析结果发现人类的蛋白编码基因数比预计的还要少得多,这使我们对人类基因组的真实情况有了更准确的了解。全世界的科学家都可以从免费公用数据库中获得该高度精确的人类基因组序列,这就使他们有可能对人类遗传学及其影响人类健康和疾病的机制进行更精确的研究。”
人类基因组分析的主要目的之一就是确定人类的全部基因。基因是编码特定蛋白质的一段dna序列,是遗传的基本功能单位。目前的研究结果显示,人类基因组有19599个已经获得确定的蛋白编码基因,另外还有2188段可能为蛋白编码基因的dna序列。
英国wellcometrustanger研究所rogers说:“由于2001年版人类基因组草图不够完善,因此导致了一些早期基因模型是错误的。基因鉴定仍是一项艰巨的任务。除了其他生物的基因组序列、更好的计算机化模型和其他手段的改进外,人类基因组测序工作的完成必将为基因鉴定工作提供极大的帮助。”
人类基因重复片段高达5.3%
科学家们认为,已完成的人类基因组序列不但确定了更为确切的人类基因数量,而且与2001版基因组序列草图相比,质量也有显着的提高,并且使人们对某些现象有了征(胸腺发育不良)。美国圣路易斯市华盛顿大学基因组测序中心前主任、西雅图市华盛顿大学基因组系主任waterston说:“以前只有基因组序列草图的时候,要对重复片段进行研究几乎是不可能的。通过全世界科学家坚持不懈的努力,现在我们已经可以对人类基因组中这一重要而快速进化的部分进行研究了。”
重复片段覆盖了5.3%的人类基因组,显着多于大鼠的基因组(约为3%)或小鼠的基因组(在1%~2%之间)。重复片段为人们开启了一个了解人类基因组是如何进化的以及人类基因组目前正在经历什么样的变化的窗口。人类基因组如此高的重复片段百分比表明,在最近4000万年内,人类的遗传物质经历了快速的功能变革和结构改变。这大概就是人类具有独特的特征,从而有别于其非人类灵长类动物祖先的原因。
ihgsc在分析中发现,重复片段在不同的人类染色体之间的分布差异很大。y染色体就是一个最极端的例子,其重复片段占总长度的25%以上。有些重复片段往往群集于每
条染色体的中部(着丝粒)或末端(端粒)附近。科学家们推测,基因组可能将着丝粒和端粒处的重复片段用作一个进化实验室,来生成具有新功能的基因。揭示基因的“生”与“死”
已完成的人类基因组序列准确度很高,这使科学家有可能了解在人类进化过程中基因的“生”和“死”。科学家在人类基因组中发现了1000多个新基因,这些基因是大约7500万年前人类与啮齿类动物向不同方向进化以后产生的。这些基因多数是最近通过基因重复产生的,与免疫、嗅觉和生殖功能有关,例如,人类基因组中最近重复的两个基因家族分别编码两组蛋白质,妊娠特异性β1糖蛋白和绒毛膜促性腺激素β蛋白,这两组蛋白质可能与人类独特的较长的妊娠期相关。
此外,科学家们还利用已完成的人类基因组序列发现并鉴定了33个几乎没什么变化的基因,但是由于它们在近期发生了1个或1个以上突变而导致了其功能丧失(或称为“死亡”)。科学家通过将这些基因与大鼠和小鼠基因组中的对应基因(鼠类中这些对应基因的功能仍保持)进行对照比较后,确定了这些无功能基因(又称为假基因)在人类基因组的确切位置。有趣的是,科学家们还发现,上述33个假基因中的10个似乎与编码嗅觉感受器的蛋白相关,这就有助于解释为什么人类的功能性嗅觉感受器较少,从而导致了人类的嗅觉比啮齿类动物差。axel和buck不久前就因在嗅觉分子生物学方面所做出的杰出贡献而获得了2004年诺贝尔生理学或医学奖。
然后,科学家将这33个假基因和黑猩猩的基因组序列草图进行了对照比较,以确定这些基因在大约500万年前类人猿进化为人类前是否还是有功能的。分析结果显示,33个假基因中的27个在人类中和在黑猩猩中均无功能,但有5个假基因虽在人类中无功能,但在黑猩猩中还是有功能的。美国休斯顿baylor医学院人类基因组测序中心主任gibbs说:“对这些人类基因组中的假基因以及黑猩猩基因组中仍有功能的对应基因的确定,为将来的研究项目打下了坚实的基础。”gibbs等目前正在进行另一种非人类灵长类动物——恒河猴基因组的测序工作。
7. 如何在springerlink数据库中进行期刊浏览
在springerlink数据库中可以用网站的筛选功能进行期刊浏览。
首先打开网站页面。
这里我们以telomere(端粒)为例,选择Life Science(生命科学)。
根据需要也可选择其他类别。
进入生命科学搜索领域,输入搜索关键词telomere.也可通过设置进行高级搜索。
在搜索结果,如果文献来源前面有一个黄色的图标则不能查看全文;从我的搜索结果中下面有一篇可阅读全文的PDF。
也可通过Springlink直接查找特定期刊。点击Journals;然后输入期刊名,以human nature为例。
点击进入后可以看到该期刊的相关信息及最新发布的文献,也可以在该期刊内搜索你想找的文献。