酶数据库
1. 分子生物信息数据库的二次数据库
二次数据库种类繁多,以核酸数据库为基础构建的二次数据库有基因调控转录因子数据库TransFac,真核生物启动子数据库EPD,克隆载体数据库Vector,密码子使用表数据库CUTG等。以蛋白质序列数据库为基础构建的二次数据库有蛋白质功能位点数据库Prosite,蛋白质功能位点序列片段数据库Prints,同源蛋白家族数据库Pfam,同源蛋白结构域数据库Blocks。以具有特殊功能的蛋白为基础构建的二次数据库有免疫球蛋白数据库Kabat,蛋白激酶数据库PKinase等。以三维结构原子坐标为基础构建的数据库为结构分子生物学研究提供了有效的工具,如蛋白质二级结构构象参数数据库DSSP,已知空间结构的蛋白质家族数据库FSSP,已知空间结构的蛋白质及其同源蛋白数据库HSSP等。蛋白质回环分类数据库则是用于蛋白质结构、功能和分子设计研究的专门数据库。此外,酶、限制性内切酶、辐射杂交、氨基酸特性表、序列分析文献等,也属于二次数据库或专门数据库。 法国生物信息研究中心Infobiogen生物信息数据库目录DBCat搜集了主要400多个数据库的名称、内容、数据格式、联系地址、网址等详细信息,使用户对目前生物信息数据库有一个详尽的了解。
2. 如何在KEGG数据库中查找关注pathway
1.打开KEGG数据库首页,链接如下:http://www.genome.jp/kegg/,如下所示:
点击“KEGG PATHWAY”字样链接,可见如下界面:
一直往下看,会发现KEGG数据针对pathway做了分类,主要包含Metabolism、Genetic Information Processing、Environmental Information Processing、Cellular Process、Organismal Systems、Human Diseases、Drug Development七个方向,并针对每个方向还有更为细致的分类,例如Metabolism包含Carbohydratemetabolism、Energy metabolism、Lipid metabolism等,各位看官可以根据您的研究方向或感兴趣通路选择具体的pathway进行查看。
2.假如我们关注Carbohydrate metabolism下的Pentose phosphate pathway,点击后获得如下界面:
其中最上面的Reference pathway表示我们目前查看的通路是所有物种通用的pathway,下面的一段文字是对这个pathway的介绍,再下面网络图显示此pathway具体信息。
其中带有Pentosephosphate pathway字样的方框点击开可发现对这个通路的其他信息介绍,同时可看到这个通路的ID(map00030),这个用map开头+数字组成的ID表示所有物种通用的通路ID,如果是某一特定物种的ID,会以该物种的3个字母简写名字+数字组成,例如hsa00030。在网络图中方框表示的是参与反应的酶,例如1.1.1.47,这是酶的ECnumber,国际酶学委员会赋予的编号。
小圆圈表示化学反应中的化合物,例如beta-D-Glucose(C00221)。箭头代表的是反应方向,虚线表示此反应可以通过中间产物或其中途径发生联系。大椭圆表示与此通路相关的另一个pathway。如果您想要只关注human的Pentose phosphate pathway,就可以在Reference pathway处进行选择,之后点击Go即可。
这个时候您会发现在第一行显示与不选择物种时有一定区别,会标记为human信息,同时点击网络图中的带有Pentose phosphate pathway的方框,里面会有human的这个通路的信息,包含了human该通路的pathway ID(hsa00030)和介绍。
网络图本身也有变化,部分方框为浅绿色,其他不变。其中浅绿色方框为人类含有的酶,例如3.1.1.17,把鼠标放在上面会有相关信息显示。白色方框的酶在人类中不含有,把鼠标放在上面不会有任何信息显示。
浅绿色方框可以点击开查看详细信息,例如点击3.1.1.17,获得如下界面,Entry为该酶在KEGG数据库中的ID,Gene name为此酶的简化名,Difinition为此酶的通用名字EC number,KO是在KEGG数据库中该酶的同源序列号,Pathway中罗列出了该酶参与的通路,除此之外,还显示很多其他信息,例如编码该酶的三级结构(Structure)、基因序列(NT seq)和氨基酸序列(AA seq)等信息。
注意哦,上图的右上角,有一个Help字样,如果您对此页面中信息不清楚,可以点击Help,页面里对每项都有相应的详细介绍。
如果您知道自己关注通路的ID,可以直接在第一步的基础上直接搜索,也可以获得特定物种的通路信息,例如上面的human的Pentosephosphate pathway,ID为hsa00030,我们就可以直接用这个ID进行搜索,具体操作为在步骤1的第二幅图中填入ID号,选择物种has,点击Go即可,页面如下:
在出现的页面中,点击hsa00030这个通路即可。
3. SRS在生物学中什么意思
SRS(Sequence Retrieval System,)是EMBL研制的一个基于WEB的查询系统,也是目前国际上最有影响的生物分子数据库查询系统之一。SRS采用全菜单驱动方式,用户可以同SRS 迅速地访问生物分子数据库和文献数据库,包括EMBL、EMBL_NEW、SWISS-PROT、PIR等一级数据库,还包括许多二级数据库,如蛋白质家族和结构域数据库PROSITE、限制酶数据库ReBase、PDB序列子集数据库NRL_3D、真核基因启动子数据库EPD、E.coli 数据库ECD、酶名称和反应数据库ENZYME、生物计算文献数据库SEQANALREF等,还有与功能、疾病相关的数据库,总共有80个数据库。SRS在欧洲、亚洲、太平洋地区、南美洲等地方都有镜像站点,在中国的镜像站点建立在北京大学生物信息中心。除了查询和获取数据功能之外,SRS还带有许多嵌入式工具,如分子疏水性显示、相似序列搜索、多重序列比对等工具。
4. 求助:在哪里能查到酶的三维结构
蛋白质结构数据库,一般用PDB,还有其他衍生出来的数据库,比如DSSP,HSSP等等。 如果要差序列结构,在NCBI中也可以差,EMBL中也都有,不过建议在PDB中查看,将文件下载下来,用一些常用的软件进行查看,并且可以看到一级,二级等高级结构。
5. 美国国家标准与技术研究院的数据库
根据标准参考数据计划,NIST的各实验室正在将他们的数据库产品不断加入到在线访问的数据库行列,建立了一系列的科学数值数据库。通过更新现有的数据库及开发新数据库,NIST不断地丰富它的评价数值数据集,为社会提供可靠的、经过评价的数值数据。社会各界的工程师和科学家依靠 NIST的标准参考数据对许多关键技术进行决策。
NIST的标准参考数据库系列包括50多个数据库,其中大部分是建在微机上的多用途数据包,根据学科可分为以下几类:分析化学(包括谱学),原子和分子物理,生物技术,化学与晶体结构,化学动力学,工业流体与化工,材料性能,热力学与热化学,以及NIST的其它数据库。
分析化学类包括质谱库、红外谱、光电子能谱等数据库;原子与分子物理类包括光谱性能、c-射线衰减系数及交叉截面、原子光谱等数据库;生物技术类包括生物大分子结晶库等数据库;化学与晶体结构类有电子衍射等数据库;化学动力学类包括化学动力学、溶液动力学等数据库;工业流体与化工类有物质的热力学性能数据库;材料性能类包括结构陶瓷、腐蚀性能、摩擦材料、高温超导等数据库;表面数据类包括表面结构、弹性电子散射交叉截面等数据库;热化学类包括化学热力学、有机化合物热力学性能估算、JANAF热化学表等数据库。
NIST提供科学数值数据服务的方式主要有:①将数据与分析仪器连在一起出售,如质谱库中有近10万个化合物数据,附在质谱仪中出售的有常用的几万个化合物;②以PC数据包方式出售;③联机数据服务;④作为其它大的软件包的一部分;⑤直接装入用户的计算机。
具体的在线科学数据库名单如下:
儿童人体测量数据库(AnthroKids - Anthropometric Data of Children),
铂/氖阴极管灯泡的光谱图(Atlas of the Spectrum of a Platinum/Neon Hollow-Cathode Lamp in the Region 1130-4330 Å),
用于电子结构计算的原子参考数据库(Atomic Reference Data for Electronic Structure Calculations),
原子光谱数据库(Atomic Spectra Database,ASD),
原子谱线加宽目录数据库(Atomic Spectral Line Broadening Bibliographic Database),
原子跃迁概率数据库(Atomic Transition Probability Bibliographic Database),
原子重量及同位素成分数据库(Atomic Weights and Isotopic Compositions),
光子总交叉截面(衰减系数)测量目录(Bibliography of Photon Total Cross Section (Attenuation Coefficient) Measurements),
生物高分子结晶数据库(Biological Macromolecule Crystallization Database),
陶瓷互联网手册(Ceramics WebBook),
化学动力学数据库(CKMech,Chemical Kinetic Mechanisms),
化学互联网手册(Chemistry WebBook),
单分子反应计算数据库(ChemRate: A Calculational Database for Unimolecular Reaction),
视觉协同测试床(CIS2 Visual Interoperability Testbed),
化学动力学机理(CKMech,Chemical Kinetic Mechanisms),
计算化学比较和基准数据库(Computational Chemistry Comparison and Benchmark Database),
计算机辨认工具测试项目网站(Computer Forensics Tool Testing (CFTT) Project Web Site),
二阶光谱数据库(Diatomic Spectral Database),
运算法则和数据结构字典(Dictionary of Algorithms and Data Structures),
电子与等离子体加工用气体相互作用数据 (Electron Interactions with Plasma Processing Gases),
元素数据索引(Elemental Data Index),
工程统计学手册(Engineering Statistics Handbook),
火灾研究信息服务(Fire Research Information Services ,FRIS),
基本物理常数(Fundamental Physical Constants),
中性原子的基本水平和电离能量(Ground Levels and Ionization Energies for the Neutral Atoms),
数学软件指南(Guide to Available Mathematical Software),
NIST计量结果不确定性的评估与表达指南(Guidelines for Evaluating and Expressing the Uncertainty of NIST Measurement Results),
基础原子光谱数据手册(Handbook of Basic Atomic Spectroscopic Data),
绝缘体和建筑材料的热传递性质(Heat Transmission Properties of Insulating and Building Materials),
高温超导材料数据库(High Temperature Superconcting Materials Database),
HIV蛋白酶数据库(HIV Protease Database),
人线粒体蛋白数据库(Human Mitochondrial Protein Database),
烃类光谱数据库(Hydrocarbon Spectral Database),
二氧化碳同位素测定的交互规则(Interactive Algorithm for Isotopic CO2 Measurements),
国际比较数据库(International Comparisions Database),
ITS-90热电偶数据库(ITS-90 Thermocouple Database),
自动数据分析工具(MassSpectator Automated Data Analysis Tool),
矩阵市场数据库(Matrix Market Database),
相位图和计算热动力学―焊接系统(Phase Diagrams and Computational Thermodynamics - Solder Systems),
多轮烃结构索引(Polycyclic Aromatic Hydrocarbon Structure Index),
聚合物方法数据库(Polymer MALDI MS Methods Database),
高级材料的性质数据总结(Property Data Summaries for Advanced Materials),
断裂韧度性质数据总结(Property Data Summaries for Fracture Toughness),
氧化玻璃的性质数据总结(Property Data Summaries for Oxide Glasses),
蛋白质数据银行(Protein Data Bank (PDB) ( in collaboration with RCSB )
放射性核半衰期计量(Radionuclide Half-Life Measurements),
用于观测星际分子微波跃迁的雷达技术扫描频率(Recommended Rest Frequencies for Observed Interstellar Molecular Microwave Transitions - 1991 Revision),
加强渗透性数值数据库(Database on Reinforcement Permeability Values),
短暂前后重复的DNA数据库(Short Tandem Repeat DNA Internet Database),
无铅焊料的焊接特性数据库(Database for Solder Properties with Emphasis on New Lead-free Solders),
可溶性数据库(IUPAC-NIST Solubility Database),
溶解动力学数据库(NDRL/NIST Solution Kinetics Database on the Web),
坎德拉X-射线天文台光谱数据库(Spectral Data for the Chandra X-ray Observatory),
统计参考数据库(Statistical Reference Datasets),
电子、质子和氦离子的静止能与行程表(Stopping-Power and Range Tables for Electrons,Protons,and Helium Ions),
NIST结构陶瓷学数据库(NIST Structural Ceramics Database),
合成聚合物质谱项目(Synthetic Polymer Mass Spectrometry Project),
X-射线质量衰减系数和能量吸收系数表(Tables of X-Ray Mass Attenuation Coefficients and Mass Energy - Absorption Coefficients),
酶催化反应的热力学数据库(Thermodynamics of Enzyme-Catalyzed Reactions Database),
半导体器件加工用的气体的热物理特性数据库(Database of the Thermophysical Properties of Gases Used in the Semiconctor Instry),
三原子光谱数据库(Triatomic Spectral Database),
Vibrational branching ratios and asymmetry parameters in the photoionization of CO2 in the region between 650 Å and 840 Å
可见物粘合剂数据集(NIST Visible Cement Dataset),
Wavenumber Calibration Tables from Heterodyne Frequency Measurements
用于剂量测定的X-射线衰减与吸收表(X-Ray Attenuation and Absorption for Materials of Dosimetric Interest),
X-射线波型系数、衰减与散射表(X-Ray Form Factor,Attenuation and Scattering Tables),
X-射线电光子分光光谱数据库(NIST X-ray Photoelectron Spectros Database),
X-射线跃迁能量数据库(X-Ray Transition Energies Database),
光子交叉截面数据库(XCOM: Photon Cross Sections Database)。
6. 列举常用的生物信息学数据库及序列对比常用软件及特点
一般来说所用的分析工具有在线跟下载的 下面简要列举一些常用在线软件的使用 1、使用VecScreen工具,分析下列未知序列,输出序列长度、载体序列的区域、可能使用的克隆载体都有哪些。一、步骤:
打开google 首页,搜索VecScreen,进入VecScreen首页,复制序列,运行,View report。
二、结果:
输出序列长度918bp,
载体序列的区域456bp——854bp.
克隆载体:M13mp18 phage,pGEM-13Zf(+),pBR322,pRKW2。
2、使用相应工具,分析下列未知序列的重复序列情况,输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及Masked Sequence。
一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的。
进入google首页,搜索RepeatMasker,进入RepeatMasker主页,进入RepeatMasking,复制序列,DNA source选择human,运行!点击超链接,在结果中选择
Annotation File :RM2sequpload_1287631711.out.html
3、使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,输出CpG岛的长度、区域、GC数量、所占的百分比及Obs/Exp值。一、步骤:
进入google首页,搜索CpGPlot,进入CpGPlot主页,program中选择cpgreport复制序列,运行!
二、结果:
CpG岛的长度:385bp
区域:48——432;
GC数量:Sum C+G=297,百分数=77.14
Obs/Exp:1.01
4、预测下面序列的启动子,输出可能的启动子序列及相应的位置。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的
进入google首页,搜索Neural Network Promoter Prediction,进入主页,复制序列,选择eukaryote,运行!
二、结果:
位置:711—761 ,1388—1438,1755—1805;
5、运用Splice Site Prediction工具分析下面序列,分别输出内含子-外显子剪接位点给体和受体的区域及剪接处位置的碱基。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的
进入google首页,搜索Splice Site Prediction,进入主页,复制序列。Organism选择Human or other。其他默认,运行!
二、结果:
供体:
受体:
6、对下面序列进行六框翻译,利用GENESCAN综合分析(首先确定给定序列的物种来源)哪个ORF是正确的,输出六框翻译(抓图)和GENESCAN结果(包括predicted genes/exons 和 predicted peptide sequence(s) 两个部分)。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是Zea的
进入google首页;搜索NCBI,进入主页,选择all resources(A~Z),选择O,选择ORF finder。复制序列,默认,运行!
二、结果:ORF图
三、步骤:进入google首页,搜索GENESCAN,进入主页,Organism:Maize, ,其他默认,运行!
四、结果:
G7、进入REBASE限制性内切酶数据库,输出AluI、MboI、EcoI三种内酶的Recognition Sequence和Type。
一、步骤:进入google首页,google in English,搜索REBASE,进入主页, 分别输入AluI、MboI、EcoI,运行!
在MboI中选择第一个,EcoI选择第二个。
二、结果:
ENSCAN图
8、使用引物设计工具,针对下列未知序列设计一对引物,要求引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃。请写出选择的一对引物(Forward Primer and Reverse Primer)、及相应的GC含量、引物的位点、Tm值和产物长度。一、步骤:进入google首页,搜索genefisher,进入主页,复制fasta格式,chechk input, sunmit, ; ;设置一下引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃; 。
二、结果:
GC含量:
引物的位点:
Tm值:
产物长度:。
9、将下面的序列用NEBcutter 2.0工具分析,用产生平末端及有四个酶切位点的酶进行酶切,并用抓图提交胶图(view gel),要求1.4% agarose和Marker为100bp DNA Ladder。
一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST,得知是linear。
进入google首页,搜索NEBcutter 2.0,进入主页,选择linear,运行!选择custom digest, ,把“1”改为“4”,选择平末端,后digest。View gel。选择1.4% agarose和Marker为100bp。
二、结果:
然后就是蛋白质的了一般都在expasy里swiss-prot 适用于检索的 compute pi/mw 求理论分子量 分子量 protparam物理化学性质 protscale亲水性疏水性 peptidemass分析蛋白酶和化学试剂处理后的内切产物
NCBI(www.ncbi.nlm.nih.gov)-GenBank数据库
数据库相似性搜索——核酸序列与核酸数据库比较(BLASTN)
蛋白质序列与数据库中蛋白质序列比较(BLASTP)
两序列比对(Align two sequences)
DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)
分析实验序列外显子部分——GENSCAN(http://genes.mit.e/GENSCAN.html)
分析实验序列的可能酶切位点——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
注: Custom digest -- view gel
限制性内切酶数据库——REBASE(http://rebase.neb.com/rebase/rebase.html)
设计引物扩增实验序列——Genefisher
Primer 3
蛋白质序列分析及结构预测:
1.预测蛋白质的分子量及等电点:ExPASy(Compute pI/Mw)
2.分析蛋白质的基本物理化学性质:ExPASy(ProtParam)
3.分析蛋白质的亲水性和疏水性:ExPASy(ProtScale)
4.分析蛋白质在各种蛋白酶和各种化学试剂处理后的内切产物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白质的信号肽:ExPASy(SignalP)
6.预测蛋白质的二级结构:ExPASy(Jpred 3)
多物种分子系统发育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W
人脂联素蛋白质序列:NP_004788
人类胰岛素生长因子IB前体:P05019