序列数据库

发布时间: 2022-05-15 00:51:39

A. 监控系统为什么采用时间序列数据库

思极有容时序数据库正是普华公司面对这一高速增长的物联网大数据市场和技术挑战推出的创新性的大数据处理产品，它不依赖任何第三方软件，也不是优化或包装了一个开源的数据库或流式计算产品，而是在吸取众多传统关系型数据库、NoSQL数据库、流式计算引擎、消息队列等软件的优点之后自主开发的产品，在时序空间大数据处理上，有着自己独到的优势。

· 10倍以上的性能提升：定义了创新的数据存储结构，单核每秒就能处理至少2万次请求，插入数百万个数据点，读出一千万以上数据点，比现有通用数据库快了十倍以上。
· 硬件或云服务成本降至1/5：由于超强性能，计算资源不到通用大数据方案的1/5；通过列式存储和先进的压缩算法，存储空间不到通用数据库的1/10。
· 全栈时序数据处理引擎：将数据库、消息队列、缓存、流式计算等功能融合一起，应用无需再集成Kafka/Redis/HBase/HDFS等软件，大幅降低应用开发和维护的复杂度成本。
· 强大的分析功能：无论是十年前还是一秒钟前的数据，指定时间范围即可查询。数据可在时间轴上或多个设备上进行聚合。临时查询可通过Shell, Python, R, Matlab随时进行。
· 与第三方工具无缝连接：不用一行代码，即可与Telegraf, Grafana, Matlab, R等工具集成。后续将支持MQTT, OPC等工具, 与BI工具也能够无缝连接。
· 零运维成本、零学习成本：安装、集群一秒搞定，无需分库分表，实时备份。支持标准SQL语句，支持JDBC, RESTful连接, 支持Python/Java/C/C++/Go等开发语言, 与MySQL相似，零学习成本。

采用思极有容时序数据库，可将典型的物联网、车联网、工业互联网大数据平台的整体成本降至现有的1/5。同样的硬件资源，思极有容时序数据库能将系统处理能力和容量增加五倍以上。

同时，相比HBase等数据库，使用普华思极有容时序数据库来存储有以下优势:

1. 存储空间大幅节省，估计不到HBase的1/10

2. 服务器资源大幅节省，估计不到1/5

3. 查询速度提高至少10倍

4. 提供异地容灾备份方案

5. 支持通过标准SQL进行即席查询

6. 数据超过保留时长，自动删除

7. 零管理，安装、部署、维护极其简单，一键搞定

B. 蛋白质序列数据库的数据库分类

PIR数据库按照数据的性质和注释层次分四个不同部分，分别为PIR1、PIR2、PIR3和PIR4。PIR1中的序列已经验证，注释最为详尽；PIR2中包含尚未确定的冗余序列；PIR3中的序列尚未加以检验，也未加注释; 而PIR4中则包括了其它各种渠道获得的序列，既未验证，也无注释。除了PIR外，另一个重要的蛋白质序列数据库则是SwissProt。该数据库由瑞士日内瓦大学于1986年创建，目前由瑞士生物信息学研究所(Swiss Institute of Bioinformatics，简称SIB)和欧洲生物信息学研究所 EBI共同维护和管理。瑞士生物信息研究所下属的蛋白质分析专家系统(Expert Protein Analysis System,，简称ExPASy)的Web服务器除了开发和维护SwissProt数据库外，也是国际上蛋白质组和蛋白质分子模型研究的中心，为用户提供大量蛋白质信息资源。北京大学生物信息中心设有ExPASy的镜象。PIR和SwissProt是创建最早、使用最为广泛的两个蛋白质数据库。随着各种模式生物基因组计划的进展，DNA序列特别是EST序列大量进入核酸序列数据库。蛋白质序列数据库TrEMBL是从EMBL中的cDNA序列翻译得到的。TrEMBL数据库创建是于1996年[Bairoch, 2000]，意为“Translation of EMBL”。该数据库采用SwissProt数据库格式，包含EMBL数据库中所有编码序列的翻译。TrEMBL数据库分两部分，SP-TrEMBL和 REM-TrEMBL。SP-TrEMBL中的条目最终将归并到SwissProt数据库中。而Rem-TrEMBL则包括其它剩余序列，包括免疫球蛋白、T细胞受体、少于8个氨基酸残基的小肽、合成序列、专利序列等。与TrEMBL类似，GenPept是由GenBank翻译得到的蛋白质序列。由于TrEMBL和GenPept均是由核酸序列通过计算机程序翻译生成，这两个数据库中的序列错误率较大，均有较大的冗余度。另一个常用的蛋白质序列数据库是已知三维结构蛋白质的一级结构序列数据库NRL-3D[Namboodiri, 1990]。该数据库的序列是从三维结构数据库PDB中提取出来。

C. 序列数据库的数据内容

序列数据库的注释信息包括两部分，一部分由计算机程序经过序列分析由计算机程序生成，另一部分则依靠生物学家通过查阅文献资料而获得。

D. 常用的查询蛋白质结构以及序列的数据库主要有哪些

1. PIR和PSD
PIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库，可在这里下载。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库，其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理，超过99%的序列已按蛋白质家族分类，一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引，以及数据库内部条目之间的索引，这些内部索引帮助用户在包括复合物、酶－底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库，每周可以得到更新部分。
PSD数据库有几个辅助数据库，如基于超家族的非冗余库等。PIR提供三类序列搜索服务：基于文本的交互式检索；标准的序列相似性搜索，包括BLAST、FASTA等；结合序列相似性、注释信息和蛋白质家族信息的高级搜索，包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
2. SWISS-PROT
SWISS-PROT是经过注释的蛋白质序列数据库，由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成，每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等，注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列，并与其它30多个数据建立了交叉引用，其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。
利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列，序列提交可以在其Web页面上完成。
3. PROSITE
PROSITE数据库收集了生物学有显着意义的蛋白质位点和序列模式，并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下，某个蛋白质与已知功能蛋白质的整体序列相似性很低，但由于功能的需要保留了与功能密切相关的序列模式，这样就可能通过PROSITE的搜索找到隐含的功能motif，因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等；除了序列模式之外，PROSITE还包括由多序列比对构建的profile，能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。
4. PDB
蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库，由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据，经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务，以及关于PDB数据文件格式和其它文档的说明，PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。
5. SCOP
蛋白质结构分类(SCOP)数据库详细描述了已知的蛋白质结构之间的关系。分类基于若干层次：家族，描述相近的进化关系；超家族，描述远源的进化关系；折叠子(fold)，描述空间几何结构的关系；折叠类，所有折叠子被归于全α、全β、α/β、α＋β和多结构域等几个大类。SCOP还提供一个非冗余的ASTRAIL序列库，这个库通常被用来评估各种序列比对算法。此外，SCOP还提供一个PDB-ISL中介序列库，通过与这个库中序列的两两比对，可以找到与未知结构序列远缘的已知结构序列。
6. COG
蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白，根据系统进化关系分类构建而成。COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR程序，可以把某个蛋白质与所有COGs中的蛋白质进行比对，并把它归入适当的COG簇。COG库提供了对COG分类数据的检索和查询，基于Web的COGNITOR服务，系统进化模式的查询服务等。

E. uniprot蛋白质序列数据库由哪几部分组成各有什么特点

将PIR、SWISS-PROT和TrEMBL3个蛋白质数据库统一-起来组建而成，包含3个部分:
(1)
UniProt
Knowledgebase
(UniProtKB)
，这是蛋白质序列、功能、分类、交叉引用等蛋白质知识库，记录经过人工筛选和注释;
■
(2)
UniRef
(
UniProt
Non-rendant
Reference
)
数据库，将密切相关的蛋白质序列组合到一条记录中，以便提高搜索速度;目前，根据序列相似程度形成3个子库，即UniRef100、UniRef90和UniRef50;
■
(3)
UniParc
(UniProt
Archive)，是UniProt存档库
,
收录所有蛋白质序列。用户可以通过文本查询数据库，可以利用BLAST程序搜索数据库，也可以直接通过FTP下载数据。

F. 总结蛋白质序列数据库演变的过程

蛋白质序列数据库指应用计算机功能分析生物学信息的数据库。应用计算机的运算法则，比较DNA和蛋白质序列而检测结构、功能和序列之间的进化关系。

各种基因组的序列产生大量的DNA序列数据和生物信息，已经被应用于研究基因的功能，预测以前未知的基因功能。现在人们的注意力主要集中在从仅有的氨基酸序列预测蛋白质结构和功能。

历史追溯：

由于蛋白质序列测定技术先于DNA序列测定技术问世，蛋白质序列的搜集也早于DNA序列。蛋白质序列数据库的雏形可以追溯到60年代。60年代中期到80年代初，美国国家生物医学研究基金会(National Biomedical Research Foundation，简称NBRF)。

Dayhoff领导的研究组将搜集到的蛋白质序列和结构信息以“蛋白质序列和结构地图集”(Atlas of Protein Sequence and Structure)的形式发表，主要用来研究蛋白质的进化关系。1984年，“蛋白质信息资源”(Protein Information Resource，简称PIR)计划正式启动。

蛋白质序列数据库PIR也因此而诞生。与核酸序列数据库的国际合作相呼应，1988年，美国的NBRF、日本的国际蛋白质信息数据库(Japanese International Protein Information Database，简称JIPID)。

德国的慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequences，简称MIPS)合作成立了国际蛋白质信息中心(PIR-International)，共同收集和维护蛋白质序列数据库PIR，[Barker等, 2000]。

G. 目前知名的序列数据库有哪些如何从数据库中获取一个已知基因的序列（分子生物学简答题）

在NCBI主页上方search栏左边有一个database选择框,点击下拉三角形选择nucleotide（如图红框）在search栏输入基因名搜索即可.以人的orc1基因为例,在搜索结果中选择mRNA和complete cds序列的结果都可以,如下点击进入序...

H. 蛋白质序列数据库的历史追溯

由于蛋白质序列测定技术先于DNA序列测定技术问世，蛋白质序列的搜集也早于DNA序列。蛋白质序列数据库的雏形可以追溯到60年代。60年代中期到80年代初，美国国家生物医学研究基金会(National Biomedical Research Foundation，简称NBRF)Dayhoff领导的研究组将搜集到的蛋白质序列和结构信息以“蛋白质序列和结构地图集”(Atlas of Protein Sequence and Structure)的形式发表，主要用来研究蛋白质的进化关系。1984年，“蛋白质信息资源”(Protein Information Resource，简称PIR)计划正式启动，蛋白质序列数据库PIR也因此而诞生。与核酸序列数据库的国际合作相呼应，1988年，美国的NBRF、日本的国际蛋白质信息数据库(Japanese International Protein Information Database，简称JIPID)和德国的慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequences，简称MIPS)合作成立了国际蛋白质信息中心(PIR-International)，共同收集和维护蛋白质序列数据库PIR，[Barker等, 2000]。

I. 核酸序列数据库（genbank）和基因组数据库（ensemble）的区别

核酸序列数据库（genbank）和基因组数据库（ensemble）的区别：
1、GenBank
是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区（CDS）特征的注释，还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织，包括EMBL和DDBJ。
2、Ensemble数据库可为药物研发提供超过167,000种生物活性化合物包括化学结构在内的必要信息。本数据库利用用户容易掌握的界面将数据、文本和图象资料有机地结合起来，便于查询。Ensemble可从药品专利开始，再通过其临床前和临床研究资料，直至注册信息、市场概况及其他方面的相关资料来跟踪药物。数据库每月更新一次，每年增加约10,000
种新化合物。

J. 为什么说swiss-prot是重要的蛋白质序列数据库

SWISS-PROT是含有详细注释内容的蛋白质序列数据库，由欧洲生物信息学中心（EBI）维护，目前已合并入 UniProt数据库，旨在帮助基因组和蛋白质组以及相关的分子生物学研究人员提供有关蛋白质氨基酸序列的最新信息。
SWISS-PROT中尽可能减少了冗余序列，并与其它30多个数据建立
了交叉引用，其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。SWISS-PROT数据库包含了EMBL核酸序列数据库中被经过仔细检查和准确注释了
的蛋白质序列，一般地，任何蛋白质序列数据的搜寻和比较都应从SWISS-PROT开始。

SWISS-PROT蛋白质序列数据由大量序列条目组成，每一个序列条目
有其自己的格式。为了标准化的目的，SWISS-PROT的格式与EMBL核酸序列数据库的格式尽可能类似。SWISS-PROT涉及已知蛋白质的序列、
引用文献信息、分类学信息、注释等，注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关
系、序列变异体和冲突等信息。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序
获得的蛋白质序列，序列提交可以在其Web页面上完成。

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：1151

制作脚本网站发布：2025-10-20 08:17:34 浏览：1424

python中的init方法发布：2025-10-20 08:17:33 浏览：1114

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1296

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：1151

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1509

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：708

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：616

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1279

python股票数据获取发布：2025-10-20 07:39:44 浏览：1343

序列数据库

与序列数据库相关的资讯