蛋白質序列資料庫

發布時間: 2022-12-30 01:41:32

『壹』是哪位科學家首次在世界上建立了蛋白質資料庫是哪位科學家首次在世界上建立了DNA序列資料庫

EMBL是歐洲生物信息學研究所
(European
Bioinformatics
Institute,
EBI)創建的一個核酸序列資料庫。EMBL的數據來源主要有兩部分，一部分由科研人員或某些基因組測序機構通過計算機網路直接提交，另一部分則來自科技文獻或專利(Stoesser等,
1998)。EMBL與DDBJ、GenBank建有合作關系，他們分別在全世界范圍內收集核酸序列信息，每天都將新發現或更新過的數據相互交換。
DNA資料庫的規模正在以指數方式增長，平均不到9個月就增加一倍。1998年1月，EMBL中收錄的序列數已超過一百萬，包括15,500個物種，其中模式生物的序列佔50%以上，它們包括人類(Homo
sapiens),
線蟲(Caenorhabditis
elegans)，啤酒酵母(Saccharomyces
cerevisiae)，小鼠(Mus
musculus)和擬南芥(Arabidopsis
thalania)。
可以利用序列查詢系統
SRS(Sequence
Retrieval
System)從EMBL資料庫中提取有關信息(Etzold等，1996年)。SRS序列查詢系統通過超文本鏈接將DNA序列資料庫和蛋白質序列、功能位點、結構、基因圖譜以及文獻摘要MEDLINE等各種資料庫聯系在一起。利用EBI網站提供的BLAST或FastA程序，可以對EMBL資料庫進行未知序列同源性搜索。

『貳』 uniprot蛋白質序列資料庫由哪幾部分組成各有什麼特點

將PIR、SWISS-PROT和TrEMBL3個蛋白質資料庫統一-起來組建而成，包含3個部分:
(1) UniProt Knowledgebase (UniProtKB) ，這是蛋白質序列、功能、分類、交叉引用等蛋白質知識庫，記錄經過人工篩選和注釋;
■ (2) UniRef ( UniProt Non-rendant Reference )
資料庫，將密切相關的蛋白質序列組合到一條記錄中，以便提高搜索速度;目前，根據序列相似程度形成3個子庫，即UniRef100、UniRef90和UniRef50;
■ (3) UniParc (UniProt Archive)，是UniProt存檔庫 ,
收錄所有蛋白質序列。用戶可以通過文本查詢資料庫，可以利用BLAST程序搜索資料庫，也可以直接通過ftp下載數據。

『叄』總結蛋白質序列資料庫演變的過程

蛋白質序列資料庫指應用計算機功能分析生物學信息的資料庫。應用計算機的運演算法則，比較DNA和蛋白質序列而檢測結構、功能和序列之間的進化關系。

各種基因組的序列產生大量的DNA序列數據和生物信息，已經被應用於研究基因的功能，預測以前未知的基因功能。現在人們的注意力主要集中在從僅有的氨基酸序列預測蛋白質結構和功能。

歷史追溯：

由於蛋白質序列測定技術先於DNA序列測定技術問世，蛋白質序列的搜集也早於DNA序列。蛋白質序列資料庫的雛形可以追溯到60年代。60年代中期到80年代初，美國國家生物醫學研究基金會(National Biomedical Research Foundation，簡稱NBRF)。

Dayhoff領導的研究組將搜集到的蛋白質序列和結構信息以「蛋白質序列和結構地圖集」(Atlas of Protein Sequence and Structure)的形式發表，主要用來研究蛋白質的進化關系。1984年，「蛋白質信息資源」(Protein Information Resource，簡稱PIR)計劃正式啟動。

蛋白質序列資料庫PIR也因此而誕生。與核酸序列資料庫的國際合作相呼應，1988年，美國的NBRF、日本的國際蛋白質信息資料庫(Japanese International Protein Information Database，簡稱JIPID)。

德國的慕尼黑蛋白質序列信息中心(Munich Information Center for Protein Sequences，簡稱MIPS)合作成立了國際蛋白質信息中心(PIR-International)，共同收集和維護蛋白質序列資料庫PIR，[Barker等, 2000]。

『肆』為什麼說swiss-prot是重要的蛋白質序列資料庫

SWISS-PROT是含有詳細注釋內容的蛋白質序列資料庫，由歐洲生物信息學中心（EBI）維護，目前已合並入 UniProt資料庫，旨在幫助基因組和蛋白質組以及相關的分子生物學研究人員提供有關蛋白質氨基酸序列的最新信息。
SWISS-PROT中盡可能減少了冗餘序列，並與其它30多個數據建立
了交叉引用，其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。SWISS-PROT資料庫包含了EMBL核酸序列資料庫中被經過仔細檢查和准確注釋了
的蛋白質序列，一般地，任何蛋白質序列數據的搜尋和比較都應從SWISS-PROT開始。

SWISS-PROT蛋白質序列數據由大量序列條目組成，每一個序列條目
有其自己的格式。為了標准化的目的，SWISS-PROT的格式與EMBL核酸序列資料庫的格式盡可能類似。SWISS-PROT涉及已知蛋白質的序列、
引用文獻信息、分類學信息、注釋等，注釋中包括蛋白質的功能、轉錄後修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關
系、序列變異體和沖突等信息。利用序列提取系統(SRS)可以方便地檢索SWISS-PROT和其它EBI的資料庫。SWISS-PROT只接受直接測序
獲得的蛋白質序列，序列提交可以在其Web頁面上完成。

『伍』國際著名的三大蛋白質資料庫

國際著名的三大蛋白質資料庫有UniProt資料庫、The Human Protein Atlas資料庫、PhosphoSitePlus資料庫。

1、UniProt資料庫

蛋白組學常用資料庫UniProt（全稱UniProt Protein Resource），建立於1986年，由Swiss-Protein、TrEMBL、PIR-PSD三大蛋白質資料庫聯合成立的，其信息量豐富、資源廣泛，是目前公認的首選免費蛋白質資料庫。

2、The Human Protein Atlas資料庫

The Human Protein Atlas內含近30000種人類蛋白質的組織和細胞分布信息，並提供免費查詢。

瑞典Knut&Alice Wallenberg基金會利用免疫組化技術，檢查每一種蛋白質在人類48種正常組織，20種腫瘤組織，47個細胞系和12種血液細胞內的分布和表達，其結果用至少576張免疫組化染色圖表示，並經專業人員校對和標引，保證染色結果具有充分的代表性。

3、PhosphoSitePlus資料庫

PhosphoSitePlus資料庫是一個由CST和NIH聯合開發的免費資源資料庫，總結歸納了海量通過科學研究發現的蛋白修飾位點，包括磷酸化、甲基化、乙醯化、泛素化等，並且包括一些CST公司發現但未發表的蛋白修飾位點。

該資料庫是動態的、開放的、高度互動並持續更新的。它有助於研究PTMs在正常和病理細胞/組織中的作用，同時它也是發現新的疾病標志物和葯物靶點的有力工具。

性能及歷史

蛋白質資料庫（HPDB），建於2005年5月，動態展示生物大分子立體結構，滑鼠點擊放大分子結構、原子定位、測定原子之間距離，可用於教學或科研。服務對象是能夠熟練使用中文的生命科學、醫學、葯學、農學、林學等領域的大中專學生、教師及科技工作者。

分子結構特徵描述採用漢語，同時提供英文原文以供考證。對於善於使用英文的讀者，我們提倡直接訪問RCSB PDB，一來可以減少網路擁擠，二來可以減少由於HPDB的翻譯不妥帶來的不便。

蛋白質資料庫（HPDB）對每個蛋白質分子結構說明部分做了中文翻譯（最新加入資料庫的分子除外），內容包括分子結構定性描述、樣品的來源、表達載體、宿主、化學分析方法、分子結構組成成分等。這些信息並同蛋白質分子結構數據存儲於資料庫，因此HPDB支持中文查詢。

蛋白質資料庫（HPDB）雖然翻譯了「分子結構說明」部分，但為了保證數據的可靠性和准確性，HPDB對一級結構序列及大分子結構坐標數據等未做任何改動，資料庫保持RCSB PDB核實後的原始實驗數據文件，並保持PDB文件格式和蛋白質分子編號。

『陸』蛋白質序列資料庫的資料庫分類

PIR資料庫按照數據的性質和注釋層次分四個不同部分，分別為PIR1、PIR2、PIR3和PIR4。PIR1中的序列已經驗證，注釋最為詳盡；PIR2中包含尚未確定的冗餘序列；PIR3中的序列尚未加以檢驗，也未加註釋; 而PIR4中則包括了其它各種渠道獲得的序列，既未驗證，也無注釋。除了PIR外，另一個重要的蛋白質序列資料庫則是SwissProt。該資料庫由瑞士日內瓦大學於1986年創建，目前由瑞士生物信息學研究所(Swiss Institute of Bioinformatics，簡稱SIB)和歐洲生物信息學研究所 EBI共同維護和管理。瑞士生物信息研究所下屬的蛋白質分析專家系統(Expert Protein Analysis System,，簡稱ExPASy)的Web伺服器除了開發和維護SwissProt資料庫外，也是國際上蛋白質組和蛋白質分子模型研究的中心，為用戶提供大量蛋白質信息資源。北京大學生物信息中心設有ExPASy的鏡象。PIR和SwissProt是創建最早、使用最為廣泛的兩個蛋白質資料庫。隨著各種模式生物基因組計劃的進展，DNA序列特別是EST序列大量進入核酸序列資料庫。蛋白質序列資料庫TrEMBL是從EMBL中的cDNA序列翻譯得到的。TrEMBL資料庫創建是於1996年[Bairoch, 2000]，意為「Translation of EMBL」。該資料庫採用SwissProt資料庫格式，包含EMBL資料庫中所有編碼序列的翻譯。TrEMBL資料庫分兩部分，SP-TrEMBL和 REM-TrEMBL。SP-TrEMBL中的條目最終將歸並到SwissProt資料庫中。而Rem-TrEMBL則包括其它剩餘序列，包括免疫球蛋白、T細胞受體、少於8個氨基酸殘基的小肽、合成序列、專利序列等。與TrEMBL類似，GenPept是由GenBank翻譯得到的蛋白質序列。由於TrEMBL和GenPept均是由核酸序列通過計算機程序翻譯生成，這兩個資料庫中的序列錯誤率較大，均有較大的冗餘度。另一個常用的蛋白質序列資料庫是已知三維結構蛋白質的一級結構序列資料庫NRL-3D[Namboodiri, 1990]。該資料庫的序列是從三維結構資料庫PDB中提取出來。

『柒』蛋白質序列資料庫包含哪些內容

蛋白質資料庫

1. PIR和PSDPIR國際蛋白質序列資料庫(PSD)是由蛋白質信息資源(PIR)、慕尼黑蛋白質序列信息中心(MIPS)和日本國際蛋白質序列資料庫(JIPID)共同維護的國際上最大的公共蛋白質序列資料庫。這是一個全面的、經過注釋的、非冗餘的蛋白質序列資料庫，包含超過142,000條蛋白質序列(至99年9月)，其中包括來自幾十個完整基因組的蛋白質序列。所有序列數據都經過整理，超過99%的序列已按蛋白質家族分類，一半以上還按蛋白質超家族進行了分類。PSD的注釋中還包括對許多序列、結構、基因組和文獻資料庫的交叉索引，以及資料庫內部條目之間的索引，這些內部索引幫助用戶在包括復合物、酶－底物相互作用、活化和調控級聯和具有共同特徵的條目之間方便的檢索。每季度都發行一次完整的資料庫，每周可以得到更新部分。

PSD資料庫有幾個輔助資料庫，如基於超家族的非冗餘庫等。PIR提供三類序列搜索服務：基於文本的互動式檢索；標準的序列相似性搜索，包括BLAST、FASTA等；結合序列相似性、注釋信息和蛋白質家族信息的高級搜索，包括按注釋分類的相似性搜索、結構域搜索GeneFIND等。

PIR和PSD的網址是：http://pir.georgetown.e/。

資料庫下載地址是：ftp://nbrfa.georgetown.e/pir/。

2. SWISS-PROT

SWISS-PROT是經過注釋的蛋白質序列資料庫，由歐洲生物信息學研究所(EBI)維護。資料庫由蛋白質序列條目構成，每個條目包含蛋白質序列、引用文獻信息、分類學信息、注釋等，注釋中包括蛋白質的功能、轉錄後修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關系、序列變異體和沖突等信息。SWISS-PROT中盡可能減少了冗餘序列，並與其它30多個數據建立了交叉引用，其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。

利用序列提取系統(SRS)可以方便地檢索SWISS-PROT和其它EBI的資料庫。

SWISS-PROT只接受直接測序獲得的蛋白質序列，序列提交可以在其Web頁面上完成。

SWISS-PROT的網址是：http://www.ebi.ac.uk/swissprot/。

3. PROSITE

PROSITE資料庫收集了生物學有顯著意義的蛋白質位點和序列模式，並能根據這些位點和模式快速和可靠地鑒別一個未知功能的蛋白質序列應該屬於哪一個蛋白質家族。有的情況下，某個蛋白質與已知功能蛋白質的整體序列相似性很低，但由於功能的需要保留了與功能密切相關的序列模式，這樣就可能通過PROSITE的搜索找到隱含的功能motif，因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點、配體結合位點、與金屬離子結合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質結合的區域等；除了序列模式之外，PROSITE還包括由多序列比對構建的profile，能更敏感地發現序列與profile的相似性。PROSITE的主頁上提供各種相關檢索服務。

PROSITE的網址是：http://www.expasy.ch/prosite/。

4. PDB

蛋白質數據倉庫(PDB)是國際上唯一的生物大分子結構數據檔案庫，由美國Brookhaven國家實驗室建立。PDB收集的數據來源於X光晶體衍射和核磁共振(NMR)的數據，經過整理和確認後存檔而成。目前PDB資料庫的維護由結構生物信息學研究合作組織(RCSB)負責。RCSB的主伺服器和世界各地的鏡像伺服器提供資料庫的檢索和下載服務，以及關於PDB數據文件格式和其它文檔的說明，PDB數據還可以從發行的光碟獲得。使用Rasmol等軟體可以在計算機上按PDB文件顯示生物大分子的三維結構。

RCSB的PDB資料庫網址是：http://www.rcsb.org/pdb/。

5. SCOP

蛋白質結構分類(SCOP)資料庫詳細描述了已知的蛋白質結構之間的關系。分類基於若干層次：家族，描述相近的進化關系；超家族，描述遠源的進化關系；折疊子(fold)，描述空間幾何結構的關系；折疊類，所有折疊子被歸於全α、全β、α/β、α＋β和多結構域等幾個大類。SCOP還提供一個非冗餘的ASTRAIL序列庫，這個庫通常被用來評估各種序列比對演算法。此外，SCOP還提供一個PDB-ISL中介序列庫，通過與這個庫中序列的兩兩比對，可以找到與未知結構序列遠緣的已知結構序列。

SCOP的網址是：http://scop.mrc-lmb.cam.ac.uk/scop/。

6. COG

蛋白質直系同源簇(COGs)資料庫是對細菌、藻類和真核生物的21個完整基因組的編碼蛋白，根據系統進化關系分類構建而成。COG庫對於預測單個蛋白質的功能和整個新基因組中蛋白質的功能都很有用。利用COGNITOR程序，可以把某個蛋白質與所有COGs中的蛋白質進行比對，並把它歸入適當的COG簇。COG庫提供了對COG分類數據的檢索和查詢，基於Web的COGNITOR服務，系統進化模式的查詢服務等。

COG庫的網址是：http://www.ncbi.nlm.nih.gov/COG。

下載COG庫和COGNITOR程序在：ftp://ncbi.nlm.nih.gov/pub/COG。

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：1157

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1429

python中的init方法發布：2025-10-20 08:17:33 瀏覽：1120

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1300

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：1156

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1514

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：712

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：622

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1284

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1349

蛋白質序列資料庫

與蛋白質序列資料庫相關的資訊