當前位置:首頁 » 操作系統 » blast資料庫

blast資料庫

發布時間: 2022-05-22 08:38:56

1. 研究中通常使用blast來尋找什麼

研究中通常使用blast來尋找蛋白質和基因。

在研究中,BLAST搜索是研究一個蛋白質或基因的最基本的方法之一。BLAST(Basic Local Alignment Search Tool)基本的局部相似性比對搜索工具。是用來將一個蛋白質或DNA序列和各種資料庫中的其他序列進行比對的主要工具 (Altschul,1990,1997)。

BLAST檢索第一次被提出是在StephenAltschul,David Lipman及同事的一篇經典文獻(1990)中。這篇論文描述了BLAST檢索的理論基礎以及一些基本問題,例如靈敏度(正確度)和速度。晚些時候有對BLAST演算法的重要修飾,包括間隔BLAST的引入。

BLAST的主要功能

1、BLAST可以確定特定的蛋白質或核酸序列有哪些已知的直系同源或旁系同源序列。

2、BLAST可以確定哪些蛋白質和基因在特定的物種中出現。

3、BLAST可以確定一個DNA或蛋白質序列身份。

4、BLAST可以發現新基因。

5、BLAST可以確定一個特定基因或者蛋白質有哪些已經被發現了的變種。

6、BLAST可以研究可能存在多種剪接方式的表達序列標簽。

7、BLAST可以尋找對於一個蛋白質的功能和/或結構起關鍵作用的氨基酸殘基。

2. 如何構建本地的blast資料庫

假設有一序列數據(sequence.fa,多序列,fasta格式),欲自己做成Blast資料庫,典型的命令如下:核酸序列:$ ./formatdb –i sequence.fa –p F –o T/F蛋白序列:$ ./formatdb –i sequence.fa –p T –o T/F執行blast:獲得了單機版的Blast程序,解壓開以後,如果有了相應的資料庫(db),那麼就可以開始執行Blast分析了。 單機版的Blast程序包,把基本的blast分析,包括blastn,blastp,blastx等都整合到了blastall一個程序裡面。 以下是一個典型的blastn分析命令: (待分析序列seq.fa,資料庫nt_db) $./blastall –p blastn –i seq.fa -d nt_db –w 7 –e 10 –o seq.blastn.out (該命令的意思是,對seq.fa文件中的核酸序列對nt_db資料庫執行blastn搜索,窗口大小是7,e值限制是10,輸出的結果保存到文件seq.blastn.out 中)。 Blastall的常用參數: -p 程序名應該是blastn,blastp,blastx,tblastn,tblastx中的一個 -d 資料庫名稱,默認nr -i 查詢序列文件,默認stdin -e E值限制,默認10 -o 結果輸出文件,默認stdout -F 過濾選項,默認T -a 選擇進行運算的CPU個數

3. BLAST是用來干什麼的

BLAST包含五個程序和若干個相應的資料庫,分別針對不同的查詢序列和要搜索的資料庫類型。其中翻譯的核酸庫指搜索比對時會把核酸數據按密碼子按所有可能的閱讀框架轉換成蛋白質序列。

BLAST對序列格式的要求是常見的FASTA格式。FASTA格式第一行是描述行,第一個字元必須是「>」字元;隨後的行是序列本身,一般每行序列不要超過80個字元,回車符不會影響程序對序列連續性的看法。序列由標準的IUB/IUPAC氨基酸和核酸代碼代表;小寫字元會全部轉換成大寫;單個「-」號代表不明長度的空位;在氨基酸序列里允許出現「U」和「*」號;任何數字都應該被去掉或換成字母(如,不明核酸用「N」,不明氨基酸用「X」)。此外,對於核酸序列,除了A、C、G、T、U分別代表各種核酸之外,R代表G或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(帶酮基);M代表A或C(帶氨基);S代表G或C(強);W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、T中任意一種。對於氨基酸序列,除了20種常見氨基酸的標准單字元標識之外,B代表Asp或Asn;U代表硒代半胱氨酸;Z代表Glu或Gln;X代表任意氨基酸;「*」代表翻譯結束標志。

BLASTp:用蛋白質序列搜索蛋白質序列庫

BLASTn:用核酸序列搜索核酸庫

BLASTx:核酸序列對蛋白質庫的比對,核酸序列在比對之前自動按照六個讀碼框翻譯成蛋白質序列

tBLASTn:蛋白質序列對核酸庫的比對,核酸庫中的序列按照六個讀碼框翻譯後與蛋白質序列進行比對搜索

tBLASTx:核酸序列對核酸庫在蛋白質質級別的比對,兩者都在搜索之前翻譯成為蛋白質質進行比對

4. BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什麼

BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途分別如下:

1、blastn是將給定的核酸序列與核酸資料庫中的序列進行比較。

2、blastp是使用蛋白質序列與蛋白質資料庫中的序列進行比較,可以尋找較遠的關系。

3、blastx則是將給定的核酸序列按照六種閱讀框架將其翻譯成蛋白質與蛋白質資料庫中的序列進行比對,對分析新序列和EST很有用。

4、tblastn將給定的氨基酸序列與核酸資料庫中的序列(雙鏈)按不同的閱讀框進行比對,對於尋找資料庫中序列沒有標注的新編碼區很有用。

5、tblastx只在特殊情況下使用,它將DNA被檢索的序列和核算序列資料庫中的序列按不同的閱讀框全部翻譯成蛋白質序列,然後進行蛋白質序列比對。

(4)blast資料庫擴展閱讀

blast的主要特點就是:速度快,共線性輸出結果簡單易讀。對於比較小的序列(如 cDNA 等)對大基因組的比對,blast無疑是首選。

blast雖然性能優異,但是它自身也存在著一定的局限性,對於特殊的任務需要注意選擇合適的軟體。例如blast用於遠親緣物種間的核酸序列比對時,比對精度就不夠高,建議使用專門為此用途開發的Blastz軟體。

5. 詳細介紹雙序列比對、blast 以及多序列比對的區別,以及均適用於哪些場 景

序列比對是將兩個或多個序列排列在一起,標明其相似之處。使用間隔表示未比對上,比對上的相同或相似的符號排列在同一列上。序列比對是生物信息學以及基因組學與進化的基礎之一,其基本思想是:在生物學中普遍存在的序列決定結構、結構決定功能的規律,通過將核酸序列或者蛋白質序列的一級結構看成由基本字元構成的字元串,通過序列比對我們可以找到相似的序列並由此發現生物序列中的功能、結構和進化信息。
全局比對:全局比對是指將參與比對的兩條序列裡面的所有字元進行比對。全局比對在全局范圍內對兩條序列進行比對打分,找出最佳比對,主要被用來尋找關系密切的序列。其可以用來鑒別或證明新序列與已知序列家族的同源性,是進行分子進化分析的重要前提。其代表是Needleman-Wunsch演算法。
局部比對:與全局比對不同,局部比對不必對兩個完整的序列進行比對,而是在每個序列中使用某些局部區域片段進行比對。其產生的需求在於、人們發現有的蛋白序列雖然在序列整體上表現出較大的差異性,但是在某些局部區域能獨立的發揮相同的功能,序列相當保守。這時候依靠全局比對明顯不能得到這些局部相似序列的。其次,在真核生物的基因中,內含子片段表現出了極大變異性,外顯子區域卻較為保守,這時候全局比對表現出了其局限性,無法找出這些局部相似性序列。其代表是Smith-Waterman局部比對演算法。
雙重序列比對:雙序列比對是指對兩條序列M和N進行比對,找到其相似性關系,這種尋找生物序列相似性關系的過程被稱為雙序列比對。其演算法可以主要分成基於全局比對的Needleman-Wunsch演算法和基於局部比對的Smith-Waterman局部比對演算法
多重序列比對:多序列比對是雙序列比對推廣,即把兩個以上字元序列對齊,逐列比較其字元的異同,使得每一列字元盡可能一致,以發現其共同的結構特徵的方法稱為多序列比對。多序列比對演算法可以分成漸進法和同步法。其可以發現不同的序列之間的相似部分,從而推斷它們在結構和功能上的相似關系,主要用於分子進化關系,預測蛋白質的二級結構和三級結構、估計蛋白質折疊類型的總數,基因組序列分析等。
基因組比對:是多序列比對的一種特例,指對基因組范圍內的序列信息進行比對的過程。通過對不同親緣關系物種的基因組序列進行比較,能夠鑒定出編碼序列、非編碼調控序列及給定物種獨有的序列。而基因組范圍之內的序列比對,可以了解不同物在核苷酸組成、同線性關系和基因順序方面的異同,進而得到基因分析預測與定位、生物系統發生進化關系等方面的信息。
BLAST:BLAST[1](Basic Local Alignment Search Tool)是在在1990年由Altschul等人提出的雙序列局部比對演算法,是一套在蛋白質資料庫或DNA資料庫中進行相似性比較的分析工具。BLAST是一種啟發式演算法,用於在大型資料庫中尋找比對序列,是一種在局部比對基礎上的近似比對演算法,可以在保持較高精度的情況下大大減少程序運行的時間。
演算法思想描述:
雙重序列比對主要分成以Needleman-Wunsch演算法為代表的全局比對和以Smith-Waterman局部比對演算法為代表的局部比對,BLAST是局部比對的一種推廣。多重比對演算法可以主要分成動態規劃演算法、隨機演算法、迭代法和漸進比對演算法。
(1)雙重序列比對:
Needleman-Wunsch演算法:該演算法是基於動態規劃思想的全局比對的基本演算法,動態規劃的比對演算法的比對過程可以用一個以序列S為列,T為行的(m+1)×(n+1)的二維矩陣來表示,用
sigma表示置換矩陣。
在計算完矩陣後,從矩陣的右下角單元到左上單元回溯最佳路徑(用箭頭表示),根據最佳路徑給出兩序列的比對結果。其中,斜箭頭表示2個殘基匹配,水平箭頭表示在序列S的相應位置插入一個空位,垂直方向的箭頭表示在序列T的相應位置插入一個空位。

Smith-Waterman演算法:該演算法是一種用來尋找並比較具有局部相似性區域的動態規劃演算法,這種演算法適用於親緣關系較遠、整體上不具有相似性而在一些較小的區域上存在局部相似性的兩個序列。該演算法的基本思想是:使用迭代方法計算出兩個序列的相似分值,存在一個得分矩陣M中,然後根據這個得分矩陣,通過動態規劃的方法回溯找到最優的比對序列。與全局比對相比,這種演算法的改變是把矩陣單元值為負者一律取為0,這是因為分值為負的比對喪失了比對的生物學意義,因此把得分為負值的子序列丟棄。

BLAST: BLAST演算法的基本思想是通過產生數量更少的但質量更好的增強點來提高比對的速度。演算法的原理主要分為以下五步:(1)過濾:首先過濾掉低復雜度區域,即含有大量重復的序列;(2)Seeding:將Query序列中每k個字組合成一個表,即將一個序列拆分成多個連續的『seed words』(通常蛋白質k=3,核酸k=11);(3)比對:列出我們所關心的所有可能的字組,再配合置換矩陣給出高分值的字組並組織成快速搜索樹結構或者哈希索引,因此此步驟可以快速搜索出大數據集中的所有匹配序列,找到每個seed words在參考序列中的位置;(4)延伸:當找到seed words的位置後,接下來需要將seed word延伸成長片段,延伸過程中,得分值也在變化,當得分值小於閾值時即停止延伸,最後得到的片段成為高分片段對,HSP(High-scoring segment pair);(5)顯著性分析,最後我們使用如下公式計算E值,E值衡量了在隨機情況下,資料庫存在的比當前匹配分數更好的比對的數目,因此可以用該值作為指標評價HSP比對序列的可信度。
其中,m是資料庫長度,n是query的長度,S是HSP分數,其他兩個參數是修正系數。

(2)多重序列比對

動態規劃演算法:其基本思想是將一個二維的動態規劃矩陣擴展到三維或者多維,多序列比對的積分是n個序列中兩兩進行比對所得積分之和。矩陣的維度反映了參與比對的序列數。這種方法對計算資源要求比較高[6]。
隨機演算法:主要包括遺傳演算法和模擬退火演算法,遺傳演算法是一類借鑒生物界進化規律演化來的全局意義上的自適應隨機搜索方法。當用遺傳演算法進行生物序列分析時,每一代包含固定數量的個體,這些個體用他們的適應度來評價。變異則模擬了生物進化過程中的偶然殘基突變現象。對產生的新一代群體進行重新評價、選擇、交叉、變異,如此循環往復,使群體中最優個體的適應度不斷提高,直到達到一個閾值,演算法結束。模擬退火的基本思想是用一物質系統的退火過程來模擬優化問題的尋優方法,當物質系統達到最小能量狀態時,優化問題的目標函數也相應地達到了全局最優解。這兩種方法都是對構造好的目標函數進行最優解搜索,但實際比對效果並不好[6,7]。
迭代法:迭代法的代表是Muscle[8], Muscle是一個新的漸進比對和迭代比對的綜合演算法,主要由兩部分構成,第一部分是迭代漸進比對:第一次漸進比對的目的是快速產生一個多序列比對而不強調准確率,以此為基礎再對漸進比對進行改良。經過兩次漸進比對,形成一個相對准確的多序列比對;第二部分是迭代比對:該過程類似於Prrp演算法[9],即通過不斷的迭代,逐步優化最終比對結果。其主要特點包括:使用kmer counting進行快速的距離測量,使用一個新的圖譜比對打分函數進行漸進比對,使用依賴於數的有限分隔進行細化。
漸進比對演算法:該演算法以Feng和Doolittle提出的最為經典[10]。漸進比對演算法的基本思想是迭代地利用兩序列動態規劃比對演算法,先由兩個序列的比對開始,逐漸添加新序列,直到所有序列都加入為止。但是不同的添加順序會產生不同的比對結果。確定合適的比對順序是漸進比對演算法的一個關鍵問題。通常,整個序列的比對應該從最相似的兩個序列開始,由近至遠逐步完成。作為全局多序列比對的漸進比對演算法有個基本的前提假設:所有要比對的序列是同源的,即由共同的祖先序列經過一系列的突變積累,並經自然選擇遺傳下來的,分化越晚的序列之間相似程度就越高。因此,在漸進比對過程中,應該對近期的進化事件比遠期的進化事件給予更大的關注。由於同源序列是進化相關的,因此可以按著序列的進化順序,即沿著系統發育樹(指導樹)的分支,由近至遠將序列或已比對序列按雙序列比對演算法逐步進行比對,重復這一過程直到所有序列都己添加到這個比對中為止[10]。其三個步驟為:(1)利用雙序列比對方法對所有的序列進行兩兩比對,得到相似性分值;(2)利用相似性矩陣(或距離矩陣)產生輔助導向樹;(3)根據導向樹進行漸進比對。漸進比對演算法是最常用、簡單又有效的啟發式多序列比對方法,它所需時間較短、所佔內存較小,其演算法很多,主要有CLUSTAL W, T-Coffee和DiAlign等,其中 CLUSTAL W應用最廣泛。
應用:
類型+應用
雙重序列對比:判斷兩個序列的同源性和一致性。(1)全局多序列比對可以鑒別或證明新序列與己有序列家族的同源性;幫助預測新蛋白質序列的二級和二級結構,是進行分子進化分析的重要前提。適合序列相似性較高,序列長度近似時的比對;(2)局部比對考慮序列部分區域的相似性。局部多序列比對可以用來刻畫蛋白質家族和超家族。適合於未知兩個序列相似程度的,可能存在一些片段極其相似而另一些片段相異的序列比對情況。
多重序列比對:多重比對經常用來研究序列間的進化關系,構建進化樹;探究序列間的保守性。主要用於分子進化關系,預測蛋白質的二級結構和三級結構、估計蛋白質折疊類型的總數,基因組序列分析等。
基因組比對:通過對不同親緣關系物種的基因組序列進行比較,能夠鑒定出編碼序列、非編碼調控序列及給定物種獨有的序列。而基因組范圍之內的序列比對,可以了解不同物在核苷酸組成、同線性關系和基因順序方面的異同,進而得到基因分析預測與定位、生物系統發生進化關系等方面的信息。
其中,BLAST作為最重要的比對工具,意義特殊,拿出來單獨討論。BLAST可以分成Basic BLAST和 Specialized BLAST, BLAST包括常規的nucleotide blast, Protein blast和Translating blast;Specialize blast可以對特殊生物或特殊研究領域的序列資料庫進行檢索。

6. 如何將linux blast的結果作為下一輪blast的資料庫使用

1. 開通伺服器帳號;
2. 安裝兩個軟體 winscp和putty.
3. 用winscp登錄,如下圖
4. 登陸上去,如下圖:左面是你的電腦,右面是伺服器
現將BLAST的壓縮上傳,並解壓縮(命令:tar zxvf blast2.2.20.tar.gz)
進入blast/bin目錄(命令:cd blast/bin)

將要查詢的fasta格式序列(比如:unigene數據),和資料庫文件(比如:基因組數據)上傳到伺服器上,從左向右拖拽即可。(注意:查詢文件和資料庫文件都要求是fasta格式)
5.點擊下圖位置進入putty,
輸入用戶名密碼後,就到了用戶名當前目錄下,利用cd進入到bin目錄下
如果不知道自己在哪,可以敲ls,查看當前目錄下的文件。具體參考linux常見shell命令
6. 敲ls,確定剛才上傳的兩個文件,(比如unigene.fa和genome.fa)在當前目錄下。
7. 兩個命令完成blast:

7. blast資料庫字元串截斷錯誤

是因為插入的值的長度超出了某列允許的最大長度。例如,某列數據類型是nvarchar(10),寫入超過10個長度的字元串就會引起該報錯。

8. BLAST資料庫搜索方法中blastn對應的查詢序列和資料庫類型分別是

咨詢記錄 · 回答於2021-12-25

9. 美國NCBI的BLAST屬於生物醫學資料庫

被美國fg這個這個是屬於生物生物醫學資料庫,本市的這個挺好的

10. blast什麼意思

BLAST (Basic Local Alignment Search Tool)是一套在蛋白質資料庫或DNA資料庫中進行相似性比較的分析工具。BLAST程序能迅速與公開資料庫進行相似性序列比較。BLAST結果中的得分是對一種對相似性的統計說明。

BLAST 採用一種局部的演算法獲得兩個序列中具有相似性的序列。如果您想進一步了解BLAST演算法,您可以參考NCBI的BLAST Course ,該頁有BLAST演算法的介紹。

BLAST功能是什麼?

BLAST對一條或多條序列(可以是任何形式的序列)在一個或多個核酸或蛋白序列庫中進行比對。BLAST還能發現具有缺口的能比對上的序列。

BLAST是基於Altschul等人在J.Mol.Biol上發表的方法(J.Mol.Biol.215:403-410(1990)),在序列資料庫中對查詢序列進行同源性比對工作。從最初的BLAST發展到現在NCBI提供的BLAST2.0,已將有缺口的比對 序列也考慮在內了。BLAST可處理任何數量的序列,包括蛋白序列和核算序列;也可選擇多個資料庫但資料庫必須是同一類型的,即要麼都是蛋白資料庫要麼都是核酸資料庫。所查詢的序列和調用的資料庫則可 以是任何形式的組合,既可以是核酸序列到蛋白庫中作查詢,也可以是蛋白序列到蛋白庫中作查詢,反之亦然。

GCG及EMBOSS等軟體包中包含有五種BLAST:

1、BLASTP是蛋白序列到蛋白庫中的一種查詢。庫中存在的每條已知序列將逐一地同每條所查序列作一對一的序列比對。

2、BLASTX是核酸序列到蛋白庫中的一種查詢。先將核酸序列翻譯成蛋白序列(一條核酸序列會被翻譯成可能的六條蛋白),再對每一條作一對一的蛋白序列比對。

3、BLASTN是核酸序列到核酸庫中的一種查詢。庫中存在的每條已知序列都將同所查序列作一對一地核酸序列比對。

4、TBLASTN是蛋白序列到核酸庫中的一種查詢。與BLASTX相反,它是將庫中的核酸序列翻譯成蛋白序列,再同所查序列作蛋白與蛋白的比對。

5、TBLASTX是核酸序列到核酸庫中的一種查詢。此種查詢將庫中的核酸序列和所查的核酸序列都翻譯成蛋白(每條核酸序列會產生6條可能的蛋白序列),這樣每次比對會產生36種比對陣列。由於這種比對? 母叢有裕�虼薚BLASTX在比對中對缺口不予以考慮。

通常根據查詢序列的類型(蛋白或核酸)來決定選用何種BLAST。假如是作核酸-核酸查詢,有兩種BLAST供選擇,通常默認為BLASTN。如要用TBLASTX也可,但記住此時不考慮缺口。

BLAST適用於本地查詢。可以下載公共資料庫,對於該資料庫的更新和維護是必不可少的。如果要直接到網上查詢也可以(即NetBlast),但記住如果你認為自己的序列很有價值的話,還是謹慎為宜。

熱點內容
飯團文件夾 發布:2024-05-20 10:56:18 瀏覽:574
win10系統重置密碼是多少 發布:2024-05-20 10:47:51 瀏覽:992
java加包 發布:2024-05-20 10:39:12 瀏覽:713
網吧里的電影怎麼傳伺服器 發布:2024-05-20 10:31:12 瀏覽:809
新年解壓糖 發布:2024-05-20 09:50:55 瀏覽:55
以太坊價值在哪裡存儲 發布:2024-05-20 09:46:34 瀏覽:642
cgipython配置 發布:2024-05-20 09:29:06 瀏覽:865
在我的世界伺服器中隱身 發布:2024-05-20 09:07:46 瀏覽:972
加西貝拉壓縮機好嗎 發布:2024-05-20 08:58:56 瀏覽:757
eve腳本航 發布:2024-05-20 08:56:59 瀏覽:591