生物信息學演算法
1. 轉錄組測序的生物信息學分析策略
組學omics,研究的是整體.按照分析目標不同主要分為基因組學,轉錄組學,蛋白質組學,代謝組學.基因組學研究的主要是基因組DNA,使用方法目前以二代測序為主,將基因組拆成小片段後再用生物信息學演算法進行迭代組裝.當然這僅僅是第一步,隨後還有繁瑣的基因注釋等數據分析工作.轉錄組學研究的是某個時間點的mRNA總和,可以用晶元,也可以用測序.晶元是用已知的基因探針,測序則有可能發現新的mRNA,蛋白組學針對的是全體蛋白,組要以2D-Gel和質譜為主,分為top-down和bottom-up分析方法.理念和基因組類似,將蛋白用特定的物料化學手段分解成小肽段,在通過質量反推蛋白序列,最後進行搜索,標識已知未知的蛋白序列.代謝組分析的代謝產物,是大分子和小分子的混合物,主要也是用液相和質譜.總而言之,這些技術都想從全局找變數,都是一種top-down的研究方法,原因很簡單:避免『只緣身在此山中』的尷尬.但因為技術局限,都各有缺點,尤其是轉錄組和蛋白組數據,基本上顛覆了以前一直認為的mRNA水平能代表蛋白水平的觀念,因為這兩組數據的重合度太低.所以目前很多研究都開始使用交叉驗證方法.
2. 生物信息學有哪些方面的應用
1,測序與序列比對(Sequence Alignment)
測序是生物信息學的基礎和主要數據來源,可以是人類數據也可以是其他的數據。序列比對的基本問題是比較兩個或兩個以上符號序列的相似性或不相似性.從生物學的初衷來看,這一問題包含了以下幾個意義:從相互重疊的序列片斷中重構DNA的完整序列.在各種試驗條件下從探測數據(probe data)中決定物理和基因圖存貯,遍歷和比較資料庫中的DNA序列比較兩個或多個序列的相似性在資料庫中搜索相關序列和子序列尋找核苷酸(nucleotides)的連續產生模式找出蛋白質和DNA序列中的信息成分序列比對考慮了DNA序列的生物學特性,如序列局部發生的插入,刪除(前兩種簡稱為indel)和替代,序列的目標函數獲得序列之間突變集最小距離加權和或最大相似性和,對齊的方法包括全局對齊,局部對齊,代溝懲罰等.兩個序列比對常採用動態規劃演算法,這種演算法在序列長度較小時適用,然而對於海量基因序列(如人的DNA序列高達109bp),這一方法就不太適用,甚至採用演算法復雜性為線性的也難以奏效.因此,啟發式方法的引入勢在必然,著名的BALST和FASTA演算法及相應的改進方法均是從此前提出發的.
2, 蛋白質結構比對和預測
基本問題是比較兩個或兩個以上蛋白質分子空間結構的相似性或不相似性.蛋白質的結構與功能是密切相關的,一般認為,具有相似功能的蛋白質結構一般相似.蛋白質是由氨基酸組成的長鏈,長度從50到1000~3000AA(Amino Acids),蛋白質具有多種功能,如酶,物質的存貯和運輸,信號傳遞,抗體等等.氨基酸的序列內在的決定了蛋白質的3維結構.一般認為,蛋白質有四級不同的結構.研究蛋白質結構和預測的理由是:醫葯上可以理解生物的功能,尋找dockingdrugs的目標,農業上獲得更好的農作物的基因工程,工業上有利用酶的合成.直接對蛋白質結構進行比對的原因是由於蛋白質的3維結構比其一級結構在進化中更穩定的保留,同時也包含了較AA序列更多的信息.蛋白質3維結構研究的前提假設是內在的氨基酸序列與3維結構一一對應(不一定全真),物理上可用最小能量來解釋.從觀察和總結已知結構的蛋白質結構規律出發來預測未知蛋白質的結構.同源建模(homology modeling)和指認(Threading)方法屬於這一范疇.同源建模用於尋找具有高度相似性的蛋白質結構(超過30%氨基酸相同),後者則用於比較進化族中不同的蛋白質結構.然而,蛋白結構預測研究現狀還遠遠不能滿足實際需要.
3, 基因識別,非編碼區分析研究.
基因識別的基本問題是給定基因組序列後,正確識別基因的范圍和在基因組序列中的精確位置.非編碼區由內含子組成(introns),一般在形成蛋白質後被丟棄,但從實驗中,如果去除非編碼區,又不能完成基因的復制.顯然,DNA序列作為一種遺傳語言,既包含在編碼區,又隱含在非編碼序列中.分析非編碼區DNA序列目前沒有一般性的指導方法.在人類基因組中,並非所有的序列均被編碼,即是某種蛋白質的模板,已完成編碼部分僅占人類基因總序列的3~5%,顯然,手工的搜索如此大的基因序列是難以想像的.偵測密碼區的方法包括測量密碼區密碼子(codon)的頻率,一階和二階馬爾可夫鏈,ORF(Open Reading Frames),啟動子(promoter)識別,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子進化和比較基因組學
分子進化是利用不同物種中同一基因序列的異同來研究生物的進化,構建進化樹.既可以用DNA序列也可以用其編碼的氨基酸序列來做,甚至於可通過相關蛋白質的結構比對來研究分子進化,其前提假定是相似種族在基因上具有相似性.通過比較可以在基因組層面上發現哪些是不同種族中共同的,哪些是不同的.早期研究方法常採用外在的因素,如大小,膚色,肢體的數量等等作為進化的依據.近年來較多模式生物基因組測序任務的完成,人們可從整個基因組的角度來研究分子進化.在匹配不同種族的基因時,一般須處理三種情況:Orthologous: 不同種族,相同功能的基因;Paralogous: 相同種族,不同功能的基因;Xenologs: 有機體間採用其他方式傳遞的基因,如被病毒注入的基因.這一領域常採用的方法是構造進化樹,通過基於特徵(即DNA序列或蛋白質中的氨基酸的鹼基的特定位置)和基於距離(對齊的分數)的方法和一些傳統的聚類方法(如UPGMA)來實現.
5, 序列重疊群(Contigs)裝配
根據現行的測序技術,每次反應只能測出500 或更多一些鹼基對的序列,如人類基因的測量就採用了短槍(shortgun)方法,這就要求把大量的較短的序列全體構成了重疊群(Contigs).逐步把它們拼接起來形成序列更長的重疊群,直至得到完整序列的過程稱為重疊群裝配.從演算法層次來看,序列的重疊群是一個NP-完全問題.
6, 遺傳密碼的起源
通常對遺傳密碼的研究認為,密碼子與氨基酸之間的關系是生物進化歷史上一次偶然的事件而造成的,並被固定在現代生物的共同祖先里,一直延續至今.不同於這種"凍結"理論,有人曾分別提出過選擇優化,化學和歷史等三種學說來解釋遺傳密碼.隨著各種生物基因組測序任務的完成,為研究遺傳密碼的起源和檢驗上述理論的真偽提供了新的素材.
7, 基於結構的葯物設計
人類基因工程的目的之一是要了解人體內約10萬種蛋白質的結構,功能,相互作用以及與各種人類疾病之間的關系,尋求各種治療和預防方法,包括葯物治療.基於生物大分子結構及小分子結構的葯物設計是生物信息學中的極為重要的研究領域.為了抑制某些酶或蛋白質的活性,在已知其蛋白質3級結構的基礎上,可以利用分子對齊演算法,在計算機上設計抑制劑分子,作為候選葯物.這一領域目的是發現新的基因葯物,有著巨大的經濟效益.
8.生物系統的建模和模擬
隨著大規模實驗技術的發展和數據累積,從全局和系統水平研究和分析生物學系統,揭示其發展規律已經成為後基因組時代的另外一個研究 熱點-系統生物學。目前來看,其研究內容包括生物系統的模擬(Curr Opin Rheumatol,2007,463-70),系統穩定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系統魯棒性分析(Ernst Schering Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)為代表的建模語言在迅速發展之中,以布爾網路 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、隨機過程(Neural Comput,2007,3262-92)、離散動態事件系統等(Bioinformatics,2007,336-43)方法在系統分析中已經得到應 用。很多模型的建立借鑒了電路和其它物理系統建模的方法,很多研究試圖從信息流、熵和能量流等宏觀分析思想來解決系統的復雜性問題(Anal Quant Cytol Histol,2007,296-308)。當然,建立生物系統的理論模型還需要很長時間的努力,現在實驗觀測數據雖然在海量增加,但是生物系統的模型辨 識所需要的數據遠遠超過了目前數據的產出能力。例如,對於時間序列的晶元數據,采樣點的數量還不足以使用傳統的時間序列建模方法,巨大的實驗代價是目前系 統建模主要困難。系統描述和建模方法也需要開創性的發展。
9.生物信息學技術方法的研究
生物信息學不僅僅是生物學知識的簡單整理和、數學、物理學、信息科學等學科知識的簡單應用。海量數據和復雜的背景導致機器學習、統 計數據分析和系統描述等方法需要在生物信息學所面臨的背景之中迅速發展。巨大的計算量、復雜的雜訊模式、海量的時變數據給傳統的統計分析帶來了巨大的困難, 需要像非參數統計(BMC Bioinformatics,2007,339)、聚類分析(Qual Life Res,2007,1655-63)等更加靈活的數據分析技術。高維數據的分析需要偏最小二乘(partial least squares,PLS)等特徵空間的壓縮技術。在計算機演算法的開發中,需要充分考慮演算法的時間和空間復雜度,使用並行計算、網格計算等技術來拓展演算法的 可實現性。
10, 生物圖像
沒有血緣關系的人,為什麼長得那麼像呢?
外貌是像點組成的,像點愈重合兩人長得愈像,那兩個沒有血緣關系的人像點為什麼重合?
有什麼生物學基礎?基因是不是相似?我不知道,希望專家解答。
11, 其他
如基因表達譜分析,代謝網路分析;基因晶元設計和蛋白質組學數據分析等,逐漸成為生物信息學中新興的重要研究領域;在學科方面,由生物信息學衍生的學科包括結構基因組學,功能基因組學,比較基因組學,蛋白質學,葯物基因組學,中葯基因組學,腫瘤基因組學,分子流行病學和環境基因組學,成為系統生物學的重要研究方法.從現在的發展不難看出,基因工程已經進入了後基因組時代.我們也有應對與生物信息學密切相關的如機器學習,和數學中可能存在的誤導有一個清楚的認識.
3. 生物信息學的數學問題
生物信息學中數學佔了很大的比重。統計學,包括多元統計學,是生物信息學的數學基礎之一;概率論與隨機過程理論,如隱馬爾科夫鏈模型(HMM),在生物信息學中有重要應用;其他如用於序列比對的運籌學;蛋白質空間結構預測和分子對接研究中採用的最優化理論;研究DNA超螺旋結構的拓撲學;研究遺傳密碼和DNA序列的對稱性方面的群論等等.總之,各種數學理論或多或少在生物學研究中起到了相應的作用.但並非所有的數學方法在引入生物信息學中都能普遍成立的,以下以統計學和度量空間為例來說明. Simond在人類的認知一書中指出,人在解決問題時,一般並不去尋找最優的方法,而只要求找到一個滿意的方法.因為即使是解決最簡單的問題,要想得到次數最少,效能最高的解決方法也是非常困難的.最優方法和滿意方法之間的困難程度相差很大,後者不依賴於問題的空間,不需要進行全部搜索,而只要能達到解決的程度就可以了.正如前所述,面對大規模的序列和蛋白質結構數據集,要獲得全局結果,往往是即使演算法復雜度為線性時也不能夠得到好的結果,因此,要通過變換解空間或不依賴於問題的解空間獲得滿意解,生物信息學仍需要人工智慧和認知科學對人腦的進一步認識,並從中得到更好的啟發式方法.
問題規模不同的處理:Marvin Minsky在人工智慧研究中曾指出:小規模數據量的處理向大規模數據量推廣時,往往並非演算法上的改進能做到的,更多的是要做本質性的變化.這好比一個人爬樹,每天都可以爬高一些,但要想爬到月球,就必須採用其他方法一樣.在分子生物學中,傳統的實驗方法已不適應處理飛速增長的海量數據.同樣,在採用計算機處理上,也並非依靠原有的計算機演算法就能夠解決現有的數據挖掘問題.如在序列對齊(sequence Alignment)問題上,在小規模數據中可以採用動態規劃,而在大規模序列對齊時不得不引入啟發式方法,如BLAST,FASTA. 綜上所述,不難看出,生物信息學並不是一個足以樂觀的領域,究竟原因,是由於其是基於分子生物學與多種學科交叉而成的新學科,現有的形勢仍表現為各種學科的簡單堆砌,相互之間的聯系並不是特別的緊密。在處理大規模數據方面,沒有行之有效的一般性方法;而對於大規模數據內在的生成機制也沒有完全明了,這使得生物信息學的研究短期內很難有突破性的結果。那麼,要得到真正的解決,最終不能從計算機科學得到,真正地解決可能還是得從生物學自身,從數學上的新思路來獲得本質性的動力。毫無疑問,正如Dulbecco1986年所說:人類的DNA序列是人類的真諦,這個世界上發生的一切事情,都與這一序列息息相關。但要完全破譯這一序列以及相關的內容,我們還有相當長的路要走。
中國科學引文資料庫(CSCD—2008)
4. 生物信息學做演算法和分析哪一個更有優勢
生物信息學分析大致可以分為幾個境界:只會機械的套用已有的方法,對演算法和原理一無所知,無法運用結果解釋分析生物學問題;了解生信檢驗的基本原理(作者在發明它時,最初的構想、原型、啟發),可以根據實際情況選擇不同的分析演算法,採用最優解,能夠解釋生物學問題;能夠自由的組合、拼接已有的演算法,必要時創造想要的演算法。回到晶元測序結果分析這個問題,去除晶元數據質量控制(這部分其實相當復雜),接下來就是差異基因篩選和基因功能注釋分析了。基因功能注釋屬於晶元分析流程中最末端的生物學解讀部分,相當於是臨門一腳吧。這部分也是整個分析流程中最為靈活的部分,雖然它也有自身的一些套路。 實驗設計非常簡單,2組,3vs3,差異表達基因的定義很明了,不是上調就是下調,通過閾值篩選以後,圖形展示結果是早可以預見的,毫無意外。既然這樣,為什麼不直接列個表?回到熱圖的初衷,這是一個聚類分析,目的是找出表達輪廓相近基因,以此來推斷它們在功能上存在關聯。如果說一張熱圖僅僅是為了說明差異基因分的很開,篩選標準是OK的,我的實驗分組是OK的,那麼稱它為一張「田」字紅綠色盲測試圖並不為過。基因功能分析用GO和KEGG這一套,簡單地羅列數據就OK了。不是說套路有什麼錯,嬰兒學說話,剛學的時候他也是不知道其中的含義的,但是僅僅停留在套路上,還是走不遠的。
5. 《生物信息學演算法導論》pdf下載在線閱讀全文,求百度網盤雲資源
《生物信息學演算法導論》網路網盤pdf最新全集下載:
鏈接: https://pan..com/s/1e5BHq-Si5exzRvzcElxm0g
簡介:這是一本關於生物信息學演算法和計算思想的導論性教科書,原著由國際上的權威學者撰寫,經國內知名專家精心翻譯為中文,系統介紹推動生物信息學不斷進步的演算法原理。
6. 生物信息學專業需要學習哪些東西
目前的生物信息學我認為有兩個大的方向,一個是與實驗緊密結合的生物信息學,依靠實驗數據出成果,第二個是與數學緊密結合的生物信息學,依靠演算法和編程出成果。
我是第一種,以微生物為主,所以我只能就我自己來看。讀到現在我覺得,對我用處最大的幾門是生物化學、分子生物學、細胞生物學、微生物學以及專講生物信息學的一些專業書籍。
本科期間除了打好語言基礎(的確很重要,否則將來走起來很困難,這里邊的語言包括英語以及一門編程語言,任意的都可以,主要是建立編程思想)之外,最好對本領域的前沿研究成果有一定的了解,甚至可以形成一些小的文章練練手。
演算法那一方向我不太懂,也不敢亂說,希望以上的能幫到你。
7. 求《生物信息學演算法導論》全文免費下載百度網盤資源,謝謝~
《生物信息學演算法導論》網路網盤pdf最新全集下載:
鏈接: https://pan..com/s/1e5BHq-Si5exzRvzcElxm0g
簡介:這是一本關於生物信息學演算法和計算思想的導論性教科書,原著由國際上的權威學者撰寫,經國內知名專家精心翻譯為中文,系統介紹推動生物信息學不斷進步的演算法原理。
8. 生物醫學數據科學研究什麼
咨詢記錄 · 回答於2021-06-05
9. 生物信息學和計算生物學有什麼區別
一、專業性質不同
1、生物信息學:是研究生物信息的採集、處理、存儲、傳播,分析和解釋等各方面的學科,是,生命科學和計算機科學相結合形成的一門新學科。
2、計算生物學:是生物學的一個分支,是指開發和應用數據分析及理論的方法、數學建模和計算機模擬技術等,用於生物學、行為學和社會群體系統的研究的一門學科。
二、研究內容不同
1、生物信息學:通過綜合利用生物學,計算機科學和信息技術而揭示大量而復雜的生物數據所賦有的生物學奧秘。
2、計算生物學:運用計算機的思維解決生物問題,用計算機的語言和數學的邏輯構建和描述並模擬出生物世界。
三、研究方法不同
1、生物信息學:以數據(庫)為核心,資料庫的建立,生物學數據的檢索,生物學數據的處理,生物學數據的利用:計算生物學。
2、計算生物學:各種計算方法已開始廣泛應用於葯物研究,以及研發創新的、具有自主知識產權的疾病靶標和信息學分析系統等。同時,運用計算生物學,科學家有望直接破譯在核酸序列中的遺傳語言規律,模擬生命體內的信息流過程,從而認識代謝、發育、進化等一系列規律。