bwa演算法
㈠ 高中生物短序列是什麼
基因組中由寡核苷酸串聯,重復排列的DNA序列,構成數量可變的串聯重復序列,其中,微衛星DNA又稱為短串聯重復片列,是一種可遺傳的不穩定的且具有高度多態性的短核苷酸重復序列,具有種類多,分布廣,高度多態性等特點,這種多態性標志已廣泛用於遺傳病及親子鑒定等.
短序列比對中,一般常用的演算法主要有三個:
(1) 空位種子片段索引法,如MAQ、ELAND等,首先將讀段切分,並選取其中一段或幾段作為種子建立搜索索引,再通過查找索引、延展匹配來實現讀段定位,通過輪換種子考慮允許出現錯配(mismatch)的各種可能的位置組合;
(2) Burrows Wheeler轉換法,如Bowtie、BWA、SOAP2等,通過B-W轉換將基因組序列按一定規則壓縮並建立索引,再通過查找和回溯來定位讀段,在查找時可通過鹼基替代來實現允許的錯配;
(3) Smith-Waterman動態規劃演算法,如BFAST,SHRiMP等,利用初始條件和迭代關系式計算兩個序列的所有可能的比對分值,並將結果存放於一個矩陣中,利用動態規劃的方法回溯尋找最優的比對結果。
㈡ rnaseq做snp檢測的時候,為什麼會檢測到基因間區域的
樣品制備過程不純
用的演算法不可靠。目前常用的演算法,例如Bowtie, BWA,錯誤率都比較高,大概3%的錯誤mapping率。更有甚者Novoalign等演算法錯誤率可高達百分之十幾。用超高精度比對演算法如FANSe/FANSe2會好得多,但對短reads仍然不可能做到100%正確,錯誤率可以控制在在1%以下。
測序儀操作不好,測序質量差。注意Illumina的測序儀會謊報Phred quality,故意報高讓你以為質量很好。
有基因發生重排的現象。
某些長鏈非編碼RNA(lncRNA)也帶有polyA尾巴,在RNA-seq時也會被測序到。
㈢ 什麼是示波器的實時采樣率
對於示波器而言帶寬、采樣率和存儲深度是它的三大關鍵指標。相對於工程師們對示波器帶寬的熟悉和重視,采樣率和存儲深度往往在示波器的選型、評估和測試中為大家所忽視。本文的目的是通過簡單介紹采樣率的相關理論結合常見的應用幫助工程師更好的理解采樣率和存儲深度這兩個指標的重要特徵及對實際測試的影響,同時有助於我們掌握選擇示波器的權衡方法,樹立正確的使用示波器的觀念。
在開始了解采樣和存儲的相關概念前,我們先了解一下數字存儲示波器的工作原理。
圖3 采樣率SF<2 f,混疊失真
圖4和圖5顯示的波形看上去非常相似,但是頻率測量的結果卻相差很大,究竟哪一個是正確的?仔細觀察我們會發現圖4中觸發位置和觸發電平沒有對應起來,而且采樣率只有250MS/s,圖5中使用了20GS/s的采樣率,可以確定,圖4顯示的波形欺騙了我們,這即是一例采樣率過低導致的混疊(Aliasing)給我們造成的假象。
因此在實際測量中,對於較高頻的信號,工程師的眼睛應該時刻盯著示波器的采樣率,防止混疊的風險。我們建議工程師在開始測量前先固定示波器的采樣率,這樣就避免了欠采樣。力科示波器的時基(Time Base)菜單里提供了這個選項,可以方便的設置。
由Nyquist定理我們知道對於最大采樣率為10GS/s的示波器,可以測到的最高頻率為5GHz,即采樣率的一半,這就是示波器的數字帶寬,而這個帶寬是DSO的上限頻率,實際帶寬是不可能達到這個值的,數字帶寬是從理論上推導出來的,是DSO帶寬的理論值。與我們經常提到的示波器帶寬(模擬帶寬)是完全不同的兩個概念。
那麼在實際的數字存儲示波器,對特定的帶寬,采樣率到底選取多大?通常還與示波器所採用的采樣模式有關。
采樣模式
當信號進入DSO後,所有的輸入信號在對其進行A/D轉化前都需要采樣,采樣技術大體上分為兩類:實時模式和等效時間模式。
實時采樣(real-time sampling)模式用來捕獲非重復性或單次信號,使用固定的時間間隔進行采樣。觸發一次後,示波器對電壓進行連續采樣,然後根據采樣點重建信號波形。
等效時間采樣(equivalent-time sampling),是對周期性波形在不同的周期中進行采樣,然後將采樣點拼接起來重建波形,為了得到足夠多的采樣點,需要多次觸發。等效時間采樣又包括順序采樣和隨機重復采樣兩種。使用等效時間采樣模式必須滿足兩個前提條件:1.波形必須是重復的;2.必須能穩定觸發。
實時采樣模式下示波器的帶寬取決於A/D轉化器的最高采樣速率和所採用的內插演算法。即示波器的實時帶寬與DSO採用的A/D和內插演算法有關。
這里又提到一個實時帶寬的概念,實時帶寬也稱為有效存儲帶寬,是數字存儲示波器採用實時采樣方式時所具有的帶寬。這么多帶寬的概念可能已經看得大家要抓狂了,在此總結一下:DSO的帶寬分為模擬帶寬和存儲帶寬。通常我們常說的帶寬都是指示波器的模擬帶寬,即一般在示波器面板上標稱的帶寬。而存儲帶寬也就是根據Nyquist定理計算出來的理論上的數字帶寬,這只是個理論值。
通常我們用有效存儲帶寬(BWa)來表徵DSO的實際帶寬,其定義為:BWa=最高采樣速率 / k,最高采樣速率對於單次信號來說指其最高實時采樣速率,即A/D轉化器的最高速率;對於重復信號來說指最高等效采樣速率。K稱為帶寬因子,取決於DSO採用的內插演算法。DSO採用的內插演算法一般有線性(linear)插值和正弦(sinx/x)插值兩種。K在用線性插值時約為10,用正弦內插約為2.5,而k=2.5隻適於重現正弦波,對於脈沖波,一般取k=4,此時,具有1GS/s采樣率的DSO的有效存儲帶寬為250MHz。
圖6 不同插值方式的波形顯示
我們記住以下結論:在使用正弦插值法時,為了准確再顯信號,示波器的采樣速率至少需為信號最高頻率成分的2.5倍。使用線性插值法時,示波器的采樣速率應至少是信號最高頻率成分的10倍。這也解釋了示波器用於實時采樣時,為什麼最大采樣率通常是其額定模擬帶寬的四倍或以上。
㈣ 重測序(RADseq)做群體遺傳分析套路
構建的群體,或自然群體,如各地方品種。
提取DNA後,構建文庫,簡要步驟如下:
① 限制性內切酶TaqI酶切;
② 連接P1接頭;
③ DNA隨機打斷片斷化;
④ 目的片段回收與末端修復;
⑤ 連接P2接頭;
⑥ RAD片段富集;
⑦ 上機測序。
參考: Rapid and cost-effective polymorphism identification and genotyping using restriction site associated DNA (RAD) markers
根據識別標簽序列得到每個個體的測序reads,使用trimmomatic進行過濾(其他質控軟體,如fastqc,multiQC等)
設置過濾參數為:SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50。 過濾標准:兩端質量低於5的鹼基進行切除,並以5bp為窗口進行滑動過濾,對平均質量低於20的窗口進行切除。
BWA (其他比對軟體如bowtie2/soap2/MAQ等)將過濾後的個體clean reads比對到參考基因組序列上。樣本比對率反映的是樣本測序數據與參考基因組的相似性,覆蓋深度和覆蓋度能夠直接反映測序數據的均一性與參考序列的同源性。
使用GATK(或samtools+bcftools)Haplotype Caller模塊進行變異檢測,獲得群體變異集文件(VCF 格式)。對變異進行過濾:過濾參數為缺失率小於或等於0.2、雜合率小於或等於0.2、最小等位基因頻率(MAF) 大於或等於0.05,最終得到高質量的基因型數據。
在獲得高質量的標記數據以後,利用vcftools將vcf文件處理得到plink.ped和plink.map文件(整理為plink軟體所需格式)。
使用plink 軟體隨機選擇連鎖不平衡(LD)小於0.1,且相鄰間隔在300kb以上的SNP位點,最後得到一個包含3420 個SNP位點的標記集,一般是生成.bed文件。
1.祖先成分堆疊圖
使用ADMIXTURE對此 SNP位點集(bed文件)進行群體結構分析(Structure),利用交叉驗證過程確定確定合適的祖先數或亞群(K值)。若不知道理想的K值,可用ADMIXTURE計算,一般當cross-validation error值最低時所對應的K值為最合適的K值。
考慮到樣本所歸屬的分類單元,即看看哪幾個物種聚在一起,對合適的K值利用Structure軟體(速度慢,其他軟體如frappe,ADMIXTURE也可做群體結構圖,並且很快)聚類圖,一些R包如hapmap也是可以做群體結構圖的。
2.PCA
利用GCTA對SNP數據集進行樣本的PCA分析(其他軟體如EIGENSOFT中的smartpca)。GCTA可以直接讀取.bed , .bim , .fam文件,利用–make-grm 生成個體對之間的遺傳關系矩陣,並將GRM的下三角元素保存為二進制文件.grm.id , .grm.bin , .grm.N.bin。使用 –pca 設置要生成主成分的數目,一般來說就可以刻畫出群體結構。這一步會生成 .eigenval 和 .eigenvec 兩個文件。.eigenval文件為各主成分可解釋遺傳信息的比例,.eigenvec文件為每個樣本在top4主成分上的分解值。
3.系統發育樹
構樹的方法有非加權分組平均法(UPGMA,已經很少用)、最小進化法(ME)、鄰接法(NJ)、最大簡約法(MP)、最大似然法(ML)等。
構樹軟體如FastTree/MEGA/cluster X/phylip,美化可以用FigTree/ggtree/treeview/GraPhIAn。
NJ法是基於最小進化原理經常被使用的一種演算法,它不檢驗所有可能的拓撲結構,能同時給出拓撲結構和分支長度。
GWAS的群體遺傳分析也是包含這三個圖,RADseq畢竟是簡化基因組,得到的SNP有限,做這種群體分析效果肯定沒有GWAS好。
㈤ pfa固定後的細胞可以用來基因測序和細胞培養么
測序是可以的,但DNA和RNA都有破壞,所以核酸提取和測序的難度比較大,而且測序錯誤率會上升,所以最好用容錯性高、准確性高的演算法來進行處理,不能用Bowtie, BWA等傳統的演算法。
細胞培養是不行了,固定之後細胞已沒有活性。
㈥ RNA-seq中的基因表達量計算和表達差異分析
原文鏈接: RNA-seq中的基因表達量計算和表達差異分析-生物知識學習 (biotechknowledgestudy.com)
差異分析的步驟:
1)比對;
2) read count計算;
3) read count的歸一化;
4)差異表達分析;
背景知識:
1)比對:
普通比對: BWA,SOAP
開大GAP比對:Tophat(Bowtie2);
2) Read count(多重比對的問題):
丟棄
平均分配
利用Unique region估計並重新分配
表達量計算的本質
目標基因表達量相對參照系表達量的數值。
參照的本質:
( 1)假設樣本間參照的信號值應該是相同的;
( 2)將樣本間參照的觀測值校正到同一水平;
( 3)從參照的數值,校正並推算出其他觀測量的值。
例如:Qpcr:目標基因表達量(循環數)相對看家基因表達量(循環數);RNA-seq:目標基因的表達量(測序reads數),相對樣本RNA總表達量(總測序量的reads數),這是最常用的標准。
歸一化的原因及處理原則:
1)基因長度
2)測序量
3)樣本特異性(例如,細胞mRNA總量,污染等)前兩者使用普通的RPKM演算法就可以良好解決,關鍵是第三個問題,涉及到不同的演算法處理。
RNA-Seq歸一化演算法的意義:
基因表達量歸一化:在高通量測序過程中,樣品間在數據總量、基因長度、基因數目、高表達基因分布甚至同一個基因的不同轉錄本分布上存在差別。因此不能直接比較表達量,必須將數據進行歸一化處理。
RNA-seq差異表達分析的一般原則
1)不同樣品的基因總表達量相似
2)上調差異表達與下調差異表達整體數量相似(上下調差異平衡)
3)在兩組樣品中不受處理效應影響的基因, 表達量應該是相近的(差異不顯著)。
4)看家基因可作為表達量評價依據( 待定)
不同的演算法比較:
以什麼數值來衡量表達量:RPKM、FPKM、TPM
以什麼作為參照標准:TMM(edgeR軟體)、De seq矯正
RPKM:是Reads Per Kilobase per Million mapped reads的縮寫,代表每百萬reads中來自於某基因每千鹼基長度的reads數。
本質:1)以reads數為計算單位;
2)對基因長度(基因間的比較)和總數據量(樣本間的比較)做矯正;
1)由於可變剪切,同一基因有效轉錄區域長度未必相同(這個一般情況下可以不考慮,了解一下:Cufflinks軟體考慮了這個問題)優化策略:外顯子或轉錄本水平的表達量分析。
2) 使用reads數計算基因表達量有輕微誤差(這里暫不展開,主要了解一下定義)優化策略:FPKM或 TPM
3) mRNA的總量未必相等。
RPKM的優化:FPKm
F = Fragment,即測序片段數量。這些片段都是從完整的cDNA打碎而來的;
本質:以文庫中的片段數量為計算單位在Paired-end測序中,一個fragment就是兩條PE reads構成的片段。由於是PE比對,理論上比SE比對更可靠。
T = Transcripts
本質:以轉錄本的條數為計算單位。使用轉錄本的條數(或者說:轉錄本的測序深度),代替reads數,在一定條件下定量更准,尤其樣本間表達基因總數差異很大的時候(例如,對照樣本有1萬個基因表達,另外處理組僅有4000個基因表達)。
mRNA總量未必相等
mRNA總量不等——細胞本身不同
例如:活躍組織vs休眠的組織;癌細胞vs正常細胞
mRNA總量不等——污染
例如:核糖體污染外源RNA污染
解決方法——不同演算法比較
其中歸一化演算法介紹:
1)Total Count(TC):總reads數矯正
2)Upper Quartile(UQ):上四分之一分位數(總reads)
矯正
3)Median(Med);中位數(總reads數)矯正
4)Quantile (Q):基因晶元軟體limma中的校正演算法;
5)RPKM:總reads數,但引入了基因長度
6)幾何平均數:Deseq軟體中的演算法;
7)TMM:edgeR軟體中的演算法;
8)RPKM
邏輯1:不同位置數值的穩定性不同
四分位數quartile:將數據按從小到大排列,並分成四等分,這樣得到3個分割點,第一個分割點叫做lowerquartile,第二個叫Media,第三個叫Upper quartile
很顯然,極大值具有極大不穩定性,而且可能會顯著影
響總體之和(假設,我們之中有個馬雲,我們的總收入
有什麼變化?)
所以,Upper quartile和Median的數值,比總表達量之
和更加穩定,更適合作為參照。
邏輯2:表達量居中的基因的表達量值,其數值應該是相似的。
DESeq與edgeR,默認情況下都使用這一的邏輯校正。(DESeq and edgeR Bioconctor packages)
Deseq:異常高表達的基因,會顯著影響細胞中的總mRNA的數量。類似的,如果樣本中受到不同程度的外源RNA,如病毒、真菌等的污染,也會顯著影響樣本總mRNA數,導致RPMK值的誤差。對於這樣的問題,Deseq嘗試對數據進行矯正(矯正因子),使表達量處於中間位置的基因表達量應該是基本相同的(即使用表達量處於中間的基因表達量值作為參照,而減少高表達基因的作用)。
Deseq: 校正因子=樣本表達中位數/所有樣本表達量中位數:回答了一個關鍵的問題:Deseq不同差異比較組間,計算得到的表達量值不同。因
為樣本在變化,「所有樣本表達量的中位數」也在變動。RPKM:總表達量為參照
Deseq:中位數為參照
TMM(edgeR):與Deseq類似,在去除高表達基因和差異最大的基因後,TMM也是要找到一個加權系數,使剩餘的基因在被矯正後差異倍數可能小。TMM的加權系數是基於兩兩樣本比較後推算獲得的(也就是兩組樣本的比較,將產生與這次比較相關的加權系數)。然後將所有基因除以這個加權系數,從而保證大部分表達量居中的基因表達量最相似。
不同RNA-seq表達量歸一化演算法的區別
Deseq類的校正演算法:理論上更加穩定;但不同批次的比較會得到不同的表達量值,不利於進行多處理組/批次數據的統一分析(例如,趨勢分析、共表達分析)校正會掩蓋一些問題(例如:樣本污染)
RPKM類的演算法: 容易受異常高表達基因、外源污染等的干擾;但也更容易從結果的異常中,發現潛在問題;得到的表達量值是恆定的,多處理組/批次的數據可以合並分析。折中的方法:使用RPKM類的演算法,但需要人工檢查數據是否
異常。備註: Deseq軟體也可以關閉校正的功能。
實際經驗總結
總之:從多方面考慮,RPKM類演算法,如果合理使用,依然是最優的。具體問題具體分析:在遇到問題的時候,找到問題的來源,從而給出解決方案(沒有完美的流程,只有最佳解決方案)
㈦ 生物信息學中:序列聯配的工具 特點 用途是什麼急求,謝謝!
聯配(alignment)的目的,是對它們的序列相似性進行評估,找出這些序列中結構或功能相似性區域等。通過聯配未知序列與已知序列(其功能或結構等已知)的相似程度,我們可以判斷或推測未知序列的結構與功能。一般我們常用的軟體是Blast吧。用Blast的結果進行進一步的分析
㈧ 如何自學生物信息學
第一階段是基礎知識學習,找一本覆蓋面廣但是又不是很難啃的教材先對生物信息所涉及各個方面有所了解,比如人衛版李霞主編那本《生物信息學》。
第二階段是一個逐步深入的過程,這個過程中要學會工具的使用。比如編程是學Perl還是Python,現在R也得學了。演算法方面最基本的那幾個比如Smith-Waterman、Needleman-Wunsch、Dynamic Programming等要了解清楚,結合一些工具比如blast來學習。一些資料庫網站也是需要了解清楚的比如NCBI之類的就不用說了,比如很多人都用DAVID來進行生物模式識別分析了當碰到來與你討論的人時你也要有所了解才行,合理地尋找和利用資源。多看e文書和文檔吧,多動手寫,一定要動手寫。
第三階段是進行研究,就你個人的興趣或者你的工作需要選定一個/些領域來研究,進一步學習更多東西,這就學無止境了,HMM啦Bayes啦ANN啦……比如我就對高通量測序和腫瘤遺傳學感興趣那麼我就來研究這個。
㈨ 異構網路的異構網路的背景介紹
圖1.1中給出了移動通信技術的發展過程,可以看出隨著技術的改進,數據傳輸速率有著顯著的提高,為用戶提供大數據量的多媒體通信業務提供了堅實基礎。到目前為止,移動通信系統已經發展到第四代,下面將簡單介紹這四代移動通信的發展歷程。
第一代模擬蜂窩系統(1G)開始於上個世紀80年代被用於大規模民用,主要用於提供模擬語音業務,採用的是模擬語音調制技術和頻分多址技術(Frequency Division Multiple Access,FDMA),數據傳輸速率約為2.4kbps。其中代表性的系統有北美的高級行動電話業務(Advanced Mobile Phone Service,AMPS)、英國的全入網通信系統技術(Total Access Communications System,TACS)和北歐的行動電話(Nordic Mobile Telephone,NMT)等等。由於受到傳輸帶寬的限制,不能進行長途漫遊,僅是一種區域性的移動通信系統。另外第一代的通信系統的缺點還包括制式太多而且互不兼容、容量有限、保密性差和通信質量不高等。因此促使了第二代數字移動通信系統(2G)的發展。
第二代數字移動通信系統完成了從模擬到數字的轉變,從而為用戶提供數字語音業務。第二代移動通信技術可以分成兩種,第一種是基於時分多址接入(Time Division Multiple Access,TDMA)的全球數字移動通信系統(Global System for Mobile,GSM)和基於碼分多址接入(Code Division Multiple Access,CDMA)的IS-95系統(例如CDMA one)。
第三代移動通信系統(3G)是由日益成熟的第二代移動通信系統發展而來,其目的是提供高速數據蜂窩移動通信技術。主要的3G技術標准有四個:歐洲電信標准協會(European Telecommunications Standard Institute,ETSI)提出的WCDMA(Wideband CDMA)、北美提出的從CDMA one演進而來的CDMA2000、具有中國知識產權的時分同步的碼分多址技術(Time Division-Synchronous Code Division Multiple Access,TD-SCDMA),和在2007年國際電信聯盟(International Telecommunication Union,ITU)會議上通過的全球微波互聯接入(Worldwide Interoperability for Microwave Access,WiMAX)。第三代移動通信的最高數據傳輸速率可以達到2Mbps,因此可以提供相當高速的數據傳輸業務,例如多媒體、視頻和數據等。
長期演進(Long Term Evolution,LTE)項目是3G的演進,採用的主要技術是正交頻分復用(Orthogonal Frequency Division Multiplexing,OFDM)和MIMO(Multiple-Input Multiple-Out-put),能夠在20MHz的帶寬下提供上行50Mbps和下行100Mbps的峰值速率。LTE又被成為3.9G移動通信技術。LTE-Advanced是LTE的升級版,它被稱為4G的標准,它有兩種制式,一種是TDD,TD-SCDMA可以演化成TDD制式,並且HSPA+(High Speed Packet Access)直接進入LTE,另一種是FDD制式,WCDMA可以演進成FDD制式。
第四代移動通信系統(4G)除了要提供更高的帶寬外,還要保證任何人在任何時間、任何地點以任何方式與任何人進行通信,用戶無需考慮網路傳輸的實現細節。從GSM到第四代,所有的技術不可能一夜間都實現,這些技術將會同時存在為用戶提供服務。為了實現第四代移動通信的目標,就需要將這些不同的無線通信系統融合在一起,形成一個異構無線網路(Heterogeneous Wireless Networks,HWNs)通信系統,從而為用戶提供無縫切換和服務質量(Quality of Service,QoS)保證。因此下一代移動通信網路將是異構網路,異構網路的融合是下一代網路研究的熱點,也是本文研究的主要內容。
寬頻無線接入技術(Broadband Wireless Access,BWA)是繼1990年攜帶型無線電話和2000年Wi-Fi(Wireless Fidelity)出現之後的第三次無線革命,寬頻無線接入技術是在廣域上提供高速無線互聯網接入或者計算機網路接入的技術。寬頻無線接入技術的數據速率大致相當於一些有線網路,如非對稱數字用戶環路(Asymmetric Digital Subscriber Line,ADSL)或者電纜數據機,因此它通常是有線接入網路的重要補充。幾種重要的寬頻無線接入技術包括WLAN(Wireless Local Area Network)、WiMAX技術和WiBro(Wireless Broadband)等。WLAN通過擴頻或者OFDM等技術,來連接兩個或多個終端設備,並通過接入點來連接到寬頻互聯網上,大部分的WLAN技術是基於IEEE802.11標准。WLAN的優勢包括其費用很低和傳輸速度快。由於WLAN工作在非授權頻段,因此WLAN的發射功率很小,它覆蓋范圍也只有百米左右,能提供用戶在小范圍內移動時可以連接到網路上。而WiMAX可以在大范圍內提供高速數據業務,傳輸速率達到30至40兆比特每秒,2011年提高到了1Gbit/s,覆蓋的半徑最大可以達到50km。另外WiMAX可以支持一些低速移動的用戶,而且能夠提供多種多樣的服務,其資費也較WLAN高。由於BWA具有建網快、運營成本低、維護方便等優勢,因此它的發展速度非常迅速,為推動無處不在的互聯網接入和加強公共服務奠定重要的基礎。 表1.1給出了三種寬頻無線接入技術的主要參數,即WLAN、WiMAX和WiBro ;表1.2給出了三種3G技術的主要參數,即UMTS(Universal Mobile Telecommunications System)、EV-DO(Evolution dataOnly)以及HSDPA(High Speed Dlink Packet Access) 。比較這兩張表可以看出BWA與3G技術差別很大,例如BWA支持的數據傳輸速率幾十兆比特每秒,而3G只有幾兆比特每秒;從覆蓋范圍可以看出,3G網路的覆蓋范圍要大於BWA網路;從移動性還可以看出3G網路支持高速移動的用戶。因此可以看出每個網路都有它的優點和缺陷。
表1.1寬頻無線接入技術的主要參數 WLAN WiMAX WiBro 峰值速率 802.11a, g=54 Mbps DL:70 Mbps DL:18.4 Mbps 802.11b=11Mbps UL:70 Mbps UL:6.1 Mbps 帶寬 20MHz 5-6GHz 9MHz 多址方式 CSMA/CA OFDM/OFDMA OFDMA 雙工方式 TDD TDD TDD 移動性 低 低 低 覆蓋區域 小 中等 大 協議標准 IEEE802.11x 802.16 TTA&802.16e 目標市場 家庭/企業 家庭/企業 家庭/企業 表1.2 3G技術的主要參數 UMTS EV-DO HSDPA 峰值速率 DL:2 Mbps DL:3.1 Mbps DL:14 Mbps UL:2 Mbps UL:1.2 Mbps UL:2 Mbps 帶寬 5MHz 1.25GHz 5MHz 多址方式 CDMA CDMA CDMA 雙工方式 FDD FDD FDD 移動性 高 高 高 覆蓋區域 大 大 大 協議標准 3GPP 3GPP 3GPP 目標市場 公共 公共 公共 下一代無線網路是異構無線網路融合的重要原因是:基於異構網路融合,可以根據用戶的特點(例如車載用戶)、業務特點(例如實時性要求高)和網路的特點,來為用戶選擇合適的網路,提供更好的QoS。一般來說,廣域網覆蓋范圍大,但是數據傳輸速率低,而區域網正好相反。因此在實際應用中,多模終端可以根據自身的業務特點和移動性,來選擇合適的網路接入。與以往的同構網路不同,在異構網路環境下,用戶可以選擇服務代價小,同時又能滿足自身需求的網路進行接入。這是由於這些異構網路之間具有互補的特點,才使異構網路的融合顯得非常重要。因此一些組織提出了不同的網路融合標准,這些組織有3GPP(The 3rd Generation Partnership Project)、MIH(The IEEE 802.21 Media Independent Handover working group)和ETSI(The European Telecommunications Standards Institute)。
無線資源管理(Radio Resource Management,RRM)是異構網路中的一個重要研究課題,RRM的目標是高效利用受限的無線頻譜、傳輸功率以及無線網路的基礎設施。RRM技術包括呼叫接入控制(Call Admission Control,CAC)、水平或者垂直切換、負載均衡、信道分配和功率控制等。3GPP提出一種協同無線資源管理技術(Common Radio Resource Management,CRRM),它是通過利用CRRM伺服器對不同接入網路信息進行監測,合理的調度異構網路中的無線資源。除了協同無線資源管理演算法外,還有聯合無線資源管理演算法(Joint Radio Resource Management,JRRM)。這些技術實際上都是為異構網路提供統一的管理平台,以達到合理利用無線資源的目的。
網路選擇演算法是無線資源管理中一個研究熱點,網路選擇演算法通常可以分為呼叫接入網路選擇演算法和垂直網路切換選擇演算法。同構網路的接入和切換主要考慮接收信號的強度,而在異構網路中需要考慮不同接入網路之間的差異,因此需要考慮的因素很多,接收信號的強度只是其中的一個影響因素,其他因素如數據傳輸速率、價格、覆蓋范圍、實時性和用戶的移動性等。這些都是從用戶角度考慮的,如果從網路端考慮,就會涉及到提高系統的吞吐量,降低阻塞率以及均衡負載。因此網路選擇對於異構網路的融合起到了至關重要的影響。本文接下來部分將主要討論異構網路系統模型、無線資源管理、網路性能優化以及網路選擇演算法。
㈩ RNA-seq中的常見問題匯總
參考鏈接: http://www.huangshujia.me/2018/05/26/2018-05-26-How-Does-Sequencing-Duplicates-happen.html
這是一個非常好的問題。我的回答是: RNA-Seq不能代替WES完成外顯子的變異檢測 ,原因如下:
(1). 轉錄本不是全部的外顯子。 由於基因通過可變剪切出不同的轉錄本,實現多能性。那麼,沒被該轉錄本包括的外顯子就丟失了;
(2). 轉錄本數據在基因上的覆蓋度是極度不均勻的。 不同基因的表達量不同,有些很高,有些甚至沒有。進行變異檢測的時候,這種不均勻性會極大影響變異結果的有效檢出。 導致很多發現的變異可能都是那些高表達但是卻很可能不具備什麼關注點的基因上。 如果這時你還是想獲得更多的變異,那麼到頭來還是得花更多的錢加大測序深度;
(3). 目前對轉錄本數據進行變異檢測,還是一個偏於補充性質的分析。 RNA-Seq的目的主要還是集中在基因表達方面,以及尋找差異表達基因和融合基因上。對於變異檢測,這類數據中也肯定可以發現,但假陰一定是很高的,比如低表達的基因,甚至是在這個組織(或者樣本)中不表達的基因,你就無法有效檢出它基因組上的變異了。另外,由於目前的二代測序系統並不能對RNA中的U鹼基進行識別,因此,RNA測序的時候需要先反轉錄為cDNA,這個過程會為RNA的變異檢測帶來一定程度的假陽結果;
(4). 變異檢測范圍有限。使用RNA-Seq數據很難發現除單鹼基變異(SNV)之外的其他突變(比如Indel)。
要搞清楚這個read重復(plicate)的問題,我想我們需要從NGS數據的產出過程說起,具體來說如下:
我們一般認為第1步DNA提取出來的是完整的基因組,打斷則是完全隨機的——通常來說也確實如此。
在第3步, PCR擴增時,同一個DNA片段會產生多個相同的拷貝,第4步測序的時候,這些來源於同!一!個!拷貝的DNA片段會結合到Fellowcell的不同位置上,生成完全相同的測序cluster,然後被測序出來,這些相同的序列就是plicate。 這是plicate的第一個來源,也是主要來源,稱為PCR plicates(PCR重復)。
同樣,在第4步,生成測序cluster的時候,某一個cluster中的DNA序列可能搭到旁邊的另一個cluster的生成位點上,又再重新長成一個相同的cluster,這也是序列plicate的另一個來源,這個現象在Illumina HiSeq4000之後的Flowcell中會有這類Cluster plicates,這是第二類plicate(如下圖)。
在第5步中,某些cluster在測序的時候,捕獲的熒光亮點由於光波的衍射,導致形狀出現重影(如同近視散光一樣),導致它可能會被當成兩個熒光點來處理。這也會被讀出為兩條完全相同的reads,這是第三類plicate, 稱之為Optical plicates(光學重復);
以上三種比較常見,還有第四種, 稱為Sister plicates,這是比較特殊的一個情況。 它是文庫分子的兩條互補鏈同時都與Flowcell上的引物結合分別形成了各自的cluster被測序,最後產生的這對reads是完全反向互補的。 比對到參考基因組時,也分別在正負鏈的相同位置上,在有些分析中也會被認為是一種plicates。
另外,據說 NextSeq 平台上還出現過由於熒光信號捕獲相機移動位置不夠,導致 tile 邊緣被重復拍攝,每次采樣區域的邊緣由於重復采樣而出現了plicates, 下圖中藍色點代表 plicates, 可以看到在tile的左右兩側明顯富集。
以上,除了NextSeq的情況之外, 所有這些不同類型的plicates都各有特點。 比如,PCR plicate的特點是隨機分布於Flowcell表面;而cluster plicates和optical plicates 的特點是它們都來自Flowcell上位置相鄰的cluster。Cluster的位置一般都會被記錄在原始測序fastq文件@Sequence-id那一行中。
這些Read重復都會一定程度上導致一些鹼基信號被錯誤地拉高或者減低,會對後續分析帶來干擾,特別是在WGS和WES分析時都需要去除。 如果測序過程沒什麼特殊問題或者原因,那麼,測序數據的plicate比例一般都在10%以下。
PCR plicates可以通過PCR-free來避免。並且PCR本身還會帶來一些其他的問題,比如擴增過程自帶了一定的偏向性,這會損失一定的測序隨機性,使得某些序列信息被擴大或者減小。所以, 只要DNA起始量足夠,那麼我們就應該盡量採用PCR Free的方式來建庫。
參考鏈接:
http://blog.sina.com.cn/s/blog_5c2f929b0102w5b8.html
https://www.cnblogs.com/leezx/p/6247885.html
樣本 :就是待測的DNA、RNA或蛋白序列,樣本來源單一的就是單樣本,樣本來源於多處就是多樣本,一般我們測序用的樣本都是單樣本,但有時候有特殊需求,我們會把一些樣本混合在一起測序,也就是多樣本測序。
文庫 :二代三代讀長都是有限的,為此我們必須將全長的序列打斷成小片段的文庫才能進行測序。總的來說,在NGS分析之前,制備RNA或DNA的主要步驟包括:片段化和/或篩分指定長度的目標序列;將目標片段轉化成雙鏈DNA;在片段末端連上寡核苷酸接頭;以及定量最終的文庫。
單端測序和雙端測序 :單端測序(Single-read)首先將DNA樣本進行片段化處理形成200-500bp的片段,引物序列連接到DNA片段的一端,然後末端加上接頭,將片段固定在flow cell上生成DNA簇,上機測序單端讀取序列(圖1)。 Paired-end方法是指在構建待測DNA文庫時在兩端的接頭上都加上測序引物結合位點,在第一輪測序完成後,去除第一輪測序的模板鏈,用對讀測序模塊(Paired-End Mole)引導互補鏈在原位置再生和擴增,以達到第二輪測序所用的模板量,進行第二輪互補鏈的合成測序(圖2)。
flowcell :FC,一個FC就是一個載玻片狀的載體,它是測序的場所。
lane :表示測序晶元上的一條流通槽,測序文庫與試劑均在裡面,測序信號的掃描也是按照一條lane上的一個tile進行。一個FC有多條lane,一般是8條
run :測序儀運行一次
參考鏈接: https://mp.weixin.qq.com/s/awdjoXRYobrQAbXmAp3C0g
在使用bwa進行比對時,會有-R參數用來補充read group信息,這對於後續進行call variation時必要的
read group :在sam中以@RG開頭,它是用來將比對的read進行分組的。不同的組之間測序過程被認為是相互獨立的,這個信息對於我們後續對比對數據進行錯誤率分析和Mark plicate時非常重要。
1)ID,這是Read Group的分組ID,一般設置為測序的 lane ID (不同lane之間的測序過程認為是獨立的),下機數據中我們都能看到這個信息的,一般都是包含在fastq的文件名中
2)PL,指的是所用的測序平台,這個信息不要隨便寫!特別是當我們需要使用GATK進行後續分析的時候,更是如此!這是一個很多新手都容易忽視的一個地方,在GATK中,PL只允許被設置為:ILLUMINA,SLX,SOLEXA,SOLID,454,LS454,COMPLETE,PACBIO,IONTORRENT,CAPILLARY,HELICOS或UNKNOWN這幾個信息。基本上就是目前市場上存在著的測序平台,當然,如果實在不知道,那麼必須設置為UNKNOWN,名字方面不區分大小寫
3)SM,樣本ID,同樣非常重要,有時候我們測序的數據比較多的時候,那麼可能會分成多個不同的lane分布測出來,這個時候SM名字就是可以用於區分這些樣本;
4)LB,測序文庫的名字,這個重要性稍微低一些,主要也是為了協助區分不同的group而存在。文庫名字一般可以在下機的fq文件名中找到,如果上面的lane ID足夠用於區分的話,也可以不用設置LB。
除了以上這四個之外,還可以自定義添加其他的信息,不過如無特殊的需要,對於序列比對而言,這4個就足夠了。這些信息設置好之後,在RG字元串中要用製表符( )將它們分開
總結:ID一般用來寫lane ID,如果在測的時候一個樣本一個lane,那也可以是sample id。PL必須是它指定的那幾個。SM是樣本的ID,如果是一個樣本一個lane的話,ID=SM,如果是一個樣本多個lane的話(測序很深時),ID是laneID,SM是樣本id,要做區分。LB,可以隨便設置。
例子:
FASTQ文件裡面這些被測序下來的read是隨機分布於基因組上面的,第一步的比對是按照FASTQ文件的順序把read逐一定位到參考基因組上之後,隨即就輸出了,它不會也不可能在這一步裡面能夠自動識別比對位置的先後位置重排比對結果。因此,比對後得到的結果文件中,每一條記錄之間位置的先後順序是亂的,我們後續去重復等步驟都需要在比對記錄按照順序從小到大排序下來才能進行,所以這才是需要進行排序的原因
[注意] 排序後如果發現新的BAM文件比原來的BAM文件稍微小一些,不用覺得驚訝,這是壓縮演算法導致的結果,文件內容是沒有損失的。
https://mp.weixin.qq.com/s/awdjoXRYobrQAbXmAp3C0g
首先什麼是重復序列,重復序列是在進行PCR擴增時,由同一個DNA分子產生了很多的相同的拷貝。重復序列的存在會導致對於變異的判斷產生錯誤,主要有以下幾點:
1)DNA在打斷的時候會發生一些變異,而PCR會擴大這個信號,導致假陽性的出現。
2)PCR過程會引入新的變異,這些變異越早發生,那其在後續的擴增中錯誤的拷貝會越多,導致假陽性
3)PCR本身存在序列偏好性,如果存在真實的變異後,PCR產生了偏好性,如對reference序列擴增偏向強烈,那變異的鹼基信息會減少,導致假陰性,反之,導致假陽性。
4)目前使用的主流工具,GATK、Samtools、Platpus等這種利用貝葉斯原理的變異檢測演算法都是認為所用的序列數據都不是重復序列(即將它們和其他序列一視同仁地進行變異的判斷,所以帶來誤導),因此必須要進行標記(去除)或者使用PCR-Free的測序方案
其次是如何識別或去除重復序列,既然PCR擴增是把同一段DNA序列復制出很多份,那麼這些序列在經過比對之後它們一定會定位到基因組上相同的位置,比對的信息看起來也將是一樣的!於是,我們就可以根據這個特點找到這些重復序列了!事實上,現有的工具包括Samtools和Picard中去除重復序列的演算法也的確是這么做的。不同的地方在於,samtools的rmp是直接將這些重復序列從比對BAM文件中刪除掉,而Picard的MarkDuplicates默認情況則只是在BAM的FLAG信息中標記出來,而不是刪除,因此這些重復序列依然會被留在文件中,只是我們可以在變異檢測的時候識別到它們,並進行忽略。