資料庫的標准化
發布時間: 2025-05-21 13:51:54
⑴ geo資料庫數據如何標准化
標准化的方法就是Counts值:
對給定的基因組參考區域,計算比對上的read數,又稱為raw count(RC)。
aw count作為原始的read計數矩陣是一個絕對值,而絕對值的特點是基因長度、測序深度不同不可以比較。所以我們要進行標准化把count矩陣轉變為相對值,去除基因長度、測序深度的影響,我們採用分析的。
標准化的三種方法得出的三種值:
RPM (Reads per million mapped reads):RPM方法:10^6標准化了測序深度的影響,但沒有考慮轉錄本的長度的影響。
RPKM/FPKM方法:
103標准化了基因長度的影響,106標准化了測序深度的影響。TCGA的數據分析多採用這種結果。
TPM (Transcript per million):TPM的計算方法也同RPKM/FPKM類似,TPM可以看作是RPKM/FPKM值的百分比。
具體判斷方法:
表達量是否需要重新標准化。
可以通過boxplot函數觀察一下樣本表達豐度值的分布是否整齊進行判斷。
是否需要log2:根據數據值的大小。
如果表達豐度的數值在50以內,通常是經過log2轉化的。如果數字在幾百幾千,則是未經轉化的。
熱點內容