資料庫geo
『壹』 GEO資料庫為什麼是RNA
因為GEO是基因表達綜合資料庫,RNA是實現遺傳信息在蛋白質中的表達。
從GEO資料庫獲取GSE79973數據集,該數據集包含胃癌疾病與正常樣本的表達譜數據,篩選出其中差異表達的lncRNA。
下載GSE62254和GSE15459數據集以及對應的臨床數據,通過GSE62254數據集來構建一個臨床預測模型,識別出與預後顯著相關的lncRNA,通過GSE15459數據集對模型進行驗證。
進一步的通過多因素分析來研究ACJJ分期、性別、年齡和樣本的風險分數與臨床預後的關系。最後通過ssGSEA來發現樣本的高低風險組之間通路富集的差異情況。
『貳』 geo資料庫數據如何標准化
標准化的方法就是Counts值:
對給定的基因組參考區域,計算比對上的read數,又稱為raw count(RC)。
aw count作為原始的read計數矩陣是一個絕對值,而絕對值的特點是基因長度、測序深度不同不可以比較。所以我們要進行標准化把count矩陣轉變為相對值,去除基因長度、測序深度的影響,我們採用分析的。
標准化的三種方法得出的三種值:
RPM (Reads per million mapped reads):RPM方法:10^6標准化了測序深度的影響,但沒有考慮轉錄本的長度的影響。
RPKM/FPKM方法:
103標准化了基因長度的影響,106標准化了測序深度的影響。TCGA的數據分析多採用這種結果。
TPM (Transcript per million):TPM的計算方法也同RPKM/FPKM類似,TPM可以看作是RPKM/FPKM值的百分比。
具體判斷方法:
表達量是否需要重新標准化。
可以通過boxplot函數觀察一下樣本表達豐度值的分布是否整齊進行判斷。
是否需要log2:根據數據值的大小。
如果表達豐度的數值在50以內,通常是經過log2轉化的。如果數字在幾百幾千,則是未經轉化的。
『叄』 GEO資料庫 如何選擇某一數據集中的部分樣本進行差異分析呢
在 GEO 資料庫中,選擇部分樣本進行差異分析的方法可能會有所不同,具體取決於您選擇的差異分析工具和方法。
一種常用的方法是使用 GEO2R 工具,它是 GEO 資料庫的內置差異分析工具,可以讓您在線對 GEO 數據進行差異分析。在使用 GEO2R 時,您可以在「Sample Information」頁面中選擇需要分析的樣本。您可以選擇多個樣本作為組內樣本和組間樣本,並在「Comparison」頁面中設置樣本組。GEO2R 會使用 R 包進行差異分析,並為您生成統計學和可視化結果。
另一種方法是使用其他第三方分析工具,如 R/Bioconctor 中的 limma 包,這樣就可以編寫腳本來讀取GEO數據並進行相關操作。首先,您需要使用 GEOquery 包下載數據,然後將數據轉換為ExpressionSet對象。接著,您可以使用subset函數來選擇需要的樣本,並使用 limma 包中的 lmFit 和 eBayes 函數進行差異分析。
無論採用哪種方法,都需要充分考慮樣本選擇和組設置,以確保差異分析的正確性和可靠性。
此外,在選擇樣本之前還有其它需要考慮的條件,如樣本的來源,採集時間和方式等。這些條件都可能對結果產生影響,因此應當在研究中明確說明。
另外,需要注意數據清洗,如剔除異常值、缺失值等,確保數據質量。
在使用 GEO 資料庫進行差異分析時,還需要注意 GEO 資料庫中樣本的表達量數據通常都是在平均值和標准差之間轉換的,如果洞態態要閉首使用其他數據進行比較,需要轉換納源為相同的格式。