當前位置:首頁 » 操作系統 » 資料庫樣本

資料庫樣本

發布時間: 2025-06-22 13:50:21

A. NHANES資料庫樣本中的權重分析

往期鏈接:保姆級NHANES資料庫使用教程

還記得我們之前出過一篇Nhanes資料庫使用教程嗎?很多小夥伴看完就有疑問了,Nhanes的數據是有權重的,不能用常規的統計方法進行分析,那要怎麼分析呢?今天喵學姐就來給大家講一講Nhanes數據的權重分析。

問題1:NHANES 的權重是如何產生的?

該調查的抽樣方式是分層抽樣。每兩年進行一次調查。在美國選取幾個州,然後再在選取州的下面的一些縣級別,然後在縣級別中的選取一些市級別的地方,然後在選取市級別下的城鎮級別選取家庭為作為調查單位。

首先進行問卷調查,美國總人口數/參加調查問卷的人數=wtint2yr

然後參與問卷調查的人被告知做進一步實驗室數據檢查和身體測量數據,但是只有一部分人參與,因此產生了另外一個權重wtmec2yr。他們中的一些人進行一些小眾化的測試用於調查疾病的調查,如一部分人參與飲食調查所以在文件中「dr1iff」中有個權重WTDR2D - Dietary two-day sample weight。

問題2:要不要選擇權重?

NHANES官網是要求在研究的時候進行加權分析數據。因為加權更為真實地反映出整體的情況。當然你也會看到一些已經發表的文章沒有考慮權重,是因為作者沒有考慮,期刊也沒有要求,但是確保研究結果的可靠性,還是建議進行加權分析。

問題3:如何選擇權重?

資料庫的demo文件中已經給了wtint2yr,wtmec2yr,一些人數更少的調查項目中有權重的會給出相應的權重,如在飲食文件中「dr1iff」中有個權重wtdr2d

取最小調查人群即子集對應的數據的權重

具體而言:

①如果研究對象都是調查問卷里,則採用wtint2yr

②如果研究的對象既有調查問卷的,又有測量的數據,或者只有測量的數據則採用wtmec2yr

③如果研究的對象參與了更為人數少調查或測量,則採用小眾人群所對應的權重,如wtdr2d

問題4:如何合並權重?

在研究中一般選用幾年的調查樣本進行合並之後再進行數據分析調查,每2年的調查數據均有相應的權重,在合理選擇權重之後,合並幾年可以按照如下公式:

公式中weight表示合並權重,n 表示的是幾個2年循環,wt1 ~n 表示每個2年循環對應的權重。

注意特殊年份:1999-2000;2001-2002,這兩個年份分別有一個wtint2yr,wtmec2yr,但是合並起來有一個wtint4yr,wtmec4yr。選擇的年份的不同,則選用的權重不同。

情況1:如果選擇的年份中只包含1999-2000,2001-2002年中的一個年份只需要按照上述的一般情況的公式去計算

情況2:如果選擇的年份包含1999-2000,2001-2002年,兩個年份時選用整體四年對應的權重,公式改為

理解為把1999-2000看做一個年份,然後佔用份額是2 ,剩下的年份佔用的份額分別是1 。基本的原則是和一般情況計算公式一樣。

特殊年份:2019-2020這個年份受疫情影響。至於官方的解釋是本計劃採集2019-2022年數據做一個四年的權重,但是由於新冠疫情的影響,後續把數據2017-2020年3月份分作為3.2年為一個周期權重只給了wtmecprp。如果需要列入2017-2020年的數據,可以考慮特殊處理。

總結

喵學姐認為,NHANES 資料庫最好加權分析,選用涉及變數中最小子集的權重,特殊年份特殊處理。(若理解有誤,請及時糾正)

B. 求一個ASP連接到ORACLE資料庫的樣本程序(200分)

1、連入SQL*Plus
以system/manager用戶登錄,
SQL> conn system/manager

創建新的用戶:如user1/pass1,賦予connect,resource許可權。
SQL> grant connect,resource to user1 identified by pass1;

SQL> conn user1/pass1
SQL> create table test(a date);

Oracle資料庫的實例名,本例:oradb
Oracle用戶名,本例:user1
Oracle主機字元串:oradb

tnsnames.ora文件中

ORADB =
(DESCRIPTION =
(ADDRESS_LIST =
(ADDRESS = (PROTOCOL = TCP)(HOST = 192.1.1.1)(PORT = 1521))
)
(CONNECT_DATA =
(SERVICE_NAME = oradb)
)
)

2、在IIS默認WWW目錄下創建test.asp,用notebook編輯,輸入以下代碼
<%
set conn=server.createobject("adodb.connection")
dns="Provider=OraOLEDB.Oracle.1;Persist Security Info=True;User ID=user1;Password=pass1;Data Source=oradb"
conn.Open dns

SQL="insert into test(a) values(sysdate)"
set rs=conn.execute(SQL)

set rs=nothing
conn.close
set conn=nothing
%>

<%
set conn=server.createobject("adodb.connection")
dns="Provider=OraOLEDB.Oracle.1;Persist Security Info=True;User ID=user1;Password=pass1;Data Source=oradb"
conn.Open dns

SQL="select to_char(a,'hh24:mi:ss') from test"
set rs=conn.execute(SQL)

do while (not rs.eof)
%>
<table border=1>
<tr><td><%=rs.fields(0).value%></font></td>
</tr>
<%
rs.movenext
loop

rs.close
set rs=nothing
conn.close
set conn=nothing
%>

C. tcga資料庫樣本哪些是腫瘤哪些是正常

答案就在TCGAbarcode,樣本標簽描述了樣本類型,是正常的還是異常的。還是對照組。比如膠質瘤RNAseq的barcode,有174個樣本類似於這個:

TCGA-06-0681-11A-41R-A36H-07

TCGA-06-0649-01B-01R-1849-01

第四個欄位:11A和01B描述的就是樣本類型,1-9是腫瘤,10-19是正常,20-29是對照。A和B我也不知道啥意思。由於TCGAbarcode欄位寬度是嚴格的。因此用substr就可提取

names=colnames(RNAseq_dat)

a=as.numeric(substr(names,14,15))

table(a)

可以看見數據中有5個是正常組織樣本

----------------------

Xena網站(網頁鏈接)有整理好的TCGA數據,包括數據集和樣本表格。樣本表格數據詳細,包含生存期,腫瘤分期分級,突變,亞型等等。

熱點內容
絕地求生安卓為什麼點谷歌沒反應 發布:2025-06-22 17:01:01 瀏覽:873
百度新聞源碼 發布:2025-06-22 16:59:44 瀏覽:529
linuxshellfor 發布:2025-06-22 16:59:38 瀏覽:927
手機密碼最多能設置多少位 發布:2025-06-22 16:57:59 瀏覽:840
epi編程 發布:2025-06-22 16:44:43 瀏覽:280
雲視頻客戶端的伺服器地址 發布:2025-06-22 16:42:44 瀏覽:316
全民k歌上傳不了伴奏 發布:2025-06-22 16:42:39 瀏覽:548
編程飛狐 發布:2025-06-22 16:36:04 瀏覽:634
為什麼有的賬號不能登錄密碼錯誤 發布:2025-06-22 16:32:19 瀏覽:866
電火花編程 發布:2025-06-22 16:29:12 瀏覽:107