当前位置:首页 » 操作系统 » 数据库样本

数据库样本

发布时间: 2025-06-22 13:50:21

A. NHANES数据库样本中的权重分析

往期链接:保姆级NHANES数据库使用教程

还记得我们之前出过一篇Nhanes数据库使用教程吗?很多小伙伴看完就有疑问了,Nhanes的数据是有权重的,不能用常规的统计方法进行分析,那要怎么分析呢?今天喵学姐就来给大家讲一讲Nhanes数据的权重分析。

问题1:NHANES 的权重是如何产生的?

该调查的抽样方式是分层抽样。每两年进行一次调查。在美国选取几个州,然后再在选取州的下面的一些县级别,然后在县级别中的选取一些市级别的地方,然后在选取市级别下的城镇级别选取家庭为作为调查单位。

首先进行问卷调查,美国总人口数/参加调查问卷的人数=wtint2yr

然后参与问卷调查的人被告知做进一步实验室数据检查和身体测量数据,但是只有一部分人参与,因此产生了另外一个权重wtmec2yr。他们中的一些人进行一些小众化的测试用于调查疾病的调查,如一部分人参与饮食调查所以在文件中“dr1iff”中有个权重WTDR2D - Dietary two-day sample weight。

问题2:要不要选择权重?

NHANES官网是要求在研究的时候进行加权分析数据。因为加权更为真实地反映出整体的情况。当然你也会看到一些已经发表的文章没有考虑权重,是因为作者没有考虑,期刊也没有要求,但是确保研究结果的可靠性,还是建议进行加权分析。

问题3:如何选择权重?

数据库的demo文件中已经给了wtint2yr,wtmec2yr,一些人数更少的调查项目中有权重的会给出相应的权重,如在饮食文件中“dr1iff”中有个权重wtdr2d

取最小调查人群即子集对应的数据的权重

具体而言:

①如果研究对象都是调查问卷里,则采用wtint2yr

②如果研究的对象既有调查问卷的,又有测量的数据,或者只有测量的数据则采用wtmec2yr

③如果研究的对象参与了更为人数少调查或测量,则采用小众人群所对应的权重,如wtdr2d

问题4:如何合并权重?

在研究中一般选用几年的调查样本进行合并之后再进行数据分析调查,每2年的调查数据均有相应的权重,在合理选择权重之后,合并几年可以按照如下公式:

公式中weight表示合并权重,n 表示的是几个2年循环,wt1 ~n 表示每个2年循环对应的权重。

注意特殊年份:1999-2000;2001-2002,这两个年份分别有一个wtint2yr,wtmec2yr,但是合并起来有一个wtint4yr,wtmec4yr。选择的年份的不同,则选用的权重不同。

情况1:如果选择的年份中只包含1999-2000,2001-2002年中的一个年份只需要按照上述的一般情况的公式去计算

情况2:如果选择的年份包含1999-2000,2001-2002年,两个年份时选用整体四年对应的权重,公式改为

理解为把1999-2000看做一个年份,然后占用份额是2 ,剩下的年份占用的份额分别是1 。基本的原则是和一般情况计算公式一样。

特殊年份:2019-2020这个年份受疫情影响。至于官方的解释是本计划采集2019-2022年数据做一个四年的权重,但是由于新冠疫情的影响,后续把数据2017-2020年3月份分作为3.2年为一个周期权重只给了wtmecprp。如果需要列入2017-2020年的数据,可以考虑特殊处理。

总结

喵学姐认为,NHANES 数据库最好加权分析,选用涉及变量中最小子集的权重,特殊年份特殊处理。(若理解有误,请及时纠正)

B. 求一个ASP连接到ORACLE数据库的样本程序(200分)

1、连入SQL*Plus
以system/manager用户登录,
SQL> conn system/manager

创建新的用户:如user1/pass1,赋予connect,resource权限。
SQL> grant connect,resource to user1 identified by pass1;

SQL> conn user1/pass1
SQL> create table test(a date);

Oracle数据库的实例名,本例:oradb
Oracle用户名,本例:user1
Oracle主机字符串:oradb

tnsnames.ora文件中

ORADB =
(DESCRIPTION =
(ADDRESS_LIST =
(ADDRESS = (PROTOCOL = TCP)(HOST = 192.1.1.1)(PORT = 1521))
)
(CONNECT_DATA =
(SERVICE_NAME = oradb)
)
)

2、在IIS默认WWW目录下创建test.asp,用notebook编辑,输入以下代码
<%
set conn=server.createobject("adodb.connection")
dns="Provider=OraOLEDB.Oracle.1;Persist Security Info=True;User ID=user1;Password=pass1;Data Source=oradb"
conn.Open dns

SQL="insert into test(a) values(sysdate)"
set rs=conn.execute(SQL)

set rs=nothing
conn.close
set conn=nothing
%>

<%
set conn=server.createobject("adodb.connection")
dns="Provider=OraOLEDB.Oracle.1;Persist Security Info=True;User ID=user1;Password=pass1;Data Source=oradb"
conn.Open dns

SQL="select to_char(a,'hh24:mi:ss') from test"
set rs=conn.execute(SQL)

do while (not rs.eof)
%>
<table border=1>
<tr><td><%=rs.fields(0).value%></font></td>
</tr>
<%
rs.movenext
loop

rs.close
set rs=nothing
conn.close
set conn=nothing
%>

C. tcga数据库样本哪些是肿瘤哪些是正常

答案就在TCGAbarcode,样本标签描述了样本类型,是正常的还是异常的。还是对照组。比如胶质瘤RNAseq的barcode,有174个样本类似于这个:

TCGA-06-0681-11A-41R-A36H-07

TCGA-06-0649-01B-01R-1849-01

第四个字段:11A和01B描述的就是样本类型,1-9是肿瘤,10-19是正常,20-29是对照。A和B我也不知道啥意思。由于TCGAbarcode字段宽度是严格的。因此用substr就可提取

names=colnames(RNAseq_dat)

a=as.numeric(substr(names,14,15))

table(a)

可以看见数据中有5个是正常组织样本

----------------------

Xena网站(网页链接)有整理好的TCGA数据,包括数据集和样本表格。样本表格数据详细,包含生存期,肿瘤分期分级,突变,亚型等等。

热点内容
绝地求生安卓为什么点谷歌没反应 发布:2025-06-22 17:01:01 浏览:873
百度新闻源码 发布:2025-06-22 16:59:44 浏览:529
linuxshellfor 发布:2025-06-22 16:59:38 浏览:927
手机密码最多能设置多少位 发布:2025-06-22 16:57:59 浏览:840
epi编程 发布:2025-06-22 16:44:43 浏览:280
云视频客户端的服务器地址 发布:2025-06-22 16:42:44 浏览:316
全民k歌上传不了伴奏 发布:2025-06-22 16:42:39 浏览:548
编程飞狐 发布:2025-06-22 16:36:04 浏览:634
为什么有的账号不能登录密码错误 发布:2025-06-22 16:32:19 浏览:866
电火花编程 发布:2025-06-22 16:29:12 浏览:107