算法的P值
⑴ “p值”是什么意思
P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显着。但是检验的结果究竟是"显着的"、"中度显着的"还是"高度显着的"需要我们自己根据P值的大小和实际问题来解决。
⑵ 统计学p值的计算公式是什么
P值即概率,反映某一事件发生的可能性大小。统计学根据显着性检验方法所得到的P 值,一般以P < 0.05 为有统计学差异, P<0.01 为有显着统计学差异,P<0.001为有极其显着的统计学差异。
P<0.05时,认为差异有统计学意义”或者“显着性水平α=0.05”,指的是如果本研究统计推断得到的差异有统计学意义,那么该结果是“假阳性”的概率小于0.05。
(2)算法的P值扩展阅读:
P值的计算:
一般地,用X 表示检验的统计量,当H0为真时,可由样本数据计算出该统计量的值C,根据检验统计量X的具体分布,可求出P值。具体地说:
左侧检验的P值为检验统计量X 小于样本统计值C 的概率,即:P = P{ X < C}
右侧检验的P值为检验统计量X 大于样本统计值C 的概率:P = P{ X > C}
双侧检验的P值为检验统计量X 落在样本统计值C 为端点的尾部区域内的概率的2 倍:P = 2P{ X > C} (当C位于分布曲线的右端时) 或P = 2P{ X< C} (当C 位于分布曲线的左端时) 。
若X 服从正态分布和t分布,其分布曲线是关于纵轴对称的,故其P 值可表示为P = P{| X| > C} 。
计算出P值后,将给定的显着性水平α与P 值比较,就可作出检验的结论:
如果α > P值,则在显着性水平α下拒绝原假设。
如果α ≤ P值,则在显着性水平α下不拒绝原假设。
在实践中,当α = P值时,也即统计量的值C刚好等于临界值,为慎重起见,可增加样本容量,重新进行抽样检验。
⑶ 假设检验中的P值怎样计算呢
P值的计算:
一般地,用X 表示检验的统计量,当H0为真时,可由样本数据计算出该统计量的值C,根据检验统计量X的具体分布,可求出P值。具体地说:
左侧检验的P值为检验统计量X 小于样本统计值C 的概率,即:P = P{ X < C}
右侧检验的P值为检验统计量X 大于样本统计值C 的概率:P = P{ X > C}
双侧检验的P值为检验统计量X 落在样本统计值C 为端点的尾部区域内的概率的2 倍:P = 2P{ X > C} (当C位于分布曲线的右端时) 或P = 2P{ X< C} (当C 位于分布曲线的左端时) 。若X 服从正态分布和t分布,其分布曲线是关于纵轴对称的,故其P 值可表示为P = P{| X| > C} 。
p值的计算公式:
=2[1-φ(z0)]
当被测假设h1为
p不等于p0时;
=1-φ(z0)
当被测假设h1为
p大于p0时;
=φ(z0)
当被测假设h1为
p小于p0时;
其中,φ(z0)要查表得到。
z0=(x-n*p0)/(根号下(np0(1-p0)))
最后,当p值小于某个显着参数的时候我们就可以否定假设。反之,则不能否定假设。
注意,这里p0是那个缺少的假设满意度,而不是要求的p值。
没有p0就形不成假设检验,也就不存在p值
统计学上规定的p值意义:
p值
碰巧的概率
对无效假设
统计意义
p>0.05
碰巧出现的可能性大于5%
不能否定无效假设两组差别无显着意义
p<0.05
碰巧出现的可能性小于5%
可以否定无效假设
两组差别有显着意义
p
<0.01
碰巧出现的可能性小于1%
可以否定无效假设
两者差别有非常显着意义
⑷ P值的计算
为理解P值的计算过程,用Z表示检验的统计量,ZC表示根据样本数据计算得到的检验统计量值。
左侧检验 H0:μ≥μ0 vs H1:μ<μ0
P值是当μ=μ0时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即p值 = P(Z≤ZC|μ=μ0)
右侧检验 H0:μ≤μ0 vs H1:μ>μ0
P值是当μ=μ0时,检验统计量大于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即p值 = P(Z≥ZC|μ=μ0)
双侧检验 H0:μ=μ0 vs H1:μ≠μ0
P值是当μ=μ0时,检验统计量大于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即p值 = 2P(Z≥|ZC||μ=μ0)
⑸ 统计学中p值的含义是什么
p值是指在一个概率模型中,统计摘要(如两组样本均值差)与实际观测数据相同,或甚至更大这一事件发生的概率。
换言之,是检验假设零假设成立或表现更严重的可能性。p值若与选定显着性水平(0.05或0.01)相比更小,则零假设会被否定而不可接受。然而这并不直接表明原假设正确。p值是一个服从正态分布的随机变量,在实际使用中因样本等各种因素存在不确定性。产生的结果可能会带来争议。
发展史
R·A·Fisher(1890-1962)作为一代假设检验理论的创立者,在假设检验中首先提出P值的概念。他认为假设检验是一种程序,研究人员依照这一程序可以对某一总体参数形成一种判断。也就是说,他认为假设检验是数据分析的一种形式,是人们在研究中加入的主观信息。
当时这一观点遭到了Neyman-Pearson的反对,他们认为假设检验是一种方法,决策者在不确定的条件下进行运作,利用这一方法可以在两种可能中作出明确的选择,而同时又要控制错误发生的概率。这两种方法进行长期且痛苦的论战。
虽然Fisher的这一观点同样也遭到了现代统计学家的反对,但是他对现代假设检验的发展作出了巨大的贡献。
假设检验的P值方法
假设检验的p值方法使用计算出的概率来确定是否有证据拒绝原假设。零假设(也称为猜想)是有关总体(或数据生成过程)的最初主张。备选假设指出总体参数是否与猜想中所述的总体参数值不同。
在实践中,预先声明了显着性水平,以确定p值必须有多小才能拒绝无效假设。由于不同的研究人员在研究问题时会使用不同级别的重要性,因此读者有时可能难以比较两种不同测试的结果。P值提供了解决此问题的方法。
例如,假设一项比较两种特定资产收益的研究是由使用相同数据但不同显着性水平的不同研究人员进行的。对于资产是否不同,研究人员可能得出相反的结论。
如果一位研究人员使用90%的置信度而另一位研究人员要求95%的置信度来拒绝原假设,并且两次收益之间观察到的差异的p值为0.08(对应于92%的置信度) ,那么第一个研究人员将发现这两种资产具有统计上的显着差异,而第二个研究人员将发现收益之间在统计上没有显着差异。
为了避免这个问题,研究人员可以报告假设检验的p值,并允许读者自己解释统计学意义。这称为假设检验的p值方法。独立的观察者可以记录p值,并自己决定这是否代表统计学上的显着差异。
以上内容参考网络-P值
⑹ 如何计算统计学中的P值(200分)
P值即为拒绝域的面积或概率。
P值的计算公式是
=2[1-Φ(z0)] 当被测假设H1为 p不等于p0时;
=1-Φ(z0) 当被测假设H1为 p大于p0时;
=Φ(z0) 当被测假设H1为 p小于p0时;
总之,P值越小,表明结果越显着。但是检验的结果究竟是“显着的”、“中度显着的”还是“高度显着的”需要我们自己根据P值的大小和实际问题来解决。
p值是指在一个概率模型中,统计摘要(如两组样本均值差)与实际观测数据相同,或甚至更大这一事件发生的概率。换言之,是检验假设零假设成立或表现更严重的可能性。
p值若与选定显着性水平(0.05或0.01)相比更小,则零假设会被否定而不可接受。然而这并不直接表明原假设正确。p值是一个服从正态分布的随机变量,在实际使用中因样本等各种因素存在不确定性。产生的结果可能会带来争议。
⑺ 数据分析中的P值怎么计算、什么意义
一、P值计算方法
左侧检验P值是当时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即p值。
右侧检验P值是当μ=μ0时,检验统计量大于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即p值。
双侧检验P值是当μ=μ0时,检验统计量大于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即p值。
二、P值的意义
P 值即概率,反映某一事件发生的可能性大小。统计学根据显着性检验方法所得到的P 值,一般以P < 0.05 为显着, P <0.01 为非常显着,其含义是样本间的差异由抽样误差所致的概率小于0.05 或0.01。
(7)算法的P值扩展阅读:
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。
在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。
⑻ 统计学中的P值应该怎么计算
P值的计算公式是
=2[1-Φ(z0)] 当被测假设H1为 p不等于p0时;
=1-Φ(z0) 当被测假设H1为 p大于p0时;
=Φ(z0) 当被测假设H1为 p小于p0时;
总之,P值越小,表明结果越显着。但是检验的结果究竟是“显着的”、“中度显着的”还是“高度显着的”需要根据P值的大小和实际问题来解决。
(8)算法的P值扩展阅读
统计学中回归分析的主要内容为:
1、从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。
2、对这些关系式的可信程度进行检验。
3、在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显着的,哪些自变量的影响是不显着的,将影响显着的自变量加入模型中,而剔除影响不显着的变量,通常用逐步回归、向前回归和向后回归等方法。
4、利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。
⑼ 生信课程笔记11-关于p值
假设检验是使用来自总体的采样(sampling)提供的信息,做出关于一个对总体的决策。需注意抽样应能够代表总体。
对总体的某种规律提出一个假设,通过样本数据推断,决定是否拒绝这一假设,这样的统计活动称为假设检验。
1. 建立检验假设,确定检验水准
2. 选择并计算检验统计量
3. 确定p值,做出推断
统计假设是一种关于感兴趣的总体的陈述。一般我们有一个 原假设/零假设/无效假设/H0/ null hypothesis 和一个 备择假设/替代假设/HA/alternative hypothesis 。无效假设通常代表“无效”的状态,即“没有影响、没有效果、没有差异”。
例如:H0 性别对身高没有影响/男女平均身高没有差异。
A p-value is the probability that random chance generated the data, or something else that is equal or rarer.
p值是生成某数据的随机机率,包括三部分:随机产生这个事件的概率,产生与该事件相同概率的其它事件的概率,产生比该事件的概率更小的事件的概率,这三部分概率加起来就是p值。
统计假设检验的结果通常用p值来表示。为了从我们的变量的观测值获得p值,首先需要构造一个测试统计量,如果零假设确实成立,我们可以从理论上计算统计量的分布情况。然后,我们可以将从我们的采样数据中计算出的值与该分布进行比较,并假设如果零假设为真,那么将获得观测数据或比观测数据更极端的测试统计值的概率是p值。
p值是当原假设成立时,出现目前观察到的情况的概率、加上出现和目前情况概率相同或概率更低的事件的概率。如果p值比较小,可以认为当原假设成立时出现目前的情况是小概率事件,不太可能发生,而更有可能是原假设不成立。
p值并不能告诉你零假设是真的可能性。同样,它也没有告诉你替代假设是真的可能性。
如果你不能拒绝零假设,你还没有证明零假设是正确的。但简单地说,当前的数据集没有提供足够的证据来拒绝它。
p值只关心数据与原假设有多么不一致,不能代表你所发现的效应(差异)的大小,更不能告诉我们这种效应是否有实际意义。
规定一个显着性水平α,如果p值小于显着水平,就可以拒绝原假设,认为得到的结果是显着的。从另一个角度看,α是在原假设为真时拒绝原假设的概率(假阳性错误),是在大量重复实验时我们能承受的第一类错误的概率的上限。从相同的总体取样进行检验的p值是均匀分布的,假阳性的比率与α值相等。
第I类错误(type I error): 假阳性错误。 把没有差异说成有差异,把没病说成有病,把无效说成有效等。
第II类错误(type II error): 假阴性错误。 把有差异说成没有差异,把有病说成没病,把有效说成无效等。
如果我们只执行一个测试(在数据集中只有一个变量),那么使用p值来解释统计测试的结果很好。一旦测试次数增加,p值作为显着性度量的有用性就会降低。
多重比较使假阳性的概率大量增加。对一个变量进行统计检验,假阳性的概率为α=5%,不犯假阳性错误的概率为95%;对5个变量一起进行检验,不犯假阳性错误的概率为0.95^5=0.77,至少出现一次第I类错误的概率就是1-0.95^5=0.23;如果检验的次数m更多,几乎必然会有至少1个假阳性错误。我们把这个“至少有1个错误”的概率称为 总体错误率(Family-Wise Error Rate,FWER) ,FWER = 1- (1- α)^m。
假设我们的数据集中有10000个变量,并且对于每一个变量,原假设都是正确的(没有差异)。现在对每个变量进行统计检验。在这个例子中我们将有大约0.05×10000=500个变量的p值低于0.05。这些都被称为 假发现或假阳性(false discoveries or false positives) 。如果数据中存在一些确实有差异的变量,则它们将与假阳性混合。在判断差异表达基因时,大部分基因都是没有明显变化的,小部分基因是显着差异的,这样统计得到的显着性结果中,会有很大比例的假阳性。
在进行多次假设检验的时候,为了避免增大犯I型错误的概率,常用bonferroni、fdr(BH) 以及q值等方法对比较结果的p值进行校正(严格来说,q值并不是用来校正p值的)。
adjust p-values是经过校正后的p值,通过一些算法,比如Benjamini-Hochberg method,使p值变的更大一些,从而控制假阳性的数量。
bonferroni是特别保守的一种多重比较校正方法,它拒绝了所有的假阳性结果发生的可能性。FWER = 0.05,α = 0.05/m,p<0.05/m时才拒绝原假设。相当于每一个检验做出来的p值都要乘以m,作为校正后的P值。这样进行10000次检验后,平均假阳性次数也依然被控制在0.05次。
t.df1$bon <- p.adjust(t.df1$sim_p, method = "bonferroni")
错误发现率(false discovery rate,FDR)是假阳性的预期分数,即假阳性数量除以所有认为是阳性结果的数量, FDR=FP/(FP+TP) 。
如果FDR<0.05,那么在显示为显着性的结果里,有不到5%为假阳性。当FDR=0.05时,一共有1805个阳性,但是这些阳性样本中,有5%是假阳性,即有90个是误诊的。
有多种模型用来从p-value估算FDR值,其中使用的最多的是Benjaminiand Hochberg的方法,简称 BH法。BH法虽然不够精确,但是简单好用。
fdr默认Benjamini-Hochberg method,仍然略显保守。它关注的是所有认为是阳性的结果中,假阳性的比例,FDR的目的就是要将这个比例降低到α。
其方法是:把所有的p值从小到大排序并编号i,然后最大的p值不变,其余的p值调整后变成 原始p值×(p值总数m/这个p值排序的编号i)。可以从数学上证明经过BH方法校正后的adjust p-values(即q-values或FDR)可以控制FDR在α以内。
实际上,BH法的原始算法是找到一个最大的编号i,满足P≤i/m*FDR阈值,此时所有编号小于i的数据就都可以认为是显着的。在实践中,为了能够在比较方便的用不同的FDR阈值对数据进行分析,会计算所有的FDR,这样无论FDR阈值选择多少,都可以直接根据FDR的数值来直接找到所有显着的数据。
t.df1$fdr <- p.adjust(t.df1$sim_p, method = "fdr")
FDR的控制方法,延伸出了一个被校正后的p value的概念(比P value更严格),称之为Q value,这个概念是最早是John Storey(2002)提出的。 一般情况下,我们可以认为q value = FDR = adjusted p value。 据说Storey方法是最流行的FDR control procere(For details see Storey's paper published on PNAS ,2003)。这是一种利用多重比较结果中的p value 分布,来预估真实的阳性率的方法,从而提高了FDR值预估的准确性。
q值是传统p值的FDR模拟(analog)。对于给定的变量(p-value = p*), q值估计p值低于p*的所有变量中错误发现的分数 。q值表示在检测阳性个体中,假阳性个体所占的比例。取q=0.05,假阳性/(假阳性+真阳性)=0.05。此时p值并不是0.05(可能是0.058)。
t.q1 <- qvalue(t.df1$sim_p)
t.df1$qval <- t.q1$qvalue
FDR控制了假阳性,但是也丢失了很多真正有差异的结果。所以还有独立筛选(independent filtering)减少假阴性。独立筛选认为表达量很低的基因可能不能提供有用信息,可以先把它们去掉,减少参与分析的基因总数,从而减少丢失的真阳性结果。