当前位置:首页 » 操作系统 » 样本估算法

样本估算法

发布时间: 2022-12-26 09:09:51

❶ 参数估计方法包括什么和什么

参数估计
parameter
estimation
根据从总体中抽取的
样本
估计总体分布中包含的未知
参数
的方法。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和
区间估计
两部分

估计量的评价标准:(1)无偏性,(2)一致性,(3)有效性,(4)充分性。
点估计是
依据
样本估计总体分布中所含的未知参数或未知参数的
函数
。通常它们是总体的某个
特征值
,如数学期望、
方差

相关系数
等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的
估计值
。例如,设一批产品的
废品率
为θ。为估计θ,从这批产品中随机地抽出n个作检查,以X记其中的废品个数,用X/n估计θ,这就是一个点估计。
构造
点估计常用的方法是:①矩
估计法
。用
样本矩
估计总体矩,如用
样本均值
估计
总体均值
。②最大
似然
估计法。于1912年由英国统计学家R.A.费希尔提出,利用样本
分布密度
构造
似然函数
来求出参数的最大似然估计。③
最小二乘法
。主要用于
线性统计模型
中的参数估计问题。④
贝叶斯估计
法。基于贝叶斯学派(见贝叶斯统计)的观点而提出的估计法。可以用来估计未知参数的估计量很多,于是产生了怎样选择一个优良估计量的问题。首先必须对优良性定出
准则
,这种准则是不唯一的,可以根据
实际
问题和理论研究的方便进行选择。优良性准则有两大类:一类是小样本准则,即在样本
大小
固定时的优良性准则;另一类是
大样本
准则,即在样本大小趋于无穷时的优良性准则。最重要的小样本优良性准则是无偏性及与此相关的一致
最小方差
无偏估计
,其次有容许性准则,最小化
最大准则
,最优同变准则等。大样本优良性准则有相合性、最优渐近
正态
估计和渐近有效估计等。
区间估计是依据抽取的样本,根据一定的
正确度

精确度
的要求,构造出适当的
区间
,作为总体分布的未知参数或参数的函数的真值所在
范围
的估计。例如人们常说的有百分之多少的把握保证某值在某个范围内,即是区间估计的最简单的应用。1934年统计学家J.奈曼创立了一种严格的区间估计
理论
。求
置信区间
常用的三种方法:①利用已知的抽样分布。②利用区间估计与假设检验的联系。③利用
大样本理论

❷ 小弟有个比较大的样本需要估算其均值。样本数量级为100w。在没有什么好点的方法。

数量级是100W,不可能把100W个数加起来算均值。
你可以随机抽取其中1W个来算均值,如果1W个也多,可以1000个,

❸ 如何估计调查前的样本容量 简单易懂

在95%的置信度下,允许误差5%,样本容量需要400才能最大限度地满足调查要求。
样本容量又称“样本数”。指一个样本的必要抽样单位数目。在组织抽样调查时,抽样误差的大小直接影响样本指标代表性的大小,而必要的样本单位数目是保证抽样误差不超过某一给定范围的重要因素之一。因此,在抽样设计时,必须决定样本单位数目,因为适当的样本单位数目是保证样本指标具有充分代表性的基本前提。
样本容量的大小涉及到调研中所要包括的单元数。样本容量是对于你研究的总体而言的,是在抽样调查中总体的一些抽样。比如:中国人的身高值为一个总体,你随机取一百个人的身高,这一百个人的身高数据就是总体的一个样本。某一个样本中的个体的数量就是样本容量。注意:不能说样本的数量就是样本容量,因为总体中的若干个个体只组成一个样本。样本容量不需要带单位。
在假设检验里样本容量越大越好。但实际上不可能无穷大,就像你研究中国人的身高不可能把所有中国人的身高都量一量一样。
样本容量问题
回归分析是从已经发生的经济活动的样本数据中寻找经济活动中内含的规律性,它对样本数据具有很强的依赖性。样本的容量太小会导致参数估计值的大小和符号违反经济理论和实际经验。从建模需要来讲,样本容量越大越好,但收集与整理样本数据是一件困难的工作,因此,选择合适的样本容量,既能满足模型估计的需要,又能减轻收集数据的困难,是一个重要的实际问题。
(1) 最小样本容量
所谓“最小样本容量”,即从普通最小二乘法原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限,它是:n≥k+1
其中,k为解释变量的数目。
(2) 满足基本要求的样本容量
一般经验认为,当n≥30或者至少n≥3(k+1)时,才能满足模型估计的基本要求。

❹ 怎么评估样本量求统计学高手指导!

实验法一般都用小样本,即n小于30.
如果非要用公式算,可以用下面的公式:
n= (双边检验的Z值的平方*某变量的方差) / (允许的变量抽样误差的平方)
其中,某变量可以根据研究的问题或需要自行选取,要求数值已知。

例如:用抽样调查了解学生平均每周上网时间,置信度为0.9,误差要求在1小时以内,求所需样本规模。(已知标准差为5.) 。
根据上述公式计算得到n=68

❺ 5.1 参数估计的概念及两种估计方法

参数估计是在样本统计量概率分布的基础上,利用样本的信息推断所关心的总体参数的过程。

① 基于样本统计量的概率分布:如前所述,样本统计量是一个随机变量,有其自身的概率分布、期望、方差等。在分析一个样本集时,需要基于此统计学知识;

② 利用样本的信息:样本是我们唯一有的数据,一切的统计基于样本数据;

③ 推断所关心的总体参数是目的。比如,利用样本的均值推断总体的均值,利用样本的方差推断总体的方差。

PS1:利用样本的均值作为总体均值的估计,是直观且不需要解释的。样本统计量(此处指均值)的概率分布,是为这个估计提供置信度等信息的。

PS2:利用样本均值去估计总体均值时,总体均值是一个待被估计的总体参数,可以用 表示。样本均值叫做 估计量 ,用 表示,是一个统计量;实际采集了一个样本算出了其平均值,这叫一个估计值

2.1 点估计

点估计指基于一个样本算出的估计量的一个具体取值,直接作为总体参数的估计值 的估计方式 。这个话说的很车轱辘,举个栗子,当我要估计中国人的平均身高时,我采集了一个样本,其包含了1W个人的身高状况,然后我算出来均值,并用这个均值作为全体中国人平均身高的估计值。就是这么简单。

点估计的优点是很直观易理解,给小学生讲一下应该也能听懂。

不好懂的是点估计的缺点: 点估计无法给出估计的可靠性 。继续举栗子,当我们取了1W个平均身高并算出平均值是1.68时,我们并不能说,全国人民的平均身高100%就是1.68。事实上,平均身高可能是1.86,就算这样我们也仍然有可能恰好采到了一个平均身高只有1.68的样本,只不过这个概率比较小而已。再说得反直觉一点,全国人民的平均身高恰恰好好就是1.68的可能性其实是非常低的,但落在[1.67,1.69]的可能性就比较大,至少比落在[1.80, +]的可能性是大多了。问题就在于,点估计无法定量的给出这些区间以及对应的可能性大小。所以才有了更专业一点的区间估计。

2.2 区间估计

区间估计是在点估计的基础上,给出总体参数估计的一个估计区间,并给出相应的置信度。区间估计要基于样本统计量的分布规律上,区间通常是样本统计量加减估计误差。以总体均值的区间估计为例阐明其过程和原理。

2.2.1 先正着说

在4.6中我们知道,假设总体均值为 ,总体方差为 ,样本量为n,在大样本的情况下,样本均值是遵从期望为 ,方差为 的正态分布。那我们取一个样本算出一个具体的平均值 ,就相当于在一个服从上述分布的随机变量上面采了一个样。

那么根据概率论与数理统计的基础知识,我们知道,x落在μ正负一个标准差(即 )的概率是0.6827,落在正负两个标准差的概率是0.9545,正负三个标准差的概率是0.9973,还有,落在正负1.65个标准差内的概率是90%,正负1.96个标准差内的概率是95%,正负2.58个标准差内的概率是99%。

2.2.2 再反着说

事实上,总体的均值是不知道的,知道就不用估计了。

但由于正态分布的对称性,上述描述就可以很有意思的转换为:总体均值落在样本均值正负一个样本均值标准差范围内( )的概率是0.6827,两个正负标准差范围内的概率是0.9545,等等等等~

还有一个小问题就是,总体的方差 很多时候也是未知的,因此上述描述是到位了,但 具体是多少啊,不知道~,因此要想办法估计一下 是多少,很简单,就用样本的方差估一下,即



和 都是可以基于样本算出来的具体值,现在可以描述结论了:

总体均值落在 区间的概率是0.6827。神马?你想要的一个置信度为95%的区间,好的,是 。

2.3 总结

① 点估计是简单易理解的,但其只能估计一个值,且无法给出估计的可靠度

② 区间估计可以给出一个区间及对应的置信度,显然区间越大置信度就会越大。我估计接下来一年北京会下雨,置信度100%。

③ 区间估计再怎么厉害,也是要以点估计为基础的,就说上面总体均值的区间估计,使用样本方差估计总体方差的方式还是点估计。

❻ 怎么确定抽样调查中的样本量

(1)重复抽样方式下:

变量总体重复抽样计算公式:

(6)样本估算法扩展阅读

调查研究中样本含量的估算方法:经验法

(1)确定正常值范围的研究,其样本量至少在100以上。

(2)地区性调查样本量通常在500~1000,全国性调查的样本量1500~2500。

(3)描述性研究样本量一般为总体的10%~20%。

(4)探讨多个自变量与一个因变量间的关系,样本量为自变量个数的10~20倍,最好为20倍。

❼ 在统计学中的样本量是如何计算的,置信度是如何计算的

置信度就是用一种方法构造一百个区间如果有95个区间包含总体真值,就说置信度为95%(包含总体真值的区间占总区间的95%)。

E:样本均值的标准差乘以z值,即总的误差。P:目标总体占总体的比例。(比如:一个班级中男生占所有学生的30%。则p=30%)。

样本量从总体中抽取的样本元素的总个数。样本量的计算公式为: N=Z 2 ×(P ×(1-P))/E 2,其中,Z为置信区间、n为样本容量、d为抽样误差范围、σ为标准差,一般取0.5。

在统计学中,当估算一个变量的期望值时,一个经常用到的方法是重复测量此变量的值,然后用所得数据的平均值来作为此变量的期望值的估计。

在概率分布中,期望值和方差或标准差是一种分布的重要特征。

在经典力学中,物体重心的算法与期望值的算法十分近似。

期望值也可以通过方差计算公式来计算方差

参考资料来源:网络:期望值

❽ 如何估算样本量

样本量估算是根据统计的公式进行计算的,统计的要求用到的公式也不一样,一般样本量是根据总体研究对象来决定的,研究对象的总体越大则需要选择的样本量也要越大,这样才能够保证自己的研究结果更加的精准。

❾ 在对两个总体均值之差的小样本估计中,对两个总体和样本都有哪些假定

参数估计方法的未知参数的总体分布包含基于从总体中抽取的样本参数估计估计。它是统计推断的基本形式,是数理统计的一个重要分支,点估计和置信区间被分成两部分。评价标准估计:(1)无偏压,(2)稠度,(3)的效果,(4)是否足够。点估计是包含在样品中,根据估计的总体分布未知参数或未知参数的函数。通常他们是一个功能,整体价值,如数学期望,方差和相关系数。点估计问题是构造一个只依赖于试样的量,作为估计值的未知参数的未知参数或功能。例如,假设一组产品,废品率θ。来估计θ,从n个这些产品随机抽取检查要记住,其中X的废物数量,以X/N估计θ的,这是一个点估计。施工点估计常用的方法有:①矩估计法。估计有总体样本时刻的时刻,估计的样本均值总体均值。②最大似然估计法。由英国统计学家RA费希尔提出在1912年,利用取样密度构造似然函数找到最大似然参数估计。③最小二乘法。主要用于线性统计模型参数估计问题。④贝叶斯估计方法。基于贝叶斯估计(见贝叶斯统计)的角度提出来的。可以用于估计未知参数的估计数目的量,由此产生的问题是如何选择的问题的量的一个良好的估计。我们必须首先设置为良好的准则,这不是可以选择的,根据便利的实际问题和理论研究的唯一标准。出色的准则有两类:一类是小样本准则,即良好的指引,当固定样本大小;另一种是该样本量趋于良好指引无穷标准大样本。最重要的标准是小样本优良的公正和一致最小方差无偏估计有关,其次是允许的标准,以减少最大的标准,准则和其他最优同变。大样本出色的准则有一致性,最优估计和渐近正态性渐近有效的估计。区间估计是基于根据一定的准确度和精度要求绘制的样品,构建一个适当的时间间隔,作为未知参数或其中的总体分布的参数的函数的估计的范围的真正价值。例如,常说多少百分比的确定性保证一定的范围内的一定值时,也就是说,最简单的应用程序的时间间隔估计。1934年J.奈曼统计学家建立了严格的区间估计理论。寻求三种方法中常用的置信区间:①用已知的抽样分布。②使用接触区间估计和假设检验。③采用大样本理论。

❿ 基础:常见的参数估计方法

抽样、样本数据 -->观察数据趋势 -->选择模型 --> 模型参数估计 -->假设检验

误差、残差

关于随机扰动项:随机误差是模型的组成部分,也是数理统计的缘由,因为数理统计就是对带有随机性数据的分析。

点估计:
区间估计:

最小二乘法是数学家高斯在预测行星轨道时提出的。
它的核心思想是:构造 误差平方和函数 ,对其求偏导, 让误差平方和函数取得最小值 的参数就是模型参数。
注意:最小二乘法本质上是一种参数估计方法,它既可以用于线性回归模型的参数估计,也可以用于非线性回归模型(如曲线模型)的参数估计中。可以说 最小二乘法=最小误差平方和 参数估计方法,但 最小二乘法≠线性回归

最大似然估计MLE:maximum likelihood estimation

引用《大嘴巴漫谈数据挖掘》中的解释:

---- 最大似然法认为当前出现的样本正好对应着总体中概率最大的那个事件;
---- 因为,总体中概率最大的事件实际出现(即被抽样选中)的概率是最大的。

因此 ,最大似然参数求解的核心思想就是 构造当前样本出现的联合概率函数 ,对其求偏导,让当前样本的概率最大的就是模型参数。

细说似然函数:
假定条件: 所有的采样都是独立同分布。
-- 独立,则P(x1,x2) = P(x1)*P(x2);同分布,则针对每次采样,模型相同。

推导过程:
假设x1, x2, x3, ...是独立、同分布的抽样。f为我们所使用的模型,θ为模型参数。

根据最大似然法的思路:当前样本数据出现的联合概率最大。因此,我们计算出:

当前样本数据出现的概率 = P(x1,x2,x3,..) = f(x1,x2,x3,..|θ)
其中:
P(x1,x2,x3,..)是概率
f(x1,x2,x3,..|θ)表示函数模型f(x)的每次抽样的输入变量依次为x1,x2,x3,..,且它的参数是θ,计算结果(值)等于概率。本身不是条件概率!不是条件概率!!

因为x1,x2,x3,..独立,则:
f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
同理,f(x1|θ)表示x1次抽样时函数模型的参数为θ,本身不是条件概率!!

为了使f(x1,x2,x3,..|θ) 最大,我们对其求偏导数:
但是,需要注意的是该式中x1,x2,x3,..为已知条件,后者θ为未知项。因此,我们定义一个关于未知项θ的函数—— 似然函数 L(θ):

L(θ|x1,x2,x3,..) = f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
其中,L(θ|x1,x2,x3,..) 表示似然函数的自变量为θ,参数为x1,x2,x3,..,本身不是条件概率!!

继续对L(θ|x1,x2,x3,..) 求偏导……

通常是两边取对数,再求导:

至此,问题出现了如下的逐步替换:
①求解样本数据的最大联合分布概率

②求解使得似然函数L(θ|x1,x2,x3,..)最大的未知参数θ

③求解使得平均对数似然函数1/n * ln L(θ|x1,x2,x3,..)最大的未知参数θ

由上可知最大似然估计的一般求解过程:
(1) 写出似然函数L(θ|x1,x2,x3,..);
(2) 对似然函数取对数,再平均,求得 平均对数似然函数;
(3) 求导数 ;
(4) 解似然方程

先判断似然函数的单调性,再通过导数=0求得似然函数取最大值时的模型参数θ。但是,需注意的是,求导后,导数=0得到的θ为一个确定的值,也符合假设条件:x1,x2,x3,..每次独立抽样的概率模型相同。
但是,需要明白在很多实际情况下,当前获取样本数据并不一定就是真实模型(假如存在的话)中概率最大的那个。基于与大数定律相似的原因,只有在样本数量较多时,这种假设才会成立;在样本数量较小时,当前样本概率最大的假设不成立的机会很大。这也就是最大似然估计的局限所在。

参考:
最大似然估计 博客
深入浅出最大似然估计
wikiwand里 “最大似然估计” 的解释

最大后验概率估计(Maximum a posteriori estimation, 简称MAP)

背景 :正如最大似然估计中假定x1,x2,x3,..每次独立抽样的概率模型相同,现在我们去掉这个假设,将问题复杂化。假如x1,x2,x3,..每次独立抽样的概率模型中的 参数θ不是一个固定值,而是一个符合g(θ)概率分布(先验概率)的随机变量 。这时,我们就需要用到最大后验估计。
Ps:假定条件变了,问题的复杂度方法变了,模型参数的估计方法也要随之改变。

最大后验估计的核心思想 :是以当前样本数据条件下由贝叶斯公式计算出的 整个后验概率最大 模型参数θ 为最终的模型参数。后验=后验概率,最大后验=最大后验概率。
Ps:最大似然估计以让当前样本的概率最大的模型参数θ为最终的模型参数。

再说,“似然” (likelihood)指已经出现事件的发生概率,它并不是“最大似然参数估计方法”的专属名词。在这里,最大后验估计方法中也会涉及似然函数。

先说似然函数:
假设x1, x2, x3, ...是独立抽样,f为我们所使用的模型,θ为模型参数,但是θ不是固定常数,而是具有一定概率分布(先验分布)的随机变量。 模型参数θ的先验分布中的参数则被称为超参数(hyperparameter)

样本数据出现的概率 = P(x1,x2,x3,..) = f(x1,x2,x3,..|θ)
其中:
P(x1,x2,x3,..)是概率
f(x1,x2,x3,..|θ)表示函数模型f(x)的每次抽样的输入变量依次为x1,x2,x3,..,且它的参数是θ,计算结果(值)等于概率。本身不是条件概率!不是条件概率!!

似然函数: L(θ|x1,x2,x3,..) = f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
其中,L(θ|x1,x2,x3,..) 表示似然函数的自变量为θ,参数为x1,x2,x3,..。本身是函数,不是条件概率!

根据贝叶斯公式:
若A、B不完全独立,有相关关系,则P(AB) = P(A|B)*P(B) = P(B|A)*P(A)
→ P(A|B)=P(B|A)*P(A)/P(B)

本问题中, 假如每次独立抽样x的概率模型中参数θ不是常数固定项,而是一个随机变量,且参数θ的先验分布为g(θ) 。同样的,我们就可以对其用贝叶斯公式:

P(θ|x1, x2, x3, ...) = P(x1, x2, x3, ...|θ) * P(θ) / P(x1, x2, x3, ...) =
其中,P(θ|x1, x2, x3, ...)是条件概率,P(x1, x2, x3, ...|θ) 也是条件概率

P(θ|x1, x2, x3, ...) = f(x1, x2, x3, ...|θ) * g(θ) / f(x1, x2, x3, ...) =
其中,f(x1, x2, x3, ...|θ)表示函数模型的值,θ为模型参数,本身不是条件概率。f(x1, x2, x3, ...) 表示函数模型的值。

继续,将f(x)按照每条抽样数据x1, x2, x3,..的展开, P(θ|x1, x2, x3, ...) =

其中,
g(θ) 是模型参数θ的先验分布;
f(x1, x2, x3, ...|θ)表示函数模型的值,等于似然函数。θ为模型参数,本身不是条件概率。

临时插播 :从上式可以看出 后验概率 P(θ|x1, x2, x3, ...) 和 似然函数 f(x1, x2, x3, ...|θ)的差异!二者分别MAP和MLE两种参数估计方法的核心函数,也就是这两种方法计算过程的差异。 后验概率在似然函数的基础上还考虑了先验概率的影响

接下来,最大后验估计的核心就是: 求出使整个后验概率P(θ|x1, x2, x3, ...) 最大的模型参数θ为最终的模型参数

计算略……

结果:与最大似然估计的结果不同,最大后验估计的结果中多了许多超参数,这就是先验在起作用。 模型参数θ的先验分布中的参数则被称为超参数(hyperparameter)

参考:
最大似然估计和最大后验估计
wikiwand 最大后验概率
菜鸟学概率统计——最大后验概率(MAP)
详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

MAP与MLE最大区别是MAP中加入了模型参数本身的概率分布,或者说,MLE中认为模型参数本身的概率的是均匀的,即该概率为一个固定值。当MAP中模型参数θ的先验概率为常数(固定值)时,问题就回到了MLE。

MAP允许我们把先验知识加入到估计模型中,这在样本很少的时候是很有用的,因为样本很少的时候我们的观测结果很可能出现偏差,此时先验知识会把估计的结果“拉”向先验,实际的预估结果将会在先验结果的两侧形成一个顶峰。通过调节先验分布的参数,我们还可以调节把估计的结果“拉”向先验的幅度。这样的参数,我们叫做预估模型的“超参数”。

MLE与MAP两种方法体现了频率学派、贝叶斯学派的观点不同。最大似然估计体现是的频率学派的观点,而最大后验估计体现的是贝叶斯学派的观点。

这里有两点值得注意的地方:
1)随着样本数据量的增加,参数分布会越来越向数据靠拢,先验P(θ)的影响力会越来越小;
2)如果先验是uniform distribution(即P(θ)=常数,模型参数θ为常数),则贝叶斯方法等价于频率方法。因为直观上来讲,先验P(θ)=常数本质上表示对事物没有任何预判。
参考: 频率学派还是贝叶斯学派?聊一聊机器学习中的MLE和MAP

热点内容
安卓返回键在哪里取消 发布:2025-07-12 20:50:17 浏览:799
对比价格的插件或脚本 发布:2025-07-12 20:49:34 浏览:184
android底部抽屉 发布:2025-07-12 20:40:40 浏览:318
php变量括号 发布:2025-07-12 20:40:36 浏览:176
服务器防火墙ip访问限制 发布:2025-07-12 20:35:36 浏览:197
强连通分量算法 发布:2025-07-12 20:12:40 浏览:611
河南科技大学期末编译原理试题 发布:2025-07-12 19:53:17 浏览:46
电脑中的微信聊天记录在哪里存储 发布:2025-07-12 19:47:22 浏览:944
苹果6sp怎么设置密码 发布:2025-07-12 19:28:50 浏览:547
电视下架缓存的还能看吗 发布:2025-07-12 19:14:12 浏览:445