樣本估演算法
❶ 參數估計方法包括什麼和什麼
參數估計
parameter
estimation
根據從總體中抽取的
樣本
估計總體分布中包含的未知
參數
的方法。它是統計推斷的一種基本形式,是數理統計學的一個重要分支,分為點估計和
區間估計
兩部分
。
估計量的評價標准:(1)無偏性,(2)一致性,(3)有效性,(4)充分性。
點估計是
依據
樣本估計總體分布中所含的未知參數或未知參數的
函數
。通常它們是總體的某個
特徵值
,如數學期望、
方差
和
相關系數
等。點估計問題就是要構造一個只依賴於樣本的量,作為未知參數或未知參數的函數的
估計值
。例如,設一批產品的
廢品率
為θ。為估計θ,從這批產品中隨機地抽出n個作檢查,以X記其中的廢品個數,用X/n估計θ,這就是一個點估計。
構造
點估計常用的方法是:①矩
估計法
。用
樣本矩
估計總體矩,如用
樣本均值
估計
總體均值
。②最大
似然
估計法。於1912年由英國統計學家R.A.費希爾提出,利用樣本
分布密度
構造
似然函數
來求出參數的最大似然估計。③
最小二乘法
。主要用於
線性統計模型
中的參數估計問題。④
貝葉斯估計
法。基於貝葉斯學派(見貝葉斯統計)的觀點而提出的估計法。可以用來估計未知參數的估計量很多,於是產生了怎樣選擇一個優良估計量的問題。首先必須對優良性定出
准則
,這種准則是不唯一的,可以根據
實際
問題和理論研究的方便進行選擇。優良性准則有兩大類:一類是小樣本准則,即在樣本
大小
固定時的優良性准則;另一類是
大樣本
准則,即在樣本大小趨於無窮時的優良性准則。最重要的小樣本優良性准則是無偏性及與此相關的一致
最小方差
無偏估計
,其次有容許性准則,最小化
最大准則
,最優同變准則等。大樣本優良性准則有相合性、最優漸近
正態
估計和漸近有效估計等。
區間估計是依據抽取的樣本,根據一定的
正確度
與
精確度
的要求,構造出適當的
區間
,作為總體分布的未知參數或參數的函數的真值所在
范圍
的估計。例如人們常說的有百分之多少的把握保證某值在某個范圍內,即是區間估計的最簡單的應用。1934年統計學家J.奈曼創立了一種嚴格的區間估計
理論
。求
置信區間
常用的三種方法:①利用已知的抽樣分布。②利用區間估計與假設檢驗的聯系。③利用
大樣本理論
。
❷ 小弟有個比較大的樣本需要估算其均值。樣本數量級為100w。在沒有什麼好點的方法。
數量級是100W,不可能把100W個數加起來算均值。
你可以隨機抽取其中1W個來算均值,如果1W個也多,可以1000個,
❸ 如何估計調查前的樣本容量 簡單易懂
在95%的置信度下,允許誤差5%,樣本容量需要400才能最大限度地滿足調查要求。
樣本容量又稱「樣本數」。指一個樣本的必要抽樣單位數目。在組織抽樣調查時,抽樣誤差的大小直接影響樣本指標代表性的大小,而必要的樣本單位數目是保證抽樣誤差不超過某一給定范圍的重要因素之一。因此,在抽樣設計時,必須決定樣本單位數目,因為適當的樣本單位數目是保證樣本指標具有充分代表性的基本前提。
樣本容量的大小涉及到調研中所要包括的單元數。樣本容量是對於你研究的總體而言的,是在抽樣調查中總體的一些抽樣。比如:中國人的身高值為一個總體,你隨機取一百個人的身高,這一百個人的身高數據就是總體的一個樣本。某一個樣本中的個體的數量就是樣本容量。注意:不能說樣本的數量就是樣本容量,因為總體中的若干個個體只組成一個樣本。樣本容量不需要帶單位。
在假設檢驗里樣本容量越大越好。但實際上不可能無窮大,就像你研究中國人的身高不可能把所有中國人的身高都量一量一樣。
樣本容量問題
回歸分析是從已經發生的經濟活動的樣本數據中尋找經濟活動中內含的規律性,它對樣本數據具有很強的依賴性。樣本的容量太小會導致參數估計值的大小和符號違反經濟理論和實際經驗。從建模需要來講,樣本容量越大越好,但收集與整理樣本數據是一件困難的工作,因此,選擇合適的樣本容量,既能滿足模型估計的需要,又能減輕收集數據的困難,是一個重要的實際問題。
(1) 最小樣本容量
所謂「最小樣本容量」,即從普通最小二乘法原理出發,欲得到參數估計量,不管其質量如何,所要求的樣本容量的下限,它是:n≥k+1
其中,k為解釋變數的數目。
(2) 滿足基本要求的樣本容量
一般經驗認為,當n≥30或者至少n≥3(k+1)時,才能滿足模型估計的基本要求。
❹ 怎麼評估樣本量求統計學高手指導!
實驗法一般都用小樣本,即n小於30.
如果非要用公式算,可以用下面的公式:
n= (雙邊檢驗的Z值的平方*某變數的方差) / (允許的變數抽樣誤差的平方)
其中,某變數可以根據研究的問題或需要自行選取,要求數值已知。
例如:用抽樣調查了解學生平均每周上網時間,置信度為0.9,誤差要求在1小時以內,求所需樣本規模。(已知標准差為5.) 。
根據上述公式計算得到n=68
❺ 5.1 參數估計的概念及兩種估計方法
參數估計是在樣本統計量概率分布的基礎上,利用樣本的信息推斷所關心的總體參數的過程。
① 基於樣本統計量的概率分布:如前所述,樣本統計量是一個隨機變數,有其自身的概率分布、期望、方差等。在分析一個樣本集時,需要基於此統計學知識;
② 利用樣本的信息:樣本是我們唯一有的數據,一切的統計基於樣本數據;
③ 推斷所關心的總體參數是目的。比如,利用樣本的均值推斷總體的均值,利用樣本的方差推斷總體的方差。
PS1:利用樣本的均值作為總體均值的估計,是直觀且不需要解釋的。樣本統計量(此處指均值)的概率分布,是為這個估計提供置信度等信息的。
PS2:利用樣本均值去估計總體均值時,總體均值是一個待被估計的總體參數,可以用 表示。樣本均值叫做 估計量 ,用 表示,是一個統計量;實際採集了一個樣本算出了其平均值,這叫一個估計值
2.1 點估計
點估計指基於一個樣本算出的估計量的一個具體取值,直接作為總體參數的估計值 的估計方式 。這個話說的很車軲轆,舉個栗子,當我要估計中國人的平均身高時,我採集了一個樣本,其包含了1W個人的身高狀況,然後我算出來均值,並用這個均值作為全體中國人平均身高的估計值。就是這么簡單。
點估計的優點是很直觀易理解,給小學生講一下應該也能聽懂。
不好懂的是點估計的缺點: 點估計無法給出估計的可靠性 。繼續舉栗子,當我們取了1W個平均身高並算出平均值是1.68時,我們並不能說,全國人民的平均身高100%就是1.68。事實上,平均身高可能是1.86,就算這樣我們也仍然有可能恰好採到了一個平均身高只有1.68的樣本,只不過這個概率比較小而已。再說得反直覺一點,全國人民的平均身高恰恰好好就是1.68的可能性其實是非常低的,但落在[1.67,1.69]的可能性就比較大,至少比落在[1.80, +]的可能性是大多了。問題就在於,點估計無法定量的給出這些區間以及對應的可能性大小。所以才有了更專業一點的區間估計。
2.2 區間估計
區間估計是在點估計的基礎上,給出總體參數估計的一個估計區間,並給出相應的置信度。區間估計要基於樣本統計量的分布規律上,區間通常是樣本統計量加減估計誤差。以總體均值的區間估計為例闡明其過程和原理。
2.2.1 先正著說
在4.6中我們知道,假設總體均值為 ,總體方差為 ,樣本量為n,在大樣本的情況下,樣本均值是遵從期望為 ,方差為 的正態分布。那我們取一個樣本算出一個具體的平均值 ,就相當於在一個服從上述分布的隨機變數上面采了一個樣。
那麼根據概率論與數理統計的基礎知識,我們知道,x落在μ正負一個標准差(即 )的概率是0.6827,落在正負兩個標准差的概率是0.9545,正負三個標准差的概率是0.9973,還有,落在正負1.65個標准差內的概率是90%,正負1.96個標准差內的概率是95%,正負2.58個標准差內的概率是99%。
2.2.2 再反著說
事實上,總體的均值是不知道的,知道就不用估計了。
但由於正態分布的對稱性,上述描述就可以很有意思的轉換為:總體均值落在樣本均值正負一個樣本均值標准差范圍內( )的概率是0.6827,兩個正負標准差范圍內的概率是0.9545,等等等等~
還有一個小問題就是,總體的方差 很多時候也是未知的,因此上述描述是到位了,但 具體是多少啊,不知道~,因此要想辦法估計一下 是多少,很簡單,就用樣本的方差估一下,即
。
和 都是可以基於樣本算出來的具體值,現在可以描述結論了:
總體均值落在 區間的概率是0.6827。神馬?你想要的一個置信度為95%的區間,好的,是 。
2.3 總結
① 點估計是簡單易理解的,但其只能估計一個值,且無法給出估計的可靠度
② 區間估計可以給出一個區間及對應的置信度,顯然區間越大置信度就會越大。我估計接下來一年北京會下雨,置信度100%。
③ 區間估計再怎麼厲害,也是要以點估計為基礎的,就說上面總體均值的區間估計,使用樣本方差估計總體方差的方式還是點估計。
❻ 怎麼確定抽樣調查中的樣本量
(1)重復抽樣方式下:
變數總體重復抽樣計算公式:
(6)樣本估演算法擴展閱讀
調查研究中樣本含量的估算方法:經驗法
(1)確定正常值范圍的研究,其樣本量至少在100以上。
(2)地區性調查樣本量通常在500~1000,全國性調查的樣本量1500~2500。
(3)描述性研究樣本量一般為總體的10%~20%。
(4)探討多個自變數與一個因變數間的關系,樣本量為自變數個數的10~20倍,最好為20倍。
❼ 在統計學中的樣本量是如何計算的,置信度是如何計算的
置信度就是用一種方法構造一百個區間如果有95個區間包含總體真值,就說置信度為95%(包含總體真值的區間占總區間的95%)。
E:樣本均值的標准差乘以z值,即總的誤差。P:目標總體占總體的比例。(比如:一個班級中男生占所有學生的30%。則p=30%)。
樣本量從總體中抽取的樣本元素的總個數。樣本量的計算公式為: N=Z 2 ×(P ×(1-P))/E 2,其中,Z為置信區間、n為樣本容量、d為抽樣誤差范圍、σ為標准差,一般取0.5。
在統計學中,當估算一個變數的期望值時,一個經常用到的方法是重復測量此變數的值,然後用所得數據的平均值來作為此變數的期望值的估計。
在概率分布中,期望值和方差或標准差是一種分布的重要特徵。
在經典力學中,物體重心的演算法與期望值的演算法十分近似。
期望值也可以通過方差計算公式來計算方差
參考資料來源:網路:期望值
❽ 如何估算樣本量
樣本量估算是根據統計的公式進行計算的,統計的要求用到的公式也不一樣,一般樣本量是根據總體研究對象來決定的,研究對象的總體越大則需要選擇的樣本量也要越大,這樣才能夠保證自己的研究結果更加的精準。
❾ 在對兩個總體均值之差的小樣本估計中,對兩個總體和樣本都有哪些假定
參數估計方法的未知參數的總體分布包含基於從總體中抽取的樣本參數估計估計。它是統計推斷的基本形式,是數理統計的一個重要分支,點估計和置信區間被分成兩部分。評價標准估計:(1)無偏壓,(2)稠度,(3)的效果,(4)是否足夠。點估計是包含在樣品中,根據估計的總體分布未知參數或未知參數的函數。通常他們是一個功能,整體價值,如數學期望,方差和相關系數。點估計問題是構造一個只依賴於試樣的量,作為估計值的未知參數的未知參數或功能。例如,假設一組產品,廢品率θ。來估計θ,從n個這些產品隨機抽取檢查要記住,其中X的廢物數量,以X/N估計θ的,這是一個點估計。施工點估計常用的方法有:①矩估計法。估計有總體樣本時刻的時刻,估計的樣本均值總體均值。②最大似然估計法。由英國統計學家RA費希爾提出在1912年,利用取樣密度構造似然函數找到最大似然參數估計。③最小二乘法。主要用於線性統計模型參數估計問題。④貝葉斯估計方法。基於貝葉斯估計(見貝葉斯統計)的角度提出來的。可以用於估計未知參數的估計數目的量,由此產生的問題是如何選擇的問題的量的一個良好的估計。我們必須首先設置為良好的准則,這不是可以選擇的,根據便利的實際問題和理論研究的唯一標准。出色的准則有兩類:一類是小樣本准則,即良好的指引,當固定樣本大小;另一種是該樣本量趨於良好指引無窮標准大樣本。最重要的標準是小樣本優良的公正和一致最小方差無偏估計有關,其次是允許的標准,以減少最大的標准,准則和其他最優同變。大樣本出色的准則有一致性,最優估計和漸近正態性漸近有效的估計。區間估計是基於根據一定的准確度和精度要求繪制的樣品,構建一個適當的時間間隔,作為未知參數或其中的總體分布的參數的函數的估計的范圍的真正價值。例如,常說多少百分比的確定性保證一定的范圍內的一定值時,也就是說,最簡單的應用程序的時間間隔估計。1934年J.奈曼統計學家建立了嚴格的區間估計理論。尋求三種方法中常用的置信區間:①用已知的抽樣分布。②使用接觸區間估計和假設檢驗。③採用大樣本理論。
❿ 基礎:常見的參數估計方法
抽樣、樣本數據 -->觀察數據趨勢 -->選擇模型 --> 模型參數估計 -->假設檢驗
誤差、殘差
關於隨機擾動項:隨機誤差是模型的組成部分,也是數理統計的緣由,因為數理統計就是對帶有隨機性數據的分析。
點估計:
區間估計:
最小二乘法是數學家高斯在預測行星軌道時提出的。
它的核心思想是:構造 誤差平方和函數 ,對其求偏導, 讓誤差平方和函數取得最小值 的參數就是模型參數。
注意:最小二乘法本質上是一種參數估計方法,它既可以用於線性回歸模型的參數估計,也可以用於非線性回歸模型(如曲線模型)的參數估計中。可以說 最小二乘法=最小誤差平方和 參數估計方法,但 最小二乘法≠線性回歸 。
最大似然估計MLE:maximum likelihood estimation
引用《大嘴巴漫談數據挖掘》中的解釋:
---- 最大似然法認為當前出現的樣本正好對應著總體中概率最大的那個事件;
---- 因為,總體中概率最大的事件實際出現(即被抽樣選中)的概率是最大的。
因此 ,最大似然參數求解的核心思想就是 構造當前樣本出現的聯合概率函數 ,對其求偏導,讓當前樣本的概率最大的就是模型參數。
細說似然函數:
假定條件: 所有的采樣都是獨立同分布。
-- 獨立,則P(x1,x2) = P(x1)*P(x2);同分布,則針對每次采樣,模型相同。
推導過程:
假設x1, x2, x3, ...是獨立、同分布的抽樣。f為我們所使用的模型,θ為模型參數。
根據最大似然法的思路:當前樣本數據出現的聯合概率最大。因此,我們計算出:
當前樣本數據出現的概率 = P(x1,x2,x3,..) = f(x1,x2,x3,..|θ)
其中:
P(x1,x2,x3,..)是概率
f(x1,x2,x3,..|θ)表示函數模型f(x)的每次抽樣的輸入變數依次為x1,x2,x3,..,且它的參數是θ,計算結果(值)等於概率。本身不是條件概率!不是條件概率!!
因為x1,x2,x3,..獨立,則:
f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
同理,f(x1|θ)表示x1次抽樣時函數模型的參數為θ,本身不是條件概率!!
為了使f(x1,x2,x3,..|θ) 最大,我們對其求偏導數:
但是,需要注意的是該式中x1,x2,x3,..為已知條件,後者θ為未知項。因此,我們定義一個關於未知項θ的函數—— 似然函數 L(θ):
L(θ|x1,x2,x3,..) = f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
其中,L(θ|x1,x2,x3,..) 表示似然函數的自變數為θ,參數為x1,x2,x3,..,本身不是條件概率!!
繼續對L(θ|x1,x2,x3,..) 求偏導……
通常是兩邊取對數,再求導:
至此,問題出現了如下的逐步替換:
①求解樣本數據的最大聯合分布概率
↓
②求解使得似然函數L(θ|x1,x2,x3,..)最大的未知參數θ
↓
③求解使得平均對數似然函數1/n * ln L(θ|x1,x2,x3,..)最大的未知參數θ
由上可知最大似然估計的一般求解過程:
(1) 寫出似然函數L(θ|x1,x2,x3,..);
(2) 對似然函數取對數,再平均,求得 平均對數似然函數;
(3) 求導數 ;
(4) 解似然方程
先判斷似然函數的單調性,再通過導數=0求得似然函數取最大值時的模型參數θ。但是,需注意的是,求導後,導數=0得到的θ為一個確定的值,也符合假設條件:x1,x2,x3,..每次獨立抽樣的概率模型相同。
但是,需要明白在很多實際情況下,當前獲取樣本數據並不一定就是真實模型(假如存在的話)中概率最大的那個。基於與大數定律相似的原因,只有在樣本數量較多時,這種假設才會成立;在樣本數量較小時,當前樣本概率最大的假設不成立的機會很大。這也就是最大似然估計的局限所在。
參考:
最大似然估計 博客
深入淺出最大似然估計
wikiwand里 「最大似然估計」 的解釋
最大後驗概率估計(Maximum a posteriori estimation, 簡稱MAP)
背景 :正如最大似然估計中假定x1,x2,x3,..每次獨立抽樣的概率模型相同,現在我們去掉這個假設,將問題復雜化。假如x1,x2,x3,..每次獨立抽樣的概率模型中的 參數θ不是一個固定值,而是一個符合g(θ)概率分布(先驗概率)的隨機變數 。這時,我們就需要用到最大後驗估計。
Ps:假定條件變了,問題的復雜度方法變了,模型參數的估計方法也要隨之改變。
最大後驗估計的核心思想 :是以當前樣本數據條件下由貝葉斯公式計算出的 整個後驗概率最大 的 模型參數θ 為最終的模型參數。後驗=後驗概率,最大後驗=最大後驗概率。
Ps:最大似然估計以讓當前樣本的概率最大的模型參數θ為最終的模型參數。
再說,「似然」 (likelihood)指已經出現事件的發生概率,它並不是「最大似然參數估計方法」的專屬名詞。在這里,最大後驗估計方法中也會涉及似然函數。
先說似然函數:
假設x1, x2, x3, ...是獨立抽樣,f為我們所使用的模型,θ為模型參數,但是θ不是固定常數,而是具有一定概率分布(先驗分布)的隨機變數。 模型參數θ的先驗分布中的參數則被稱為超參數(hyperparameter) 。
樣本數據出現的概率 = P(x1,x2,x3,..) = f(x1,x2,x3,..|θ)
其中:
P(x1,x2,x3,..)是概率
f(x1,x2,x3,..|θ)表示函數模型f(x)的每次抽樣的輸入變數依次為x1,x2,x3,..,且它的參數是θ,計算結果(值)等於概率。本身不是條件概率!不是條件概率!!
似然函數: L(θ|x1,x2,x3,..) = f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
其中,L(θ|x1,x2,x3,..) 表示似然函數的自變數為θ,參數為x1,x2,x3,..。本身是函數,不是條件概率!
根據貝葉斯公式:
若A、B不完全獨立,有相關關系,則P(AB) = P(A|B)*P(B) = P(B|A)*P(A)
→ P(A|B)=P(B|A)*P(A)/P(B)
本問題中, 假如每次獨立抽樣x的概率模型中參數θ不是常數固定項,而是一個隨機變數,且參數θ的先驗分布為g(θ) 。同樣的,我們就可以對其用貝葉斯公式:
P(θ|x1, x2, x3, ...) = P(x1, x2, x3, ...|θ) * P(θ) / P(x1, x2, x3, ...) =
其中,P(θ|x1, x2, x3, ...)是條件概率,P(x1, x2, x3, ...|θ) 也是條件概率
↓
P(θ|x1, x2, x3, ...) = f(x1, x2, x3, ...|θ) * g(θ) / f(x1, x2, x3, ...) =
其中,f(x1, x2, x3, ...|θ)表示函數模型的值,θ為模型參數,本身不是條件概率。f(x1, x2, x3, ...) 表示函數模型的值。
↓
繼續,將f(x)按照每條抽樣數據x1, x2, x3,..的展開, P(θ|x1, x2, x3, ...) =
其中,
g(θ) 是模型參數θ的先驗分布;
f(x1, x2, x3, ...|θ)表示函數模型的值,等於似然函數。θ為模型參數,本身不是條件概率。
臨時插播 :從上式可以看出 後驗概率 P(θ|x1, x2, x3, ...) 和 似然函數 f(x1, x2, x3, ...|θ)的差異!二者分別MAP和MLE兩種參數估計方法的核心函數,也就是這兩種方法計算過程的差異。 後驗概率在似然函數的基礎上還考慮了先驗概率的影響 。
接下來,最大後驗估計的核心就是: 求出使整個後驗概率P(θ|x1, x2, x3, ...) 最大的模型參數θ為最終的模型參數 。
計算略……
結果:與最大似然估計的結果不同,最大後驗估計的結果中多了許多超參數,這就是先驗在起作用。 模型參數θ的先驗分布中的參數則被稱為超參數(hyperparameter) 。
參考:
最大似然估計和最大後驗估計
wikiwand 最大後驗概率
菜鳥學概率統計——最大後驗概率(MAP)
詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解
MAP與MLE最大區別是MAP中加入了模型參數本身的概率分布,或者說,MLE中認為模型參數本身的概率的是均勻的,即該概率為一個固定值。當MAP中模型參數θ的先驗概率為常數(固定值)時,問題就回到了MLE。
MAP允許我們把先驗知識加入到估計模型中,這在樣本很少的時候是很有用的,因為樣本很少的時候我們的觀測結果很可能出現偏差,此時先驗知識會把估計的結果「拉」向先驗,實際的預估結果將會在先驗結果的兩側形成一個頂峰。通過調節先驗分布的參數,我們還可以調節把估計的結果「拉」向先驗的幅度。這樣的參數,我們叫做預估模型的「超參數」。
MLE與MAP兩種方法體現了頻率學派、貝葉斯學派的觀點不同。最大似然估計體現是的頻率學派的觀點,而最大後驗估計體現的是貝葉斯學派的觀點。
這里有兩點值得注意的地方:
1)隨著樣本數據量的增加,參數分布會越來越向數據靠攏,先驗P(θ)的影響力會越來越小;
2)如果先驗是uniform distribution(即P(θ)=常數,模型參數θ為常數),則貝葉斯方法等價於頻率方法。因為直觀上來講,先驗P(θ)=常數本質上表示對事物沒有任何預判。
參考: 頻率學派還是貝葉斯學派?聊一聊機器學習中的MLE和MAP