條件分布演算法
A. 貝葉斯網專題1:資訊理論基礎
目錄
[toc]
貝葉斯網是一種將概率統計應用於復雜領域,進行不確定性推理和數據分析的工具,其在機器學習和人工智慧領域具有重要的基礎性地位。從技術層面講,貝葉斯網可系統地描述隨機變數之間關系,構造貝葉斯網的主要目的是進行概率推理。
理論上,進行概率推理只需要一個聯合概率分布即可,但聯合概率分布的復雜度與隨機變數規模呈指數級關系,在解決實際問題時不可行。貝葉斯網為解決該問題提供了方法,通過貝葉斯網可將復雜的聯合概率分布分解為一系列規模較小的子模塊,從而降低訓練和推理的復雜度。
本人將主要依據香港科大張連文教授的《貝葉斯網引論》,對其中重要內容進行精煉,並通過接下來的幾篇博客對貝葉斯網展開專題介紹,分三大部分進行:
資訊理論是基於概率論的一門研究信息傳輸和處理的數學理論。它不僅是信息技術的基礎,也在統計力學、機器學習等領域發揮重要作用。在構建貝葉斯網的過程中,可以用資訊理論來進行分析。
Jesen不等式源於函數的凹凸性。在數學中,稱一個函數為凹函數是指向上凹,凸函數是指向下凸,如下圖所示。
證明
用歸納法證明,當 時,式(1)恆等。假設式(1)在 時成立,證明它在 時也成立,即:
命題得證。
Jensen不等式是與函數凹凸性有關的基本性質,在資訊理論中常會用到,比如用於計算信息熵的對數函數就滿足凹函數的Jensen不等式,這在後文證明信息熵的性質時會用到。
一個離散隨機變數 的熵 的定義為:
其中,約定 .上式的對數若以2為底,則熵的單位是比特,若以e為底,則單位是奈特,後文將都以比特為單位。
熵在熱力學中表示系統的混亂程度,在概率論中表示隨機變數的不確定程度,在資訊理論中表示對信源的期望編碼長度。
先來解釋下資訊理論中期望編碼長度:假設有一個信源,可產生A、B、C三種不同的信息,產生的概率分別為1/2、1/4和1/4,我們要設計一套編碼系統來記錄這個信源所產生的信息,所用的比特位數越少越好。顯然,我們應該為出現概率大的信息分配碼長較短的編碼,其長度可通過 來確定,比如我們為A分配碼長為1的編碼,為B和C分配碼長為2的編碼,通過霍夫曼編碼演算法,可將A編碼為0,將B和C編碼為10和11.此時,該信源的編碼平均碼長則為
由此我們可知,熵代表了對信源進行最優編碼時的期望編碼長度。反過來看,如果將這個信源用一個隨機變數來表示,若該隨機變數的不確定性越高(產生的信息種類越多、各種類出現的概率越平均),則需要用來編碼該信源的期望編碼長度也會越大,反之則越短。因而,熵又可以表示隨機變數的不確定程度。
例如,一個取值為0或1的隨機變數 ,計 ,根據熵的定義,有:
隨著p的變化, 的變化曲線如下圖:
證明:
(1)根據熵的定義, 顯然成立。
(2)log為上凹函數,根據Jensen不等式有:
命題得證。
聯合熵是基於聯合概率分布對熵的推廣。兩個離散隨機變數X和Y的聯合熵定義為:
條件熵是基於條件概率分布對熵的推廣。隨機變數X的熵時用它的概率分布P(X)來定義的。如果知道另一個隨機變數Y的取值為y,那麼X的條件分布即為P(X|Y=y)。利用此條件分布可定義給定Y=y時X的條件熵:
熵H(X)度量的是隨機變數X的不確定性,條件熵H(X|Y=y)度量的則是已知Y=y後,X的不確定性。
上式(3)中,當y變化時,H(X|Y=y)也會發生改變,當知道Y的概率分布後,可以計算X關於Y的條件熵的期望值:
H(X|Y)稱為給定Y時X的條件熵。
注意:H(X|Y)和H(X|Y=y)不一樣,後者是已知Y取某一特定值時X的條件熵,即已知Y=y後,X剩餘的不確定性。而前者時在未知Y的取值時,對觀測到Y的取值後X剩餘的不確定性的期望值。尤其值得注意的是,H(X|Y=y)可能比H(X)大,即知道Y的某個具體取值後,有可能增大對X的不確定性。而H(X|Y)永遠不會比H(X)大,即平均來說,知道Y不會增加X的不確定性。下面給出一個具體的例子加以比較:
設已知聯合分布P(X,Y)及其邊緣分布P(X)和P(Y)如下表所示:
從而可得出:
可以看到:觀測到 後,可使X的熵減小;觀測到 後,反而使X的熵增大;但平均而言,對Y的觀測使X的熵減小。
由此,我們定義互信息量為:
稱為Y關於X的信息,表示Y中包含多少關於X的信息。很容易證明 ,因此又稱之為X和Y之間的互信息。
證明:
同理可得:
因此, 得證。
證明:
同理可證
證明:
等式左邊:
等式右邊:
從而等式成立。
聯合熵、條件熵和互信息之間的關系,可用如下文氏圖來表示它們之間的關系:
在1.1.2節介紹熵的概念時,介紹了熵的期望編碼長度的意義。交叉熵的概念也可以從期望編碼長度的意義出發進行理解。
若信源X的理論概率分布為Q(X),但其實際概率分布為P(X),則使用理論概率分布構建的霍夫曼編碼在實際概率分布下的期望編碼長度即為交叉熵,定義為:
相對熵則定義為交叉熵與熵之差,即按照信源的理論概率分布Q設計的最優編碼的期望碼長會比按照實際概率分布P設計的最優編碼的期望碼長多幾個比特。其定義如下:
其中約定: ; .
KL(P,Q)又稱為P(X)和Q(X)之間的Kullback-Leibler距離,或KL散度。但嚴格來講,它並不是一個真正意義的距離,因為其不滿足對稱性。
證明:
信息不等式得證。
利用KL散度可以度量兩個概率分布之間的差異。
從1.1.3節給出的聯合熵、條件熵與互信息之間關系的文氏圖可以看出:對於隨機變數X和Y,當互信息I(X,Y)=0時,X和Y相互獨立;且 ,等號也在X和Y獨立時成立。我們也可以給出嚴格證明。
證明:
由KL散度大於等於0可得: ,當且僅當P(X,Y)=P(X)P(Y)時等號成立,即X與Y相互獨立。
由於 ,所以 ,等號在X與Y相互獨立時成立。
從資訊理論的角度,我們可以看出:兩個隨機變數相互獨立等價於它們之間的互信息為0.
該結論還可以進一步推廣到三個隨機變數的情況。
對於隨機變數X,Y,Z,條件熵H(X|Z)是給定Z時X剩餘的不確定性,如果再進一步給定Y,X剩餘的不確定性變為H(X|Z,Y)。這兩者之差即為給定Z時觀測Y的取值會帶來的關於X的信息量,即給定Z時X和Y之間的條件互信息,定義如下:
類似上文證明 ,我們也容易證明:
類似上文證明 和 ,我們也容易證明:
其中等號僅在X與Y在給定Z時互相獨立的情況下成立,記作 .
從資訊理論的角度,我們可以看出:給定Z時,兩個隨機變數X和Y相互條件獨立等價於它們的條件互信息為0,即Y關於X的信息已全部包含在Z中,從而觀測到Z後,再對Y進行觀測不會帶來關於X更多的信息。另一方面,如果X和Y在給定Z時相互不獨立,則 ,即在已知Z的基礎上對Y的進一步觀測將會帶來關於X的新信息,從而降低X的不確定性。
B. 概率怎麼過啊
概率論與數理統計初步主要考查考生對研究隨機現象規律性的基本概念、基本理論和基本方法的理解,以及運用概率統計方法分析和解決實際問題的能力。
隨機事件和概率考查的主要內容有:
(1)事件之間的關系與運算,以及利用它們進行概率計算;
概率論與數理統計知識點與考點
第一章知識點:18
§1.1 隨機試驗:隨機試驗的三個特點。
(1)樣本空間:樣本空間;樣本點;
(2)隨機事件:隨機事件;事件發生;基本事件;必然事件;不可能事件;
(3)事件間的關系與事件的運算:包含關系;相等關系;互不相容;和事件、積事件、
差事件、對立事件;
(4)事件的運算律。
§1.2、概率的定義及運算:
(1)頻率定義;(2)概率的統計定義,(3)概率公理化定義,(4)古典概型,(5)幾何概型
§1.3、條件概率:
(1)定義;(2)性質;(3)乘法公式。(4)全概率公式,(5)貝葉斯公式;,
§1.4事件的獨立性:(1)兩事件相互獨立的性質;(2)三(多)個事件相互獨立的定義,(3)伯努利試驗模型
考點:1、事件的表示和運算,2、有關概率基本性質的命題,3、古典概型的計算,
4、幾何概型的計算,5、事件的獨立性的命題,6、條件概率與積事件概率的計算,
7、全概率公式和Bayce公式的命題,8、Bernoulli試驗。
第二章知識點:19
§2.1 (1) 隨機變數的定義;(2)隨機變數的分布函數及其性質
§2.2 離散型隨機變數及其概率分布:
(1)離散型隨機變數的定義;
(2)離散型隨機變數的分布律;
幾種常見的離散型隨機變數:(1) (0-1)分布;(2) 二項分布;(3) 泊松分布;
(4)超幾何分布;(5)幾何分布;(6)帕斯卡(Pascal)分布,
掌握每一種分布的模型,寫出其分布律或分布密度。
§2.3連續型隨機變數及其概率分布:
(1)分布函數的定義;
(2)分布函數的基本性質;
(3)分布函數與離散型隨機變數的分布律之間的聯系;
(4)連續型隨機變數的概率密度的定義;
(5)概率密度的性質;
幾種常見的連續型隨機變數
(一)均勻分布:(1)概率密度;(2)分布函數;
(二)正太分布:(1)概率密度;(2)分布函數;
§2.4 隨機變數的函數的分布
(1)離散型隨機變數的函數的分布
(2)連續型隨機變數的函數的分布
考點:1、有關分布律、分布函數以及分布密度的基本概念的命題,
2、有關分布律、分布密度以及分布函數之間的關系的命題,
3、已知事件發生的概率,反求事件中的參數,4、利用常見分布求相關事件的概率,
5、求隨機變數的分布律、分布密度以及分布函數,6、求隨機變數函數的分布。
第三章知識點:13
§3.1 多維隨機變數及其分布
(一)(1)二維隨機變數的定義;
(二)(1)二維隨機變數的聯合分布函數的定義與基本性質;(2)邊緣分布函數的定義與基本性質
(三)離散型的二維隨機變數:(1)聯合分布律,(2)邊緣分布律,(3)分布函數;
(四)連續型的二維隨機變數:(1)聯合概率密度,(2)邊緣概率密度,(3)有關性質
(五)推廣:(1)n維隨機變數及其分布
§3.2二維隨機變數的條件分布 (不講,不考)
§3.3 (1)二維隨機變數的獨立性的定義;
§3.4 兩個隨機變數的函數及其分布:(1)兩個離散型隨機變數的函數的概率分布,
(2)兩個連續型隨機變數的函數的概率分布(主要是和以及最值)
考點:1、有關二維隨機變數及其分布的基本概念和性質的命題,
2、有給定的試驗確定各種概率分布,
3、由給定的事件或隨機變數定義新的二維隨機變數的聯合分布的計算,
4、由給定的聯合分布或聯合密度求邊緣分布,
5、利用已知分布、獨立性等計算相關事件的概率,6、求隨機變數函數的分布,
7、隨機變數的獨立性。
第四章知識點:15
§4.1(一)離散型隨機變數的數學期望的定義;(二)連續型隨機變數的數學期望的定義;
(三)隨機變數的函數的數學期望; (四)數學期望的性質
§4.2隨機變數的(1)方差的定義;(2)標准差;(3)性質。(4)離散型及連續型隨機變數的方差;(5)方差的計算公式;
§4.3(1泊松分布數學期望與方差、(2)均勻分布數學期望與方差、(3)指數分布的數學期望與方差;(4)二項分布數學期望與方差、(5)正態分布的數學期望與方差;
§4.4(1)協方差與相關系數的定義及計算;(2)矩的定義及計算。
考點:1、求離散型隨機變數的期望與方差,2、求連續型隨機變數的期望與方差,
3、求隨機變數函數的期望與方差,4、有關協方差、相關系數、矩的討論與計算。
第五章知識點:5
§5.1 大數定律
(一)切比雪夫不等式及應用
(二)(1)伯努利大數定律,(2)切比雪夫大數定律
§5.2 中心極限定理
(一)獨立同分布中心極限定理;
(二)德莫佛-拉普拉斯定理及其應用舉例
考點:1、有關車比雪夫不等式與大數定律的命題,2、有關中心極限定理的命題。
第六章知識點:10
§6.1 隨機樣本:(1)總體,個體,簡單隨機樣本,樣本值等;(2)統計量定義;
幾個常用的統計量:(1)樣本均值,(2)樣本方差,(3)樣本標准差等;(4)階樣本原點矩,(5)階樣本中心矩。
§6.2抽樣分布:(1)分布,(2)分布(學生分布),(3)常見統計量的分布。
考點:1、求樣本的聯合分布函數,2、求統計量的數字特徵,3、求統計量的分布,
4、求統計量取值的概率、樣本的容量。
第七章知識點:12
§7.1參數的點估計方法: (1)矩估計法;(2)極大似然估計法
似然函數:離散型;連續型;
§7.2點估計的評價標准
(一)(1)無偏性、(2)有效性、(3)一致性(自學)
§7.3 區間估計
(一)區間估計的概念:(1)置信區間,置信水平;樞軸量。
(二)(1)求未知參數的置信區間的步驟
(三)正態總體均值與方差的區間估計(只講單正態總體情形)
(1)均值的置信區間;(2)方差的置信區間;(3)單側置信區間;
考點:1、求矩法估計和極大似然估計,2、估計量的評選標準的討論,
3、求參數的區間估計。
第八章知識點:10
§8.1 (一) 假設檢驗的基本概念:(1)檢驗統計量;原假設;備擇假設;拒絕域;(2)兩類錯誤;
(二)(1)假設檢驗的程序;
§8.2 (一)單個正態總體均值的假設檢驗
(1)已知,檢驗(Z檢驗) (2)未知,檢驗(t檢驗)
(三) 單個正態總體方差的假設檢驗
(1)未知,檢驗(檢驗) (2)已知,檢驗(檢驗)
兩類假設檢驗要分清:(1)雙邊假設檢驗,(2)左邊假設檢驗,(3)右邊假設檢驗
考點:1、單個正態總體均值的假設檢驗,
2、單個正態總體方差的假設檢驗。
(2)概率的定義及性質,利用概率的性質計算一些事件的概率;
(3)古典概型與幾何概型;
(4)利用加法公式、條件概率公式、乘法公式、全概率公式和貝葉斯公式計算概率;
(5)事件獨立性的概念,利用獨立性計算事件的概率;
(6)獨立重復試驗,伯努利概型及有關事件概率的計算。
要求考生理解基本概念,會分析事件的結構,正確運用公式,掌握一些技巧,熟練地計算概率。
隨機變數及概率分布考查的主要內容有:
(1)利用分布函數、概率分布或概率密度的定義和性質進行計算;
(2)掌握一些重要的隨機變數的分布及性質,主要的有:(0-1)分布、二項分布、泊松分布、幾何分布、超幾何分布、均勻分布、指數分布和正態分布,會進行有關事件概率的計算;
(3)會求隨機變數的函數的分布。
(4)求兩個隨機變數的簡單函數的分布,特別是兩個獨立隨機變數的和的分布。
要求考生熟練掌握有關分布函數、邊緣分布和條件分布的計算,掌握有關判斷獨立性的方法並進行有關的計算,會求兩個隨機變數函數的分布。
隨機變數的數字特徵考查的主要內容有:
(1)數學期望、方差的定義、性質和計算;
(2)常用隨機變數的數學期望和方差;
(3)計算一些隨機變數函數的數學期望和方差;
(4)協方差、相關系數和矩的定義、性質和計算;
要求考生熟練掌握數學期望、方差的定義、性質和計算,掌握由給出的試驗確定隨機變數的分布,再計算有關的數字的特徵的方法,會計算協方差、相關系數和矩,掌握判斷兩個隨機變數不相關的方法。
大數定律和中心限定理考查的主要內容有:
(1)切比雪夫不等式;
(2)大數定律;
(3)中心極限定理。
要求考生會用切比雪夫不等式證明有關不等式,會利用中心極限理進行有關事件概率的近似計算。
數理統計的基本概念考查的主要內容有:
(1)樣本均值、樣本方差和樣本矩的概念、 性質及計算;
(2)χ2分布、t分布和F分布的定義、性質及分位數;
(3)推導某些統計量的(特別是正態總體的某些統計量)的分布及計算有關的概率。
要求考生熟練掌握樣本均值、樣本方差的性質和計算,會根據 χ2分布、 t分布和 F分布的定義和性質推導有關正態總體某些統計的計量的分布。
參數估計考查的主要內容有:
(1)求參數的矩估計、極大似然估計;
(2)判斷估計量的無偏性、有效性、一致性;
(3)求正態總體參數的置信區間。
要求考生熟練地求得參數的矩估計、極大似然估計並判斷無偏性,會求正態總體參數的置信區間。
假設檢驗考查的顯著的主要內容有:
(1)正態總體參數的顯著性檢驗;
(2)總體分布假設的χ2檢驗。
要求考生會進行正態總體參數的顯著性檢驗和總體分布假設的 χ2檢驗。
常有的題型有:填空題、選擇題、計算題和證明題,試題的主要類型有:
(1)確定事件間的關系,進行事件的運算;
(2)利用事件的關系進行概率計算;
(3)利用概率的性質證明概率等式或計算概率;
(4)有關古典概型、幾何概型的概率計算;
(5)利用加法公式、條件概率公式、乘法公式、全概率公式和貝葉斯公式計算概率;
(6)有關事件獨立性的證明和計算概率;
(7)有關獨重復試驗及伯努利概率型的計算;
(8)利用隨機變數的分布函數、概率分布和概率密度的定義、性質確定其中的未知常數或計算概率;
(9)由給定的試驗求隨機變數的分布;
(10)利用常見的概率分布(例如(0-1)分布、二項分布、泊松分布、幾何分布、均勻分布、指數分布、正態分布等)計算概率;
(11)求隨機變數函數的分布
(12)確定二維隨機變數的分布;
(13)利用二維均勻分布和正態分布計算概率;
(14)求二維隨機變數的邊緣分布、條件分布;
(15)判斷隨機變數的獨立性和計算概率;
(16)求兩個獨立隨機變數函數的分布;
(17)利用隨機變數的數學期望、方差的定義、性質、公式,或利用常見隨機變數的數學期望、方差求隨機變數的數學期望、方差;
(18)求隨機變數函數的數學期望;
(19)求兩個隨機變數的協方差、相關系數並判斷相關性;
(20)求隨機變數的矩和協方差矩陣;
(21)利用切比雪夫不等式推證概率不等式;
(22)利用中心極限定理進行概率的近似計算;
(23)利用t分布、χ2分布、F分布的定義、性質推證統計量的分布、性質;
(24)推證某些統計量(特別是正態總體統計量)的分布;
(25)計算統計量的概率;
(26)求總體分布中未知參數的矩估計量和極大似然估計量;
(27)判斷估計量的無偏性、有效性和一致性;
(28)求單個或兩個正態總體參數的置信區間;
(29)對單個或兩個正態總體參數假設進行顯著性檢驗;
(30)利用χ2檢驗法對總體分布假設進行檢驗。
這一部分主要考查概率論與數理統計的基本概念、基本性質和基本理論,考查基本方法的應用。對歷年的考題進行分析,可以看出概率論與數理統計的試題,即使是填空題和選擇題,只考單一知識點的試題很少,大多數試題是考查考生的理解能力和綜合應用能力。要求考生能靈活地運用所學的知識,建立起正確的概率模型,綜合運用極限、連續函數、導數、極值、積分、廣義積分以及級數等知識去解決問題。
在解答這部分考題時,考生易犯的錯誤有:
(1) 概念不清,弄不清事件之間的關系和事件的結構;
(2) 對試驗分析錯誤,概率模型搞錯;
(3) 計算概率的公式運用不當;
(4) 不能熟練地運用獨立性去證明和計算;
(5) 不能熟練掌握和運用常用的概率分布及其數字特徵;
(6) 不能正確應用有關的定義、公式和性質進行綜合分析、運算和證明。
綜合歷年考生的答題情況,得知概率論與數理統計試題的得分率在 0.3 左右,區分度一般在 0.40 以上。這表明試題既有一定的難度,又有較高的區分度。
C. EM演算法和混合高斯模型(一)
EM(Expectation Maximization)演算法是一種迭代演算法,用於含有隱變數的概率模型參數的極大似然估計,或極大後驗估計。EM演算法的每次迭代由兩步組成:E步,求期望(expectation);M步,求極大值,因而被稱為期望極大演算法,簡稱EM演算法。
本文從EM演算法的引入說起,簡單介紹EM演算法的推導過程,以及其在高斯混合模型中的應用。更多的關於EM演算法的推導細節,可參見 人人都懂EM演算法 。
假設我們需要調查我們學校學生的身高分布。我們先假設學校所有學生的身高服從正態分布 。( 注意:極大似然估計的前提一定是要假設數據總體的分布,如果不知道數據分布,是無法使用極大似然估計的 ),這個分布的均值μ和標准差為σ 未知,如果我們估計出這兩個參數,那我們就得到了最終的結果。那麼怎樣估計這兩個參數呢?
學校的學生這么多,我們不可能挨個統計吧?這時候我們需要用到概率統計的思想,也就是抽樣,根據樣本估算總體。假設我們隨機抽到了 200 個人(也就是 200 個身高的樣本數據,為了方便表示,下面「人」的意思就是對應的身高)。然後統計抽樣這 200 個人的身高。根據這 200 個人的身高估計均值 μ和方差σ 。例子來自 人人都懂EM演算法 。
現在我們假設這200個人的身高服從一個正態分布N(μ,σ),因此可以直接使用極大似然估計方法估計出這個分布的參數μ和σ。
但是,這200個人的身高真的是服從同一個正態分布嗎?實際情況並不是這樣的,男生和女生分別服從兩種不同的正態分布,即男生 女生各服從一個正態分布 ,( 注意:EM演算法和極大似然估計的前提是一樣的,都要假設數據總體的分布,如果不知道數據分布,是無法使用EM演算法的 ),而且假設我們現在只有身高數據,丟失了性別數據,那麼該怎樣評估學生的身高分布呢?
這個時候,對於每一個樣本或者你抽取到的人,就有兩個問題需要估計了,一是這個人是男的還是女的,二是男生和女生對應的身高的正態分布的參數是多少。這兩個問題是相互依賴的:
但是現在我們既不知道每個學生是男生還是女生,也不知道男生和女生的身高分布。這就成了一個先有雞還是先有蛋的問題了。雞說,沒有我,誰把你生出來的啊。蛋不服,說,沒有我,你從哪蹦出來啊。為了解決這個你依賴我,我依賴你的循環依賴問題,總得有一方要先打破僵局,不管了,我先隨便整一個值出來,看你怎麼變,然後我再根據你的變化調整我的變化,然後如此迭代著不斷互相推導,最終就會收斂到一個解(草原上的狼和羊,相生相剋)。這就是EM演算法的基本思想了。
EM的意思是「Expectation Maximization」,具體方法為:
上面的學生屬於男生還是女生我們稱之為隱含參數,女生和男生的身高分布參數稱為模型參數。
EM 演算法解決這個的思路是使用啟發式的迭代方法,既然我們無法直接求出模型分布參數,那麼我們可以先猜想隱含參數(EM 演算法的 E 步),接著基於觀察數據和猜測的隱含參數一起來極大化對數似然,求解我們的模型參數(EM演算法的M步)。由於我們之前的隱含參數是猜測的,所以此時得到的模型參數一般還不是我們想要的結果。我們基於當前得到的模型參數,繼續猜測隱含參數(EM演算法的 E 步),然後繼續極大化對數似然,求解我們的模型參數(EM演算法的M步)。以此類推,不斷的迭代下去,直到模型分布參數基本無變化,演算法收斂,找到合適的模型參數。
在開始介紹EM演算法之前,讓我們先來了解一個重要的定理——Jensen不等式。
如下圖,如果函數f(x)是凸函數,x是隨機變數,有 0.5 的概率是 a,有 0.5 的概率是 b, x的期望值就是 a 和 b 的中值了,那麼:
對於m個相互獨立的樣本:
假如沒有隱含變數z, 我們僅需要找到合適的θ極大化對數似然函數即可:
現在我們給定一個θ值(初始化θ),那麼logL(θ)的值就取決於Q i (z)和P(x (i) ,z (i) )。我們可以通過調整這兩個概率使下屆逼近logL(θ)的真實值,當不等式變為等式時,說明我們調整後的下屆就等於logL(θ)了。由Jeson不等式可知,等式成立的條件是隨機變數是常數,則有:
如果Q i (z (i) ) = P(z (i) |x (i) , θ),則(2)式使我們包含隱藏數據的對數似然函數的一個下屆。如果我們能極大化這個下屆,則也在嘗試極大化我們的對數似然函數。即我們需要極大化下式:
由於對logaf(x)求導的結果與f(x)的系數無關((ln(ax))'= (lna + lnx)'=1/x),因此對θ求極大似然時,可以去掉式中的常數部分Q i (z (i) ):
現在,讓我們來總結一下EM演算法的流程。
輸入:觀察數據x = (x (1) , x (2) , ... , x (m) ), 聯合分布P(x, z|θ),條件分布P(z|x,θ),極大迭代次數J。
(1)隨機初始化模型參數θ值;
(2)迭代求解各個分布模型的參數以及各個模型的概率:
for j from 1 to J:
輸出:模型參數θ
圖中的直線式迭代優化的路徑,可以看到每一步都會向最優值前進一步,而且前進路線是平行於坐標軸的,因為每一步只優化一個變數。
這猶如在x-y坐標系中找一個曲線的極值,然而曲線函數不能直接求導,因此什麼梯度下降方法就不適用了。但固定一個變數後,另外一個可以通過求導得到,因此可以使用坐標上升法,一次固定一個變數,對另外的求極值,最後逐步逼近極值。對應到EM上,E步:固定 θ,優化Q;M步:固定 Q,優化 θ;交替將極值推向極大。
E步 :初始化θ A =0.6和θ B =0.5(θ A 和θ B 分別表示兩個硬幣出現正面的概率),計算每次擲硬幣選擇A和B的概率,例如第一個實驗中選擇A的概率為:
M步 :求出似然函數下屆Q(θ,θ i ), y i 代表第j次試驗正面朝上的個數,μ j 代表第j次試驗選擇硬幣A的概率,1-μ j 代表第j次試驗選擇硬幣B的概率。
參考:
人人都懂EM演算法
《統計學習方法》. 李航
D. 貝葉斯分類中假定2類的類條件分布概率是正態分布怎麼求先驗概率
用matlab求態布概率函數normpdf使用格式
Y
=
normpdf(X,mu,sigma)
mu——均值μ
sigma——標准偏差σ
例:
>>
Y
=
normpdf(1.5,0.5,1)
Y
=
0.24197
E. 條件概率分布函數
任何基於像元的隨機模擬演算法均要求獲取待模擬點的條件概率分布函數(conditional probability distribution function,cpdf),即對於任一未取樣點,需要確定在給定n個條件數據(記為S(uα)=sk,α=1,…n)的情況下,屬性S(u)取k個狀態中任一個狀態的概率。在多點統計模擬中,該概率可記為prob{s(u)=sk|dn},其中,dn為由n個條件數據聯合構成的數據事件。根據貝葉斯條件概率公式,該概率可表達為
多點地質統計學原理、方法及應用
式中:分母為條件數據事件(S(uα)=sk,α=1,…n)出現的概率,可從公式(2-2)獲取;分子為條件數據事件及未取樣點u取sk狀態的情況同時出現的概率,相當於在已有的c(dn)個重復中,s(u)=sk的重復個數與侵蝕的訓練圖像大小Nn的比值,記為ck(dn)/Nn。局部條件概率分布函數可表達為
多點地質統計學原理、方法及應用
因此,通過掃描訓練圖像,可獲取未取樣點處的條件概率分布函數。如圖2-1所示,圖2-1(a)為模擬目標區內一個由未取樣點及其鄰近的四個井數據(u2和u4代表河道,u1和u3代表河道間)組成的數據事件。當應用該數據事件對圖2-2(b)的訓練圖像進行掃描時,可得到4個重復,即c(dn)=4。其中,中心點為河道(黑色)的重復為3個,即c1(dn)=3;而中心點為河道間(白色)的重復為1個,即c2(dn)=1。因此,該未取樣點為河道的概率可定為3/4,而河道間的概率為1/4。
F. 概率分布律怎麼寫
概率論與數理統計初步主要考查考生對研究隨機現象規律性的基本概念、基本理論和基本方法的理解,以及運用概率統計方法分析和解決實際問題的能力。常有的題型有:填空題、選擇題、計算題和證明題,試題的主要類型有:
(1)確定事件間的關系,進行事件的運算;
(2)利用事件的關系進行概率計算;
(3)利用概率的性質證明概率等式或計算概率;
(4)有關古典概型、幾何概型的概率計算;
(5)利用加法公式、條件概率公式、乘法公式、全概率公式和貝葉斯公式計算概率;
(6)有關事件獨立性的證明和計算概率;
(7)有關獨重復試驗及伯努利概率型的計算;
(8)利用隨機變數的分布函數、概率分布和概率密度的定義、性質確定其中的未知常數或計算概率;
(9)由給定的試驗求隨機變數的分布;
(10)利用常見的概率分布(例如(0-1)分布、二項分布、泊松分布、幾何分布、均勻分布、指數分布、正態分布等計算概率;
(11)求隨機變數函數的分布(12)確定二維隨機變數的分布;
(13)利用二維均勻分布和正態分布計算概率;
(14)求二維隨機變數的邊緣分布、條件分布;
(15)判斷隨機變數的獨立性和計算概率;
(16)求兩個獨立隨機變數函數的分布;
(17)利用隨機變數的數學期望、方差的定義、性質、公式,或利用常見隨機變數的數學期望、方差求隨機變數的數學期望、方差;
(18)求隨機變數函數的數學期望;
(19)求兩個隨機變數的協方差、相關系數並判斷相關性;
(20)求隨機變數的矩和協方差矩陣;
(21)利用切比雪夫不等式推證概率不等式;
(22)利用中心極限定理進行概率的近似計算;
(23)利用t分布、χ2分布、F分布的定義、性質推證統計量的分布、性質;
(24)推證某些統計量(特別是正態總體統計量)的分布;
(25)計算統計量的概率;
(26)求總體分布中未知參數的矩估計量和極大似然估計量;
(27)判斷估計量的無偏性、有效性和一致性;
(28)求單個或兩個正態總體參數的置信區間;
(29)對單個或兩個正態總體參數假設進行顯著性檢驗;
(30)利用χ2檢驗法對總體分布假設進行檢驗。
這一部分主要考查概率論與數理統計的基本概念、基本性質和基本理論,考查基本方法的應用。對歷年的考題進行分析,可以看出概率論與數理統計的試題,即使是填空題和選擇題,只考單一知識點的試題很少,大多數試題是考查考生的理解能力和綜合應用能力。要求考生能靈活地運用所學的知識,建立起正確的概率模型,綜合運用極限、連續函數、導數、極值、積分、廣義積分以及級數等知識去解決問題。
G. 大學概率論要補考,但我跟本啥也沒學過,求有經驗的人指導下,補考一定要過的
考試要求: 不允許帶 計算器.
考試題型: 填空, 判斷, 選擇, 計算.
復習重點:
第一章
事件關系運算,
概率的定義性質,
簡單的古典概型的計算,
基本的公式(比如: 全概公式, 貝葉斯公式, 乘法公式, 條件概率公式 等),
事件獨立性的定義, 以及判斷事件的獨立性, 注意兩兩獨立與相互獨立的關系.
第二章
分布律, 概率密度, 分布函數的定義, 性質(會求其中的未知常數),
常見的分布: (0-1)分布, 二項分布, 泊松分布, 指數分布, 均勻分布, 正態分布. 幾何分布,巴斯卡分布和超幾何分布會從題目中寫出分布即可.
一維正態分布的圖像, 性質, 用標准化變換求概率.
一維隨機變數 密度與分布函數的相互確定, 密度與概率的相互確定, 以及一維隨機變數函數的分布.
第三章
聯合分布律, 聯合分布函數, 聯合概率密度的定義, 性質(會求其中的未知常數). 會求二維離散型隨機變數的聯合分布律.
會求邊緣分布, 條件分布, 會判斷隨機變數的獨立性.
會求 (離散型, 連續型).
二維隨機變數函數的分布: 形如: 的函數的分布(注意:卷積公式的使用范圍, 必須掌握一般的方法), 最值 和 的分布, 以及相關的概率計算問題.
二維正態分布的5個參數的意義, 二維正態分布的基本性質.
第四章
數字特徵: 期望, 方差, 協方差和相關系數的定義, 意義, 計算, 公式的變形.
常見分布: (0-1)分布, 二項分布, 泊松分布, 指數分布, 均勻分布, 正態分布的數字特徵.
相關性和獨立性的區別和關系, 以及相關的結論.
切比雪夫不等式的運用(用這個不等式時題目會明確說明).
二維正態分布的性質(線性變換不變性, 線性函數仍是……. 等等)
第五章
隨機變數序列依概率收斂的定義, 以及會按要求構造依概率收斂的序列.
理解大數定律的意義.
理解獨立同分布中心極限定理和拉普拉斯中心極限定理的意義, 會用中心極限定理做近似計算.
第六章
樣本, 總體, 統計量的概念,
分布, t 分布, F 分布 的背景(定義), 圖像及性質, 會構造統計量服從三大分布.
四個抽樣定理(前三個單正態總體的要記住, 第四個定理的第一個結論要記住)
第七章
會用矩估計和最大似然估計的方法求出參數的點估計.(注意求最大似然估計時講過兩種不同的方法).
會判斷無偏性, 有效性.
會求單正態總體的雙側和單側置信區間, 理解置信度的意義.
第八章
單正態總體的雙邊和單邊假設檢驗.
理解兩類錯誤的定義.
說明: 考試所有題型都被書上題目, 補充題, 自測題覆蓋. 但是不會出現原題.
考前注意: 考概率之前一定不要 熬夜復習, 要以良好的精神狀態去參加考試, 思維活躍, 心思縝密 才能取得好成績!
祝: 考試取得好成績!
H. 概率論中二維隨機變數的邊緣分布和條件分布的幾何圖形。
復習重點
概率的一般加法公式;
2. 條件概率;
3. 全概率公式;
4. 貝葉斯公式;
5. 常見的離散型隨機變數的概率分布:兩點分布,二項分布,泊松分布;
6. 離散型隨機變數的分布函數;
7. 連續型隨機變數的分布函數;
8. 連續型隨機變數的概率密度函數;
9. 常見的連續型隨機變數的概率分布:均勻分布,指數分布,正態分布;
10. 離散型(列舉法)
連續型(分布函數法)
11. 二維隨機變數的聯合分布函數;
12. 二維離散型分布的聯合分布列;
13. 二維連續型分布的聯合分布密度函數(聯合密度函數);
14. X的邊緣分布函數,邊緣分布列,X的邊緣密度函數;
15. 怎樣驗證X與Y是否獨立;
16. 常見離散型隨機變數的期望:兩點分布,二項分布,泊松分布;
17. 連續型隨機變數期望的演算法;
18. 常見連續型隨機變數的期望:均勻分布,指數分布,正態分布;
19. 期望的簡單性質,方差的簡化公式;
20. 常見分布的期望及方差P77表格;
21. 二維隨機變數的數字特徵,協方差和相關系數的計算;
22. 切比雪夫不等式;
23. 樣本的數字特徵;
24. U統計量,卡方統計量,t統計量;
25. 矩估計法的計算過程(極大似然估計法);
26. 怎樣驗證無偏性?
27. 區間估計中正態總體均值的區間估計:當方差已知時,均值的區間估計。當
方差未知時,均值的區間估計。正態總體方差的區間估計;
28. 判斷假設檢驗中第一類錯誤和第二類錯誤;
29. 正態總體均值的假設檢驗:當方差已知時均值的檢驗(U檢驗法),當方差未
知時均值的檢驗(t檢驗法)。
30. 正態總體方差的假設檢驗:單個正態總體方差的檢驗(卡方檢驗法)。