演算法統綜感悟
1. 大哥 大姐 求一篇 學計算機新技術的感想作文 我們聽的是演講 == 800字左右 拜託 急用啊 .......謝謝了
1.開場
自我介紹, 簡單講述我大學的學習的歷程,成果和感想。(1分鍾)
我一直都感慨本年級許多同學在大一時因為缺乏好指引,在一開始就對編程很害怕,對計算機的學習沒有開好頭,動手能力長期跟不上,空會理論,不會實踐,一直拖累到大四,最終選擇忍痛考研或者抱怨找工作難。我也幫助過不少在這方面比較弱的同學,但是總是因為基礎沒打好導致難以提高。我也一直希望學校能在大一的時候就讓同學們明白學習的重要性,打好扎實的專業基礎。現在終於有一次這樣的機會站在這里,為指引大家如何在大學專業技術學習的道路上開好頭做點貢獻。
今天我將結合我自身的經歷和我對計算機的理解,我對編程的感悟,我對大學學習的認識,給大家做報告。
首先問三個問題:
1) qq聊天軟體是用什麼語言寫的(第二天要換個問題)
答對的演講結束後留下來,我要親自給他傳授寶貴經驗,沒人答的話,很遺憾
2) 誰玩電腦游戲比較牛
恩,人很多,大家很踴躍,很好
展示下我寫的人工智慧黑白棋游戲,聲明真正的編程高手基本從來不玩游戲
(結合大四同學長期沉迷游戲最後找不到工作的例子,說明一個嚴肅的問題,只會玩游戲沒有用,會做游戲才牛,鼓勵大家努力學習,讓會玩游戲的同學也熱愛編程,最後也能自己寫游戲)
請大家記住:只會玩游戲沒有用,會做游戲才牛
3) 有沒有人對計算機特別感興趣 (為什麼感興趣)
如果有興趣,對學習計算機有巨大的幫助
興趣是最好的老師,鼓勵他們,勉勵其他人,興趣是可以培養的,要學會培養興趣
2.概述
計算機"科學"與"技術" 包含兩個層面
"科學" 指計算機硬體、軟體與應用的理論知識 理論的學習
"技術" 指軟體開發、工程實踐等技能與方法 能力的培養
我主要講的是如何學習技術(計算機技術)
講之前 澄清一個觀點 計算機技術 不等於 編程技術
編程只是一個工具,編程沒學好不代表你技術就學不好
計算機技術應該是與計算機軟體、硬體和網路三個部分相關的各種科技成果和應用的綜合,包括了多媒體,資料庫,操作系統,嵌入式系統,計算機安全,計算機網路,計算機管理和維護,計算機應用,人工智慧,模式識別,管理信息系統等,在我們生活的方方面面計算機技術幾乎無處不在。
(舉幾個例子)在現在社會,它幾乎與我們的生活息息相關。
(大學和高中的學習方式的區別)(學好技術的重要性)
在大學,學習的方式與高中或小學是有很大的區別的,大學更大,大學更自由,不再是完全跟著老師,不再是只要吃透了老師教授的內容就萬事大吉了,從我這一屆的情況看,許多同學特別是女生在大學還沿襲著高中的學習方式,勤奮刻苦,天天自習,非常認真,上課筆記做得秘密麻麻,把理論學得非常扎實,但是卻嚴重地忽略了實踐能力的培養,理論考試分數很高,但課程設計做不出東西來,顯然這種學習方式是不對的,這和高中的偏科又有什麼本質區別呢。
我覺得理論的學習和技術的學習是同等重要的,二者都不應該輕視,沒有側重點是不可能的,至於如何側重,如何在二者之間找到平衡點就取決於你自己的人生目標了。如果你喜歡研究理論,以後想繼續讀研深造可以稍微偏向理論,把理論基礎打得扎實一些,畢業以後可以留校任教或到科研院所去發展。如果你想走技術路線,那麼你就可以稍稍偏向技術,在不落下理論學習的情況下,把技術學好學精,畢業以後可以去IT企業發展,也可以自己創業,有了一身技術不怕沒飯吃。切莫完全忽視技術最後變成書獃子或完全不顧理論最後只是個代碼搬運工。
大家每個人,從現在開始就要下決心學好技術,那麼,如何學好技術呢。
3.如何學好技術
3.1制定好的學習計劃
3.1.1大一大二:打好基礎
3.1.1.1計算機方面的基本技能的學習
包括計算機眾多的應用技術的學習 和 常見的硬體維護
(大家應該盡量多多掌握計算機方面的基本技能,如word excel ppt access* photoshop* flash* dreamveaver* 結合我的經歷講講,我大一在自己沒有電腦的情況下把這些基本全學了 舉一個考研的同學不會在excel里找自己的名字的例子,如果這些最基本的技能都不會,只能說計算機還沒入門)大二有電腦之後,終於有機會整自己的電腦了,要學習常見的常見的硬體維護(系統崩潰了怎麼辦,如何安裝操作系統,如何分區等)
3.1.1.2專業理論基礎和編程基礎的學習
技術是將理論運用到實踐中去,不能輕視理論,沒有理論何來應用。計算機"科學"與"技術" 中的"科學"和"技術"應該是相互依賴和促進的。
先學好《高級語言程序設計》《數據結構》等專業課,理論基礎扎實了,學應用性技術就更容易了
編程基礎:學精C++(為什麼),可以考慮過渡到 java 或 C# (最好只學一個,為什麼)
(編程的學習會在後面再詳細講)
3.1.1.3珍惜這兩年大學自由學習的黃金時間
(曾經和一家公司的經理開玩笑,總經理感慨的說現在在大學里找一個又能力的學生來幫忙做項目真是很難啊,我說是呀,大學四年,大一的剛進校還在打基礎沒法做,大二的還剛起步沒足夠的能力做,大三的課程會很緊沒時間做,大四的找工作的找工作去了,考研的考研去了,沒人做了),大學四年,實則三年,希望大家不要把最寶貴的時間荒廢在游戲和娛樂上
3.1.2大三:深入學習,確定方向(技術方向,職業規劃)+多多實踐
到了大三,各種專業課會非常多,包括很重要的操作系統,匯編,組成原理,編譯原理,資料庫,計算機網路,軟體工程等等,大家將深入學習計算機的各大核心課程。這時大家的基礎打得也差不多了,可以選擇一門自己比較感興趣的技術並確定自己的技術的一個方向,比如選擇j2ee, .NET,WEB技術,資料庫技術,嵌入式,linux內核開發等等。當然也會有非常豐富多彩的專業選修課可以選擇學習。這段時間大家可以利用課程設計的機會好好鍛煉自己。
3.1.3大四:實踐和進步
大四,如果不打算考研的同學,工作有了著落之後,可以試著做項目,大四基本沒什麼課,相對輕松,這段時間是獲得經驗,銀子和巨大的進步黃金時期。
3.2重視專業課的學習
要把數據結構、演算法、資料庫、操作系統原理、計算機體系結構、計算機網路,離散數學等基礎課程學好
除非你足夠牛,請務必認真聽專業課,有些課像《數據結構》,《編譯原理》,《組成原理》,《操作系統》等等,這種課老師講一分鍾能讓你明白的內容,你自己看要看好幾個月
3.3培養好的思維能力
數學是鍛煉是思維的最好的東西了,他是你思考問題的最得力的工具,他體現著你的思想,在編程中會思考才能編出好的程序。
此外還要注重離散數學,數值分析,線性代數,數字邏輯等等課程的學習,他們對培養好的思維能力大有裨益
3.4激勵創新意識
創新太重要了,不管在哪個學科都重要,計算機同樣需要
3.5培養獨立分析問題和解決問題的能力
遇到問題,要先學會獨立思考,不能凡事依賴他人,盡量自己解決,在獨立解決問題過程中能獲得更大的進步,實在不能解決再請教別人也不遲
3.6培養自學能力和快速獲取知識的能力
自學能力之重要(大學和高中的學習方式的區別)
可以說高中是靠老師,大學是靠自己,要做到嚴格自律,自我約束,必須要學會自學
學習的過程也是學會學習的過程
要充分利用圖書館和網路上的豐富學習資源, 要培養計算機新知識,新技術方面的自學習能力,要學會如何通過網路,書籍,文獻,獨立地快速獲取自己需要的知識和信息
3.7培養團隊協作精神
在一個大型項目中,往往要求各種參與者密切配合才能取得成功。大家要從現在就開始注重團隊協作精神的培養,要學會與人溝通,善於表達,要注意提高自己的綜合素質,成為綜合型人才。
3.8學好英語
包括現在的大學英語和日後的專業英語。
也許有人會問,英語和技術有什麼大的關系嗎。大家是否知道,計算機的發展飛速,國際上新技術不斷涌現,如果今天國外出現了一門新的技術,或者國外某本技術書籍出了新版本,相關資料的中文的翻譯不知道要等到什麼猴年馬月才會出來,現在的許多出版也有了越來越多的英文原版書。
大家要學好英語,培養閱讀專業外語資料的能力,開始會看不懂,看多了自然熟練了。
(講下四六級,四級最好一次就過,六級在大二下結束前最好過)
3.9適時關注新技術
了解學科發展動態,跟上時代步法
3.10勤學苦練,持之以恆
學好技術不是一蹴而就的,要長期堅持。
4.無
5.無
6.關於編程的學習
6.1為什麼要學習編程
編程是軟體開發的基礎,學習計算機,只會編程是千萬不行的,但是開發軟體,不會編程是萬萬不行的
(結合本年級的情況將一下現狀,學習的重要性等)
6.2編程真的那麼難學嗎
(講講編程的苦與樂)
編程真的那麼可怕,那麼枯燥,那麼沒意思嗎?假如真是這樣,為什麼世界上還有那麼多優秀的人樂此不疲。
其實編程並不可怕,可怕的是你的心態。
編程固然很苦,編程時長時間對著屏幕,對身體不好,而且,經常因為考慮不周,會遇到各種各樣的錯誤和麻煩,初學者處處容易受挫。
但是其實編程是很有趣的,編程中充滿著無窮的快樂
首先,你通過編程得到了想要的成果的過程是一種創造的快樂
(編出了有用的東西的那一刻會有一股美好的成就感)
其次,你開發了有用的軟體可以方便自己或他人,方便自己,是一種享受的快樂,方便他人,是一種奉獻的快樂
再次,假如你開發的軟體得到了用戶的認可或好評,會有一種欣慰和滿足感
還有,你可以根據自己的意願寫你想要的東西,經過自己的努力親自實現你心中的願望
然後,編程也是一個挑戰自我的過程,遇到困難想辦法解決的過程是思考的過程,思維能得到鍛煉
最後,在代碼中有一種看不見的美,就像詩一樣,美景全是你的,你可以隨心所欲
編程真的非常有趣,它不僅滿足了我們內心深處進行創造的渴望,讓人頭腦變得靈活,而且還愉悅了每個人內在的情感。
6.3學好編程的建議
6.3.1請熱愛編程
如果想成為編程牛人的話,請熱愛編程。有興趣是最好了,沒興趣也沒關系,可以慢慢培養,當你感受到了編程的樂趣的時候你會愛上它。
6.3.2不要畏難
很多初學者往往都在遇到許多困難,遭受多次挫折後,自信心受到打擊從而對編程喪失興趣
這些困難每個人都會遇到,我在初學編程時也遇到過,關鍵是看你用什麼心態對待,是想辦法解決困難還是選擇逃避。很多問題其實是有很多解決方法的。譬如看書,遇到看不懂的部分,可以暫時跳過,先往後看,看完後面的之後,再回頭看前面跳過的部分往往會有一種豁然開朗的感覺。再比如,編程調試時死活找不到錯誤會很郁悶,這個時候很多同學會束手無策,其實只要在程序不同的地方加上輸出語句,然後運行看有哪些輸出,這樣一步步縮小錯誤的范圍從而確定錯誤發生的位置。等等。。。
不要畏懼困難,要用你的智慧戰勝它。
6.3.3多實踐,多交流
學習編程的秘訣是:編程,編程,再編程;(講講如何動手實踐)
在學校的實驗室就算你做錯一萬次程序都不會有人罵你,如果在公司你試試看!所以多去實驗室上機,現在錯得多了,畢業後就錯得少了。多實踐,多從失敗中吸取教訓,積累經驗。要勤奮,三天打魚兩天曬網是學不好的,學會了的東西一段時間不用就容易忘記,實踐得越多才能記得越牢。
現在大家是大一,可能有人會說沒有電腦不方便,其實實驗室不是只有在老師安排的實驗時間才可以去的,它是是面向計算機專業的學生免費開放的,大家有時間就去實驗機房練習,只要拿著學生證,或者乾脆直接跟那個阿姨說你是計算機的就行了。航海樓7樓的機房和圖書館電子閱覽室也是可以的。我大一的時候甚至還到陽光網吧編程呢。
到大二大三的時候課程設計就會多起來,大家一定要自己動手做,不要去網上搜一個就完事了。
與人交流,分享自己編程中的樂趣和經驗,共同進步。
6.3.4多閱讀書籍和代碼
編程不是非要在電腦上才能學的,閱讀書籍和書中的代碼也是一種學習方式,自己還可以嘗試著改進那些代碼,最後可以把自己的成果拿到電腦上調試
千萬不要忽視書後面的習題
6.3.5養成良好習慣
細節很重要
要細心,沉下心來編程,戒驕戒躁
養成良好習慣,注重編程風格,盡量寫代碼注釋,把寫過的代碼保留下來,以後會有用
6.3.6善於思考
遇到問題動腦筋解決
6.3.7注重基礎
打好編程基礎,除了熟悉基本的語法之外,要深刻理解指針,引用,面向過程思想,類,模板,標准庫,介面,繼承機制,面向對象思想等等,課後習題盡量全做一下
剛才說了,有精力的可以學學 photoshop圖像處理, flash動畫製作,3dmax或maya三維建模,dreamveaver網頁設計,但是不要因為他們花費過多的時間而影響了你基礎的學習,那些都是些應用技術,你學會了更好,不會也沒什麼丟人的,基礎打好了,以後學啥都輕松。
在基礎沒打好的情況下,不要覺得你編的程序只能在黑白的DOS窗口了運行就去學VC做漂亮的窗口,3d程序很有意思就去看OpenGL或DirectX,那些都屬於高級應用,沒有基礎學起來會很吃力。
基礎要扎實,不要覺得C#中沒有指針就扔掉C++, 不要今天看C#,明天搞java
要有明確的方向,計算機技術的發展實在太快,新技術不斷涌現,了解一下就可以了,不要隨波逐流,要沉得住氣
6.3.8選好開發環境
選擇一種適當的開發環境並熟悉它就可以了,不要今天擺弄Visual Studio,明天鑽研Eclipse,後天來個netbeans,在工具的使用的學習上白白浪費時間。
6.3.9選好編程語言
我在選擇語言時,走過一些彎路,浪費了一些精力,我在這里選出一些主流編程語言,對語言特性與環境稍作介紹,希望可以幫助大家,讓大家盡早了解與選擇,少走彎路
C(多用在性能要求較高的場合,如操作系統,嵌入式等)
C++(應用最廣泛、成熟,強大而復雜,兼有性能高和易於構建大型程序的優點,基本是衡量一個國家軟體產業發達程度的核心基礎)
Java(著名的SUN公司推出的,面向對象、安全、跨平台、強大穩健,需要java虛擬機的支持)
C#(微軟推出的完全面向對象,運行在 .NET Framework 環境中新興、易學、強大語言)
Python(新興的面向對象腳本語言,跨平台,語法清新易於使用,代碼優美得像數學一樣,非常容易學)
PHP (目前最流行、強大、穩健的動態網站開發腳本語言,語法類似C++)
ActionScript (Flash的編程腳本,最新版支持面向對象,能基於Flex開發RIA應用)
除此之外,還有vb, vb.net, asp.net, jsp, asp, ruby, Javascript等
這么多五花八門的語言,大家可能都會覺得眼花繚亂了。
其實各種語言之間只是語法不同,編程思想都是相通的,學精一門,了解多門是上策。
" 程序=演算法+數據結構 " 其中並沒有編程語言,說明語言只是程序員與計算機的編譯器溝通的一種工具,程序員用某種語言來表達程序的邏輯結構,計算機中相應的編譯器或解釋器理解這種語言,編譯得到二進製程序或者直接解釋執行。
以上這些語言我在大學前三年全部學過了,有的學得很深,有的很淺。因為人的精力畢竟有限,很多語言學過了之後根本就很少用到,幾乎是白學了,現在我深深的體會到,
語言並不是學得越多越好,與其泛而不精不如有針對性的先精通一門,其他的觸類旁通。
就大家現在的情況,希望大家把當前正在學習的C++學好,學到一定程度的時候,可以繼續深入的研究C++的各種庫,也可以從上面選擇感興趣的新語言學習,如果把C++基礎打好了,後面的學習就會容易得多。
最流行的語言不一定是最好的語言,用的人最多的語言也不一定是最好的語言。
請大家記住,沒有最好的語言,只有最適合某個領域的語言, 在不同的環境下選擇不同的語言就可以了。
6.3.10重視數據結構和演算法
理論上,計算機的任何編程語言都有可能會被淘汰,隨著時間的推移和計算機軟硬體的飛速發展,不斷會有新的語言產生和和舊的語言過時,但不會過時的是數據結構和優秀的演算法。真正的高手應該是善於設計優秀的數據結構和演算法的,應該是具有獨立分析和解決問題的能力並利用計算機程序來實現的,他的思想應該是超脫語言、在更高處的一種升華。
如果某一天,你深切的體會到,真正重要的不是什麼語言而是思想的時候,說明你可以出師了。
2. EM演算法深度解析
最近在做文本挖掘的時候遇到了EM演算法,雖然讀書的時候簡單地接觸過,但當時並沒有深入地去了解,導致現在只記得演算法的名字。既然EM演算法被列為數據挖掘的十大演算法之一,正好借這個機會,重新學習一下這個經典的演算法。學習的過程中,我發現網上的資料大多講解地不夠細致,很多地方解釋得並不明了。因此我決定拋開別人的想法,僅從數學推導本身出發,盡力理解每一個公式的含義,並將其對應到實際的實驗過程當中。這篇博客記錄了我對與EM演算法的思考與理解,也是我人生中的第一篇博客,希望能夠對於想要學習EM演算法的同學有所幫助。
前面談到我在做文本挖掘的時候遇到了EM演算法,EM演算法用於估計模型中的參數。提到參數估計,最常見的方法莫過於極大似然估計——在所有的候選參數中,我們選擇的參數應該讓樣本出現的概率最大。相信看到這篇筆記的同學一定對極大似然估計非常熟悉,而EM演算法可以看作是極大似然估計的一個擴充,這里就讓我們用極大似然估計來解決一個簡單的例子,來開始正式的討論。
有A,B,C三枚硬幣,我們想要估計A,B,C三枚硬幣拋出正面的概率 , , 。我們按如下流程進行實驗100次:
記錄100次實驗的結果如下:
我們將上面的實驗結果表述如下:
表示第i次實驗中,硬幣A的結果,1代表正面,0代表反面; 表示第i次實驗中,硬幣B或硬幣C拋出正面的個數,則參數 的極大似然估計分別為:
即硬幣A,B,C各自拋出正面的次數占總次數的比例,其中 為指示函數。
實驗流程與1相同,但是我們不慎遺失了硬幣A的記錄結果,導致我們只知道隨後十次拋出了多少次正面,多少次反面,卻不知道實驗結果來自於硬幣B還是硬幣C。在這種情況下,我們是否還能估計出 , , 的值呢?
這時候利用極大似然估計似乎行不通了, 因為這種情況下,我們不但缺失了硬幣A產生的觀測值,同時也不知道哪些觀測值屬於硬幣B,哪些觀測值屬於硬幣C。
有些同學可能會提出,雖然我們無法得到三個硬幣各自產生的樣本,但是我們依然可以得到每個觀測值出現的概率。比如在第一次實驗中, 我們拋出了5次正面5次反面,我們可以做如下思考:
假設這5次正面由硬幣B得到,那麼概率應該為 ,而這次觀測值來自於硬幣B,也就是硬幣A拋出正面的概率為
假設這5次正面由硬幣C得到,那麼概率應該為 ,而這次觀測值來自於硬幣C,也就是硬幣A拋出反面的概率為
綜合起來,利用條件概率公式,這個觀測值出現的概率就是
因此我們可以將樣本整體的概率和似然函數利用 , , 表示出來,通過對似然函數求導,令其關於 的偏導數等於0,我們可以求出三個參數的值。
這個思路聽上去十分合理,我們可以順著這個思路進行數學推導,看看可以得到什麼樣的結果。首先我們計算樣本的概率:
對應的似然函數為
其中 關於 的條件分布為
的分布為
因此我們可以得到
至此,我們成功地得到了似然函數。然而觀察可以發現,這個函數是由100項對數函數相加組成,每個對數函數內部包含一個求和,想通過求導並解出導數的零點幾乎是不可能的。當然我們可以通過梯度下降來極小化這個函數,藉助深度學習庫的自動微分系統在實現上也非常容易。但是這種做法過於簡單粗暴,有沒有辦法來優雅地解決這個問題呢?在繼續討論之前,我們先將這類問題進行一般化表述:
我們觀測到隨機變數 產生的m個相互獨立的樣本 , 的分布由聯合分布 決定, 是缺失數據或無法在實驗中被直接觀測到,稱為 隱變數 ,我們想要從樣本中估計出模型參數 的值。在接下來的討論中,我們假定 的取值是離散的,於是可以得到似然函數如下:
接下來,我們就探討一下,如何利用EM演算法解決這個問題。
這一部分的數學推導,主要參考了吳恩達CS229n的筆記,並且根據個人的思考和理解,盡力對公式的每一步進行詳細的解釋。我們先簡單地介紹一下琴生不等式。
琴生不等式有多種形式,下面給出其離散形式的表述和概率論中的表述:
1.若 為嚴格凹函數, 為定義域內的n個點, 是n個正實數,且滿足 , 則下述不等式成立:
當且僅當 時,不等式取等號。
2.若 為嚴格凹函數, 為實值隨機變數,且期望存在,則下述不等式成立:
當且僅當 ,即 為常數時,不等式取等號。
註: 這里將函數上方為凹集的函數稱為凹函數, 例如 函數就是凹函數。
相信大家對琴生不等式都十分熟悉,因此這里就不做過多的說明。接下來,我們將琴生不等式應用到我們的問題中。
回到我們之前的問題上, 我們想要極大化下面這個函數:
但是我們無法對這個函數直接求導,因此我們藉助琴生不等式,對這個函數進行變換。為了讓過程看上去簡潔,下面只對求和中的第 項進行計算。
令 滿足 ,且 ,則根據琴生不等式,可以得到:
當且僅當 為常數時,上述不等式取等號。也就是說,對於任意 , 是一個與 無關的量。設對於任意 ,我們可以得到:
因此當 時,不等式 取等號,容易驗證此時 , 與 無關。將 綜合一下,我們可以得到以下結論:
到這里為止,我們已經擁有了推導出EM演算法的全部數學基礎,基於 我們可以構建出E步和M步。上面的數學推導雖然看上去略為復雜,但實際上只用到了三個知識點:
1.琴生不等式:
2.條件概率:
3.聯合分布求和等於邊緣分布:
對上面的數學推導有疑問的同學,可以結合上面這三點,再將整個推導過程耐心地看一遍。
大部分關於EM演算法的資料,只是在數學形式上引入了 函數,即 ,以滿足琴生不等式的使用條件,卻沒有過多地解釋 函數本身。這導致了很多人完全看懂了演算法的推導,卻還是不理解這些數學公式究竟在做什麼,甚至不明白EM演算法為什麼叫做EM演算法。所以在給出E步和M步之前,我想先談一談 函數。
我們回顧一下 函數所滿足的條件(暫時不考慮琴生不等式取等號的限制),
在 所有可能的取值處有定義。可以看出, 是 的樣本空間上任意的一個概率分布。因此,我們可以對不等式 進行改寫。首先我們可以將含有 的求和寫成期望的形式:
這里 指的是在概率分布 下,求隨機變數 和 的期望。有同學會問,為什麼我們平時求期望的時候只要寫 ,並沒有指明是在哪個概率分布下的期望。這是因為一般情況下,我們都清楚地知道隨機變數 所服從的分布 ,並且默認在分布 下求期望。
舉個例子,我手上有一個硬幣,拋了10次,問拋出正面次數的期望。這種情況下,大部分人會默認硬幣是均勻的,也就是說拋出正面的次數 服從二項分布 ,期望 。這時有人提出了質疑,他說我認為你這個硬幣有問題,拋出正面的概率只有0.3,那麼在他眼裡, 期望 。
回到正題,我們利用等式 改寫不等式 ,可以得到:
這正是琴生不等式在概率論中的形式。我們可以將不等式倒過來理解:
首先,假定隨機變數 服從概率分布 , 是 的樣本空間上的任意一個概率分布。這里 可以是一組定值,也可以是關於參數 的函數。
顯然,當我們取不同的 時,隨機變數 的期望也會隨之改變。需要注意的是,由於 與 相關,所以這里的期望不是一個數值,而是關於 的函數。
當我們令 為 的後驗分布 時,上面的期望最大。這里有兩點需要注意,1. 後驗分布 也是一個關於參數 的函數。2. 由於期望是關於 的函數,所以這里的最大指的並非是最大值,而是最大的函數。
若對於每一個 ,我們都令 為 的後驗分布 ,則上述期望之和等於我們要極大化的似然函數,即
通過上述分析,我們為尋找似然函數的極大值點 提供了一個思路。我們不去極大化似然函數本身,而是去極大化 。至於如何將這個思路實際應用,就要利用到EM演算法中的E-step和M-step。
這一節中,我們先給出E-step和M-step的數學形式,隨後在結合拋硬幣的例子來解釋這兩步究竟在做什麼。下面進入演算法的流程,首先我們任意初始化 ,按下述過程進行迭代直至收斂:
在第 次迭代中,
(E-step)對於每個 ,令
(M-step)更新 的估計值,令
EM演算法從任意一點 出發,依次利用E-step優化 ,M-step優化 ,重復上述過程從而逐漸逼近極大值點。而這個過程究竟是怎樣的呢,就讓我們一步步地揭開EM演算法的面紗。
假設我們現在隨機初始化了 ,進入第一輪迭代:
(E-step)
由於我們已經假定模型參數為 ,所以此時 不再是與 有關的函數,而是由一組常數構成的概率分布。結合拋硬幣的例子來看,這一步是在我們已知模型參數 的基礎上(雖然這是我們瞎猜的),去推測每一次的觀測值是由哪個硬幣產生的,或者說我們對每一次觀測值做一個軟分類。比如我們根據初始化的參數,計算出 , 。可以解釋為第 個觀測值有20%的概率來自於硬幣B,80%的概率來自於硬幣C;或者說硬幣A拋出了0.2個正面,0.8個反面。
(M-step)
考慮到 是一組常數,我們可以舍棄常數項,進一步簡化上面這個要極大化的函數
由於 不再與 相關,因此上面的函數變成了對數函數求和的形式,這個函數通常來說是容易求導的,令導數等於0,我們可以求出新的參數 。我們仍舊以拋硬幣為例進行解釋,
令 , 可以得到,
這三個參數的解釋是顯而易見的。我們在E-step中對每個觀測值進行了軟分類, 可以看成是硬幣A拋出正面的次數,所以 是 的極大似然估計; 是我們拋硬幣B的次數, 是硬幣B拋出正面的次數,所以 是 的極大似然估計;對於 我們有相同的解釋。
我們將這個結果與拋硬幣1中極大似然估計的結果相比較可以發現,之前結果中的指示函數 變成了這里的 ,在指示函數下,某個觀測值要麼來自於硬幣B,要麼來自於硬幣C,因此也稱為硬分類。而在 函數下,某個觀測值可以一部分來自於硬幣B,一部分來自於硬幣C,因此也稱作軟分類。
將上述兩步綜合起來,EM演算法可以總結如下:我們首先初始化模型的參數,我們基於這個參數對每一個隱變數進行分類,此時相當於我們觀測到了隱變數。有了隱變數的觀測值之後,原來含有隱變數的模型變成了不含隱變數的模型,因此我們可以直接使用極大似然估計來更新模型的參數,再基於新的參數開始新一輪的迭代,直到參數收斂。接來下我們就討論為什麼參數一定會收斂。
前面寫了太多的公式,但是這一部分我不打算給出收斂性的數學推導。其實數學上證明EM演算法的收斂性很容易,只需要證明每一輪迭代之後,參數的似然函數遞增,即