基於svm演算法

發布時間: 2022-11-14 02:41:46

『壹』簡述svm演算法的原理

svm演算法是在數據中找出最優間隔平面，如果數據線性不可分，那麼可以使用核函數

『貳』分類演算法 - SVM演算法

SVM的全稱是Support Vector Machine，即支持向量機，主要用於解決模式識別領域中的數據分類問題，屬於有監督學習演算法的一種。SVM要解決的問題可以用一個經典的二分類問題加以描述。如圖1所示，紅色和藍色的二維數據點顯然是可以被一條直線分開的，在模式識別領域稱為線性可分問題。然而將兩類數據點分開的直線顯然不止一條。圖2和3分別給出了A、B兩種不同的分類方案，其中黑色實線為分界線，術語稱為「決策面」。每個決策面對應了一個線性分類器。雖然在目前的數據上看，這兩個分類器的分類結果是一樣的，但如果考慮潛在的其他數據，則兩者的分類性能是有差別的。

之前在b站看到一個非常好的介紹！！十分推薦，這是傳送門

按照我自己的理解，以二維數據為例，我們喂給模型已經分類好的數據，那麼假設有一線條可以將此部分數據正確劃分為2大部分，這樣可以形成2個等式，即橫線兩邊的數值歸類為1或者-1，一般情況下可以求出最大間隔即無數個解，因此需要一個限定條件求出最優的那條線條。限定方式為：無數個解形成一個解的范圍，距離邊緣相等的那條線條即是最優解。

有時候本來數據的確是可分的，也就是說可以用線性分類SVM的學習方法來求解，但是卻因為混入了異常點，導致不能線性可分，比如下圖，本來數據是可以按下面的實線來做超平面分離的，可以由於一個橙色和一個藍色的異常點導致我們沒法按照線性分類支持向量機方法來分類。

以上討論的都是在線性可分情況進行討論的，但是實際問題中給出的數據並不是都是線性可分的，比如有些數據可能是曲線的。

那麼這種非線性可分的數據是否就不能用SVM演算法來求解呢？答案是否定的。事實上，對於低維平面內不可分的數據，放在一個高維空間中去就有可能變得可分。以二維平面的數據為例，我們可以通過找到一個映射將二維平面的點放到三維平面之中。理論上任意的數據樣本都能夠找到一個合適的映射使得這些在低維空間不能劃分的樣本到高維空間中之後能夠線性可分。

當特徵變數非常多的時候，在高維空間中計算內積的運算量是非常龐大的。考慮到我們的目的並不是為找到這樣一個映射而是為了計算其在高維空間的內積，因此如果我們能夠找到計算高維空間下內積的公式，那麼就能夠避免這樣龐大的計算量，我們的問題也就解決了。實際上這就是我們要找的 核函數 ，即兩個向量在隱式映射後的空間中的內積。

（1）對於邊界清晰的分類問題效果好；
（2）對高維分類問題效果好；
（3）當維度高於樣本數的時候，SVM 較為有效；
（4）因為最終只使用訓練集中的支持向量，所以節約內存

（1）當數據量較大時，訓練時間會較長；
（2）當數據集的噪音過多時，表現不好；
（3）SVM 不直接提供結果的概率估計，它在計算時直接使用 5 倍交叉驗證。

（1）LR 與 SVM 都是分類演算法；
（2）LR 與 SVM 都是監督學習演算法；
（3）LR 與 SVM 都是判別模型；
（4）關於判別模型與生成模型的詳細概念與理解，筆者會在下篇博文給出，這里不詳述。
（5）如果不考慮核函數，LR 與 SVM 都是線性分類演算法，也就是說他們的分類決策面都是線性的

這里需要說明的是，LR 也是可以用核函數的，因在 LR 演算法里，每個樣本點都必須參與決策面的計算過程，也就是說，如果在 LR 里也運用核函數的原理，那麼每個樣本點都必須參與核計算，這帶來的計算復雜度是相當高的。所以在具體應用時，LR 很少運用核函數機制。

（1）損失函數不同；
（2）SVM 只考慮支持向量，而 LR 考慮全局（即遠離的點對邊界線的確定也起作用）；
（3）在解決非線性問題時，SVM 採用核函數的機制，而 LR 通常不採用核函數的方法；
（4）SVM 的損失函數就自帶正則（損失函數中的12||w||2項），這就是為什麼 SVM 是結構風險最小化演算法的原因，而 LR 必須另外在損失函數上添加正則項；
（5）LR是參數模型，SVM是非參數模型，本質不同。
（6）在訓練集較小時，SVM 較適用，而 LR 需要較多的樣本。

（1）LR 與線性回歸都是廣義的線性回歸；
（2）線性回歸模型的優化目標函數是最小二乘，而 LR 則是似然函數；
（3）線性回歸在整個實數域范圍內進行預測，敏感度一致，而分類范圍，需要在[0,1]。邏輯回歸就是一種減小預測范圍，將預測值限定為[0,1]間的一種回歸模型，因而對於這類問題來說，邏輯回歸的魯棒性比線性回歸的要好。
（4）邏輯回歸的模型本質上是一個線性回歸模型，邏輯回歸都是以線性回歸為理論支持的。但線性回歸模型無法做到 sigmoid 的非線性形式，sigmoid 可以輕松處理 0/1 分類問題。
（5）線性回歸主要做預測，LR 主要做分類（如二分類）；

『叄』 SVM演算法-推導

第一部分：從幾何意義到數學表達

第三部分：SMO
求解第二部分最後推導出的最小化問題，每次固定兩個lambda，由於有最後一個條件限制：lambdai*yi + lambdaj yj = const，labmdai可以用lambdaj表達出來，最小化函數是一個拋物線，開口朝上，求導，令導數為0，獲得沒有限制的最優化問題，由於lambdai >= 0（第1個限制條件），做一個clipping，獲得在限制條件下的lambdai最優解，然後也能求得lambdaj，就完成了一次lambdai和lambdaj的更新迭代。
一般取最違反KKT條件的lambdai和lambdaj來做更新。

svm軟間隔

svm的核函數選擇

一般選擇高斯核函數，線性核函數是高斯核函數的一個特例；在特定的參數下，sigmoid核函數和高斯核函數具有類似的作用；相比於多項式核函數，高斯核函數的參數更少，更好調，當然，如果能把多項式核函數的參數調好，有可能會獲得更好的效果。對於特徵數量非常大的情況，會更傾向於使用線性核函數。

為什麼要轉化為對偶問題?

高斯核函數無限維的理解

『肆』 SVM幾種核函數的對比分析以及SVM演算法的優缺點

SVM核函數的作用

SVM核函數是用來解決數據線性不可分而提出的，把數據從源空間映射到目標空間（線性可分空間）。

SVM中核函數的種類

1、線性核

優點：

方案首選，奧卡姆剃刀定律
簡單，可以求解較快一個QP問題
可解釋性強：可以輕易知道哪些feature是重要的

限制：只能解決線性可分問題

2、多項式核

基本原理：依靠升維使得原本線性不可分的數據線性可分；
升維的意義：使得原本線性不可分的數據線性可分；

優點：

可解決非線性問題
可通過主觀設置冪數來實現總結的預判

缺點：

對於大數量級的冪數，不太適用
比較多的參數要選擇

通常只用在已經大概知道一個比較小的冪數的情況

3、高斯核

優點：

可以映射到無限維
決策邊界更為多樣
只有一個參數，相比多項式核容易選擇

缺點：

可解釋性差(無限多維的轉換，無法算w)
計算速度比較慢(解一個對偶問題)
容易過擬合(參數選不好時容易overfitting)

4、Sigmoid核

採用Sigmoid函數作為核函數時，支持向量機實現的就是一種多層感知器神經網路，應用SVM方法，隱含層節點數目(它確定神經網路的結構)、隱含層節點對輸入節點的權值都是在設計(訓練)的過程中自動確定的。而且支持向量機的理論基礎決定了它最終求得的是全局最優值而不是局部最小值，也保證了它對於未知樣本的良好泛化能力而不會出現過學習現象。

在實戰中更多的是：

特徵維數高選擇線性核
樣本數量可觀、特徵少選擇高斯核（非線性核）
樣本數量非常多選擇線性核（避免造成龐大的計算量）

SVM的優缺點

1、SVM演算法對大規模訓練樣本難以實施

SVM的空間消耗主要是存儲訓練樣本和核矩陣，由於SVM是藉助二次規劃來求解支持向量，而求解二次規劃將涉及m階矩陣的計算（m為樣本的個數），當m數目很大時該矩陣的存儲和計算將耗費大量的機器內存和運算時間。針對以上問題的主要改進有有J.Platt的SMO演算法、T.Joachims的SVM、C.J.C.Burges等的PCGC、張學工的CSVM以及O.L.Mangasarian等的SOR演算法。如果數據量很大，SVM的訓練時間就會比較長，如垃圾郵件的分類檢測，沒有使用SVM分類器，而是使用了簡單的naive bayes分類器，或者是使用邏輯回歸模型分類。

2、用SVM解決多分類問題存在困難

經典的支持向量機演算法只給出了二類分類的演算法，而在數據挖掘的實際應用中，一般要解決多類的分類問題。可以通過多個二類支持向量機的組合來解決。主要有一對多組合模式、一對一組合模式和SVM決策樹；再就是通過構造多個分類器的組合來解決。主要原理是克服SVM固有的缺點，結合其他演算法的優勢，解決多類問題的分類精度。如：與粗集理論結合，形成一種優勢互補的多類問題的組合分類器。

3、對缺失數據敏感，對參數和核函數的選擇敏感

支持向量機性能的優劣主要取決於核函數的選取,所以對於一個實際問題而言,如何根據實際的數據模型選擇合適的核函數從而構造SVM演算法。目前比較成熟的核函數及其參數的選擇都是人為的,根據經驗來選取的,帶有一定的隨意性.在不同的問題領域,核函數應當具有不同的形式和參數,所以在選取時候應該將領域知識引入進來,但是目前還沒有好的方法來解決核函數的選取問題。

『伍』 svm演算法是什麼

SVM演算法中文翻譯為支持向量機，它的英文全稱是Support Vector Machine。

之所以叫作支持向量機，是因為該演算法最終訓練出來的模型，由一些支持向量決定。所謂的支持向量，也就是能夠決定最終模型的向量。SVM演算法最初是用來解決二分類問題的，而在這個基礎上進行擴展，也能夠處理多分類問題以及回歸問題。

SVM演算法的歷史

早在1963 年，著名的前蘇聯統計學家弗拉基米爾·瓦普尼克在讀博士期間，就和他的同事阿列克謝·切爾沃寧基斯共同提出了支持向量機的概念。

但由於當時的國際環境影響，他們用俄文發表的論文，並沒有受到國際學術界的關注。直到 20 世紀 90 年代，瓦普尼克隨著移民潮來到美國，而後又發表了SVM 理論。此後，SVM 演算法才受到應有的重視。如今，SVM 演算法被稱為最好的監督學習演算法之一。

『陸』 svm演算法是什麼

SVM(Support Vector Machine)中文名為支持向量機，是常見的一種判別方法。

支持向量機（Support Vector Machine, SVM）是一類按監督學習（supervised learning）方式對數據進行二元分類的廣義線性分類器（generalized linear classifier），其決策邊界是對學習樣本求解的最大邊距超平面（maximum-margin hyperplane）。

數值求解特點：

SVM的求解可以使用二次凸優化問題的數值方法，例如內點法和序列最小優化演算法，在擁有充足學習樣本時也可使用隨機梯度下降。

在二次凸優化問題中，SMO的每步迭代都嚴格地優化了SVM的對偶問題，且迭代會在有限步後收斂於全局極大值。SMO演算法的迭代速度與所選取乘子對KKT條件的偏離程度有關，因此SMO通常採用啟發式方法選取拉格朗日乘子。

在每次迭代時，SGD首先判定約束條件，若該樣本不滿足約束條件，則SGD按學習速率最小化結構風險；若該樣本滿足約束條件，為SVM的支持向量，則SGD根據正則化系數平衡經驗風險和結構風險，即SGD的迭代保持了SVM的稀疏性。

『柒』 svm在多類分類演算法中的分析和應用

SVM是Support Vector Machine 的縮寫，翻譯過來就是支持向量機，屬於一種機器學習演算法，類似於人工神經網路，但是分類的效果好於神經網路，而且演算法固定，不會出現網路輸出不收斂或者隨機性較大的情況。

svm本身是一個二元分類器，你要進行多元分類，必須構造多分類演算法，常見的是一對一和一對多演算法。網上關於支持向量機的論文很多，常用的計算工具有基於 MATLAB 的 OSU-SVM 工具包和 LS-SVM 工具包，效果都還不錯。

『捌』機器學習演算法中的SVM和聚類演算法

1.機器學習演算法——SVM
這種演算法就是支持向量機，而支持向量機演算法是誕生於統計學習界，這也是機器學習中的經典演算法，而支持向量機演算法從某種意義上來說是邏輯回歸演算法的強化，這就是通過給予邏輯回歸演算法更嚴格的優化條件，支持向量機演算法可以獲得比邏輯回歸更好的分類界線。不過如果通過跟高斯核的結合，支持向量機可以表達出非常復雜的分類界線，從而達成很好的的分類效果。核事實上就是一種特殊的函數，最典型的特徵就是可以將低維的空間映射到高維的空間。
2．機器學習演算法——聚類演算法
前面的演算法中的一個顯著特徵就是訓練數據中包含了標簽，訓練出的模型可以對其他未知數據預測標簽。在下面的演算法中，訓練數據都是不含標簽的，而演算法的目的則是通過訓練，推測出這些數據的標簽。這類演算法有一個統稱，即無監督演算法。無監督演算法中最典型的代表就是聚類演算法。而聚類演算法中最典型的代表就是K-Means演算法。這一演算法被廣大朋友所應用。

想要學習了解更多機器學習的知識，推薦CDA數據分析師課程。「CDA 數據分析師」具體指在互聯網、金融、零售、咨詢、電信、醫療、旅遊等行業專門從事數據的採集、清洗、處理、分析並能製作業務報告、提供決策的新型數據分析人才，推動科技創新進步，助力經濟持續發展。點擊預約免費試聽課。

『玖』 svm演算法是什麼

SVM(Support Vector Machine)中文名為支持向量機，是常見的一種判別方法。

數值求解特點：

SVM的求解可以使用二次凸優化問題的數值方法，例如內點法和序列最小優化演算法，在擁有充足學習樣本時也可使用隨機梯度下降。

『拾』 SVM演算法原理

一、決策面方程

以二維空間為例，二維空間中任意一條直線方程可以寫為

我們將其向量化，可以得到

設用向量w代表矩陣a1和a2，用向量x代表矩陣x1和x2，標量γ代表b，則方程可化表示為

從方程可知，一個n維空間的超平面在二維空間上的表現，可以是一條直線，或者一個曲線（二維空間中只能看到這個n維超平面穿過而無法看到其模樣），超平面方程即是我們的決策面方程

二、函數間隔和幾何間隔

在SVM監督學習中，我們規定標簽數據為+1和-1兩個值，這么做的目的，可以計算出任意一個樣本點在超平面方程上的表現結果的符號，與標簽符號是否一致來判斷分類的正確性，為此我們可以引入函數間隔的概念

但是當我們成比例的縮放w和γ，函數間隔的值也將成比例的變化，可是超平面的位置並沒有發生任何變化，所以函數間隔並不是我們想要的分類間隔，為此，我們需要引入幾何間隔的概念

還是以二維空間出發，任意一點到直線的距離可以寫成

我們將其拓展到n維空間，直線方程即是我們的超平面方程，則n維空間中任何一點到超平面的距離可以寫成

為此，我們引入幾何間隔概念，其中||w||表示向量w的二范數

從幾何間隔可以看出，就算等比例縮放w和γ，由於除上了||w||使得幾何間隔的值不會改變，它只隨著超平面位置的變化而變化，因此，我們要尋找的分類間隔是幾何間隔

三、不等式約束條件

SVM演算法的目的是找到一個將分類效果達到最合理化的超平面，這個超平面即是分類器。而評估分類器的好壞的標准就是分類間隔的大小

我們定義分類間隔的距離為d，好的分類器應該讓所有樣本點到決策面的幾何間隔都大於等於d

化簡上式，不等式兩邊同時除以d可得

由於||w||和d都是標量，可定義

則上式可化簡為

在不等式兩邊同時乘以yi，即將兩個式子化簡為一個式子（這里體現了正是因為標簽數據為+1和-1，才方便將約束條件變成一個約束方程）

這個約束方程的意義即是任何樣本點到超平面（分類器）的幾何間隔都大於等於分類間隔

四、SVM最優化模型的數學描述

評估分類器的優劣是分類間隔的大小，且對於任意樣本點都滿足約束方程

由約束方程可知，當樣本點落在支持向量邊界上有如下關系

則分類間隔d可以表示為支持向量點到超平面的幾何間隔

要讓任何樣本點都在d之外，即求分類間隔d的最大值，則目標函數可以寫成

為了方便在後續最優化處理中對目標函數的求導，我們將目標函數做等效變化

由目標函數是二次的，而約束條件是線性的，則 SVM的數學模型即是：不等式約束條件下的二次型函數優化，而求解這一類優化問題，接下來我們需要構造拉格朗乘子函數

五、引入拉格朗函數

目標函數是求解在約束條件g(x)下的二次型函數f(x)的最小值，直觀上我們希望構造一個函數L(x)，使得L(x)在f(x)的可行解區域內的求出的值和f(x)求出的值完全一樣，而在f(x)的可行解區域外，L(x)的值又接近無窮大，這么做的目的，使得我們可以用一個函數L(x)來等效表示原問題的g(x)和f(x)

拉格朗函數的目的，就是將約束條件融合到目標函數中，構造一個新函數來表示目標函數，將有約束的優化問題轉化為無約束的優化問題

下面，我們構造拉格朗函數來表示目標函數

其中αi是拉格朗日乘子，每一個約束條件對應一個拉格朗日乘子，其中αi大於等於0

則原優化問題可以轉化為

討論如下條件(1)(2)：

(1) 當樣本點不滿足約束條件時，即說明在可行解區域外

此時將αi置為正無窮大，那麼θ(w)顯然也是正無窮大

(2) 當樣本點滿足約束條件時，即說明在可行解區域內

此時θ(w)的最小值就是原目標函數，於是綜上所述，引入拉格朗乘子函數後，可以得到新的目標函數

我們用p*表示優化目標函數後的最優解，且與最初的目標函數等價

觀察新的目標函數，如果直接求偏導數求解，那麼一上來將面對w和b兩個未知參數，而αi又是不等式約束，求解過程將非常復雜。換一個角度思考，如果將max和min的位置對調，變成如下新的目標函數

上式變化使用了拉格朗日函數的對偶性，交換後的新問題即是原目標函數的對偶問題，我們用d*來表示對偶目標函數的最優解，可見d*的求導過程比p*相對容易，且d*<=p*，而當滿足下列條件時，d*= p*

因為目標函數本身已經是一個凸函數，而優化問題又是求解最小值，所以目標函數的最優化問題就是凸優化問題，則接下來就要重點討論KKT條件

六、KKT條件的描述

一個最優化模型能夠表示成下列標准形式

其中f(x)是需要最小化的函數，h(x)是等式約束，g(x)是不等式約束，m和n分別是等式約束和不等式約束的數量

KKT條件即是規定f(x)的最優值必須滿足以下(1)(2)(3)條件，只有滿足KKT條件，目標函數的最優化問題依然可以用拉格朗日乘子法解決

很明顯，我們需要優化的目標函數屬於帶有不等式約束函數g(x)，所以條件二顯然滿足，下面我們來分析條件一和條件三的理論

七、目標函數的等高線與約束條件的最優值分析（條件一）

對於KKT條件一的分析，我們假設目標函數是f(x1,x2)的二元函數，它的圖像在三維空間里是一個曲面，准確的來說是一個凸曲面

其中g(x1,x2)是約束方程，要求目標函數f(x1,x2)的最小值，即轉化為求g(x1,x2)=c這條曲線上的一點，使得f(x1,x2)取得最小值，換個比喻，就是在山上（目標函數曲面）尋找一條山路（約束條件曲線）的最低點

我們畫出目標函數的等高線，來分析目標函數最優值和約束條件的關系

對於研究目標函數z=f(x1,x2)，當z取不同的值，即將曲線z投影在(x1,x2)組成的空間中（這里指的是二維空間），也就是曲面的等高線，上圖中d1和d2即是兩條目標函數的等高線，可以看出，當約束函數g(x1,x2)與目標函數的等高線有共同的交點，即證明這組值同時滿足在目標函數的可行域中，也符合約束條件的約束關系

如果等高線與g(x1,x2) 相交，則是一組目標函數的解，但是這個解一定不是最優解，因為相交意味著肯定存在其它等高線在該條等高線的內部或者外部，可能會使得新的等高線與g(x1,x2)的交點更大或者更小，這就意味著只有當等高線與g(x1,x2) 相切，才可能得到最優解（切線可能多條）

所以最優解必須滿足：目標函數的負梯度方向與約束函數的梯度方向一致

而上式恆成立的條件就是：拉格朗日乘子α >= 0 ，且這個式子就是目標函數對各個參數求偏導數的結果，即KKT的第一個條件：目標函數對各個參數的導數為0

八、分類討論約束條件和拉格朗日乘子的組合（條件三）

對於KKT條件三，可以看出，因為所有的約束函數gi(x)<=0，所有的拉格朗日乘子αi>=0，要使得求和後結果為0，要麼某個約束函數gi(x)=0，要麼其對應的αi=0

從一個案例出發來分析KKT條件三的邏輯，假設目標函數和約束函數是

將不等式約束構造出拉格朗日函數，並分別對x1和x2求偏導數

而KKT的條件三要求最優解滿足 ∑α*g(x) = 0，在這個案例里α和g(x)只有一個，結合條件一，可以得到

根據之前的分析，最優值滿足條件三的話，要麼α=0，要麼g(x)=0

（i）：如果α=0，則x1=1，x2=-2，代入g(x1,x2) =10-1-10*(-2)=29>0，發現這組解違背了約束函數g(x)<0，則舍棄這組解

（ii）: 如果g(x1,x2)=0，則代入x1和x2的表達式到g(x)中，解出α=58/101>0，發現這組解不違背約束函數，則代入α解出x1=130/101，x2=88/101，則這組解有可能是最優解

綜上(i)(ii)討論，目標函數的最優值符合KKT條件三，也說明了滿足強對偶條件的優化問題的最優值必須滿足KKT條件

九、求解對偶問題

上面分析了目標函數滿足凸優化和KKT條件，則問題轉化為求解原問題的對偶問題（即p*=d*）

根據對偶問題描述，先要求內側w和b關於L(w,b,α)的最小化值，即求L對w和b的偏導數

將w和b的偏導數帶入拉格朗函數化簡得

整理一下最終化簡結果為

從上述結果可以看出，樣本的x和y是已知的，此時的 L(w,b,α)函數只有一個變數，即αi

我們歸納一下現在的目標函數為

現在目標函數變成了如上形式，其中αi>=0，這里隱含著一個假設，即數據100%線性可分，但是現實生活中，數據往往是不會那麼規則的線性化，為此我們需要引入鬆弛變數

十、引入鬆弛變數

由於現實世界中的數據都是帶有噪音的，也就是數據可能出偏離其正常的位置很遠，而出現這種極端現象後往往會影響超平面的選擇，也許將無法構造出將數據徹底分開的超平面出來

所以對於處理這種情況， SVM需要允許（妥協）出某些噪音很大的數據點能夠偏離超平面，即允許其出現在超平面的錯誤的一側，為此我們引入鬆弛變數C，這樣我們的目標函數又變為

接下來為了研究討論αi的取值范圍，我們加上一個負號將目標函數等價轉化為

十一、討論拉格朗乘子的取值意義和其值域

回顧一下最初的約束條件為

設ui為該約束條件，可以歸納出αi關於約束函數的取值意義

αi只有滿足上述3種情況，才能求出最優解，所以當αi與約束條件ui沖突的時候，需要更新這些αi ，這也就是滿足目標函數的第一個約束限制，即0<=αi<=C

而同時目標函數還受到第二個約束條件的限制，即

所以不能只更新一個αi因子，需要同時再次更新第二個αj因子，也就是 α因子總是成對的更新（αi對總是和αj配對），一增一減，此消彼長，才能保證加權和為0的約束，同時這也就是下面提及SMO演算法的思想和多元函數化簡為二元函數，在從二元函數化簡為一元函數的難點

根據這個約束和α因子需要成對更新，假設我們選取的兩個拉格朗乘子為α1和α2，則更新之前是old，更新之後是new，且更新前後需要滿足和為0的約束

兩個因子同時更新顯然非常困難，所以需要先求出第一個αj的解，再用αj的解去表示更新第二個αi的解，後文的SMO演算法會闡述這一點。因此需要先確定αj的取值范圍，假設L和H分別為它的下界和上界，結合目標函數的約束限制來綜合討論L和H的取值關系

（i）：當y1和y2異號時，可以得到

移項可得a2 = a1 - A，此時α的取值范圍如下圖所示

所以此時α的上下界H和L為

（ii）：當y1和y2同號時，可以得到

移項可得a2 = -a1 + A，此時α的取值范圍如下圖所示

所以此時α的上下界H和L為

綜上(i)(ii)的討論，通過y1和y2的異號或者同號，可以推導出α更新後的上下界分別為

這個公式顯得非常的重要，它將α因子限制在有效的矩形范圍內，在SMO演算法中，當我們更新完α後，由於α可能會被更新得很大或很小，因此需要經過裁剪來保證α的在約束條件內

12、SMO演算法的思想

回顧之前第九，第十，第十一步的分析，目標函數為

目標函數只包含n個變數α的多元函數，且帶有兩個約束條件，我們的目的是求出目標函數的最小值，即找到一組α的組合，使得目標函數取得最小值

由第十一步的分析，我們需要不斷更新這n個α因子，通過迭代來逼近函數達到最小值，但是如果一次性更新n個參數，將會有n!種組合，那麼時間復雜度將會非常高，為此我們首先想到坐標上升（下降）法

來通過一個例子來說明坐標上升法的思路

可知案例中要求一個三元函數的最大值，演算法的思想是每次迭代時只更新一個維度，通過多次迭代直到收斂來優化函數的最值，求出三個變數的偏導數推出其關系

通過迭代即就可以求出其最值

SMO演算法借鑒了坐標上升（下降）法的思想來優化α因子組合，但是由於目標函數的第二個約束條件有加權和為0的限制，導致每次迭代時候不能只更新一個因子αi，必須同時更新與之配對的另一個因子αj，此消彼長才能保證加權和為0（第十一步中已提及）

所以SMO演算法思想是將原始問題中，求解n個參數的二次規劃問題，分解成了多個子二次規劃問題來分別求解，每一個子問題只需要求解2個參數，即將多元函數推導為二元函數，再將二元函數推導為一元函數

13、多元函數推導為二元函數

目標函數是關於α的N元函數，通過SMO的演算法思想，假設每次迭代更新，選取一對α1和α2的組合，其餘的乘子不變，首先需要將α1和α2從目標函數中分離出來，也就是將多元函數推導為二元函數

從N元函數中分離出α1和α2因子

由於上式推導結果過於復雜，我們定義2個表達式來表示上式常量部分，用來簡化上式

又由於單獨存下的常數項對以後的求導沒有貢獻，所以我們提出單獨的常數項定義為Constant

帶入vi和Constant表達式，則結果化簡為

至此，我們將多元函數推導為含有α1和α2變數的二元函數，接下來將這個二元函數推導為一元函數

14、二元函數推導為一元函數

我們需要推導出α1和α2的關系，然後用α2來表示α1帶入二元函數，就可以推導出關於α2的一元函數了

由目標函數的第二個約束條件

同理根據SMO演算法思想，從約束條件中分離出α1和α2

將等式兩邊同時乘以y1，可推導出α1和α2的關系

同理，我們定義兩個表達式r和s來表示上式的常量部分，用來簡化上式關系

帶入r和s後，α1和α2的關系推導為

下面將α1帶入我們的二元函數中，可得

至此，我們將二元函數推導為只含有一個變數α2的一元函數，接下來終於可以對目標函數求導了

15、求解一元函數的偏導數，推導出第一個拉格朗乘子的遞推關系

我們對一元函數求α2的偏導數為0

帶入s=y1*y2和y2*y2=1，整理上式可求出α2

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：1131

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1409

python中的init方法發布：2025-10-20 08:17:33 瀏覽：1097

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1277

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：1135

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1493

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：692

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：599

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1262

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1324

基於svm演算法

與基於svm演算法相關的資訊