正則化演算法

發布時間: 2022-12-28 10:21:35

㈠貝葉斯正則化演算法是怎麼提高泛化能力的！有點不懂原理！

由於造成過擬合的原因可能是太多的特徵量，所以可採用減少特徵量的方法。但是不妨換種思路，減少特徵量的權值（這個特徵乘以的 \theta 很小），來達到目的。

例如，對於 h_{\theta}(x)=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+\theta_{3}x_{3}+\theta_{4}x_{4}，已知 x_{3}\ x_{4} 的關聯度不大，我們需要減少它的權值（\theta_{3}\ \theta_{4}），可將代價函數修改為 J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2+1000\theta_{3}^{2}+1000\theta_{4}^{2}，這樣為了降低 J(\theta)，就會使得 \theta_{3}\ \theta_{4} \rightarrow 0，達到了減小特徵的目的。

但是通常，我們不知道哪些特徵量是無關的，所以給出修改後的代價函數定義：

\large J(\theta)=\frac{1}{2m}[\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2+\lambda\sum_{i=1}^{n}\theta_{j}^{2}]

其中，\lambda 稱為正則化參數，\lambda\sum_{i=1}^{n}\theta_{j}^{2} 稱為正則項，目的是使得 \theta_{j} 減小。正則化使得假設函數更加簡單，減小發生過擬合概率。

註：如果 \lambda 過大，會造成 \theta_{j}\rightarrow 0 \ (j=1,2,...,n)，使得 h_{\theta}(x)=\theta_{0}，造成欠擬合。

㈡正則化是什麼意思

正則化的意思：修改學習演算法，使其降低泛化誤差而非訓練誤差。

正則化，英文為regularizaiton，定義是修改學習演算法，使其降低泛化誤差（generalization error）而非訓練誤差。旨在更好實現模型泛化的補充技術，即在測試集上得到更好的表現。它是為了防止過擬合，進而增強模型的泛化能力。

2、模型集成（ensemble）

常用的模型集成方法有：bagging、boosting、stacking。

3、dropoutd

dropoutd的基本步驟是在每一次的迭代中，隨機刪除一部分節點，只訓練剩下的節點。每次迭代都會隨機刪除，每次迭代刪除的節點也都不一樣，相當於每次迭代訓練的都是不一樣的網路，通過這樣的方式降低節點之間的關聯性以及模型的復雜度，從而達到正則化的效果。

㈢什麼是正則化希望得到詳細定義和例子

圖像復原從數學角度考慮，它等價於第一類fredholm積分方程，是一種反問題，具有很大的病態性，因此，必須進行正則化處理。從統計的角度看，正則化處理其實就是一種圖像的先驗信息約束。假設圖像退化過程用如下模型描述：
g=hf+n （1）
則圖像復原即根據觀測圖像g恢復原始圖像f。正則化圖像復原從貝葉斯角度來說，可以用map(最大後驗概率估計)方法實現，即：
f=argmax{p(f|g)＝p(g|f)p(f)/p(g)} （2）
先驗分布函數 p(f)可以看成一正則化項。圖像復原關鍵問題是先驗模型p(f) 的選取，也可以說圖像建模在圖像復原中起者中心作用。早期的圖像復原方法假設服從平穩高斯分布，從而導致約束最小二乘圖像復原方法；但許多統計試驗表明大部分自然圖像都不能用平穩高斯分布准確的描述，模型的不準確導致復原的圖像質量較差，圖像邊緣不能很好的保持。mrf (markov random field)在圖像復原中起很重要的作用，如果將原始圖像看作mrf的一次實現，根據mrf的局部性，可以用局部gmrf（gauss markov random field）對圖像進行建模，按照這種方式建立的模型比用平穩高斯分布更為准確，因此所復原的質量也較好。現代很多人熱衷於小波變換的圖像復原，其原因是圖像的小波系數可近似認為互相獨立，且能夠用簡單的統計模型描述（如廣義高斯分布等）。我認為小波在圖像復原中主要起工具的作用，現在關於小波方法進行圖像復原，研究重點應放在對小波系數的統計建模（如小波系數尺度間、尺度內、方向間的相關性等）。由於一般正交小波變換不具有平移不變性和方向較少的特點，基於這些不足，現在的發展是在其他變換域內建立模型，如（冗餘小波變換，復小波變換，脊波，曲波等）這仍是一個正在發展的課題，關於對這些變換域系數進行統計建模用於圖像復原能夠彌補正交小波變換的不足，然而重點仍是對變換系數的統計建模。
正如我們如上所說，圖像建模對圖像復原起很重要的作用。然而，從計算復雜度的角度考慮，一個好的模型常導致計算上的困難。因為一個好的模型最終導致一個（2）式有多個極值點，從而在計算上必須用一些全局優化演算法（如模擬退火等），這導致很大的計算量。
綜上分析，圖像復原需要兩方面的知識需要考慮：1統計建模的知識2計算方法的知識。
兩者任一方面的改進，都會推動圖像復原的發展。因此，必須懂得數理統計，貝葉斯分析，隨機場，優化演算法，矩陣論，小波分析等數學課程。

㈣正則化詳解

機器學習模型需要擁有很好地泛化能力來適應訓練集中沒有出現過的新樣本。在機器學習應用時，我們經常會遇到過度擬合(over-fitting)的問題，可能會導致訓練出來的模型效果很差。接下來，我們將談論的正則化(regularization)技術，它可以改善或者減少過度擬合問題，以使學習演算法更好實現。

機器學習中一個重要的話題便是模型的泛化能力，泛化能力強的模型才是好模型，對於訓練好的模型，若在訓練集表現差，不必說在測試集表現同樣會很差，這可能是欠擬合（under fitting）導致；若模型在訓練集表現非常好，卻在測試集上差強人意，則這便是過擬合（over fitting）導致的，過擬合與欠擬合也可以用 Bias 與 Variance 的角度來解釋，欠擬合會導致高 Bias ，過擬合會導致高 Variance ，所以模型需要在 Bias 與 Variance 之間做出一個權衡。

使用簡單的模型去擬合復雜數據時，會導致模型很難擬合數據的真實分布，這時模型便欠擬合了，或者說有很大的 Bias， Bias 即為模型的期望輸出與其真實輸出之間的差異 ；有時為了得到比較精確的模型而過度擬合訓練數據，或者模型復雜度過高時，可能連訓練數據的噪音也擬合了，導致模型在訓練集上效果非常好，但泛化性能卻很差，這時模型便過擬合了，或者說有很大的 Variance，這時模型在不同訓練集上得到的模型波動比較大， Variance 刻畫了不同訓練集得到的模型的輸出與這些模型期望輸出的差異 。

舉例：

Bias反映的是模型的期望與真實值之間的誤差，即模型本身的精準度，Variance反映的是模型每一次輸出結果與模型輸出期望之間的誤差，即模型的穩定性。

我們通過公式來直觀了解一下，文字沒有數學符號解釋的清楚：

用圖形解釋方差與偏差：

舉一個例子，一次打靶實驗，目標是為了打到10環，但是實際上只打到了7環，那麼這裡面的Error就是3。具體分析打到7環的原因，可能有兩方面：一是瞄準出了問題，比如實際上射擊瞄準的是9環而不是10環；二是槍本身的穩定性有問題，雖然瞄準的是9環，但是只打到了7環。那麼在上面一次射擊實驗中，Bias就是1,反應的是模型期望與真實目標的差距，而在這次試驗中，由於Variance所帶來的誤差就是2，即雖然瞄準的是9環，但由於本身模型缺乏穩定性，造成了實際結果與模型期望之間的差距。

簡單的模型會有一個較大的偏差和較小的方差，復雜的模型偏差較小方差較大。

解決欠擬合的方法：
1、增加新特徵，可以考慮加入進特徵組合、高次特徵，來增大假設空間;
2、嘗試非線性模型，比如核SVM 、決策樹、DNN等模型;
3、如果有正則項可以較小正則項參數;
4、Boosting ,Boosting 往往會有較小的 Bias，比如 Gradient Boosting 等.
解決過擬合的方法：
1、交叉檢驗，通過交叉檢驗得到較優的模型參數;
2、特徵選擇，減少特徵數或使用較少的特徵組合，對於按區間離散化的特徵，增大劃分的區間;
3、正則化，常用的有 L1、L2 正則。而且 L1正則還可以自動進行特徵選擇;
4、如果有正則項則可以考慮增大正則項參數;
5、增加訓練數據可以有限的避免過擬合;
6、Bagging ,將多個弱學習器Bagging 一下效果會好很多，比如隨機森林等.
DNN中常見的方法：
1、早停策略。本質上是交叉驗證策略，選擇合適的訓練次數，避免訓練的網路過度擬合訓練數據。
2、集成學習策略。而DNN可以用Bagging的思路來正則化。首先我們要對原始的m個訓練樣本進行有放回隨機采樣，構建N組m個樣本的數據集，然後分別用這N組數據集去訓練我們的DNN。即採用我們的前向傳播演算法和反向傳播演算法得到N個DNN模型的W,b參數組合，最後對N個DNN模型的輸出用加權平均法或者投票法決定最終輸出。不過用集成學習Bagging的方法有一個問題，就是我們的DNN模型本來就比較復雜，參數很多。現在又變成了N個DNN模型，這樣參數又增加了N倍，從而導致訓練這樣的網路要花更加多的時間和空間。因此一般N的個數不能太多，比如5-10個就可以了。
3、DropOut策略。所謂的Dropout指的是在用前向傳播演算法和反向傳播演算法訓練DNN模型時，一批數據迭代時，隨機的從全連接DNN網路中去掉一部分隱藏層的神經元。在對訓練集中的一批數據進行訓練時，我們隨機去掉一部分隱藏層的神經元，並用去掉隱藏層的神經元的網路來擬合我們的一批訓練數據。使用基於dropout的正則化比基於bagging的正則化簡單，這顯而易見，當然天下沒有免費的午餐，由於dropout會將原始數據分批迭代，因此原始數據集最好較大，否則模型可能會欠擬合。

正則化的目的是限制參數過多或者過大，避免模型更加復雜。例如，使用多項式模型，如果使用 10 階多項式，模型可能過於復雜，容易發生過擬合。因此需要在目標函數添加一些額外的懲罰項，即正則項。添加懲罰項可看成是對損失函數中的某些參數做一些限制，根據懲罰項的不同可分為：L0范數懲罰、L1范數懲罰（參數稀疏性懲罰）、L2范數懲罰（權重衰減懲罰）。
L0范數懲罰：為了防止過擬合，我們可以將其高階部分的權重 w 限制為 0，這樣，就相當於從高階的形式轉換為低階。為了達到這一目的，最直觀的方法就是限制 w 的個數，但是這類條件屬於 NP-hard 問題，求解非常困難。因此機器學習中經常使用L1、L2正則化。L1正則化項也稱為Lasso，L2正則化參數也稱為Ridge。
L1范數：權值向量w中各個元素的絕對值之和，L1正則化可以產生稀疏權值矩陣，即產生一個稀疏模型，可以用於特徵選擇。
L2范數：權值向量w中各個元素的平方和然後再求平方根，L2正則化可以防止模型過擬合；一定程度上，L1也可以防止過擬合。

上面我們得到了帶約束的優化問題A2，在實際的求解中，帶約束的優化問題往往較難求解，大多都是轉化為無約束優化問題去求解。接下來自然而然的我們採用拉格朗日乘子法將約束轉化到目標函數上去，也就將約束優化問題A2轉化為一個無約束的優化問題。那麼這個無約束優化問題的形式是什麼樣的呢？這里直接先把最終的結論擺上來：

稀疏性對很多機器學習建模問題來說是非常重要的，也是非常好的一個性質。既然有很多系數等於0了，那麼說明與之對應的輸入是沒有用了，這些輸入就可以捨去，相當於起到了降維和feature selection的作用。特殊要說明的是用L1正則化來降維和PCA降維是不同的，可以理解為L1正則化是用了數據的標簽來做的，而PCA無需數據的標簽。所以L1正則化實際上是帶有監督學習性質的降維方法。

擬合過程中通常都傾向於讓權值盡可能小，最後構造一個所有參數都比較小的模型。因為一般認為參數值小的模型比較簡單，能適應不同的數據集，也在一定程度上避免了過擬合現象。可以設想一下對於一個線性回歸方程，若參數很大，那麼只要數據偏移一點點，就會對結果造成很大的影響；但如果參數足夠小，數據偏移得多一點也不會對結果造成什麼影響，專業一點的說法是抗擾動能力強。

λ可以控制L圖形的大小，λ越小，L的圖形越大（上圖中的黑色方框和圓）；λ越大，L的圖形越小，最後求得代價函數最值時各參數也會變得很小。從另一方面看，由公式5可以看到，λ越大，θj衰減得越快。

機器學習中的Bias(偏差)，Error(誤差)，和Variance(方差)有什麼區別和聯系？

機器學習防止欠擬合、過擬合方法

【學界】有約束轉無約束，拉格朗日鬆弛觀點下的L1正則化稀疏性探討

斯坦福機器學習課程第三周 (4)正則化：解決過擬合問題

拉格朗日乘子法如何理解？

機器學習中正則化項L1和L2的直觀理解

㈤正則化為什麼能防止過擬合

在訓練數據不夠多時，或者overtraining時，常常會導致overfitting（過擬合）。其直觀的表現如下圖所示，隨著訓練過程的進行，模型復雜度增加，在training data上的error漸漸減小，但是在驗證集上的error卻反而漸漸增大——因為訓練出來的網路過擬合了訓練集，對訓練集外的數據卻不工作。

為了防止overfitting，可以用的方法有很多，下文就將以此展開。有一個概念需要先說明，在機器學習演算法中，我們常常將原始數據集分為三部分：

這個validation data是什麼？它其實就是用來避免過擬合的，在訓練過程中，我們通常用它來確定一些超參數（比如根據validation data上的accuracy來確定early stopping的epoch大小、根據validation data確定learning rate等等）。那為啥不直接在testing data上做這些呢？因為如果在testing data做這些，那麼隨著訓練的進行，我們的網路實際上就是在一點一點地overfitting我們的testing data，導致最後得到的testing accuracy沒有任何參考意義。因此，training data的作用是計算梯度更新權重，validation data如上所述，testing data則給出一個accuracy以判斷網路的好壞。

避免過擬合的方法有很多：

L2正則化就是在代價函數後面再加上一個正則化項：

C0代表原始的代價函數，後面那一項就是L2正則化項，它是這樣來的：所有參數w的平方的和，除以訓練集的樣本大小n。λ就是正則項系數，權衡正則項與C0項的比重。另外還有一個系數1/2，1/2經常會看到，主要是為了後面求導的結果方便，後面那一項求導會產生一個2，與1/2相乘剛好湊整。

L2正則化項是怎麼避免overfitting的呢？我們推導一下看看，先求導：

可以發現L2正則化項對b的更新沒有影響，但是對於w的更新有影響:

在不使用L2正則化時，求導結果中w前系數為1，現在w前面系數為 1−ηλ/n ，因為η、λ、n都是正的， 所以 1−ηλ/n小於1，它的效果是減小w，這也就是權重衰減（weight decay）的由來。當然考慮到後面的導數項，w最終的值可能增大也可能減小 。

另外，需要提一下，對於基於mini-batch的隨機梯度下降，w和b更新的公式跟上面給出的有點不同：

對比上面w的更新公式，可以發現後面那一項變了，變成所有導數加和，乘以η再除以m，m是一個mini-batch中樣本的個數。

到目前為止，我們只是解釋了L2正則化項有讓w「變小」的效果，但是還沒解釋為什麼w「變小」可以防止overfitting？一個所謂「顯而易見」的解釋就是：更小的權值w，從某種意義上說，表示網路的復雜度更低，對數據的擬合剛剛好（這個法則也叫做奧卡姆剃刀），而在實際應用中，也驗證了這一點，L2正則化的效果往往好於未經正則化的效果。

過擬合的時候，擬合函數的系數往往非常大，為什麼？如下圖所示，過擬合，就是擬合函數需要顧忌每一個點，最終形成的擬合函數波動很大。在某些很小的區間里，函數值的變化很劇烈。這就意味著函數在某些小區間里的導數值（絕對值）非常大，由於自變數值可大可小，所以只有系數足夠大，才能保證導數值很大。

而正則化是通過約束參數的范數使其不要太大，所以可以在一定程度上減少過擬合情況 。

㈥貝葉斯正則化演算法，為什麼可以提高泛化能力，別的演算法也只是把訓練樣本，訓練好，為什麼泛化能力就不行了

因為貝葉斯這些是綜合考慮過去與未來進行整合的演算法，有些演算法只考慮預測值是否合適。貝葉斯是對預測值與當前值進行耦合，貝葉斯本身就是一種預測器，預測器模型都有泛化能力好的優點。

㈦正則化到底指什麼

由普通字元（例如字元 a 到 z）以及特殊字元（稱為元字元）組成的文字模式。該模式描述在查找文字主體時待匹配的一個或多個字元串。正則表達式作為一個模板，將某個字元模式與所搜索的字元串進行匹配。

㈧正則化（Regularization）

在之前的學習中，我們已經了解了線性回歸和邏輯回歸的相關問題，並且學習了兩種演算法的假設函數和梯度下降的基本演算法。但是，在演算法的實際應用中，並不是特徵值越多，假設函數與訓練數據集擬合的越完美越好，或者說其代價函數為0（），出現這種情況會使得假設函數預測新的數據變得困難，稱之為過擬合（Overfitting），過擬合如下圖所示：

為了解決過擬合問題，有以下解決方案:

正則化的思想就是減少高次項的值，使得曲線平滑，因此，在線性回歸演算法中的代價函數可以如下表示：

以上公式中，表示正則化參數，在演算法實際運行過程中，要選擇合適的值，不能使其過大，否則可能會導致過擬合不能被消除，或者梯度下降演算法不收斂。

正規方程法的正則化演算法公式如下：

其中表示 x 的對角矩陣，其主對角線第一個元素為0，其餘全為1.

與線性回歸演算法類似，邏輯回歸演算法的正則化也是通過減少高次項的值，使得決策邊界變得平滑，以避免出現過擬合問題，其代價函數正則化用如下公式表示：

梯度下降演算法中的正則化表示如下所示：

需要注意的是：與線性回歸不同的是，此時

閱讀全文

熱點內容

資料庫邏輯存儲結構發布：2025-07-10 09:26:56 瀏覽：917

密碼編譯找規律發布：2025-07-10 09:18:10 瀏覽：511

電影視頻緩存後發布：2025-07-10 09:16:48 瀏覽：892

伺服器搭建需要哪些東西發布：2025-07-10 09:15:23 瀏覽：801

無限密碼怎麼改發布：2025-07-10 09:14:32 瀏覽：104

coc按鍵精靈腳本發布：2025-07-10 09:12:40 瀏覽：311

excel表格ftp函數發布：2025-07-10 09:05:50 瀏覽：276

u2game的解壓密碼發布：2025-07-10 09:05:14 瀏覽：597

c語言編譯器ide蘋果下載發布：2025-07-10 09:05:13 瀏覽：294

andftp埠發布：2025-07-10 08:57:04 瀏覽：607

正則化演算法

與正則化演算法相關的資訊