演算法檢測框

發布時間: 2022-09-25 14:34:54

1. 【目標檢測演算法解讀】yolo系列演算法二

https://blog.csdn.net/Gentleman_Qin/article/details/84349144

|聲明：遵循CC 4.0 BY-SA版權協議

    建立在YOLOv1的基礎上，經過Joseph Redmon等的改進，YOLOv2和YOLO9000演算法在2017年CVPR上被提出，並獲得最佳論文提名，重點解決YOLOv1召回率和定位精度方面的誤差。在提出時，YOLOv2在多種監測數據集中都要快過其他檢測系統，並可以在速度與精確度上進行權衡。

    YOLOv2採用Darknet-19作為特徵提取網路，增加了批量標准化（Batch Normalization）的預處理，並使用224×224和448×448兩階段訓練ImageNet，得到預訓練模型後fine-tuning。

    相比於YOLOv1是利用FC層直接預測Bounding Box的坐標，YOLOv2借鑒了FSR-CNN的思想，引入Anchor機制，利用K-Means聚類的方式在訓練集中聚類計算出更好的Anchor模板，在卷積層使用Anchor Boxes操作，增加Region Proposal的預測，同時採用較強約束的定位方法，大大提高演算法召回率。同時結合圖像細粒度特徵，將淺層特徵與深層特徵相連，有助於對小尺寸目標的檢測。

    下圖所示是YOLOv2採取的各項改進帶了的檢測性能上的提升：

    YOLO9000 的主要檢測網路也是YOLO v2，同時使用WordTree來混合來自不同的資源的訓練數據，並使用聯合優化技術同時在ImageNet和COCO數據集上進行訓練，目的是利用數量較大的分類數據集來幫助訓練檢測模型，因此，YOLO 9000的網路結構允許實時地檢測超過9000種物體分類，進一步縮小了檢測數據集與分類數據集之間的大小代溝。

    下面將具體分析YOLOv2的各個創新點:

BN概述：

    對數據進行預處理（統一格式、均衡化、去噪等）能夠大大提高訓練速度，提升訓練效果。BN正是基於這個假設的實踐，對每一層輸入的數據進行加工。

    BN是2015年Google研究員在論文《Batch Normalization: Accelerating Deep Network Training by Recing Internal Covariate Shift》一文中提出的，同時也將BN應用到了2014年的GoogLeNet上，也就是Inception-v2。

    BN層簡單講就是對網路的每一層的輸入都做了歸一化，這樣網路就不需要每層都去學數據的分布，收斂會更快。YOLOv1演算法（採用的是GoogleNet網路提取特徵）是沒有BN層的，而在YOLOv2中作者為每個卷積層都添加了BN層。

    使用BN對網路進行優化，讓網路提高了收斂性，同時還消除了對其他形式的正則化（regularization）的依賴，因此使用BN後可以從模型中去掉Dropout，而不會產生過擬合。

BN優點：

神經網路每層輸入的分布總是發生變化，加入BN，通過標准化上層輸出，均衡輸入數據分布，加快訓練速度，因此可以設置較大的學習率（Learning Rate）和衰減（Decay）；

通過標准化輸入，降低激活函數（Activation Function）在特定輸入區間達到飽和狀態的概率，避免梯度彌散（Gradient Vanishing）問題；

輸入標准化對應樣本正則化，BN在一定程度上可以替代 Dropout解決過擬合問題。

BN演算法：

    在卷積或池化之後，激活函數之前，對每個數據輸出進行標准化，方式如下圖所示：

    公式很簡單，前三行是 Batch內數據歸一化（假設一個Batch中有每個數據），同一Batch內數據近似代表了整體訓練數據。第四行引入了附加參數 γ 和 β，此二者的取值演算法可以參考BN論文，在此不再贅述。

    fine-tuning：用已經訓練好的模型，加上自己的數據集，來訓練新的模型。即使用別人的模型的前幾層，來提取淺層特徵，而非完全重新訓練模型，從而提高效率。一般新訓練模型准確率都會從很低的值開始慢慢上升，但是fine-tuning能夠讓我們在比較少的迭代次數之後得到一個比較好的效果。

    YOLO模型分為兩部分，分類模型和檢測模型，前者使用在ImageNet上預訓練好的模型，後者在檢測數據集上fine-tuning。

    YOLOv1在預訓練時採用的是224*224的輸入（在ImageNet數據集上進行），然後在檢測的時候採用448*448的輸入，這會導致從分類模型切換到檢測模型的時候，模型還要適應圖像解析度的改變。

    YOLOv2則將預訓練分成兩步：先用224*224的輸入在ImageNet數據集訓練分類網路，大概160個epoch（將所有訓練數據循環跑160次）後將輸入調整到448*448，再訓練10個epoch（這兩步都是在ImageNet數據集上操作）。然後利用預訓練得到的模型在檢測數據集上fine-tuning。這樣訓練得到的模型，在檢測時用448*448的圖像作為輸入可以順利檢測。

    YOLOv1將輸入圖像分成7*7的網格，每個網格預測2個Bounding Box，因此一共有98個Box，同時YOLOv1包含有全連接層，從而能直接預測Bounding Boxes的坐標值，但也導致丟失較多的空間信息，定位不準。

    YOLOv2首先將YOLOv1網路的FC層和最後一個Pooling層去掉，使得最後的卷積層可以有更高解析度的特徵，然後縮減網路，用416*416大小的輸入代替原來的448*448，使得網路輸出的特徵圖有奇數大小的寬和高，進而使得每個特徵圖在劃分單元格（Cell）的時候只有一個中心單元格（Center Cell）。

    為什麼希望只有一個中心單元格呢？由於圖片中的物體都傾向於出現在圖片的中心位置，特別是比較大的物體，所以有一個單元格單獨位於物體中心的位置用於預測這些物體。

    YOLOv2通過引入Anchor Boxes，通過預測Anchor Box的偏移值與置信度，而不是直接預測坐標值。YOLOv2的卷積層採用32這個值來下采樣圖片，所以通過選擇416*416用作輸入尺寸最終能輸出一個13*13的特徵圖。若採用FSRCNN中的方式，每個Cell可預測出9個Anchor Box，共13*13*9=1521個（YOLOv2確定Anchor Boxes的方法見是維度聚類，每個Cell選擇5個Anchor Box）。

    在FSRCNN中，以一個51*39大小的特徵圖為例，其可以看做一個尺度為51*39的圖像，對於該圖像的每一個位置，考慮9個可能的候選窗口：3種面積3種比例。這些候選窗口稱為Anchor Boxes。下圖示出的是51*39個Anchor Box中心，以及9種Anchor Box示例。

YOLOv1和YOLOv2特徵圖數據結構：

YOLOv1：S*S* (B*5 + C) => 7*7（2*5+20）

    其中B對應Box數量，5對應邊界框的定位信息（w,y,w,h）和邊界框置信度（Confidience）。解析度是7*7，每個Cell預測2個Box，這2個Box共用1套條件類別概率（1*20）。

YOLOv2：S*S*K* (5 + C) => 13*13*9（5+20）

    解析度提升至13*13，對小目標適應性更好，借鑒了FSRCNN的思想，每個Cell對應K個Anchor box（YOLOv2中K=5），每個Anchor box對應1組條件類別概率（1*20）。

    聚類：聚類是指事先沒有「標簽」而通過某種成團分析找出事物之間存在聚集性原因的過程。即在沒有劃分類別的情況下，根據數據相似度進行樣本分組。

    在FSR-CNN中Anchor Box的大小和比例是按經驗設定的，然後網路會在訓練過程中調整Anchor Box的尺寸，最終得到准確的Anchor Boxes。若一開始就選擇了更好的、更有代表性的先驗Anchor Boxes，那麼網路就更容易學到准確的預測位置。

    YOLOv2使用K-means聚類方法類訓練Bounding Boxes，可以自動找到更好的寬高維度的值用於一開始的初始化。傳統的K-means聚類方法使用的是歐氏距離函數，意味著較大的Anchor Boxes會比較小的Anchor Boxes產生更多的錯誤，聚類結果可能會偏離。由於聚類目的是確定更精準的初始Anchor Box參數，即提高IOU值，這應與Box大小無關，因此YOLOv2採用IOU值為評判標准，即K-means 採用的距離函數（度量標准）為：

d(box,centroid) = 1 - IOU(box,centroid)

    如下圖，左邊是聚類的簇個數和IOU的關系，兩條曲線分別代表兩個不同的數據集。分析聚類結果並權衡模型復雜度與IOU值後，YOLOv2選擇K=5，即選擇了5種大小的Box 維度來進行定位預測。

    其中紫色和灰色也是分別表示兩個不同的數據集，可以看出其基本形狀是類似的。更重要的是，可以看出聚類的結果和手動設置的Anchor Box位置和大小差別顯著——結果中扁長的框較少，而瘦高的框更多（更符合行人的特徵）。

    YOLOv2採用的5種Anchor的Avg IOU是61，而採用9種Anchor Boxes的Faster RCNN的Avg IOU是60.9，也就是說本文僅選取5種box就能達到Faster RCNN的9中box的效果。選擇值為9的時候，AVG IOU更有顯著提高。說明K-means方法的生成的boxes更具有代表性。

    直接對Bounding Boxes求回歸會導致模型不穩定，其中心點可能會出現在圖像任何位置，有可能導致回歸過程震盪，甚至無法收斂，尤其是在最開始的幾次迭代的時候。大多數不穩定因素產生自預測Bounding Box的中心坐標（x,y）位置的時候。

    YOLOv2的網路在特徵圖（13*13）的每一個單元格中預測出5個Bounding Boxes（對應5個Anchor Boxes），每個Bounding Box預測出5個值（tx,ty,tw,th,t0），其中前4個是坐標偏移值，t0是置信度結果（類似YOLOv1中的邊界框置信度Confidence）。YOLOv2借鑒了如下的預測方式，即當Anchor Box的中心坐標和寬高分別是（xa,ya）和（wa,wh）時，Bounding Box坐標的預測偏移值（tx,ty,tw,th）與其坐標寬高（x,y,w,h）的關系如下：

tx = (x-xa)/wa

ty= (y-ya)/ha

tw = log(w/wa)

th = log(h/ha)

    基於這種思想，YOLOv2在預測Bounding Box的位置參數時採用了如下強約束方法：

    上圖中，黑色虛線框是Anchor Box，藍色矩形框就是預測的Bounding Box結果，預測出的Bounding Box的坐標和寬高為（bx,by）和（bw,bh），計算方式如圖中所示，其中：對每個Bounding Box預測出5個值（tx,ty,tw,th,t0），Cell與圖像左上角的橫縱坐標距離為（cx,cy），σ定義為sigmoid激活函數（將函數值約束到［0,1］），該Cell對應的Anchor Box對應的寬高為（pw,ph）。

    簡而言之，（bx,by）就是（cx,cy）這個Cell附近的Anchor Box針對預測值（tx,ty）得到的Bounding Box的坐標預測結果，同時可以發現這種方式對於較遠距離的Bounding Box預測值（tx,ty）能夠得到很大的限制。

    YOLOv2通過添加一個轉移層，把高解析度的淺層特徵連接到低解析度的深層特徵（把特徵堆積在不同Channel中）而後進行融合和檢測。具體操作是先獲取前層的26*26的特徵圖，將其同最後輸出的13*13的特徵圖進行連接，而後輸入檢測器進行檢測（檢測器的FC層起到了全局特徵融合的作用），以此來提高對小目標的檢測能力。

    為了適應不同尺度下的檢測任務，YOLOv2在訓練網路時，其在檢測數據集上fine-tuning時候採用的輸入圖像的size是動態變化的。具體來講，每訓練10個Batch，網路就會隨機選擇另一種size的輸入圖像。因為YOLOv2用到了參數是32的下采樣，因此也採用32的倍數作為輸入的size，即採用{320,352,…,608}的輸入尺寸（網路會自動改變尺寸，並繼續訓練的過程）。

這一策略讓網路在不同的輸入尺寸上都能達到較好的預測效果，使同一網路能在不同解析度上進行檢測。輸入圖片較大時，檢測速度較慢，輸入圖片較小時，檢測速度較快，總體上提高了准確率，因此多尺度訓練算是在准確率和速度上達到一個平衡。

    上表反映的是在檢測時，不同大小的輸入圖片情況下的YOLOv2和其他目標檢測演算法的對比。可以看出通過多尺度訓練的檢測模型，在測試的時候，輸入圖像在尺寸變化范圍較大的情況下也能取得mAP和FPS的平衡。

    YOLOv1採用的訓練網路是GoogleNet，YOLOv2採用了新的分類網路Darknet-19作為基礎網路，它使用了較多的3*3卷積核，並把1*1的卷積核置於3*3的卷積核之間，用來壓縮特徵，同時在每一次池化操作後把通道（Channels）數翻倍（借鑒VGG網路）。

    YOLOv1採用的GooleNet包含24個卷積層和2個全連接層，而Darknet-19包含19個卷積層和5個最大池化層（Max Pooling Layers），後面添加Average Pooling層（代替v1中FC層），而Softmax分類器作為激活被用在網路最後一層，用來進行分類和歸一化。

    在ImageNet數據集上進行預訓練，主要分兩步（採用隨機梯度下降法）：

輸入圖像大小是224*224，初始學習率（Learning Rate）為0.1，訓練160個epoch，權值衰減（Weight Decay）為0.0005，動量（Momentum）為0.9，同時在訓練時採用標準的數據增強（Data Augmentation）方式如隨機裁剪、旋轉以及色度、亮度的調整。

fine-tuning：第1步結束後，改用448*448輸入（高解析度模型），學習率改為0.001，訓練10個epoch，其他參數不變。結果表明：fine-tuning後的top-1准確率為76.5%，top-5准確率為93.3%，若按照原來的訓練方式，Darknet-19的top-1准確率是72.9%，top-5准確率為91.2%。可以看出，兩步分別從網路結構和訓練方式方面入手提高了網路分類准確率。

    預訓練之後，開始基於檢測的數據集再進行fine-tuning。

    首先，先把最後一個卷積層去掉，然後添加3個3*3的卷積層，每個卷積層有1024個卷積核，並且後面都連接一個1*1的卷積層，卷積核個數（特徵維度）根據需要檢測的類數量決定。（比如對VOC數據，每個Cell需要預測5個Boungding Box，每個Bounding Box有4個坐標值、1個置信度值和20個條件類別概率值，所以每個單元格對應125個數據，此時卷積核個數應該取125。）

    然後，將最後一個3*3*512的卷積層和倒數第2個卷積層相連（提取細粒度特徵），最後在檢測數據集上fine-tuning預訓練模型160個epoch，學習率採用0.001，並且在第60和90個epoch的時候將學習率除以10，權值衰減、動量和數據增強方法與預訓練相同。

    YOLO9000通過結合分類和檢測數據集，使得訓練得到的模型可以檢測約9000類物體，利用帶標注的分類數據集量比較大的特點，解決了帶標注的檢測數據集量比較少的問題。具體方法是：一方面採用WordTree融合數據集，另一方面聯合訓練分類數據集和檢測數據集。

    分類數據集和檢測數據集存在較大差別：檢測數據集只有粗粒度的標記信息，如「貓」、「狗」，而分類數據集的標簽信息則更細粒度，更豐富。比如「狗」就包括「哈士奇」、「金毛狗」等等。所以如果想同時在檢測數據集與分類數據集上進行訓練，那麼就要用一種一致性的方法融合這些標簽信息。

    用於分類的方法，常用Softmax（比如v2），Softmax意味著分類的類別之間要互相獨立的，而ImageNet和COCO這兩種數據集之間的分類信息不相互獨立（ImageNet對應分類有9000種，而COCO僅提供80種目標檢測），所以使用一種多標簽模型來混合數據集，即假定一張圖片可以有多個標簽，並且不要求標簽之間獨立，而後進行Softmax分類。

    由於ImageNet的類別是從WordNet選取的，作者採用以下策略重建了一個樹形結構（稱為WordTree）：

遍歷ImageNet的標簽，然後在WordNet中尋找該標簽到根節點(所有的根節點為實體對象)的路徑；

如果路徑只有一條，將該路徑直接加入到WordTree結構中；

否則，從可選路徑中選擇一條最短路徑，加入到WordTree結構中。

WordTree的作用就在於將兩種數據集按照層級進行結合。

    如此，在WordTree的某個節點上就可以計算該節點的一些條件概率值，比如在terrier這個節點，可以得到如下條件概率值：

    進而，如果要預測此節點的概率（即圖片中目標是Norfolk terrier的概率），可以根據WordTree將該節點到根節點的條件概率依次相乘得到，如下式：

其中：

    YOLO9000在WordTree1k（用有1000類別的ImageNet1k創建）上訓練了Darknet-19模型。為了創建WordTree1k作者添加了很多中間節點（中間詞彙），把標簽由1000擴展到1369。

    訓練過程中GroundTruth標簽要順著向根節點的路徑傳播：為了計算條件概率，模型預測了一個包含1369個元素的向量，而且基於所有「同義詞集」計算Softmax，其中「同義詞集」是同一概念下的所屬詞。

    現在一張圖片是多標記的，標記之間不需要相互獨立。在訓練過程中，如果有一個圖片的標簽是「Norfolk terrier」，那麼這個圖片還會獲得「狗」以及「哺乳動物」等標簽。

    如上圖所示，之前的ImageNet分類是使用一個大Softmax進行分類，而現在WordTree只需要對同一概念下的同義詞進行Softmax分類。然後作者分別兩個數據集上用相同訓練方法訓練Darknet-19模型，最後在ImageNet數據集上的top-1准確率為72.9%，top-5准確率為91.2%；在WordTree數據集上的top-1准確率為71.9%，top-5准確率為90.4%。

    這種方法的好處是有「退而求其次」的餘地：在對未知或者新的物體進行分類時，性能損失更低，比如看到一個狗的照片，但不知道是哪種種類的狗，那麼就預測其為「狗」。

    以上是構造WordTree的原理，下圖是融合COCO數據集和ImageNet數據集以及生成它們的WordTree的示意圖（用顏色區分了COCO數據集和ImageNet數據集的標簽節點），混合後的數據集對應的WordTree有9418個類。另一方面，由於ImageNet數據集太大，YOLO9000為了平衡兩個數據集之間的數據量，通過過采樣（Oversampling）COCO數據集中的數據，使COCO數據集與ImageNet數據集之間的數據量比例達到1：4。

    對YOLO9000進行評估，發現其mAP比DPM高，而且YOLO有更多先進的特徵，YOLO9000是用部分監督的方式在不同訓練集上進行訓練，同時還能檢測9000個物體類別，並保證實時運行。雖然YOLO9000對動物的識別性能很好，但是對衣服或者裝備的識別性能不是很好（這跟數據集的數據組成有關）。

    YOLO9000的網路結構和YOLOv2類似，區別是每個單元格只採用3個Anchor Boxes。

    YOLO9000提出了一種在分類數據集和檢測數據集上聯合訓練的機制，即使用檢測數據集（COCO）的圖片去學習檢測相關的信息即查找對象（例如預測邊界框坐標、邊界框是否包含目標及目標屬於各個類別的概率），使用僅有類別標簽的分類數據集（ImageNet）中的圖片去擴展檢測到的對象的可識別種類。

    具體方法是：當網路遇到一個來自檢測數據集的圖片與標記信息，就把這些數據用完整的損失函數（v2和9000均沿用了v1網路的損失函數）反向傳播，而當網路遇到一個來自分類數據集的圖片和分類標記信息，只用代表分類誤差部分的損失函數反向傳播這個圖片。

    YOLO v2 在大尺寸圖片上能夠實現高精度，在小尺寸圖片上運行更快，可以說在速度和精度上達到了平衡，具體性能表現如下所示。

coco數據集

voc2012數據集

2. viola jones人臉檢測原理

Viola-jones人臉檢測演算法是一種基於滑動窗口的目標檢測演算法，但它卻克服了滑動窗口檢測帶來的低效問題，可以用於實時人臉檢測，主要歸功於以下三點：

我參考論文[1]實現了Viola Jones中提到的attention cascade檢測框架，此處是 github傳送門。

下面進一步詳細介紹整個檢測原理。

基於滑窗的目標檢測基本原理很簡單，首先構建一個classifier（分類器），以人臉檢測為例，分類器的工作是判斷給定大小的圖像的是否為人臉，用該分類器從左至右從上到下掃描整幅圖像，掃描獲取的部分圖像稱為子窗（文章中子窗大小為24x24像素），當分類器判斷子窗是人臉時，即完成了人臉檢測。

這樣處理有個問題，如果圖像中包含的人臉變大了，此時採用固定大小的子窗就無法進行檢測。通常有兩種解決方法，1. 採用image-pyramid（圖像金字塔），也就是通過resize獲得多種不同大小圖像並堆疊在一起，用固定大小分類器同時對所有圖像進行掃描；2. 採用不同大小的分類器進行掃描。文章中用到的是第二種方法，盡管如此，雖然避免了調整圖像大小帶來的計算開銷，但不同大小的分類器意味著有更多子窗需要進行處理。

如何構建一個足夠快的分類器來對每個子窗進行快速判斷。

分類器的構建有兩種方式，一種是pixel-based（基於像素），另一種是feature-based（基於特徵）。當把神經網路作為圖像分類器時，輸入是圖像的像素值，即基於像素的分類器。用圖像像素作為輸入不包含任何和待分類目標有關的特定信息，往往訓練這種分類器需要大量數據，並且分類過程較慢。基於特徵的分類器就是先針對圖像進行特徵提取（HOG特徵，SIFT特徵等），再利用獲取的特徵進行分類。這種分類器不需要大量訓練數據，且計算量一般會在特徵計算部分，相對較小。

文章採用的是基於特徵的分類器，選取了一種較為簡單的特徵即haar-like特徵。利用矩形個數對可以將haar-like特徵分為三類，分別由兩個，三個，和四個 大小相同 的矩形組成。全部列舉出來可以分為以下(a)(b)(c)(d)(e)五類（注意是五類不是五個，具體有多少個haar-like特徵是由子窗大小決定的）。如下圖所示（文章[1]中的圖）。

當子窗大小給定後，我們可以用五個參數唯一確定一個 haar-like特徵，即特徵種類（a/b/c/d/e），左上角x軸坐標，左上角y軸坐標，矩形的長，矩形的寬。對應的特徵值等於位於白色矩形框中像素值總和減去位於黑色矩形框中的像素值總和。文章中用到的子窗大小為24x24像素，可以計算出來總共有162336個特徵（把在子窗中所有可能位置和可能大小的特徵全部列舉出來）。利用haar-like特徵進行分類只需兩步：

haar-like特徵有兩個優點，第一是它是scale-invariant(不隨圖片大小而改變)的，第二是可以通過積分圖像快速計算。簡單的說下第一點的含義，例如我們用24x24像素的訓練樣本訓練獲取一組haar-like特徵和對應的門限值，當對圖像進行掃描時，子窗大小調整為SxS像素，此時只需將特徵中的矩形大小按同樣比例進行縮放（門限值同樣需要縮放），計算所得的特徵值依然是有效的。
積分圖像是受卷積的微分性質啟發而定義一種數據結構。積分圖像定義：

其中為積分圖像，為原圖像。積分圖像中位置處的像素值等於原圖中位於的左側和上方的所有像素值之和。有了積分圖像我們就可以快速計算haar-like特徵，以特徵（a）為例，如下圖所示。

S1到S6是積分圖像在這六個頂點上的值。該特徵值等於位於A中的像素總和減去位於B中的像素總和，而A中像素總和等於S5+S1-S2-S4，B中像素總和等於S6+S2-S3-S5，並且無論矩形多大，我們總能在固定時間內計算出特徵值（6次索引操作和少量的加法乘法計算）。積分圖像只需計算一次後續可以一直使用，事實上在演算法實現時，我們只需保存樣本的積分圖像，原圖像反而不用保存。

現在找到了一類特徵用於構建分類器，和快速計算該類特徵的方法。分類器是由一組特徵構成的，而不是一個，如何找到一組有效的特徵。

文章列舉了前人的一些特徵選取方法（此處就不列舉了），它們雖然取得了一定的效果，但最終選出來的特徵數量還是太多。文章將adaBoost演算法用於特徵選取（創新點），即每次訓練的弱分類器的過程看做特徵選取的過程，一次從162336個特徵中選取一個特徵（同時還包括了對應的門限值，極性，加權誤差）。

adaboost演算法就不詳細介紹了，它的基本思想是訓練一系列「弱」分類器，組成一個committee（即每個弱分類器都有投票權，但是權重不同，加權誤差越小的弱分類器權重越大）。adaboost採用迭代訓練方式，給定一個t階committee，如何尋找第t+1個弱分類器和對應的權重，以最小化在一定分布下的訓練樣本的加權指數損失。這個優化過程可以轉換為對訓練樣本的分布進行調整（即增大上一輪錯誤判斷的樣本的權重，減小正確判斷的樣本權重），在調整後的樣本分布下尋找最小化加權0-1損失的弱分類器並計算對應的加權0-1損失。

可以利用adaboost找到一組特徵構成分類器，使得該分類器有極高的准確率和召回率（這種分類器勢必會有較大的計算量），這樣會導致圖像中的每一個子窗都享有同等的計算量，掃描一整幅圖會有幾十萬甚至上百萬子窗，總體計算量依然很大。實際上一幅圖像中只有極少可能包含人臉的位置是我們感興趣的，其他不包含人臉的子窗我們希望能夠快速篩除，將更精細的計算用於包含人臉的子窗。

文章引入了attention-cascade的機制（注意力級聯），即訓練多個分類器進行級聯，替代單一的分類器。結構如下圖所示（文章[3]中的圖）。

上圖所示的分類器有三級，上一級的輸出是下一級的輸入，只有預測為正的樣本才能傳遞給下一級，預測為負的樣本直接舍棄。大部分非人臉子窗往往在前幾級分類器就被舍棄，這樣使得掃描每個子窗所需的平均計算量大大減小。

分類器是一級一級訓練之後級聯起來的，訓練分類器時，整個級聯分類器的假負率（fpr_overall）有一個訓練目標（文章[1]中設置為10e-7），同時每一級有一對訓練目標，即假正率和假負率。每級分類器訓練的思想是在假負率極低的情況下（文章[1]中設置為0.005）盡量得到一個較低的假正率（文章中[1]中設置為0.5），即我們保證在正樣本盡可能多的通過該級分類器的情況下盡量篩除更多的負樣本。文章[3]通過一個鬆弛量來調節假正率和假負率。

下一級用到的訓練數據是由所有的正樣本和上一級輸出的假正樣本組成的，這樣訓練的好處是可以讓處於級聯後半部分的分類器「看到」更多負樣本數據，缺點是訓練後期假正樣本很難獲取，訓練時間會比較長。

盡管我們獲取了一個級聯分類器，但依然不能保證對同一幅圖中的一張人臉只會檢測到一次（子窗相對人臉有所便宜或者縮放子窗大小都可能導致重復檢測），如何消除重復檢測，獲得更好的檢測效果。

文章[3]中說的較為簡略，主要是針對檢測框構建並查集，並對並查集中的候選框求平均得出最終的檢測框。

文章[1]中是採用連通分量演算法，計算每種大小檢測框的置信度，根據置信度選取最終結果，但前提是檢測器在圖像中掃描的步進必須是1個像素，處理時間可能會比較長。

只能用於正臉檢測，如果人臉朝屏幕內外或者在屏幕平面上旋轉均有可能失效
在背景較亮，人臉較暗的情況下可能失效。
在有遮擋的情況下大概率失效。

3. 經典目標檢測演算法介紹

姓名：牛曉銀；學號：20181213993；學院：計算機科學與技術

轉自：https://zhuanlan.hu.com/p/34142321

【嵌牛導讀】：目標檢測，也叫目標提取，是一種基於目標幾何和統計特徵的圖像分割。隨著計算機技術的發展和計算機視覺原理的廣泛應用，利用計算機圖像處理技術對目標進行實時跟蹤研究越來越熱門，對目標進行動態實時跟蹤定位在智能化交通系統、軍事目標檢測及醫學導航手術中手術器械定位等方面具有廣泛的應用價值。

【嵌牛鼻子】：目標檢測、檢測模型、計算機視覺

【嵌牛提問】：你知道或者用過哪些目標檢測演算法？

【嵌牛正文】：

（一）目標檢測經典工作回顧

本文結構

兩階段模型因其對圖片的兩階段處理得名，也稱為基於區域（Region-based）的方法，我們選取R-CNN系列工作作為這一類型的代表。

R-CNN: R-CNN系列的開山之作

論文鏈接： Rich feature hierarchies for accurate object detection and semantic segmentation

本文的兩大貢獻：1）CNN可用於基於區域的定位和分割物體；2）監督訓練樣本數緊缺時，在額外的數據上預訓練的模型經過fine-tuning可以取得很好的效果。第一個貢獻影響了之後幾乎所有2-stage方法，而第二個貢獻中用分類任務（Imagenet）中訓練好的模型作為基網路，在檢測問題上fine-tuning的做法也在之後的工作中一直沿用。

傳統的計算機視覺方法常用精心設計的手工特徵(如SIFT, HOG)描述圖像，而深度學習的方法則倡導習得特徵，從圖像分類任務的經驗來看，CNN網路自動習得的特徵取得的效果已經超出了手工設計的特徵。本篇在局部區域應用卷積網路，以發揮卷積網路學習高質量特徵的能力。

R-CNN將檢測抽象為兩個過程，一是基於圖片提出若干可能包含物體的區域（即圖片的局部裁剪，被稱為Region Proposal），文中使用的是Selective Search演算法；二是在提出的這些區域上運行當時表現最好的分類網路（AlexNet），得到每個區域內物體的類別。

另外，文章中的兩個做法值得注意。

一是數據的准備。輸入CNN前，我們需要根據Ground Truth對提出的Region Proposal進行標記，這里使用的指標是IoU（Intersection over Union，交並比）。IoU計算了兩個區域之交的面積跟它們之並的比，描述了兩個區域的重合程度。

文章中特別提到，IoU閾值的選擇對結果影響顯著，這里要談兩個threshold，一個用來識別正樣本（如跟ground truth的IoU大於0.5），另一個用來標記負樣本（即背景類，如IoU小於0.1），而介於兩者之間的則為難例（Hard Negatives），若標為正類，則包含了過多的背景信息，反之又包含了要檢測物體的特徵，因而這些Proposal便被忽略掉。

另一點是位置坐標的回歸（Bounding-Box Regression），這一過程是Region Proposal向Ground Truth調整，實現時加入了log/exp變換來使損失保持在合理的量級上，可以看做一種標准化（Normalization)操作。

小結

R-CNN的想法直接明了，即將檢測任務轉化為區域上的分類任務，是深度學習方法在檢測任務上的試水。模型本身存在的問題也很多，如需要訓練三個不同的模型（proposal, classification, regression）、重復計算過多導致的性能問題等。盡管如此，這篇論文的很多做法仍然廣泛地影響著檢測任務上的深度模型革命，後續的很多工作也都是針對改進這一工作而展開，此篇可以稱得上"The First Paper"。

Fast R-CNN: 共享卷積運算

論文鏈接： Fast R-CNN

文章指出R-CNN耗時的原因是CNN是在每一個Proposal上單獨進行的，沒有共享計算，便提出將基礎網路在圖片整體上運行完畢後，再傳入R-CNN子網路，共享了大部分計算，故有Fast之名。

上圖是Fast R-CNN的架構。圖片經過feature extractor得到feature map, 同時在原圖上運行Selective Search演算法並將RoI（Region of Interset，實為坐標組，可與Region Proposal混用）映射到到feature map上，再對每個RoI進行RoI Pooling操作便得到等長的feature vector，將這些得到的feature vector進行正負樣本的整理（保持一定的正負樣本比例），分batch傳入並行的R-CNN子網路，同時進行分類和回歸，並將兩者的損失統一起來。

RoI Pooling 是對輸入R-CNN子網路的數據進行准備的關鍵操作。我們得到的區域常常有不同的大小，在映射到feature map上之後，會得到不同大小的特徵張量。RoI Pooling先將RoI等分成目標個數的網格，再在每個網格上進行max pooling，就得到等長的RoI feature vector。

文章最後的討論也有一定的借鑒意義：

multi-loss traing相比單獨訓練classification確有提升

multi-scale相比single-scale精度略有提升，但帶來的時間開銷更大。一定程度上說明CNN結構可以內在地學習尺度不變性

在更多的數據(VOC)上訓練後，精度是有進一步提升的

Softmax分類器比"one vs rest"型的SVM表現略好，引入了類間的競爭

更多的Proposal並不一定帶來精度的提升

小結

Fast R-CNN的這一結構正是檢測任務主流2-stage方法所採用的元結構的雛形。文章將Proposal, Feature Extractor, Object Classification&Localization統一在一個整體的結構中，並通過共享卷積計算提高特徵利用效率，是最有貢獻的地方。

Faster R-CNN: 兩階段模型的深度化

論文鏈接： Faster R-CNN: Towards Real Time Object Detection with Region Proposal Networks

Faster R-CNN是2-stage方法的奠基性工作，提出的RPN網路取代Selective Search演算法使得檢測任務可以由神經網路端到端地完成。粗略的講，Faster R-CNN = RPN + Fast R-CNN，跟RCNN共享卷積計算的特性使得RPN引入的計算量很小，使得Faster R-CNN可以在單個GPU上以5fps的速度運行，而在精度方面達到SOTA（State of the Art，當前最佳）。

本文的主要貢獻是提出Regional Proposal Networks，替代之前的SS演算法。RPN網路將Proposal這一任務建模為二分類（是否為物體）的問題。

第一步是在一個滑動窗口上生成不同大小和長寬比例的anchor box（如上圖右邊部分），取定IoU的閾值，按Ground Truth標定這些anchor box的正負。於是，傳入RPN網路的樣本數據被整理為anchor box（坐標）和每個anchor box是否有物體（二分類標簽）。RPN網路將每個樣本映射為一個概率值和四個坐標值，概率值反應這個anchor box有物體的概率，四個坐標值用於回歸定義物體的位置。最後將二分類和坐標回歸的損失統一起來，作為RPN網路的目標訓練。

由RPN得到Region Proposal在根據概率值篩選後經過類似的標記過程，被傳入R-CNN子網路，進行多分類和坐標回歸，同樣用多任務損失將二者的損失聯合。

小結

Faster R-CNN的成功之處在於用RPN網路完成了檢測任務的"深度化"。使用滑動窗口生成anchor box的思想也在後來的工作中越來越多地被採用（YOLO v2等）。這項工作奠定了"RPN+RCNN"的兩階段方法元結構，影響了大部分後續工作。

單階段（1-stage）檢測模型

單階段模型沒有中間的區域檢出過程，直接從圖片獲得預測結果，也被成為Region-free方法。

YOLO

論文鏈接： You Only Look Once: Unified, Real-Time Object Detection

YOLO是單階段方法的開山之作。它將檢測任務表述成一個統一的、端到端的回歸問題，並且以只處理一次圖片同時得到位置和分類而得名。

YOLO的主要優點：

快。

全局處理使得背景錯誤相對少，相比基於局部（區域）的方法，如Fast RCNN。

泛化性能好，在藝術作品上做檢測時，YOLO表現比Fast R-CNN好。

YOLO的工作流程如下：

1.准備數據：將圖片縮放，劃分為等分的網格，每個網格按跟Ground Truth的IoU分配到所要預測的樣本。

2.卷積網路：由GoogLeNet更改而來，每個網格對每個類別預測一個條件概率值，並在網格基礎上生成B個box，每個box預測五個回歸值，四個表徵位置，第五個表徵這個box含有物體（注意不是某一類物體）的概率和位置的准確程度（由IoU表示）。測試時，分數如下計算：

等式左邊第一項由網格預測，後兩項由每個box預測，以條件概率的方式得到每個box含有不同類別物體的分數。因而，卷積網路共輸出的預測值個數為S×S×(B×5+C)，其中S為網格數，B為每個網格生成box個數，C為類別數。

3.後處理：使用NMS（Non-Maximum Suppression，非極大抑制）過濾得到最後的預測框

損失函數的設計

損失函數被分為三部分：坐標誤差、物體誤差、類別誤差。為了平衡類別不均衡和大小物體等帶來的影響，損失函數中添加了權重並將長寬取根號。

小結

YOLO提出了單階段的新思路，相比兩階段方法，其速度優勢明顯，實時的特性令人印象深刻。但YOLO本身也存在一些問題，如劃分網格較為粗糙，每個網格生成的box個數等限制了對小尺度物體和相近物體的檢測。

SSD: Single Shot Multibox Detector

論文鏈接： SSD: Single Shot Multibox Detector

SSD相比YOLO有以下突出的特點：

多尺度的feature map：基於VGG的不同卷積段，輸出feature map到回歸器中。這一點試圖提升小物體的檢測精度。

更多的anchor box，每個網格點生成不同大小和長寬比例的box，並將類別預測概率基於box預測（YOLO是在網格上），得到的輸出值個數為(C+4)×k×m×n，其中C為類別數，k為box個數，m×n為feature map的大小。

小結

SSD是單階段模型早期的集大成者，達到跟接近兩階段模型精度的同時，擁有比兩階段模型快一個數量級的速度。後續的單階段模型工作大多基於SSD改進展開。

檢測模型基本特點

最後，我們對檢測模型的基本特徵做一個簡單的歸納。

檢測模型整體上由基礎網路（Backbone Network）和檢測頭部（Detection Head）構成。前者作為特徵提取器，給出圖像不同大小、不同抽象層次的表示；後者則依據這些表示和監督信息學習類別和位置關聯。檢測頭部負責的類別預測和位置回歸兩個任務常常是並行進行的，構成多任務的損失進行聯合訓練。

相比單階段，兩階段檢測模型通常含有一個串列的頭部結構，即完成前背景分類和回歸後，把中間結果作為RCNN頭部的輸入再進行一次多分類和位置回歸。這種設計帶來了一些優點：

對檢測任務的解構，先進行前背景的分類，再進行物體的分類，這種解構使得監督信息在不同階段對網路參數的學習進行指導

RPN網路為RCNN網路提供良好的先驗，並有機會整理樣本的比例，減輕RCNN網路的學習負擔

這種設計的缺點也很明顯：中間結果常常帶來空間開銷，而串列的方式也使得推斷速度無法跟單階段相比；級聯的位置回歸則會導致RCNN部分的重復計算（如兩個RoI有重疊）。

另一方面，單階段模型只有一次類別預測和位置回歸，卷積運算的共享程度更高，擁有更快的速度和更小的內存佔用。讀者將會在接下來的文章中看到，兩種類型的模型也在互相吸收彼此的優點，這也使得兩者的界限更為模糊。

4. 明銳AOI少錫，焊盤檢索怎麼抽色

也不知道你的機器具體是什麼型號，也不知道你具體的使用場景，只能大概回答了。我之前也想過這個問題，顏色提取最小可以調多少測得出來，我調合格下線30測不了，40就可以！後來就這樣湊合了。
AOI的自動抽色演算法，特徵分析演算法，編程簡單化等軟體方面的技術改善，可以讓AOI編程上有效地節省時間，更好地提升檢出率。
檢測范圍沒有絕對的一個值，顏色提取這個演算法得看檢測框的大小，測試對象的圖像與檢測框的比例算的。同樣一個焊盤，檢測框畫越大，測出來的值越小。

5. 目標跟蹤檢測演算法（四）——多目標擴展

姓名：劉帆；學號：20021210609；學院：電子工程學院

https://blog.csdn.net/qq_34919792/article/details/89893665

【嵌牛導讀】基於深度學習的演算法在圖像和視頻識別任務中取得了廣泛的應用和突破性的進展。從圖像分類問題到行人重識別問題，深度學習方法相比傳統方法表現出極大的優勢。與行人重識別問題緊密相關的是行人的多目標跟蹤問題。

【嵌牛鼻子】深度多目標跟蹤演算法

【嵌牛提問】深度多目標跟蹤演算法有哪些？

【嵌牛正文】

第一階段（概率統計最大化的追蹤）

1）多假設多目標追蹤演算法（MHT，基於kalman在多目標上的拓展）

多假設跟蹤演算法(MHT)是非常經典的多目標跟蹤演算法，由Reid在對雷達信號的自動跟蹤研究中提出，本質上是基於Kalman濾波跟蹤演算法在多目標跟蹤問題中的擴展。

卡爾曼濾波實際上是一種貝葉斯推理的應用，通過歷史關聯的預測量和k時刻的預測量來計算後驗概率：

關聯假設的後驗分布是歷史累計概率密度的連乘，轉化為對數形式，可以看出總體後驗概率的對數是每一步觀察似然和關聯假設似然的求和。但是若同時出現多個軌跡的時候，則需要考慮可能存在的多個假設關聯。

左圖為k-3時刻三個檢測觀察和兩條軌跡的可能匹配。對於這種匹配關系，可以繼續向前預測兩幀，如圖右。得到一種三層的假設樹結構，對於假設樹根枝乾的剪枝，得到k-3時刻的最終關聯結果。隨著可能性增加，假設組合會爆炸性增多，為此，只為了保留最大關聯性，我們需要對其他的節點進行裁剪。下式為選擇方程

實際上MHT不會單獨使用，一般作為單目標追蹤的擴展添加。

2）基於檢測可信度的粒子濾波演算法

這個演算法分為兩個步驟：

1、對每一幀的檢測結果，利用貪心匹配演算法與已有的對象軌跡進行關聯。

其中tr表示一個軌跡，d是某一個檢測，他們的匹配親和度計算包含三個部分：在線更新的分類學習模型(d)，用來判斷檢測結果是不是屬於軌跡tr; 軌跡的每個粒子與檢測的匹配度，採用中心距離的高斯密度函數求和(d-p)表示；與檢測尺寸大小相關的閾值函數g(tr,d)，表示檢測與軌跡尺度的符合程度, 而α是預設的一個超參數。

計算出匹配親和度矩陣之後，可以採用二部圖匹配的Hungarian演算法計算匹配結果。不過作者採用了近似的貪心匹配演算法，即首先找到親和度最大的那個匹配，然後刪除這個親和度，尋找下一個匹配，依次類推。貪心匹配演算法復雜度是線性，大部分情況下，也能得到最優匹配結果。

2、利用關聯結果，計算每個對象的粒子群權重，作為粒子濾波框架中的觀察似然概率。

其中tr表示需要跟蹤的對象軌跡，p是某個粒子。指示函數I(tr)表示第一步關聯中，軌跡tr是不是關聯到某個檢測結果，當存在關聯時，計算與關聯的檢測d 的高斯密度P{n}(p-d )；C{tr}§是對這個粒子的分類概率；§是粒子通過檢測演算法得到的檢測可信度，(tr)是一個加權函數，計算如下：

3）基於馬爾科夫決策的多目標跟蹤演算法

作者把目標跟蹤看作為狀態轉移的過程，轉移的過程用馬爾科夫決策過程(MDP)建模。一個馬爾科夫決策過程包括下面四個元素：(S, A, T(.),R(.))。其中S表示狀態集合，A表示動作集合，T表示狀態轉移集合，R表示獎勵函數集合。一個決策是指根據狀態s確定動作a, 即 π: SA。一個對象的跟蹤過程包括如下決策過程：

從Active狀態轉移到Tracked或者Inactive狀態：即判斷新出現的對象是否是真。

從Tracked狀態轉移到Tracked或者Lost狀態：即判斷對象是否是持續跟蹤或者暫時處於丟失狀態。

從Lost狀態轉移到Lost或者Tracked或者Inactive狀態：即判斷丟失對象是否重新被跟蹤，被終止，或者繼續處於丟失狀態。

作者設計了三個獎勵函數來描述上述決策過程：

第一個是：

即判斷新出現的對象是否為真，y(a)=1時表示轉移到跟蹤狀態，反之轉移到終止狀態。這是一個二分類問題，採用2類SVM模型學習得到。這里用了5維特徵向量：包括x-y坐標、寬、高和檢測的分數。

第二個是：

這個函數用來判斷跟蹤對象下一時刻狀態是否是出於繼續跟蹤，還是處於丟失，即跟蹤失敗。這里作者用了5個歷史模板，每個模板和當前圖像塊做光流匹配，emedFB表示光流中心偏差，表示平均重合率。和是閾值。

第三個是：

這個函數用來判斷丟失對象是否重新跟蹤，或者終止，或者保持丟失狀態不變。這里當丟失狀態連續保持超過 (=50)時，則轉向終止，其他情況下通過計算M個檢測匹配，來判斷是否存在最優的匹配使上式(3-14)獎勵最大，並大於0。這里涉及兩個問題如何設計特徵以及如何學習參數。這里作者構造了12維與模板匹配相關的統計值。而參數的學習採用強化學習過程，主要思想是在犯錯時候更新二類分類器值。

第二階段深度學習應用

1）基於對稱網路的多目標跟蹤演算法

關於Siamese網路在單目標跟蹤深度學習中有了介紹，在這里不再介紹，可以向前參考。

2）基於最小多割圖模型的多目標跟蹤演算法

上述演算法中為了匹配兩個檢測採用LUV圖像格式以及光流圖像。Tang等人在文獻中發現採用深度學習計算的類光流特徵(DeepMatching)，結合表示能力更強的模型也可以得到效果很好的多目標跟蹤結果。

基於DeepMatching特徵，可以構造下列5維特徵：

其中MI,MU表示檢測矩形框中匹配的點的交集大小以及並集大小，ξv和ξw表示檢測信任度。利用這5維特徵可以學習一個邏輯回歸分類器。

同樣，為了計算邊的匹配代價，需要設計匹配特徵。這里，作者採用結合姿態對齊的疊加Siamese網路計算匹配相似度，如圖9，採用的網路模型StackNetPose具有最好的重識別性能。

綜合StackNetPose網路匹配信任度、深度光流特徵(deepMatching)和時空相關度，作者設計了新的匹配特徵向量。類似於[2], 計算邏輯回歸匹配概率。最終的跟蹤結果取得了非常突出的進步。在MOT2016測試數據上的結果如下表：

3）通過時空域關注模型學習多目標跟蹤演算法

除了採用解決目標重識別問題的深度網路架構學習檢測匹配特徵，還可以根據多目標跟蹤場景的特點，設計合適的深度網路模型來學習檢測匹配特徵。Chu等人對行人多目標跟蹤問題中跟蹤演算法發生漂移進行統計分析，發現不同行人發生交互時，互相遮擋是跟蹤演算法產生漂移的重要原因[4]。如圖10。

在這里插入圖片描述

針對這個問題，文獻[4]提出了基於空間時間關注模型(STAM)用於學習遮擋情況，並判別可能出現的干擾目標。如圖11，空間關注模型用於生成遮擋發生時的特徵權重，當候選檢測特徵加權之後，通過分類器進行選擇得到估計的目標跟蹤結果，時間關注模型加權歷史樣本和當前樣本，從而得到加權的損失函數，用於在線更新目標模型。

該過程分三步，第一步是學習特徵可見圖：

第二步是根據特徵可見圖，計算空間關注圖(Spatial Attention):

其中fatt是一個局部連接的卷積和打分操作。wtji是學習到的參數。

第三步根據空間注意圖加權原特徵圖：

對生成的加權特徵圖進行卷積和全連接網路操作，生成二元分類器判別是否是目標自身。最後用得到分類打分選擇最優的跟蹤結果。

4）基於循環網路判別融合表觀運動交互的多目標跟蹤演算法

上面介紹的演算法採用的深度網路模型都是基於卷積網路結構，由於目標跟蹤是通過歷史軌跡信息來判斷新的目標狀態，因此，設計能夠記憶歷史信息並根據歷史信息來學習匹配相似性度量的網路結構來增強多目標跟蹤的性能也是比較可行的演算法框架。

考慮從三個方面特徵計算軌跡歷史信息與檢測的匹配：表觀特徵，運動特徵，以及交互模式特徵。這三個方面的特徵融合以分層方式計算。

在底層的特徵匹配計算中，三個特徵都採用了長短期記憶模型(LSTM)。對於表觀特徵，首先採用VGG-16卷積網路生成500維的特徵ϕtA，以這個特徵作為LSTM的輸入計算循環。

對於運動特徵，取相對位移vit為基本輸入特徵，直接輸入LSTM模型計算沒時刻的輸出ϕi，對於下一時刻的檢測同樣計算相對位移vjt+1,通過全連接網路計算特徵ϕj，類似於表觀特徵計算500維特徵ϕm，並利用二元匹配分類器進行網路的預訓練。

對於交互特徵，取以目標中心位置周圍矩形領域內其他目標所佔的相對位置映射圖作為LSTM模型的輸入特徵，計算輸出特徵ϕi，對於t+1時刻的檢測計算類似的相對位置映射圖為特徵，通過全連接網路計算特徵ϕj，類似於運動模型，通過全連接網路計算500維特徵ϕI，進行同樣的分類訓練。

當三個特徵ϕA，ϕM，ϕI都計算之後拼接為完整的特徵，輸入到上層的LSTM網路，對輸出的向量進行全連接計算，然後用於匹配分類，匹配正確為1，否則為0。對於最後的網路結構，還需要進行微調，以優化整體網路性能。最後的分類打分看作為相似度用於檢測與軌跡目標的匹配計算。最終的跟蹤框架採用在線的檢測與軌跡匹配方法進行計算。

5）基於雙線性長短期循環網路模型的多目標跟蹤演算法

在對LSTM中各個門函數的設計進行分析之後，Kim等人認為僅僅用基本的LSTM模型對於表觀特徵並不是最佳的方案，在文獻[10]中，Kim等人設計了基於雙線性LSTM的表觀特徵學習網路模型。

除了利用傳統的LSTM進行匹配學習，或者類似[5]中的演算法，拼接LSTM輸出與輸入特徵，作者設計了基於乘法的雙線性LSTM模型，利用LSTM的隱含層特徵(記憶)信息與輸入的乘積作為特徵，進行匹配分類器的學習。

這里對於隱含層特徵ht-1,必須先進行重新排列(reshape)操作，然後才能乘以輸入的特徵向量xt。

其中f表示非線性激活函數，mt是新的特徵輸入。而原始的檢測圖像採用ResNet50提取2048維的特徵，並通過全連接降為256維。下表中對於不同網路結構、網路特徵維度、以及不同LSTM歷史長度時，表觀特徵的學習對跟蹤性能的影響做了驗證。

可以看出採用雙線性LSTM(bilinear LSTM)的表觀特徵性能最好，此時的歷史相關長度最佳為40，這個值遠遠超過文獻[5]中的2-4幀歷史長度。相對來說40幀歷史信息影響更接近人類的直覺。

6. 目標檢測演算法（R-CNN，fast R-CNN，faster R-CNN，yolo，SSD，yoloV2，yoloV3）

深度學習目前已經應用到了各個領域，應用場景大體分為三類：物體識別，目標檢測，自然語言處理。目標檢測可以理解為是物體識別和物體定位的綜合，不僅僅要識別出物體屬於哪個分類，更重要的是得到物體在圖片中的具體位置。

2014年R-CNN演算法被提出，基本奠定了two-stage方式在目標檢測領域的應用。它的演算法結構如下圖

演算法步驟如下：

R-CNN較傳統的目標檢測演算法獲得了50%的性能提升，在使用VGG-16模型作為物體識別模型情況下，在voc2007數據集上可以取得66%的准確率，已經算還不錯的一個成績了。其最大的問題是速度很慢，內存佔用量很大，主要原因有兩個

針對R-CNN的部分問題，2015年微軟提出了Fast R-CNN演算法，它主要優化了兩個問題。

R-CNN和fast R-CNN均存在一個問題，那就是由選擇性搜索來生成候選框，這個演算法很慢。而且R-CNN中生成的2000個左右的候選框全部需要經過一次卷積神經網路，也就是需要經過2000次左右的CNN網路，這個是十分耗時的（fast R-CNN已經做了改進，只需要對整圖經過一次CNN網路）。這也是導致這兩個演算法檢測速度較慢的最主要原因。

faster R-CNN 針對這個問題，提出了RPN網路來進行候選框的獲取，從而擺脫了選擇性搜索演算法，也只需要一次卷積層操作，從而大大提高了識別速度。這個演算法十分復雜，我們會詳細分析。它的基本結構如下圖

主要分為四個步驟：

使用VGG-16卷積模型的網路結構：

卷積層採用的VGG-16模型，先將PxQ的原始圖片，縮放裁剪為MxN的圖片，然後經過13個conv-relu層，其中會穿插4個max-pooling層。所有的卷積的kernel都是3x3的，padding為1，stride為1。pooling層kernel為2x2, padding為0，stride為2。

MxN的圖片，經過卷積層後，變為了(M/16) x (N/16)的feature map了。

faster R-CNN拋棄了R-CNN中的選擇性搜索（selective search）方法，使用RPN層來生成候選框，能極大的提升候選框的生成速度。RPN層先經過3x3的卷積運算，然後分為兩路。一路用來判斷候選框是前景還是背景，它先reshape成一維向量，然後softmax來判斷是前景還是背景，然後reshape恢復為二維feature map。另一路用來確定候選框的位置，通過bounding box regression實現，後面再詳細講。兩路計算結束後，挑選出前景候選框（因為物體在前景中），並利用計算得到的候選框位置，得到我們感興趣的特徵子圖proposal。

卷積層提取原始圖像信息，得到了256個feature map，經過RPN層的3x3卷積後，仍然為256個feature map。但是每個點融合了周圍3x3的空間信息。對每個feature map上的一個點，生成k個anchor（k默認為9）。anchor分為前景和背景兩類（我們先不去管它具體是飛機還是汽車，只用區分它是前景還是背景即可）。anchor有[x,y,w,h]四個坐標偏移量，x,y表示中心點坐標，w和h表示寬度和高度。這樣，對於feature map上的每個點，就得到了k個大小形狀各不相同的選區region。

對於生成的anchors，我們首先要判斷它是前景還是背景。由於感興趣的物體位於前景中，故經過這一步之後，我們就可以舍棄背景anchors了。大部分的anchors都是屬於背景，故這一步可以篩選掉很多無用的anchor，從而減少全連接層的計算量。

對於經過了3x3的卷積後得到的256個feature map，先經過1x1的卷積，變換為18個feature map。然後reshape為一維向量，經過softmax判斷是前景還是背景。此處reshape的唯一作用就是讓數據可以進行softmax計算。然後輸出識別得到的前景anchors。

另一路用來確定候選框的位置，也就是anchors的[x,y,w,h]坐標值。如下圖所示，紅色代表我們當前的選區，綠色代表真實的選區。雖然我們當前的選取能夠大概框選出飛機，但離綠色的真實位置和形狀還是有很大差別，故需要對生成的anchors進行調整。這個過程我們稱為bounding box regression。

假設紅色框的坐標為[x,y,w,h], 綠色框，也就是目標框的坐標為[Gx, Gy,Gw,Gh], 我們要建立一個變換，使得[x,y,w,h]能夠變為[Gx, Gy,Gw,Gh]。最簡單的思路是，先做平移，使得中心點接近，然後進行縮放，使得w和h接近。如下：

我們要學習的就是dx dy dw dh這四個變換。由於是線性變換，我們可以用線性回歸來建模。設定loss和優化方法後，就可以利用深度學習進行訓練，並得到模型了。對於空間位置loss，我們一般採用均方差演算法，而不是交叉熵（交叉熵使用在分類預測中）。優化方法可以採用自適應梯度下降演算法Adam。

得到了前景anchors，並確定了他們的位置和形狀後，我們就可以輸出前景的特徵子圖proposal了。步驟如下：

1，得到前景anchors和他們的[x y w h]坐標。

2，按照anchors為前景的不同概率，從大到小排序，選取前pre_nms_topN個anchors，比如前6000個

3，剔除非常小的anchors。

4，通過NMS非極大值抑制，從anchors中找出置信度較高的。這個主要是為了解決選取交疊問題。首先計算每一個選區面積，然後根據他們在softmax中的score（也就是是否為前景的概率）進行排序，將score最大的選區放入隊列中。接下來，計算其餘選區與當前最大score選區的IOU（IOU為兩box交集面積除以兩box並集面積，它衡量了兩個box之間重疊程度）。去除IOU大於設定閾值的選區。這樣就解決了選區重疊問題。

5，選取前post_nms_topN個結果作為最終選區proposal進行輸出，比如300個。

經過這一步之後，物體定位應該就基本結束了，剩下的就是物體識別了。

和fast R-CNN中類似，這一層主要解決之前得到的proposal大小形狀各不相同，導致沒法做全連接。全連接計算只能對確定的shape進行運算，故必須使proposal大小形狀變為相同。通過裁剪和縮放的手段，可以解決這個問題，但會帶來信息丟失和圖片形變問題。我們使用ROI pooling可以有效的解決這個問題。

ROI pooling中，如果目標輸出為MxN，則在水平和豎直方向上，將輸入proposal劃分為MxN份，每一份取最大值，從而得到MxN的輸出特徵圖。

ROI Pooling層後的特徵圖，通過全連接層與softmax，就可以計算屬於哪個具體類別，比如人，狗，飛機，並可以得到cls_prob概率向量。同時再次利用bounding box regression精細調整proposal位置，得到bbox_pred，用於回歸更加精確的目標檢測框。

這樣就完成了faster R-CNN的整個過程了。演算法還是相當復雜的，對於每個細節需要反復理解。faster R-CNN使用resNet101模型作為卷積層，在voc2012數據集上可以達到83.8%的准確率，超過yolo ssd和yoloV2。其最大的問題是速度偏慢，每秒只能處理5幀，達不到實時性要求。

針對於two-stage目標檢測演算法普遍存在的運算速度慢的缺點， yolo創造性的提出了one-stage。也就是將物體分類和物體定位在一個步驟中完成。 yolo直接在輸出層回歸bounding box的位置和bounding box所屬類別，從而實現one-stage。通過這種方式， yolo可實現45幀每秒的運算速度，完全能滿足實時性要求（達到24幀每秒，人眼就認為是連續的）。它的網路結構如下圖：

主要分為三個部分：卷積層，目標檢測層，NMS篩選層。

採用Google inceptionV1網路，對應到上圖中的第一個階段，共20層。這一層主要是進行特徵提取，從而提高模型泛化能力。但作者對inceptionV1進行了改造，他沒有使用inception mole結構，而是用一個1x1的卷積，並聯一個3x3的卷積來替代。（可以認為只使用了inception mole中的一個分支，應該是為了簡化網路結構）

先經過4個卷積層和2個全連接層，最後生成7x7x30的輸出。先經過4個卷積層的目的是為了提高模型泛化能力。yolo將一副448x448的原圖分割成了7x7個網格，每個網格要預測兩個bounding box的坐標(x,y,w,h)和box內包含物體的置信度confidence，以及物體屬於20類別中每一類的概率（yolo的訓練數據為voc2012，它是一個20分類的數據集）。所以一個網格對應的參數為（4x2+2+20) = 30。如下圖

其中前一項表示有無人工標記的物體落入了網格內，如果有則為1，否則為0。第二項代表bounding box和真實標記的box之間的重合度。它等於兩個box面積交集，除以面積並集。值越大則box越接近真實位置。

分類信息： yolo的目標訓練集為voc2012，它是一個20分類的目標檢測數據集。常用目標檢測數據集如下表：

| Name | # Images (trainval) | # Classes | Last updated |

| --------------- | ------------------- | --------- | ------------ |

| ImageNet | 450k | 200 | 2015 |

| COCO | 120K | 90 | 2014 |

| Pascal VOC | 12k | 20 | 2012 |

| Oxford-IIIT Pet | 7K | 37 | 2012 |

| KITTI Vision | 7K | 3 | |

每個網格還需要預測它屬於20分類中每一個類別的概率。分類信息是針對每個網格的，而不是bounding box。故只需要20個，而不是40個。而confidence則是針對bounding box的，它只表示box內是否有物體，而不需要預測物體是20分類中的哪一個，故只需要2個參數。雖然分類信息和confidence都是概率，但表達含義完全不同。

篩選層是為了在多個結果中（多個bounding box）篩選出最合適的幾個，這個方法和faster R-CNN 中基本相同。都是先過濾掉score低於閾值的box，對剩下的box進行NMS非極大值抑制，去除掉重疊度比較高的box（NMS具體演算法可以回顧上面faster R-CNN小節）。這樣就得到了最終的最合適的幾個box和他們的類別。

yolo的損失函數包含三部分，位置誤差，confidence誤差，分類誤差。具體公式如下：

誤差均採用了均方差演算法，其實我認為，位置誤差應該採用均方差演算法，而分類誤差應該採用交叉熵。由於物體位置只有4個參數，而類別有20個參數，他們的累加和不同。如果賦予相同的權重，顯然不合理。故yolo中位置誤差權重為5，類別誤差權重為1。由於我們不是特別關心不包含物體的bounding box，故賦予不包含物體的box的置信度confidence誤差的權重為0.5，包含物體的權重則為1。

Faster R-CNN准確率mAP較高，漏檢率recall較低，但速度較慢。而yolo則相反，速度快，但准確率和漏檢率不盡人意。SSD綜合了他們的優缺點，對輸入300x300的圖像，在voc2007數據集上test，能夠達到58 幀每秒( Titan X 的 GPU )，72.1%的mAP。

SSD網路結構如下圖：

和yolo一樣，也分為三部分：卷積層，目標檢測層和NMS篩選層

SSD論文採用了VGG16的基礎網路，其實這也是幾乎所有目標檢測神經網路的慣用方法。先用一個CNN網路來提取特徵，然後再進行後續的目標定位和目標分類識別。

這一層由5個卷積層和一個平均池化層組成。去掉了最後的全連接層。SSD認為目標檢測中的物體，只與周圍信息相關，它的感受野不是全局的，故沒必要也不應該做全連接。SSD的特點如下。

每一個卷積層，都會輸出不同大小感受野的feature map。在這些不同尺度的feature map上，進行目標位置和類別的訓練和預測，從而達到多尺度檢測的目的，可以克服yolo對於寬高比不常見的物體，識別准確率較低的問題。而yolo中，只在最後一個卷積層上做目標位置和類別的訓練和預測。這是SSD相對於yolo能提高准確率的一個關鍵所在。

如上所示，在每個卷積層上都會進行目標檢測和分類，最後由NMS進行篩選，輸出最終的結果。多尺度feature map上做目標檢測，就相當於多了很多寬高比例的bounding box，可以大大提高泛化能力。

和faster R-CNN相似，SSD也提出了anchor的概念。卷積輸出的feature map，每個點對應為原圖的一個區域的中心點。以這個點為中心，構造出6個寬高比例不同，大小不同的anchor（SSD中稱為default box）。每個anchor對應4個位置參數(x,y,w,h)和21個類別概率（voc訓練集為20分類問題，在加上anchor是否為背景，共21分類）。如下圖所示：

另外，在訓練階段，SSD將正負樣本比例定位1：3。訓練集給定了輸入圖像以及每個物體的真實區域（ground true box），將default box和真實box最接近的選為正樣本。然後在剩下的default box中選擇任意一個與真實box IOU大於0.5的，作為正樣本。而其他的則作為負樣本。由於絕大部分的box為負樣本，會導致正負失衡，故根據每個box類別概率排序，使正負比例保持在1：3。SSD認為這個策略提高了4%的准確率

另外，SSD採用了數據增強。生成與目標物體真實box間IOU為0.1 0.3 0.5 0.7 0.9的patch，隨機選取這些patch參與訓練，並對他們進行隨機水平翻轉等操作。SSD認為這個策略提高了8.8%的准確率。

和yolo的篩選層基本一致，同樣先過濾掉類別概率低於閾值的default box，再採用NMS非極大值抑制，篩掉重疊度較高的。只不過SSD綜合了各個不同feature map上的目標檢測輸出的default box。

SSD基本已經可以滿足我們手機端上實時物體檢測需求了，TensorFlow在Android上的目標檢測官方模型ssd_mobilenet_v1_android_export.pb，就是通過SSD演算法實現的。它的基礎卷積網路採用的是mobileNet，適合在終端上部署和運行。

針對yolo准確率不高，容易漏檢，對長寬比不常見物體效果差等問題，結合SSD的特點，提出了yoloV2。它主要還是採用了yolo的網路結構，在其基礎上做了一些優化和改進，如下

網路採用DarkNet-19：19層，裡麵包含了大量3x3卷積，同時借鑒inceptionV1，加入1x1卷積核全局平均池化層。結構如下

yolo和yoloV2隻能識別20類物體，為了優化這個問題，提出了yolo9000，可以識別9000類物體。它在yoloV2基礎上，進行了imageNet和coco的聯合訓練。這種方式充分利用imageNet可以識別1000類物體和coco可以進行目標位置檢測的優點。當使用imageNet訓練時，只更新物體分類相關的參數。而使用coco時，則更新全部所有參數。

YOLOv3可以說出來直接吊打一切圖像檢測演算法。比同期的DSSD(反卷積SSD), FPN（feature pyramid networks）准確率更高或相仿，速度是其1/3.。

YOLOv3的改動主要有如下幾點：

不過如果要求更精準的預測邊框，採用COCO AP做評估標準的話，YOLO3在精確率上的表現就弱了一些。如下圖所示。

當前目標檢測模型演算法也是層出不窮。在two-stage領域， 2017年Facebook提出了mask R-CNN 。CMU也提出了A-Fast-RCNN 演算法，將對抗學習引入到目標檢測領域。Face++也提出了Light-Head R-CNN，主要探討了 R-CNN 如何在物體檢測中平衡精確度和速度。

one-stage領域也是百花齊放，2017年首爾大學提出 R-SSD 演算法，主要解決小尺寸物體檢測效果差的問題。清華大學提出了 RON 演算法，結合 two stage 名的方法和 one stage 方法的優勢，更加關注多尺度對象定位和負空間樣本挖掘問題。

目標檢測領域的深度學習演算法，需要進行目標定位和物體識別，演算法相對來說還是很復雜的。當前各種新演算法也是層不出窮，但模型之間有很強的延續性，大部分模型演算法都是借鑒了前人的思想，站在巨人的肩膀上。我們需要知道經典模型的特點，這些tricks是為了解決什麼問題，以及為什麼解決了這些問題。這樣才能舉一反三，萬變不離其宗。綜合下來，目標檢測領域主要的難點如下：

一文讀懂目標檢測AI演算法：R-CNN，faster R-CNN，yolo，SSD，yoloV2

從YOLOv1到v3的進化之路

SSD-Tensorflow超詳細解析【一】：載入模型對圖片進行測試 https://blog.csdn.net/k87974/article/details/80606407

YOLO https://pjreddie.com/darknet/yolo/ https://github.com/pjreddie/darknet

C#項目參考：https://github.com/AlturosDestinations/Alturos.Yolo

項目實踐貼個圖。

7. yolo 演算法

YOLO是一種目標檢測的演算法。
YOLO將對象檢測重新定義為一個回歸問題，所以它非常快，不需要復雜的管道。它比「R-CNN」快1000倍，比「Fast R-CNN」快100倍。能夠處理實時的視頻流，延遲能夠小於25毫秒，精度是以前實時系統的兩倍多，YOLO遵循的是「端到端深度學習」的實踐。它將單個卷積神經網路（CNN)應用於整個圖像，將圖像分成網格，並預測每個網格的類概率和邊界框。

例如，以一個100x100的圖像為例。我們把它分成網格，比如7x7。然後，對於每個網格，網路都會預測一個邊界框和與每個類別（汽車，行人，交通信號燈等）相對應的概率。

8. aoi自動光學檢測是做什麼的

自動光學檢測（AOI）是印刷電路板製造的自動視覺檢測，其中相機自動掃描被測設備的災難性故障（例如缺少組件）和質量缺陷。
它通常用於製造過程，因為它是一種非接觸式測試方法。這保證了Multi-CB多層電路板的高可靠性。鐳晨科技新推的，因為有技術加持，編程速度快，所以檢測框可以自動帶出多個演算法，快速檢測多種不良，自動搜索已訓練器件，效率和速度都大大提升了。

9. yolo演算法是什麼意思

Yolo是一種目標檢測演算法。

YOLO將對象檢測重新定義為一個回歸問題。它將單個卷積神經網路（CNN)應用於整個圖像，將圖像分成網格，並預測每個網格的類概率和邊界框。例如，以一個100x100的圖像為例。我們把它分成網格，比如7x7。

然後，對於每個網格，網路都會預測一個邊界框和與每個類別（汽車，行人，交通信號燈等）相對應的概率。

重要性：

YOLO非常快。由於檢測問題是一個回歸問題，所以不需要復雜的管道。它比「R-CNN」快1000倍，比「Fast R-CNN」快100倍。

它能夠處理實時視頻流，延遲小於25毫秒。它的精度是以前實時系統的兩倍多。同樣重要的是，YOLO遵循的是「端到端深度學習」的實踐。

10. yolo演算法是什麼

yolo演算法是一種目標檢測演算法。目標檢測任務的目標是找到圖像中的所有感興趣區域，並確定這些區域的位置和類別概率。目標檢測領域的深度學習方法主要分為兩大類兩階段式（Two-stage）目標檢測演算法和單階段式（One-stage）目標檢測演算法。兩階段式是先由演算法生成一系列候選邊界框作為樣本，然後再通過卷積神經網路分類這些樣本。

yolo演算法原理

因為它採用深層卷積神經網路，吸收了當前很多經典卷積神經網路架構的優秀思想，在位置檢測和對象的識別方面，性能達到最優（准確率非常高的情況下還能達到實時檢測）。因為作者還將代碼開源了。真心為作者這種大公無私的心胸點贊。

美中不足的是雖然將代碼開源，但是在論文介紹架構原理的時候比較模糊，特別是對一些重要改進，基本上是一筆帶過。現在在網路上有很多關於YOLO原理的講解。

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：1122

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1400

python中的init方法發布：2025-10-20 08:17:33 瀏覽：1092

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1268

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：1128

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1483

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：685

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：590

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1256

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1311

演算法檢測框

與演算法檢測框相關的資訊