預購測演算法

發布時間: 2023-02-24 13:32:21

Ⅰ YOLO(一) 演算法的原理及演變

第一次接觸到yolo這個演算法是通過吳恩達的教學視頻了解到的，當時其實也算是第一次接觸到目標檢測演算法。這里我們主要介紹下YOLO(You Only Look Once)。現在已經進化到了V3版本了。它不同於Faster RCNN這個分支走的兩部策略先進行前景識別在進行目標檢測，它是直接一步到位進行目標檢測。因此在識別的速度上優於Faster RCNN(5 FPS), 而 YOLO_v1基礎版在Titan X GPU上可以達到45幀/s；快速版可以達到150幀/s。但是在准確率上YOLO是稍差與Faster RCNN這個在之後會詳細介紹。順便提下如果想了解Faster RCNN原理可以參考 Faster-RCNN的原理及演變。

我們知道YOLO其實就是 You Only Look Once, 意思是只需要看一眼就知道位置及對象，個人覺得蠻形象的。他不需要Faster RCNN的RPN結構，他其實選取anchor是預訂了候選框，將圖片劃分為7x7的網格，每個網格允許有2個不同的bounding box. 這樣一開始我們就有7x7x2個候選框(bounding box), 大致粗略覆蓋了圖像的整個區域。他的思想就是Faster RCNN在第一階段就算有了回歸框，在第二階段還是需要進行精調，那還不如就先生成大致回歸框就ok了。

下面我們就來好好介紹一下這個模型。

一、模型結構

其實將這個模型簡單話為:

那30又是如何形成的通道大小的呢？

a. 2個bounding box的位置（8個通道）
每個bounding box需要4個數值來表示其位置，(Center_x,Center_y,width,height)，即(bounding box的中心點的x坐標，y坐標，bounding box的寬度，高度)，2個bounding box共需要8個數值來表示其位置。

b. 2個bounding box 置信度（2個通道）

c. 20分類概率（20個通道）
下面我們來說一下剩下20維度的分類通道。每一個通道代表一個類別的分類概率。因為YOLO支持識別20種不同的對象（人、鳥、貓、汽車、椅子等），所以這里有20個值表示該網格位置存在任一種對象的概率。 但是我們一組圖片只能預測49個對象，可以理解為一個grid2個achor只能有一個預測準的對象（即計算IOU比例最大的那個anchor），所以7x7個對象 。

圖中將自行車的位置放在bounding box1，但實際上是在訓練過程中等網路輸出以後，比較兩個bounding box與自行車實際位置的IOU，自行車的位置（實際bounding box）放置在IOU比較大的那個bounding box（圖中假設是bounding box1），且該bounding box的置信度設為1

二、損失函數

總的來說，就是用網路輸出與樣本標簽的各項內容的誤差平方和作為一個樣本的整體誤差。
損失函數中的幾個項是與輸出的30維向量中的內容相對應的。

三、 YOLO v1 缺陷

注意：

細節：
YOLO的最後一層採用線性激活函數，其它層都是Leaky ReLU。訓練中採用了drop out和數據增強（data augmentation）來防止過擬合。更多細節請參考原論文

在67 FPS，YOLOv2在PASCAL VOC 2007上獲得76.8％的mAP。在40 FPS時，YOLOv2獲得78.6％mAP，這比使用ResNet和SSD 更快的R-CNN更好。憑借如此優異的成績，YOLOv2於2017年CVPR發布並獲得超過1000次引用。YOLO有兩個缺點：一個缺點在於定位不準確，另一個缺點在於和基於region proposal的方法相比召回率較低。因此YOLOv2主要是要在這兩方面做提升。另外YOLOv2並不是通過加深或加寬網路達到效果提升，反而是簡化了網路。

下面主要從兩點來介紹下YOLO v2的提升之處。分別是Better以及Faster.

1、Darknet-19
在YOLO v1中，作者採用的訓練網路是基於GooleNet，這里作者將GooleNet和VGG16做了簡單的對比，GooleNet在計算復雜度上要優於VGG16（8.25 billion operation VS 30.69 billion operation），但是前者在ImageNet上的top-5准確率要稍低於後者（88% VS 90%）。而在YOLO v2中，作者採用了新的分類模型作為基礎網路，那就是Darknet-19。Table6是最後的網路結構：Darknet-19隻需要5.58 billion operation。這個網路包含19個卷積層和5個max pooling層，而在YOLO v1中採用的GooleNet，包含24個卷積層和2個全連接層，因此Darknet-19整體上卷積卷積操作比YOLO v1中用的GoogleNet要少，這是計算量減少的關鍵。最後用average pooling層代替全連接層進行預測。這個網路在ImageNet上取得了top-5的91.2%的准確率。

2、Training for Classification
這里的2和3部分在前面有提到，就是訓練處理的小trick。這里的training for classification都是在ImageNet上進行預訓練，主要分兩步：1、從頭開始訓練Darknet-19，數據集是ImageNet，訓練160個epoch，輸入圖像的大小是224 224，初始學習率為0.1。另外在訓練的時候採用了標準的數據增加方式比如隨機裁剪，旋轉以及色度，亮度的調整等。2、再fine-tuning 網路，這時候採用448 448的輸入，參數的除了epoch和learning rate改變外，其他都沒變，這里learning rate改為0.001，並訓練10個epoch。結果表明fine-tuning後的top-1准確率為76.5%，top-5准確率為93.3%，而如果按照原來的訓練方式，Darknet-19的top-1准確率是72.9%，top-5准確率為91.2%。因此可以看出第1,2兩步分別從網路結構和訓練方式兩方面入手提高了主網路的分類准確率。

3、Training for Detection
在前面第2步之後，就開始把網路移植到detection，並開始基於檢測的數據再進行fine-tuning。首先把最後一個卷積層去掉，然後添加3個3 3的卷積層，每個卷積層有1024個filter，而且每個後面都連接一個1 1的卷積層，1 1卷積的filter個數根據需要檢測的類來定。比如對於VOC數據，由於每個grid cell我們需要預測5個box，每個box有5個坐標值和20個類別值，所以每個grid cell有125個filter（與YOLOv1不同，在YOLOv1中每個grid cell有30個filter，還記得那個7 7 30的矩陣嗎，而且在YOLOv1中，類別概率是由grid cell來預測的，也就是說一個grid cell對應的兩個box的類別概率是一樣的，但是在YOLOv2中，類別概率是屬於box的，每個box對應一個類別概率，而不是由grid cell決定，因此這邊每個box對應25個預測值（5個坐標加20個類別值），而在YOLOv1中一個grid cell的兩個box的20個類別值是一樣的）。另外作者還提到將最後一個3 3*512的卷積層和倒數第二個卷積層相連。最後作者在檢測數據集上fine tune這個預訓練模型160個epoch，學習率採用0.001，並且在第60和90epoch的時候將學習率除以10，weight decay採用0.0005。

這里yolo v3相對於yolo v2有三點：1. 利用多尺度特徵進行對象檢測 2. 調整基礎網路結構

Ⅱ yolo演算法是什麼

Yolo是一種目標檢測演算法。

目標檢測的任務是從圖片中找出物體並給出其類別和位置，對於單張圖片，輸出為圖片中包含的N個物體的每個物體的中心位置（x,y)、寬（w)、高（h)以及其類別。

Yolo的預測基於整個圖片，一次性輸出所有檢測到的目標信號，包括其類別和位置。Yolo首先將圖片分割為sxs個相同大小的grid。

介紹

Yolo只要求grid中識別的物體的中心必須在這個grid內（具體來說，若某個目標的中心點位於一個grid內，該grid輸出該目標類別的概率為1，所有其他grid對該目標預測概率設置為0)。

實現方法：讓sxs個框每個都預測出B個boungding box，bounding box有5個量，分別為物體的x,y,h,w和預測的置信度；每個grid預測B個bounding box和物體類別，類別使用one-hot表示。

Ⅲ yolo演算法是什麼意思

Yolo是一種目標檢測演算法。

YOLO將對象檢測重新定義為一個回歸問題。它將單個卷積神經網路（CNN)應用於整個圖像，將圖像分成網格，並預測每個網格的類概率和邊界框。例如，以一個100x100的圖像為例。我們把它分成網格，比如7x7。

然後，對於每個網格，網路都會預測一個邊界框和與每個類別（汽車，行人，交通信號燈等）相對應的概率。

重要性：

YOLO非常快。由於檢測問題是一個回歸問題，所以不需要復雜的管道。它比「R-CNN」快1000倍，比「Fast R-CNN」快100倍。

它能夠處理實時視頻流，延遲小於25毫秒。它的精度是以前實時系統的兩倍多。同樣重要的是，YOLO遵循的是「端到端深度學習」的實踐。

Ⅳ yolo演算法是什麼

yolo演算法是一種目標檢測演算法。目標檢測任務的目標是找到圖像中的所有感興趣區域，並確定這些區域的位置和類別概率。目標檢測領域的深度學習方法主要分為兩大類兩階段式（Two-stage）目標檢測演算法和單階段式（One-stage）目標檢測演算法。兩階段式是先由演算法生成一系列候選邊界框作為樣本，然後再通過卷積神經網路分類這些樣本。

yolo演算法原理

因為它採用深層卷積神經網路，吸收了當前很多經典卷積神經網路架構的優秀思想，在位置檢測和對象的識別方面，性能達到最優（准確率非常高的情況下還能達到實時檢測）。因為作者還將代碼開源了。真心為作者這種大公無私的心胸點贊。

美中不足的是雖然將代碼開源，但是在論文介紹架構原理的時候比較模糊，特別是對一些重要改進，基本上是一筆帶過。現在在網路上有很多關於YOLO原理的講解。

Ⅳ [圖像演算法]-Faster RCNN詳解

paper： Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
Tensorflow-faster r-cnn github: Tensorflow Faster RCNN for Object Detection

faster rcnn是何凱明等大神在2015年提出目標檢測演算法，該演算法在2015年的ILSVRV和COCO競賽中獲得多項第一。該演算法在fast rcnn基礎上提出了RPN候選框生成演算法，使得目標檢測速度大大提高。

(1)image input；
(2)利用selective search 演算法在圖像中從上到下提取2000個左右的Region Proposal；
(3)將每個Region Proposal縮放(warp)成227*227的大小並輸入到CNN，將CNN的fc7層的輸出作為特徵；
(4)將每個Region Proposal提取的CNN特徵輸入到SVM進行分類；
(5)對於SVM分好類的Region Proposal做邊框回歸，用Bounding box回歸值校正原來的建議窗口，生成預測窗口坐標.
缺陷:
(1) 訓練分為多個階段，步驟繁瑣：微調網路+訓練SVM+訓練邊框回歸器；
(2) 訓練耗時，佔用磁碟空間大；5000張圖像產生幾百G的特徵文件；
(3) 速度慢：使用GPU，VGG16模型處理一張圖像需要47s；
(4) 測試速度慢：每個候選區域需要運行整個前向CNN計算；
(5) SVM和回歸是事後操作，在SVM和回歸過程中CNN特徵沒有被學習更新.

(1)image input；
(2)利用selective search 演算法在圖像中從上到下提取2000個左右的建議窗口(Region Proposal)；
(3)將整張圖片輸入CNN，進行特徵提取；
(4)把建議窗口映射到CNN的最後一層卷積feature map上；
(5)通過RoI pooling層使每個建議窗口生成固定尺寸的feature map；
(6)利用Softmax Loss(探測分類概率) 和Smooth L1 Loss(探測邊框回歸)對分類概率和邊框回歸(Bounding box regression)聯合訓練.

相比R-CNN，主要兩處不同:
(1)最後一層卷積層後加了一個ROI pooling layer；
(2)損失函數使用了多任務損失函數(multi-task loss)，將邊框回歸直接加入到CNN網路中訓練
改進:
(1) 測試時速度慢：R-CNN把一張圖像分解成大量的建議框，每個建議框拉伸形成的圖像都會單獨通過CNN提取特徵.實際上這些建議框之間大量重疊，特徵值之間完全可以共享，造成了運算能力的浪費.
FAST-RCNN將整張圖像歸一化後直接送入CNN，在最後的卷積層輸出的feature map上，加入建議框信息，使得在此之前的CNN運算得以共享.
(2) 訓練時速度慢：R-CNN在訓練時，是在採用SVM分類之前，把通過CNN提取的特徵存儲在硬碟上.這種方法造成了訓練性能低下，因為在硬碟上大量的讀寫數據會造成訓練速度緩慢.
FAST-RCNN在訓練時，只需要將一張圖像送入網路，每張圖像一次性地提取CNN特徵和建議區域，訓練數據在GPU內存里直接進Loss層，這樣候選區域的前幾層特徵不需要再重復計算且不再需要把大量數據存儲在硬碟上.
(3) 訓練所需空間大：R-CNN中獨立的SVM分類器和回歸器需要大量特徵作為訓練樣本，需要大量的硬碟空間.FAST-RCNN把類別判斷和位置回歸統一用深度網路實現，不再需要額外存儲.
(4) 由於ROI pooling的提出，不需要再input進行Corp和wrap操作，避免像素的損失，巧妙解決了尺度縮放的問題.

(1)輸入測試圖像；
(2)將整張圖片輸入CNN，進行特徵提取；
(3)用RPN先生成一堆Anchor box，對其進行裁剪過濾後通過softmax判斷anchors屬於前景(foreground)或者後景(background)，即是物體or不是物體，所以這是一個二分類；同時，另一分支bounding box regression修正anchor box，形成較精確的proposal（註：這里的較精確是相對於後面全連接層的再一次box regression而言）
(4)把建議窗口映射到CNN的最後一層卷積feature map上；
(5)通過RoI pooling層使每個RoI生成固定尺寸的feature map；
(6)利用Softmax Loss(探測分類概率) 和Smooth L1 Loss(探測邊框回歸)對分類概率和邊框回歸(Bounding box regression)聯合訓練.

相比FASTER-RCNN，主要兩處不同:
(1)使用RPN(Region Proposal Network)代替原來的Selective Search方法產生建議窗口；
(2)產生建議窗口的CNN和目標檢測的CNN共享

改進:
(1) 如何高效快速產生建議框？
FASTER-RCNN創造性地採用卷積網路自行產生建議框，並且和目標檢測網路共享卷積網路，使得建議框數目從原有的約2000個減少為300個，且建議框的質量也有本質的提高.

從上面的三張圖可以看出，Faster R CNN由下面幾部分組成：
1.數據集，image input
2.卷積層CNN等基礎網路，提取特徵得到feature map
3-1.RPN層，再在經過卷積層提取到的feature map上用一個3x3的slide window，去遍歷整個feature map,在遍歷過程中每個window中心按rate，scale（1:2,1:1,2:1）生成9個anchors，然後再利用全連接對每個anchors做二分類（是前景還是背景）和初步bbox regression，最後輸出比較精確的300個ROIs。
3-2.把經過卷積層feature map用ROI pooling固定全連接層的輸入維度。
4.然後把經過RPN輸出的rois映射到ROIpooling的feature map上進行bbox回歸和分類。

SPP-Net是出自論文《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》
由於一般的網路結構中都伴隨全連接層，全連接層的參數就和輸入圖像大小有關，因為它要把輸入的所有像素點連接起來,需要指定輸入層神經元個數和輸出層神經元個數，所以需要規定輸入的feature的大小。而SPP-NET正好解決了這個問題。

如果原圖輸入是224x224，對於conv5出來後的輸出，是13x13x256的，可以理解成有256個這樣的filter，每個filter對應一張13x13的activation map.如果像上圖那樣將activation map pooling成4x4 2x2 1x1三張子圖，做max pooling後，出來的特徵就是固定長度的(16+4+1)x256那麼多的維度了.如果原圖的輸入不是224x224，出來的特徵依然是(16+4+1)x256；直覺地說，可以理解成將原來固定大小為(3x3)窗口的pool5改成了自適應窗口大小，窗口的大小和activation map成比例，保證了經過pooling後出來的feature的長度是一致的.

總結而言，當網路輸入的是一張任意大小的圖片，這個時候我們可以一直進行卷積、池化，直到網路的倒數幾層的時候，也就是我們即將與全連接層連接的時候，就要使用金字塔池化，使得任意大小的特徵圖都能夠轉換成固定大小的特徵向量，這就是空間金字塔池化的意義（多尺度特徵提取出固定大小的特徵向量）。

ROI pooling layer實際上是SPP-NET的一個精簡版，SPP-NET對每個proposal使用了不同大小的金字塔映射，而ROI pooling layer只需要下采樣到一個7x7的特徵圖.對於VGG16網路conv5_3有512個特徵圖，這樣所有region proposal對應了一個7*7*512維度的特徵向量作為全連接層的輸入.

為什麼要pooling成7×7的尺度？是為了能夠共享權重。Faster RCNN除了用到VGG前幾層的卷積之外，最後的全連接層也可以繼續利用。當所有的RoIs都被pooling成（512\×7\×7）的feature map後，將它reshape 成一個一維的向量，就可以利用VGG16預訓練的權重，初始化前兩層全連接.

那麼經過何種變換才能從圖11中的窗口P變為窗口呢？比較簡單的思路就是：

注意：只有當Proposal和Ground Truth比較接近時（線性問題），我們才能將其作為訓練樣本訓練我們的線性回歸模型，否則會導致訓練的回歸模型不work（當Proposal跟GT離得較遠，就是復雜的非線性問題了，此時用線性回歸建模顯然不合理）.這個也是G-CNN: an Iterative Grid Based Object Detector多次迭代實現目標准確定位的關鍵. 線性回歸就是給定輸入的特徵向量X，學習一組參數W，使得經過線性回歸後的值跟真實值Y(Ground Truth)非常接近.即.那麼Bounding-box中我們的輸入以及輸出分別是什麼呢？

如上圖中標識：
① rpn_cls：60*40*512-d ⊕ 1*1*512*18 > 60*40*92 逐像素對其9個Anchor box進行二分類
② rpn_bbox：60*40*512-d ⊕ 1*1*512*36>60*40*9*4 逐像素得到其9個Anchor box四個坐標信息

逐像素對Anchors分類標記
① 去除掉超過1000*600這原圖的邊界的anchor box
② 如果anchor box與ground truth的IoU值最大，標記為正樣本，label=1
③ 如果anchor box與ground truth的IoU>0.7，標記為正樣本，label=1
④ 如果anchor box與ground truth的IoU<0.3，標記為負樣本，label=0
剩下的既不是正樣本也不是負樣本，不用於最終訓練，label=-1

逐像素Bbox回歸糾正
除了對anchor box進行標記外，另一件事情就是計算anchor box與ground truth之間的偏移量
令：ground truth:標定的框也對應一個中心點位置坐標x ,y 和寬高w ,h
anchor box: 中心點位置坐標x_a,y_a和寬高w_a,h_a
所以，偏移量：
△x=(x -x_a)/w_a △y=(y -y_a)/h_a
△w=log(w /w_a) △h=log(h /h_a)
通過ground truth box與預測的anchor box之間的差異來進行學習，從而是RPN網路中的權重能夠學習到預測box的能力

接著進一步對Anchors進行越界剔除和使用nms非最大值抑制，剔除掉重疊的框；比如，設定IoU為0.7的閾值，即僅保留覆蓋率不超過0.7的局部最大分數的box（粗篩）。最後留下大約2000個anchor，然後再取前N個box（比如300個）；這樣，進入到下一層ROI Pooling時region proposal大約只有300個。

參考文獻：

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：593

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：888

python中的init方法發布：2025-10-20 08:17:33 瀏覽：581

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：765

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：684

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1013

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：255

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：114

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：806

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：712

預購測演算法

與預購測演算法相關的資訊