xa演算法

發布時間: 2023-05-13 20:58:43

⑴ 矩陣位置旋轉演算法，設計一個矩陣類，實現矩陣的90度、180度、270度的旋轉

設矩陣寬度W，高度H，原坐標(Xa,Ya)，轉換後坐標(Xb,Yb)，則
旋轉90度(順時針)：
Xb=H-Ya;
Yb=Xa;
旋轉180度：
Xb=W-Xa;
Yb=H-Yb;
旋轉270度(順時針)：
Xb=Ya;
Yb=W-Xa;

⑵ 分布式事務理論-二階段提交（Two-phase Commit）

兩階段提交協議為了保證分布在不同節點上的分布式事務的一致性，我們需要引入一個協調者來管理所有的節點，負責各個本地資源的提交和回滾，並確保這些節點正確提交操作結果，若提交失敗則放棄事務。

XA 是一個分布式事務協議，規定了事務管理器和資源管理器介面。因此，XA 協議可以分為兩部分，即 事務管理器 和 本地資源管理器 。

基於 XA 協議的二階段提交方法中，二階段提交協議（The two-phase commit protocol，2PC），用於保證分布式系統中事務提交時的數據一致性，是 XA 在全局事務中用於協調多個資源的機制。

分為投票和提交兩個階段。

投票為第一階段 :

提為第二階段 ：

協調悄伏者會根據所有參與者返回的信息向參與者發送 DoCommit 或 DoAbort 指令

同步阻塞問題 ：二階段提交演算法在執行過程中，所有參與節點都是事務阻塞型的。也就是說，當本地資源管理器佔有臨界資源時，其他資源管理器如果要訪問同一臨界資源，會處於阻塞狀態。

協調者單點故障導致參與者長期阻塞問題 ：基於 XA 的二階段臘乎提交演算法類似於集中式演算法，一旦事務管理器發生故障，整個系統都處於停滯狀態。尤其是在提交階段，一旦事務管理器發生故障，資源管理器會由於等待管理器的消息，而一直鎖定事務資源，導致整個系統被阻塞。

數據不一致問題 ：在提交階段，當協調者向參與者發送 DoCommit 請求之後，如果發生了局部網路異常，或者在發送提交請求的過程中協調者發生了故障，就會導致只有一部分參與者接收到了提交請求並執行提交操作，但其他未接到提交請求的那部分參與者則無法執行事務提交。於是整個分布式系統便出現了數據不一致的問題。

二階段無法解決的問題 ：協調者再發出DoCommit 消息之後宕機，而唯一接收到這條消息的參與者同時也宕機了。那麼即使協調者通過選舉協議產生了新的協調者，這條事務的狀態也是不確定的，沒人知道事務是否被已經提交。

三階段提交協議（Three-phase commit protocol，3PC），是對二階段提交（2PC）的改進。為了解決兩階段提交的同步阻塞和數據不一致問題，三階段提交引入了 超時機制 和 准備階段 。

超時機制

同時在協調者和參與者中引入超時機制。如果協調者或參與者在規定的時間內沒有接收到來自其他節點的響應，就會根據當前的狀態選擇提交或者終止整個事務。

准備階段

在第一階段和第二階段中間引入了一個准備階段，也就是在提交階段之前，加入了一個預提交階段。在預提交階段排除一些不一致的情況，保證在最後提交之前各參與節點的狀態是一致的。

CanCommit 階段

協調者向參與者發送請求操作輪運悉（CanCommit 請求），詢問參與者是否可以執行事務提交操作，然後等待參與者的響應；參與者收到 CanCommit 請求之後，回復 Yes，表示可以順利執行事務；否則回復 No。（ 我個人理解類似做TCC中Try操作 ）

PreCommit 階段

協調者根據參與者的回復情況，來決定是否可以進行 PreCommit 操作或中斷事務。

如果所有參與者回復的都是「Yes」，那麼協調者就會執行事務的預執行：

如果任何一個參與者向協調者發送了「No」消息，或者等待超時之後，協調者都沒有收到參與者的響應，就執行中斷事務的操作：

DoCommit 階段

協調者根據參與者的回復情況，來決定是否可以進行 DoCommit 操作或中斷事務。

如果所有參與者回復的都是「Yes」，那麼協調者就會執行事務的提交：

如果任何一個參與者向協調者發送了「No」消息，或者協調者等待超時之後，協調者都沒有收到參與者的響應，就執行中斷事務的操作：

當參與者PreCommit 階段向協調者發送 Ack 消息後，如果長時間沒有得到協調者的響應，在默認情況下，參與者會自動將超時的事務進行提交，不會像兩階段提交那樣被阻塞住

由於存在超時機制，即使協調者發生故障，參與者無法及時收到來自協調者的信息之後，他會默認執行commit。避免參與者長期阻塞。

3PC會在2階段到3階段間阻塞，2PC會在1階段到2階段整個事務過程中阻塞，因而總體來說3PC並不能不阻塞，只是最大限度減少了阻塞的時間。同時安裝5.2也能夠解決協調者單點故障導致參與者長期阻塞的問題

3PC和2PC都無法解決數據一致的問題，不過3PC存在超時會通過超時保證協調者和參與者在提交階段無法通信過程中最終一致，而不需人工介入。

⑶ 常見密碼演算法原理

PBKDF2(Password-Based Key Derivation Function)是一個用來導出密鑰的函數，用來生成加密的密碼，增加破解的難度，類似bcrypt/scrypt等，可以用來進行密碼或者口令的加密存儲。主要是鹽值+pwd，經過多輪HMAC演算法的計算，產生的密文。
PBKDF2函數的定義
DK = PBKDF2(PRF, Password, Salt, c, dkLen)
• PRF是一個偽隨機函數，例如HASH_HMAC函數，它會輸出長度為hLen的結果。
• Password是用來生成密鑰的原文密碼。
• Salt是一個加密用的鹽值。
• c是進行重復計算的次數。
• dkLen是期望得到的密鑰的長度。
• DK是最後產生的密鑰。
https://segmentfault.com/a/1190000004261009

下面我們以Alice和Bob為例敘述Diffie-Hellman密鑰交換的原理。
1,Diffie-Hellman交換過程中涉及到的所有參與者定義一個組，在這個組中定義一個大質數p，底數g。
2,Diffie-Hellman密鑰交換是一個兩部分的過程，Alice和Bob都需要一個私有的數字a，b。
下面是DH交換的過程圖：
本圖片來自wiki
下面我們進行一個實例
1.愛麗絲與鮑伯協定使用p=23以及g=5.
2.愛麗絲選擇一個秘密整數a=6, 計算A = g^a mod p並發送給鮑伯。
A = 5^6 mod 23 = 8.
3.鮑伯選擇一個秘密整數b=15, 計算B = g^b mod p並發送給愛麗絲。
B = 5^15 mod 23 = 19.
4.愛麗絲計算s = B a mod p
19^6 mod 23 = 2.
5.鮑伯計算s = A b mod p
8^15 mod 23 = 2.

ECDH:
ECC演算法和DH結合使用，用於密鑰磋商，這個密鑰交換演算法稱為ECDH。交換雙方可以在不共享任何秘密的情況下協商出一個密鑰。ECC是建立在基於橢圓曲線的離散對數問題上的密碼體制，給定橢圓曲線上的一個點P，一個整數k，求解Q=kP很容易；給定一個點P、Q，知道Q=kP，求整數k確是一個難題。ECDH即建立在此數學難題之上。密鑰磋商過程：
假設密鑰交換雙方為Alice、Bob，其有共享曲線參數（橢圓曲線E、階N、基點G）。

來自 http://www.cnblogs.com/fishou/p/4206451.html

https://zh.wikipedia.org/wiki/SHA%E5%AE%B6%E6%97%8F

exponent1 INTEGER, -- d mod (p-1)
exponent2 INTEGER, -- d mod (q-1)
coefficient INTEGER, -- (inverse of q) mod p
otherPrimeInfos OtherPrimeInfos OPTIONAL
}
-----END RSA PRIVATE KEY-----
while a RSA public key contains only the following data:
-----BEGIN RSA PUBLIC KEY-----
RSAPublicKey ::= SEQUENCE {
molus INTEGER, -- n
publicExponent INTEGER -- e
}
-----END RSA PUBLIC KEY-----
and this explains why the private key block is larger.
Note that a more standard format for non-RSA public keys is
-----BEGIN PUBLIC KEY-----
PublicKeyInfo ::= SEQUENCE {
algorithm AlgorithmIdentifier,
PublicKey BIT STRING
}
AlgorithmIdentifier ::= SEQUENCE {
algorithm OBJECT IDENTIFIER,
parameters ANY DEFINED BY algorithm OPTIONAL
}
-----END PUBLIC KEY-----
More info here.
BTW, since you just posted a screenshot of the private key I strongly hope it was just for tests :)

密鑰的長度
C:\herong>java RsaKeyGenerator 128
p: 17902136406704537069
q: 17902136406704537077
m:
Molus:
Key size: 128
Public key:
Private key:
C:\herong>java RsaKeyGenerator 256
p:
q:
m: ...
Molus: ...
Key size: 256
Public key: ...
Private key: ...

https://security.stackexchange.com/questions/90169/rsa-public-key-and-private-key-lengths
https://stackoverflow.com/questions/2921508/trying-to-understand-java-rsa-key-size >

http://www.herongyang.com/Cryptography/RSA-BigInteger-Keys-Generated-by-RsaKeyGenerator-java.html

update() adds data to the Cipher』s internal buffer, then returns all currently completely encoded blocks. If there are any encoded blocks left over, they remain in the Cipher』s buffer until the next call, or a call to doFinal(). This means that if you call update() with a four byte array to encrypt, and the buffer size is eight bytes, you will not receive encoded data on the return (you』ll get a null instead). If your next call to update() passes five bytes of data in, you will get an 8 byte (the block size) array back, containing the four bytes passed in on the previous call, the first four bytes from the current call – the remaining byte from the current call is left in the Cipher』s buffer.
doFinal() on the other hand is much simpler: it encrypts the passed data, pads it out to the necessary length, and then returns it. The Cipher is essentially stateless.

來自 https://segmentfault.com/a/1190000006931511

DH演算法的中間人攻擊
在最初的描述中，迪菲－赫爾曼密鑰交換本身並沒有提供通訊雙方的身份驗證服務，因此它很容易受到中間人攻擊。一個中間人在信道的中央進行兩次迪菲－赫爾曼密鑰交換，一次和Alice另一次和Bob，就能夠成功的向Alice假裝自己是Bob，反之亦然。而攻擊者可以解密（讀取和存儲）任何一個人的信息並重新加密信息，然後傳遞給另一個人。因此通常都需要一個能夠驗證通訊雙方身份的機制來防止這類攻擊。

優缺點：
1、僅當需要時才生成密鑰，減小了將密鑰存儲很長一段時間而致使遭受攻擊的機會。
2、除對全局參數的約定外，密鑰交換不需要事先存在的基礎結構。
然而，該技術也存在許多不足：
1、沒有提供雙方身份的任何信息。
2、它是計算密集性的，因此容易遭受阻塞性攻擊，即對手請求大量的密鑰。受攻擊者花費了相對多的計算資源來求解無用的冪系數而不是在做真正的工作。
3、沒辦法防止重演攻擊。
4、容易遭受中間人的攻擊。第三方C在和A通信時扮演B；和B通信時扮演A。A和B都與C協商了一個密鑰，然後C就可以監聽和傳遞通信量。中間人的攻擊按如下進行：
（1） B在給A的報文中發送他的公開密鑰。
（2） C截獲並解析該報文。C將B的公開密鑰保存下來並給A發送報文，該報文具有B的用戶ID但使用C的公開密鑰YC，仍按照好像是來自B的樣子被發送出去。A收到C的報文後，將YC和B的用戶ID存儲在一塊。類似地，C使用YC向B發送好像來自A的報文。
（3） B基於私有密鑰XB和YC計算秘密密鑰K1。A基於私有密鑰XA和YC計算秘密密鑰K2。C使用私有密鑰XC和YB計算K1，並使用XC和YA計算K2。
（4）從現在開始，C就可以轉發A發給B的報文或轉發B發給A的報文，在途中根據需要修改它們的密文。使得A和B都不知道他們在和C共享通信。

⑷ 【目標檢測演算法解讀】yolo系列演算法二

https://blog.csdn.net/Gentleman_Qin/article/details/84349144

|聲明：遵循CC 4.0 BY-SA版權協議

    建立在YOLOv1的基礎上，經過Joseph Redmon等的改進，YOLOv2和YOLO9000演算法在2017年CVPR上被提出，並獲得最佳論文提名，重點解決YOLOv1召回率和定位精度方面的誤差。在提出時，YOLOv2在多種監測數據集中都要快過其他檢測系統，並可以在速度與精確度上進行權衡。

    YOLOv2採用Darknet-19作為特徵提取網路，增加了批量標准化（Batch Normalization）的預處理，並使用224×224和448×448兩階段訓練ImageNet，得到預訓練模型後fine-tuning。

    相比於YOLOv1是利用FC層直接預測Bounding Box的坐標，YOLOv2借鑒了FSR-CNN的思想，引入Anchor機制，利用K-Means聚類的方式在訓練集中聚類計算出更好的Anchor模板，在卷積層使用Anchor Boxes操作，增加Region Proposal的預測，同時採用較強約束的定位方法，大大提高演算法召回率。同時結合圖像細粒度特徵，將淺層特徵與深層特徵相連，有助於對小尺寸目標的檢測。

    下圖所示是YOLOv2採取的各項改進帶了的檢測性能上的提升：

    YOLO9000 的主要檢測網路也是YOLO v2，同時使用WordTree來混合來自不同的資源的訓練數據，並使用聯合優化技術同時在ImageNet和COCO數據集上進行訓練，目的是利用數量較大的分類數據集來幫助訓練檢測模型，因此，YOLO 9000的網路結構允許實時地檢測超過9000種物體分類，進一步縮小了檢測數據集與分類數據集之間的大小代溝。

    下面將具體分析YOLOv2的各個創新點:

BN概述：

    對數據進行預處理（統一格式、均衡化、去噪等）能夠大大提高訓練速度，提升訓練效果。BN正是基於這個假設的實踐，對每一層輸入的數據進行加工。

    BN是2015年Google研究員在論文《Batch Normalization: Accelerating Deep Network Training by Recing Internal Covariate Shift》一文中提出的，同時也將BN應用到了2014年的GoogLeNet上，也就是Inception-v2。

    BN層簡單講就是對網路的每一層的輸入都做了歸一化，這樣網路就不需要每層都去學數據的分布，收斂會更快。YOLOv1演算法（採用的是GoogleNet網路提取特徵）是沒有BN層的，而在YOLOv2中作者為每個卷積層都添加了BN層。

    使用BN對網路進行優化，讓網路提高了收斂性，同時還消除了對其他形式的正則化（regularization）的依賴，因此使用BN後可以從模型中去掉Dropout，而不會產生過擬合。

BN優點：

神經網路每層輸入的分布總是發生變化，加入BN，通過標准化上層輸出，均衡輸入數據分布，加快訓練速度，因此可以設置較大的學習率（Learning Rate）和衰減（Decay）；

通過標准化輸入，降低激活函數（Activation Function）在特定輸入區間達到飽和狀態的概率，避免梯度彌散（Gradient Vanishing）問題；

輸入標准化對應樣本正則化，BN在一定程度上可以替代 Dropout解決過擬合問題。

BN演算法：

    在卷積或池化之後，激活函數之前，對每個數據輸出進行標准化，方式如下圖所示：

    公式很簡單，前三行是 Batch內數據歸一化（假設一個Batch中有每個數據），同一Batch內數據近似代表了整體訓練數據。第四行引入了附加參數 γ 和 β，此二者的取值演算法可以參考BN論文，在此不再贅述。

    fine-tuning：用已經訓練好的模型，加上自己的數據集，來訓練新的模型。即使用別人的模型的前幾層，來提取淺層特徵，而非完全重新訓練模型，從而提高效率。一般新訓練模型准確率都會從很低的值開始慢慢上升，但是fine-tuning能夠讓我們在比較少的迭代次數之後得到一個比較好的效果。

    YOLO模型分為兩部分，分類模型和檢測模型，前者使用在ImageNet上預訓練好的模型，後者在檢測數據集上fine-tuning。

    YOLOv1在預訓練時採用的是224*224的輸入（在ImageNet數據集上進行），然後在檢測的時候採用448*448的輸入，這會導致從分類模型切換到檢測模型的時候，模型還要適應圖像解析度的改變。

    YOLOv2則將預訓練分成兩步：先用224*224的輸入在ImageNet數據集訓練分類網路，大概160個epoch（將所有訓練數據循環跑160次）後將輸入調整到448*448，再訓練10個epoch（這兩步都是在ImageNet數據集上操作）。然後利用預訓練得到的模型在檢測數據集上fine-tuning。這樣訓練得到的模型，在檢測時用448*448的圖像作為輸入可以順利檢測。

    YOLOv1將輸入圖像分成7*7的網格，每個網格預測2個Bounding Box，因此一共有98個Box，同時YOLOv1包含有全連接層，從而能直接預測Bounding Boxes的坐標值，但也導致丟失較多的空間信息，定位不準。

    YOLOv2首先將YOLOv1網路的FC層和最後一個Pooling層去掉，使得最後的卷積層可以有更高解析度的特徵，然後縮減網路，用416*416大小的輸入代替原來的448*448，使得網路輸出的特徵圖有奇數大小的寬和高，進而使得每個特徵圖在劃分單元格（Cell）的時候只有一個中心單元格（Center Cell）。

    為什麼希望只有一個中心單元格呢？由於圖片中的物體都傾向於出現在圖片的中心位置，特別是比較大的物體，所以有一個單元格單獨位於物體中心的位置用於預測這些物體。

    YOLOv2通過引入Anchor Boxes，通過預測Anchor Box的偏移值與置信度，而不是直接預測坐標值。YOLOv2的卷積層採用32這個值來下采樣圖片，所以通過選擇416*416用作輸入尺寸最終能輸出一個13*13的特徵圖。若採用FSRCNN中的方式，每個Cell可預測出9個Anchor Box，共13*13*9=1521個（YOLOv2確定Anchor Boxes的方法見是維度聚類，每個Cell選擇5個Anchor Box）。

    在FSRCNN中，以一個51*39大小的特徵圖為例，其可以看做一個尺度為51*39的圖像，對於該圖像的每一個位置，考慮9個可能的候選窗口：3種面積3種比例。這些候選窗口稱為Anchor Boxes。下圖示出的是51*39個Anchor Box中心，以及9種Anchor Box示例。

YOLOv1和YOLOv2特徵圖數據結構：

YOLOv1：S*S* (B*5 + C) => 7*7（2*5+20）

    其中B對應Box數量，5對應邊界框的定位信息（w,y,w,h）和邊界框置信度（Confidience）。解析度是7*7，每個Cell預測2個Box，這2個Box共用1套條件類別概率（1*20）。

YOLOv2：S*S*K* (5 + C) => 13*13*9（5+20）

    解析度提升至13*13，對小目標適應性更好，借鑒了FSRCNN的思想，每個Cell對應K個Anchor box（YOLOv2中K=5），每個Anchor box對應1組條件類別概率（1*20）。

    聚類：聚類是指事先沒有「標簽」而通過某種成團分析找出事物之間存在聚集性原因的過程。即在沒有劃分類別的情況下，根據數據相似度進行樣本分組。

    在FSR-CNN中Anchor Box的大小和比例是按經驗設定的，然後網路會在訓練過程中調整Anchor Box的尺寸，最終得到准確的Anchor Boxes。若一開始就選擇了更好的、更有代表性的先驗Anchor Boxes，那麼網路就更容易學到准確的預測位置。

    YOLOv2使用K-means聚類方法類訓練Bounding Boxes，可以自動找到更好的寬高維度的值用於一開始的初始化。傳統的K-means聚類方法使用的是歐氏距離函數，意味著較大的Anchor Boxes會比較小的Anchor Boxes產生更多的錯誤，聚類結果可能會偏離。由於聚類目的是確定更精準的初始Anchor Box參數，即提高IOU值，這應與Box大小無關，因此YOLOv2採用IOU值為評判標准，即K-means 採用的距離函數（度量標准）為：

d(box,centroid) = 1 - IOU(box,centroid)

    如下圖，左邊是聚類的簇個數和IOU的關系，兩條曲線分別代表兩個不同的數據集。分析聚類結果並權衡模型復雜度與IOU值後，YOLOv2選擇K=5，即選擇了5種大小的Box 維度來進行定位預測。

    其中紫色和灰色也是分別表示兩個不同的數據集，可以看出其基本形狀是類似的。更重要的是，可以看出聚類的結果和手動設置的Anchor Box位置和大小差別顯著——結果中扁長的框較少，而瘦高的框更多（更符合行人的特徵）。

    YOLOv2採用的5種Anchor的Avg IOU是61，而採用9種Anchor Boxes的Faster RCNN的Avg IOU是60.9，也就是說本文僅選取5種box就能達到Faster RCNN的9中box的效果。選擇值為9的時候，AVG IOU更有顯著提高。說明K-means方法的生成的boxes更具有代表性。

    直接對Bounding Boxes求回歸會導致模型不穩定，其中心點可能會出現在圖像任何位置，有可能導致回歸過程震盪，甚至無法收斂，尤其是在最開始的幾次迭代的時候。大多數不穩定因素產生自預測Bounding Box的中心坐標（x,y）位置的時候。

    YOLOv2的網路在特徵圖（13*13）的每一個單元格中預測出5個Bounding Boxes（對應5個Anchor Boxes），每個Bounding Box預測出5個值（tx,ty,tw,th,t0），其中前4個是坐標偏移值，t0是置信度結果（類似YOLOv1中的邊界框置信度Confidence）。YOLOv2借鑒了如下的預測方式，即當Anchor Box的中心坐標和寬高分別是（xa,ya）和（wa,wh）時，Bounding Box坐標的預測偏移值（tx,ty,tw,th）與其坐標寬高（x,y,w,h）的關系如下：

tx = (x-xa)/wa

ty= (y-ya)/ha

tw = log(w/wa)

th = log(h/ha)

    基於這種思想，YOLOv2在預測Bounding Box的位置參數時採用了如下強約束方法：

    上圖中，黑色虛線框是Anchor Box，藍色矩形框就是預測的Bounding Box結果，預測出的Bounding Box的坐標和寬高為（bx,by）和（bw,bh），計算方式如圖中所示，其中：對每個Bounding Box預測出5個值（tx,ty,tw,th,t0），Cell與圖像左上角的橫縱坐標距離為（cx,cy），σ定義為sigmoid激活函數（將函數值約束到［0,1］），該Cell對應的Anchor Box對應的寬高為（pw,ph）。

    簡而言之，（bx,by）就是（cx,cy）這個Cell附近的Anchor Box針對預測值（tx,ty）得到的Bounding Box的坐標預測結果，同時可以發現這種方式對於較遠距離的Bounding Box預測值（tx,ty）能夠得到很大的限制。

    YOLOv2通過添加一個轉移層，把高解析度的淺層特徵連接到低解析度的深層特徵（把特徵堆積在不同Channel中）而後進行融合和檢測。具體操作是先獲取前層的26*26的特徵圖，將其同最後輸出的13*13的特徵圖進行連接，而後輸入檢測器進行檢測（檢測器的FC層起到了全局特徵融合的作用），以此來提高對小目標的檢測能力。

    為了適應不同尺度下的檢測任務，YOLOv2在訓練網路時，其在檢測數據集上fine-tuning時候採用的輸入圖像的size是動態變化的。具體來講，每訓練10個Batch，網路就會隨機選擇另一種size的輸入圖像。因為YOLOv2用到了參數是32的下采樣，因此也採用32的倍數作為輸入的size，即採用{320,352,…,608}的輸入尺寸（網路會自動改變尺寸，並繼續訓練的過程）。

這一策略讓網路在不同的輸入尺寸上都能達到較好的預測效果，使同一網路能在不同解析度上進行檢測。輸入圖片較大時，檢測速度較慢，輸入圖片較小時，檢測速度較快，總體上提高了准確率，因此多尺度訓練算是在准確率和速度上達到一個平衡。

    上表反映的是在檢測時，不同大小的輸入圖片情況下的YOLOv2和其他目標檢測演算法的對比。可以看出通過多尺度訓練的檢測模型，在測試的時候，輸入圖像在尺寸變化范圍較大的情況下也能取得mAP和FPS的平衡。

    YOLOv1採用的訓練網路是GoogleNet，YOLOv2採用了新的分類網路Darknet-19作為基礎網路，它使用了較多的3*3卷積核，並把1*1的卷積核置於3*3的卷積核之間，用來壓縮特徵，同時在每一次池化操作後把通道（Channels）數翻倍（借鑒VGG網路）。

    YOLOv1採用的GooleNet包含24個卷積層和2個全連接層，而Darknet-19包含19個卷積層和5個最大池化層（Max Pooling Layers），後面添加Average Pooling層（代替v1中FC層），而Softmax分類器作為激活被用在網路最後一層，用來進行分類和歸一化。

    在ImageNet數據集上進行預訓練，主要分兩步（採用隨機梯度下降法）：

輸入圖像大小是224*224，初始學習率（Learning Rate）為0.1，訓練160個epoch，權值衰減（Weight Decay）為0.0005，動量（Momentum）為0.9，同時在訓練時採用標準的數據增強（Data Augmentation）方式如隨機裁剪、旋轉以及色度、亮度的調整。

fine-tuning：第1步結束後，改用448*448輸入（高解析度模型），學習率改為0.001，訓練10個epoch，其他參數不變。結果表明：fine-tuning後的top-1准確率為76.5%，top-5准確率為93.3%，若按照原來的訓練方式，Darknet-19的top-1准確率是72.9%，top-5准確率為91.2%。可以看出，兩步分別從網路結構和訓練方式方面入手提高了網路分類准確率。

    預訓練之後，開始基於檢測的數據集再進行fine-tuning。

    首先，先把最後一個卷積層去掉，然後添加3個3*3的卷積層，每個卷積層有1024個卷積核，並且後面都連接一個1*1的卷積層，卷積核個數（特徵維度）根據需要檢測的類數量決定。（比如對VOC數據，每個Cell需要預測5個Boungding Box，每個Bounding Box有4個坐標值、1個置信度值和20個條件類別概率值，所以每個單元格對應125個數據，此時卷積核個數應該取125。）

    然後，將最後一個3*3*512的卷積層和倒數第2個卷積層相連（提取細粒度特徵），最後在檢測數據集上fine-tuning預訓練模型160個epoch，學習率採用0.001，並且在第60和90個epoch的時候將學習率除以10，權值衰減、動量和數據增強方法與預訓練相同。

    YOLO9000通過結合分類和檢測數據集，使得訓練得到的模型可以檢測約9000類物體，利用帶標注的分類數據集量比較大的特點，解決了帶標注的檢測數據集量比較少的問題。具體方法是：一方面採用WordTree融合數據集，另一方面聯合訓練分類數據集和檢測數據集。

    分類數據集和檢測數據集存在較大差別：檢測數據集只有粗粒度的標記信息，如「貓」、「狗」，而分類數據集的標簽信息則更細粒度，更豐富。比如「狗」就包括「哈士奇」、「金毛狗」等等。所以如果想同時在檢測數據集與分類數據集上進行訓練，那麼就要用一種一致性的方法融合這些標簽信息。

    用於分類的方法，常用Softmax（比如v2），Softmax意味著分類的類別之間要互相獨立的，而ImageNet和COCO這兩種數據集之間的分類信息不相互獨立（ImageNet對應分類有9000種，而COCO僅提供80種目標檢測），所以使用一種多標簽模型來混合數據集，即假定一張圖片可以有多個標簽，並且不要求標簽之間獨立，而後進行Softmax分類。

    由於ImageNet的類別是從WordNet選取的，作者採用以下策略重建了一個樹形結構（稱為WordTree）：

遍歷ImageNet的標簽，然後在WordNet中尋找該標簽到根節點(所有的根節點為實體對象)的路徑；

如果路徑只有一條，將該路徑直接加入到WordTree結構中；

否則，從可選路徑中選擇一條最短路徑，加入到WordTree結構中。

WordTree的作用就在於將兩種數據集按照層級進行結合。

    如此，在WordTree的某個節點上就可以計算該節點的一些條件概率值，比如在terrier這個節點，可以得到如下條件概率值：

    進而，如果要預測此節點的概率（即圖片中目標是Norfolk terrier的概率），可以根據WordTree將該節點到根節點的條件概率依次相乘得到，如下式：

其中：

    YOLO9000在WordTree1k（用有1000類別的ImageNet1k創建）上訓練了Darknet-19模型。為了創建WordTree1k作者添加了很多中間節點（中間詞彙），把標簽由1000擴展到1369。

    訓練過程中GroundTruth標簽要順著向根節點的路徑傳播：為了計算條件概率，模型預測了一個包含1369個元素的向量，而且基於所有「同義詞集」計算Softmax，其中「同義詞集」是同一概念下的所屬詞。

    現在一張圖片是多標記的，標記之間不需要相互獨立。在訓練過程中，如果有一個圖片的標簽是「Norfolk terrier」，那麼這個圖片還會獲得「狗」以及「哺乳動物」等標簽。

    如上圖所示，之前的ImageNet分類是使用一個大Softmax進行分類，而現在WordTree只需要對同一概念下的同義詞進行Softmax分類。然後作者分別兩個數據集上用相同訓練方法訓練Darknet-19模型，最後在ImageNet數據集上的top-1准確率為72.9%，top-5准確率為91.2%；在WordTree數據集上的top-1准確率為71.9%，top-5准確率為90.4%。

    這種方法的好處是有「退而求其次」的餘地：在對未知或者新的物體進行分類時，性能損失更低，比如看到一個狗的照片，但不知道是哪種種類的狗，那麼就預測其為「狗」。

    以上是構造WordTree的原理，下圖是融合COCO數據集和ImageNet數據集以及生成它們的WordTree的示意圖（用顏色區分了COCO數據集和ImageNet數據集的標簽節點），混合後的數據集對應的WordTree有9418個類。另一方面，由於ImageNet數據集太大，YOLO9000為了平衡兩個數據集之間的數據量，通過過采樣（Oversampling）COCO數據集中的數據，使COCO數據集與ImageNet數據集之間的數據量比例達到1：4。

    對YOLO9000進行評估，發現其mAP比DPM高，而且YOLO有更多先進的特徵，YOLO9000是用部分監督的方式在不同訓練集上進行訓練，同時還能檢測9000個物體類別，並保證實時運行。雖然YOLO9000對動物的識別性能很好，但是對衣服或者裝備的識別性能不是很好（這跟數據集的數據組成有關）。

    YOLO9000的網路結構和YOLOv2類似，區別是每個單元格只採用3個Anchor Boxes。

    YOLO9000提出了一種在分類數據集和檢測數據集上聯合訓練的機制，即使用檢測數據集（COCO）的圖片去學習檢測相關的信息即查找對象（例如預測邊界框坐標、邊界框是否包含目標及目標屬於各個類別的概率），使用僅有類別標簽的分類數據集（ImageNet）中的圖片去擴展檢測到的對象的可識別種類。

    具體方法是：當網路遇到一個來自檢測數據集的圖片與標記信息，就把這些數據用完整的損失函數（v2和9000均沿用了v1網路的損失函數）反向傳播，而當網路遇到一個來自分類數據集的圖片和分類標記信息，只用代表分類誤差部分的損失函數反向傳播這個圖片。

    YOLO v2 在大尺寸圖片上能夠實現高精度，在小尺寸圖片上運行更快，可以說在速度和精度上達到了平衡，具體性能表現如下所示。

coco數據集

voc2012數據集

閱讀全文

熱點內容

三國志戰略版打9級礦什麼配置發布：2025-05-15 11:41:29 瀏覽：951

安卓加速器怎麼關發布：2025-05-15 11:38:16 瀏覽：464

密碼鎖壞了如何打開發布：2025-05-15 11:30:19 瀏覽：837

怎樣增加共享文件夾連接數量發布：2025-05-15 11:24:50 瀏覽：961

安卓如何關閉單應用音量發布：2025-05-15 11:22:31 瀏覽：351

抖音電腦後台伺服器中斷發布：2025-05-15 11:11:59 瀏覽：307

sql2008伺服器發布：2025-05-15 11:03:27 瀏覽：306

我的世界pe伺服器創造發布：2025-05-15 10:51:17 瀏覽：608

移動端打吃雞要什麼配置發布：2025-05-15 10:48:16 瀏覽：756

我的世界哪五個伺服器被炸了發布：2025-05-15 10:36:16 瀏覽：994

xa演算法

與xa演算法相關的資訊