色度升頻演算法

發布時間: 2023-01-13 12:11:02

① 發光材料亮度、色度、輻射度的測定實驗原理是什麼

光電倍增管測量
1
光是電磁輻射的波，也就是380-800波長內，光能量大小（與輻射大小有正比關系）
2
光電倍增管將光信號轉換為電信號，電信號的強度告訴設備
當前測量值的大小就是輻射度，然後後通過程式可以計算成（亮度）
3
色度比較麻煩，涉及數學模型演算法，一般似乎有R
/
G/
B濾光後的倍增管接受的數據，通過比較能得到每個波長的光強，然後通過內置程序換算成色度值
4
輻射度與亮度類似了，只是亮度反應的人眼對光的敏感，但是輻射度是反應光的輻射能量，舉個例子
1W的白光看起來比2W的藍光要亮，亮度高，但是輻射度就是藍光高

② 飽和度調整演算法

飽和度的定義大家可以自行查維基網路。飽和度又名色度、彩度。直觀而言，飽和度就是色彩的鮮艷程度或者飽和程度。從白色黑色以及白黑之間的所有灰色其飽和度都為0。飽和度越高說明包含某種顏色的成分越大。其實可以理解成某一個純色摻和了一些灰色或黑色或白色。因為灰色中包含 rgb 三種成分，所以也就導致了原本的 rgb 純色100%佔比開始下降。根據加入灰色的量，使得另外兩種顏色成分的增加，原本純色的飽和度進一步下降。
接下來介紹photoshop中飽和度調整演算法：
調整參數的本來的取值范圍為[-100, 100]，經過歸一化後為[-1, 1]，記為 pecent。我們需要遍歷一張圖片的所有像素。對於每個像素我們做如下操作：
假設我們的某個像素 P（其 rgb 通道的值分別為 RGB）：

③ 【目標檢測演算法解讀】yolo系列演算法二

https://blog.csdn.net/Gentleman_Qin/article/details/84349144

|聲明：遵循CC 4.0 BY-SA版權協議

    建立在YOLOv1的基礎上，經過Joseph Redmon等的改進，YOLOv2和YOLO9000演算法在2017年CVPR上被提出，並獲得最佳論文提名，重點解決YOLOv1召回率和定位精度方面的誤差。在提出時，YOLOv2在多種監測數據集中都要快過其他檢測系統，並可以在速度與精確度上進行權衡。

    YOLOv2採用Darknet-19作為特徵提取網路，增加了批量標准化（Batch Normalization）的預處理，並使用224×224和448×448兩階段訓練ImageNet，得到預訓練模型後fine-tuning。

    相比於YOLOv1是利用FC層直接預測Bounding Box的坐標，YOLOv2借鑒了FSR-CNN的思想，引入Anchor機制，利用K-Means聚類的方式在訓練集中聚類計算出更好的Anchor模板，在卷積層使用Anchor Boxes操作，增加Region Proposal的預測，同時採用較強約束的定位方法，大大提高演算法召回率。同時結合圖像細粒度特徵，將淺層特徵與深層特徵相連，有助於對小尺寸目標的檢測。

    下圖所示是YOLOv2採取的各項改進帶了的檢測性能上的提升：

    YOLO9000 的主要檢測網路也是YOLO v2，同時使用WordTree來混合來自不同的資源的訓練數據，並使用聯合優化技術同時在ImageNet和COCO數據集上進行訓練，目的是利用數量較大的分類數據集來幫助訓練檢測模型，因此，YOLO 9000的網路結構允許實時地檢測超過9000種物體分類，進一步縮小了檢測數據集與分類數據集之間的大小代溝。

    下面將具體分析YOLOv2的各個創新點:

BN概述：

    對數據進行預處理（統一格式、均衡化、去噪等）能夠大大提高訓練速度，提升訓練效果。BN正是基於這個假設的實踐，對每一層輸入的數據進行加工。

    BN是2015年Google研究員在論文《Batch Normalization: Accelerating Deep Network Training by Recing Internal Covariate Shift》一文中提出的，同時也將BN應用到了2014年的GoogLeNet上，也就是Inception-v2。

    BN層簡單講就是對網路的每一層的輸入都做了歸一化，這樣網路就不需要每層都去學數據的分布，收斂會更快。YOLOv1演算法（採用的是GoogleNet網路提取特徵）是沒有BN層的，而在YOLOv2中作者為每個卷積層都添加了BN層。

    使用BN對網路進行優化，讓網路提高了收斂性，同時還消除了對其他形式的正則化（regularization）的依賴，因此使用BN後可以從模型中去掉Dropout，而不會產生過擬合。

BN優點：

神經網路每層輸入的分布總是發生變化，加入BN，通過標准化上層輸出，均衡輸入數據分布，加快訓練速度，因此可以設置較大的學習率（Learning Rate）和衰減（Decay）；

通過標准化輸入，降低激活函數（Activation Function）在特定輸入區間達到飽和狀態的概率，避免梯度彌散（Gradient Vanishing）問題；

輸入標准化對應樣本正則化，BN在一定程度上可以替代 Dropout解決過擬合問題。

BN演算法：

    在卷積或池化之後，激活函數之前，對每個數據輸出進行標准化，方式如下圖所示：

    公式很簡單，前三行是 Batch內數據歸一化（假設一個Batch中有每個數據），同一Batch內數據近似代表了整體訓練數據。第四行引入了附加參數 γ 和 β，此二者的取值演算法可以參考BN論文，在此不再贅述。

    fine-tuning：用已經訓練好的模型，加上自己的數據集，來訓練新的模型。即使用別人的模型的前幾層，來提取淺層特徵，而非完全重新訓練模型，從而提高效率。一般新訓練模型准確率都會從很低的值開始慢慢上升，但是fine-tuning能夠讓我們在比較少的迭代次數之後得到一個比較好的效果。

    YOLO模型分為兩部分，分類模型和檢測模型，前者使用在ImageNet上預訓練好的模型，後者在檢測數據集上fine-tuning。

    YOLOv1在預訓練時採用的是224*224的輸入（在ImageNet數據集上進行），然後在檢測的時候採用448*448的輸入，這會導致從分類模型切換到檢測模型的時候，模型還要適應圖像解析度的改變。

    YOLOv2則將預訓練分成兩步：先用224*224的輸入在ImageNet數據集訓練分類網路，大概160個epoch（將所有訓練數據循環跑160次）後將輸入調整到448*448，再訓練10個epoch（這兩步都是在ImageNet數據集上操作）。然後利用預訓練得到的模型在檢測數據集上fine-tuning。這樣訓練得到的模型，在檢測時用448*448的圖像作為輸入可以順利檢測。

    YOLOv1將輸入圖像分成7*7的網格，每個網格預測2個Bounding Box，因此一共有98個Box，同時YOLOv1包含有全連接層，從而能直接預測Bounding Boxes的坐標值，但也導致丟失較多的空間信息，定位不準。

    YOLOv2首先將YOLOv1網路的FC層和最後一個Pooling層去掉，使得最後的卷積層可以有更高解析度的特徵，然後縮減網路，用416*416大小的輸入代替原來的448*448，使得網路輸出的特徵圖有奇數大小的寬和高，進而使得每個特徵圖在劃分單元格（Cell）的時候只有一個中心單元格（Center Cell）。

    為什麼希望只有一個中心單元格呢？由於圖片中的物體都傾向於出現在圖片的中心位置，特別是比較大的物體，所以有一個單元格單獨位於物體中心的位置用於預測這些物體。

    YOLOv2通過引入Anchor Boxes，通過預測Anchor Box的偏移值與置信度，而不是直接預測坐標值。YOLOv2的卷積層採用32這個值來下采樣圖片，所以通過選擇416*416用作輸入尺寸最終能輸出一個13*13的特徵圖。若採用FSRCNN中的方式，每個Cell可預測出9個Anchor Box，共13*13*9=1521個（YOLOv2確定Anchor Boxes的方法見是維度聚類，每個Cell選擇5個Anchor Box）。

    在FSRCNN中，以一個51*39大小的特徵圖為例，其可以看做一個尺度為51*39的圖像，對於該圖像的每一個位置，考慮9個可能的候選窗口：3種面積3種比例。這些候選窗口稱為Anchor Boxes。下圖示出的是51*39個Anchor Box中心，以及9種Anchor Box示例。

YOLOv1和YOLOv2特徵圖數據結構：

YOLOv1：S*S* (B*5 + C) => 7*7（2*5+20）

    其中B對應Box數量，5對應邊界框的定位信息（w,y,w,h）和邊界框置信度（Confidience）。解析度是7*7，每個Cell預測2個Box，這2個Box共用1套條件類別概率（1*20）。

YOLOv2：S*S*K* (5 + C) => 13*13*9（5+20）

    解析度提升至13*13，對小目標適應性更好，借鑒了FSRCNN的思想，每個Cell對應K個Anchor box（YOLOv2中K=5），每個Anchor box對應1組條件類別概率（1*20）。

    聚類：聚類是指事先沒有「標簽」而通過某種成團分析找出事物之間存在聚集性原因的過程。即在沒有劃分類別的情況下，根據數據相似度進行樣本分組。

    在FSR-CNN中Anchor Box的大小和比例是按經驗設定的，然後網路會在訓練過程中調整Anchor Box的尺寸，最終得到准確的Anchor Boxes。若一開始就選擇了更好的、更有代表性的先驗Anchor Boxes，那麼網路就更容易學到准確的預測位置。

    YOLOv2使用K-means聚類方法類訓練Bounding Boxes，可以自動找到更好的寬高維度的值用於一開始的初始化。傳統的K-means聚類方法使用的是歐氏距離函數，意味著較大的Anchor Boxes會比較小的Anchor Boxes產生更多的錯誤，聚類結果可能會偏離。由於聚類目的是確定更精準的初始Anchor Box參數，即提高IOU值，這應與Box大小無關，因此YOLOv2採用IOU值為評判標准，即K-means 採用的距離函數（度量標准）為：

d(box,centroid) = 1 - IOU(box,centroid)

    如下圖，左邊是聚類的簇個數和IOU的關系，兩條曲線分別代表兩個不同的數據集。分析聚類結果並權衡模型復雜度與IOU值後，YOLOv2選擇K=5，即選擇了5種大小的Box 維度來進行定位預測。

    其中紫色和灰色也是分別表示兩個不同的數據集，可以看出其基本形狀是類似的。更重要的是，可以看出聚類的結果和手動設置的Anchor Box位置和大小差別顯著——結果中扁長的框較少，而瘦高的框更多（更符合行人的特徵）。

    YOLOv2採用的5種Anchor的Avg IOU是61，而採用9種Anchor Boxes的Faster RCNN的Avg IOU是60.9，也就是說本文僅選取5種box就能達到Faster RCNN的9中box的效果。選擇值為9的時候，AVG IOU更有顯著提高。說明K-means方法的生成的boxes更具有代表性。

    直接對Bounding Boxes求回歸會導致模型不穩定，其中心點可能會出現在圖像任何位置，有可能導致回歸過程震盪，甚至無法收斂，尤其是在最開始的幾次迭代的時候。大多數不穩定因素產生自預測Bounding Box的中心坐標（x,y）位置的時候。

    YOLOv2的網路在特徵圖（13*13）的每一個單元格中預測出5個Bounding Boxes（對應5個Anchor Boxes），每個Bounding Box預測出5個值（tx,ty,tw,th,t0），其中前4個是坐標偏移值，t0是置信度結果（類似YOLOv1中的邊界框置信度Confidence）。YOLOv2借鑒了如下的預測方式，即當Anchor Box的中心坐標和寬高分別是（xa,ya）和（wa,wh）時，Bounding Box坐標的預測偏移值（tx,ty,tw,th）與其坐標寬高（x,y,w,h）的關系如下：

tx = (x-xa)/wa

ty= (y-ya)/ha

tw = log(w/wa)

th = log(h/ha)

    基於這種思想，YOLOv2在預測Bounding Box的位置參數時採用了如下強約束方法：

    上圖中，黑色虛線框是Anchor Box，藍色矩形框就是預測的Bounding Box結果，預測出的Bounding Box的坐標和寬高為（bx,by）和（bw,bh），計算方式如圖中所示，其中：對每個Bounding Box預測出5個值（tx,ty,tw,th,t0），Cell與圖像左上角的橫縱坐標距離為（cx,cy），σ定義為sigmoid激活函數（將函數值約束到［0,1］），該Cell對應的Anchor Box對應的寬高為（pw,ph）。

    簡而言之，（bx,by）就是（cx,cy）這個Cell附近的Anchor Box針對預測值（tx,ty）得到的Bounding Box的坐標預測結果，同時可以發現這種方式對於較遠距離的Bounding Box預測值（tx,ty）能夠得到很大的限制。

    YOLOv2通過添加一個轉移層，把高解析度的淺層特徵連接到低解析度的深層特徵（把特徵堆積在不同Channel中）而後進行融合和檢測。具體操作是先獲取前層的26*26的特徵圖，將其同最後輸出的13*13的特徵圖進行連接，而後輸入檢測器進行檢測（檢測器的FC層起到了全局特徵融合的作用），以此來提高對小目標的檢測能力。

    為了適應不同尺度下的檢測任務，YOLOv2在訓練網路時，其在檢測數據集上fine-tuning時候採用的輸入圖像的size是動態變化的。具體來講，每訓練10個Batch，網路就會隨機選擇另一種size的輸入圖像。因為YOLOv2用到了參數是32的下采樣，因此也採用32的倍數作為輸入的size，即採用{320,352,…,608}的輸入尺寸（網路會自動改變尺寸，並繼續訓練的過程）。

這一策略讓網路在不同的輸入尺寸上都能達到較好的預測效果，使同一網路能在不同解析度上進行檢測。輸入圖片較大時，檢測速度較慢，輸入圖片較小時，檢測速度較快，總體上提高了准確率，因此多尺度訓練算是在准確率和速度上達到一個平衡。

    上表反映的是在檢測時，不同大小的輸入圖片情況下的YOLOv2和其他目標檢測演算法的對比。可以看出通過多尺度訓練的檢測模型，在測試的時候，輸入圖像在尺寸變化范圍較大的情況下也能取得mAP和FPS的平衡。

    YOLOv1採用的訓練網路是GoogleNet，YOLOv2採用了新的分類網路Darknet-19作為基礎網路，它使用了較多的3*3卷積核，並把1*1的卷積核置於3*3的卷積核之間，用來壓縮特徵，同時在每一次池化操作後把通道（Channels）數翻倍（借鑒VGG網路）。

    YOLOv1採用的GooleNet包含24個卷積層和2個全連接層，而Darknet-19包含19個卷積層和5個最大池化層（Max Pooling Layers），後面添加Average Pooling層（代替v1中FC層），而Softmax分類器作為激活被用在網路最後一層，用來進行分類和歸一化。

    在ImageNet數據集上進行預訓練，主要分兩步（採用隨機梯度下降法）：

輸入圖像大小是224*224，初始學習率（Learning Rate）為0.1，訓練160個epoch，權值衰減（Weight Decay）為0.0005，動量（Momentum）為0.9，同時在訓練時採用標準的數據增強（Data Augmentation）方式如隨機裁剪、旋轉以及色度、亮度的調整。

fine-tuning：第1步結束後，改用448*448輸入（高解析度模型），學習率改為0.001，訓練10個epoch，其他參數不變。結果表明：fine-tuning後的top-1准確率為76.5%，top-5准確率為93.3%，若按照原來的訓練方式，Darknet-19的top-1准確率是72.9%，top-5准確率為91.2%。可以看出，兩步分別從網路結構和訓練方式方面入手提高了網路分類准確率。

    預訓練之後，開始基於檢測的數據集再進行fine-tuning。

    首先，先把最後一個卷積層去掉，然後添加3個3*3的卷積層，每個卷積層有1024個卷積核，並且後面都連接一個1*1的卷積層，卷積核個數（特徵維度）根據需要檢測的類數量決定。（比如對VOC數據，每個Cell需要預測5個Boungding Box，每個Bounding Box有4個坐標值、1個置信度值和20個條件類別概率值，所以每個單元格對應125個數據，此時卷積核個數應該取125。）

    然後，將最後一個3*3*512的卷積層和倒數第2個卷積層相連（提取細粒度特徵），最後在檢測數據集上fine-tuning預訓練模型160個epoch，學習率採用0.001，並且在第60和90個epoch的時候將學習率除以10，權值衰減、動量和數據增強方法與預訓練相同。

    YOLO9000通過結合分類和檢測數據集，使得訓練得到的模型可以檢測約9000類物體，利用帶標注的分類數據集量比較大的特點，解決了帶標注的檢測數據集量比較少的問題。具體方法是：一方面採用WordTree融合數據集，另一方面聯合訓練分類數據集和檢測數據集。

    分類數據集和檢測數據集存在較大差別：檢測數據集只有粗粒度的標記信息，如「貓」、「狗」，而分類數據集的標簽信息則更細粒度，更豐富。比如「狗」就包括「哈士奇」、「金毛狗」等等。所以如果想同時在檢測數據集與分類數據集上進行訓練，那麼就要用一種一致性的方法融合這些標簽信息。

    用於分類的方法，常用Softmax（比如v2），Softmax意味著分類的類別之間要互相獨立的，而ImageNet和COCO這兩種數據集之間的分類信息不相互獨立（ImageNet對應分類有9000種，而COCO僅提供80種目標檢測），所以使用一種多標簽模型來混合數據集，即假定一張圖片可以有多個標簽，並且不要求標簽之間獨立，而後進行Softmax分類。

    由於ImageNet的類別是從WordNet選取的，作者採用以下策略重建了一個樹形結構（稱為WordTree）：

遍歷ImageNet的標簽，然後在WordNet中尋找該標簽到根節點(所有的根節點為實體對象)的路徑；

如果路徑只有一條，將該路徑直接加入到WordTree結構中；

否則，從可選路徑中選擇一條最短路徑，加入到WordTree結構中。

WordTree的作用就在於將兩種數據集按照層級進行結合。

    如此，在WordTree的某個節點上就可以計算該節點的一些條件概率值，比如在terrier這個節點，可以得到如下條件概率值：

    進而，如果要預測此節點的概率（即圖片中目標是Norfolk terrier的概率），可以根據WordTree將該節點到根節點的條件概率依次相乘得到，如下式：

其中：

    YOLO9000在WordTree1k（用有1000類別的ImageNet1k創建）上訓練了Darknet-19模型。為了創建WordTree1k作者添加了很多中間節點（中間詞彙），把標簽由1000擴展到1369。

    訓練過程中GroundTruth標簽要順著向根節點的路徑傳播：為了計算條件概率，模型預測了一個包含1369個元素的向量，而且基於所有「同義詞集」計算Softmax，其中「同義詞集」是同一概念下的所屬詞。

    現在一張圖片是多標記的，標記之間不需要相互獨立。在訓練過程中，如果有一個圖片的標簽是「Norfolk terrier」，那麼這個圖片還會獲得「狗」以及「哺乳動物」等標簽。

    如上圖所示，之前的ImageNet分類是使用一個大Softmax進行分類，而現在WordTree只需要對同一概念下的同義詞進行Softmax分類。然後作者分別兩個數據集上用相同訓練方法訓練Darknet-19模型，最後在ImageNet數據集上的top-1准確率為72.9%，top-5准確率為91.2%；在WordTree數據集上的top-1准確率為71.9%，top-5准確率為90.4%。

    這種方法的好處是有「退而求其次」的餘地：在對未知或者新的物體進行分類時，性能損失更低，比如看到一個狗的照片，但不知道是哪種種類的狗，那麼就預測其為「狗」。

    以上是構造WordTree的原理，下圖是融合COCO數據集和ImageNet數據集以及生成它們的WordTree的示意圖（用顏色區分了COCO數據集和ImageNet數據集的標簽節點），混合後的數據集對應的WordTree有9418個類。另一方面，由於ImageNet數據集太大，YOLO9000為了平衡兩個數據集之間的數據量，通過過采樣（Oversampling）COCO數據集中的數據，使COCO數據集與ImageNet數據集之間的數據量比例達到1：4。

    對YOLO9000進行評估，發現其mAP比DPM高，而且YOLO有更多先進的特徵，YOLO9000是用部分監督的方式在不同訓練集上進行訓練，同時還能檢測9000個物體類別，並保證實時運行。雖然YOLO9000對動物的識別性能很好，但是對衣服或者裝備的識別性能不是很好（這跟數據集的數據組成有關）。

    YOLO9000的網路結構和YOLOv2類似，區別是每個單元格只採用3個Anchor Boxes。

    YOLO9000提出了一種在分類數據集和檢測數據集上聯合訓練的機制，即使用檢測數據集（COCO）的圖片去學習檢測相關的信息即查找對象（例如預測邊界框坐標、邊界框是否包含目標及目標屬於各個類別的概率），使用僅有類別標簽的分類數據集（ImageNet）中的圖片去擴展檢測到的對象的可識別種類。

    具體方法是：當網路遇到一個來自檢測數據集的圖片與標記信息，就把這些數據用完整的損失函數（v2和9000均沿用了v1網路的損失函數）反向傳播，而當網路遇到一個來自分類數據集的圖片和分類標記信息，只用代表分類誤差部分的損失函數反向傳播這個圖片。

    YOLO v2 在大尺寸圖片上能夠實現高精度，在小尺寸圖片上運行更快，可以說在速度和精度上達到了平衡，具體性能表現如下所示。

coco數據集

voc2012數據集

④ MPEG和JPEG分別採用了什麼演算法

MPEG視頻壓縮編碼後包括三種元素：I幀（I-frames）、P幀（P-frames）和B幀（B-frames）。在MPEG編碼的過程中，部分視頻幀序列壓縮成為I幀；部分壓縮成P幀；還有部分壓縮成B幀。I幀法是幀內壓縮法，也稱為「關鍵幀」壓縮法。I幀法是基於離散餘弦變換DCT（ Discrete Cosine Transform ）的壓縮技術，這種演算法與JPEG壓縮演算法類似。採用I幀壓縮可達到1/6的壓縮比而無明顯的壓縮痕跡。
在保證圖像質量的前提下實現高壓縮的壓縮演算法，僅靠幀內壓縮是不能實現的，MPEG採用了幀間和幀內相結合的壓縮演算法。 P幀法是一種前向預測演算法，它考慮相鄰幀之間的相同信息或數據，也即考慮運動的特性進行幀間壓縮。P幀法是根據本幀與相鄰的前一幀（I幀或P幀）的不同點來壓縮本幀數據。採取P幀和I幀聯合壓縮的方法可達到更高的壓縮且無明顯的壓縮痕跡。
然而，只有採用B幀壓縮才能達到200：1的高壓縮。B幀法是雙向預測的幀間壓縮演算法。當把一幀壓縮成B幀時，它根據相鄰的前一幀、本幀以及後一幀數據的不同點來壓縮本幀，也即僅記錄本幀與前後幀的差值。B幀數據只有I幀數據的百分之十五、P幀數據的百分之五十以下。
MPEG標准採用類似4：2：2的採用格式，壓縮後亮度信號的解析度為352×240，兩個色度信號解析度均為176×120，這兩種不同解析度信息的幀率都是每秒30幀。其編碼的基本方法是在單位時間內，首先採集並壓縮第一幀的圖像為I幀。然後對於其後的各幀，在對單幀圖像進行有效壓縮的基礎上，只存儲其相對於前後幀發生變化的部分。幀間壓縮的過程中也常間隔採用幀內壓縮法，由於幀內（關鍵幀）的壓縮不基於前一幀，一般每隔15幀設一關鍵幀，這樣可以減少相關前一幀壓縮的誤差積累。MPEG編碼器首先要決定壓縮當前幀為I幀或P幀或B幀，然後採用相應的演算法對其進行壓縮。一個視頻序列經MPEG全編碼壓縮後可能的格式為：......
壓縮成B幀或P幀要比壓縮成I幀需要多得多的計算處理時間。有的編碼器不具備B幀甚至P幀的壓縮功能，顯然其壓縮效果不會很好。

JPEG(Joint Photographic Experts Group) 是一個由 ISO和IEC兩個組織機構聯合組成的一個專家組，負責制定靜態的數字圖像數據壓縮編碼標准，這個專家組開發的演算法稱為JPEG演算法，並且成為國際上通用的標准，因此又稱為JPEG標准。JPEG是一個適用范圍很廣的靜態圖像數據壓縮標准，既可用於灰度圖像又可用於彩色圖像。

JPEG專家組開發了兩種基本的壓縮演算法，一種是採用以離散餘弦變換(Discrete Cosine Transform，DCT)為基礎的有損壓縮演算法，另一種是採用以預測技術為基礎的無損壓縮演算法。使用有損壓縮演算法時，在壓縮比為25:1的情況下，壓縮後還原得到的圖像與原始圖像相比較，非圖像專家難於找出它們之間的區別，因此得到了廣泛的應用。例如，在V-CD和DVD-Video電視圖像壓縮技術中，就使用JPEG的有損壓縮演算法來取消空間方向上的冗餘數據。為了在保證圖像質量的前提下進一步提高壓縮比，近年來JPEG專家組正在制定JPEG 2000(簡稱JP 2000)標准，這個標准中將採用小波變換(wavelet)演算法。

JPEG壓縮是有損壓縮，它利用了人的視角系統的特性，使用量化和無損壓縮編碼相結合來去掉視角的冗餘信息和數據本身的冗餘信息。壓縮編碼大致分成三個步驟：

1.使用正向離散餘弦變換(forward discrete cosine transform，FDCT)把空間域表示的圖變換成頻率域表示的。

2.使用加權函數對DCT系數進行量化，這個加權函數對於人的視覺系統是最佳的。

3.使用霍夫曼可變字長編碼器對量化系數進行編碼。

解碼或者叫做解壓縮的過程與壓縮編碼過程正好相反。

JPEG演算法與彩色空間無關，因此「RGB到YUV變換」和「YUV到RGB變換」不包含在JPEG演算法中。JPEG演算法處理的彩色圖像是單獨的彩色分量圖像，因此它可以壓縮來自不同彩色空間的數據，如RGB, YCbCr和CMYK。

JPEG壓縮編碼演算法的主要計算步驟如下：

1.正向離散餘弦變換(FDCT)。

2.量化(quantization)。

3.Z字形編碼(zigzag scan)。

4.使用差分脈沖編碼調制(differential pulse code molation，DPCM)對直流系數(DC)進行編碼。

5.使用行程長度編碼(run-length encoding，RLE)對交流系數(AC)進行編碼。

6.熵編碼(entropy coding)。

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：1160

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1430

python中的init方法發布：2025-10-20 08:17:33 瀏覽：1123

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1302

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：1158

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1514

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：713

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：625

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1287

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1355

色度升頻演算法

與色度升頻演算法相關的資訊