視頻解碼演算法
㈠ 視頻編碼h264和h265是什麼意思
1、H.265
H.265是ITU-TVCEG繼H.264之後所制定的新的視頻編碼標准。H.265標准圍繞著現有的視頻編碼標准H.264,保留原來的某些技術,同時對一些相關的技術加以改進。新技術使用先進的技術用以改善碼流、編碼質量、延時和演算法復雜度之間的關系,達到最優化設置。
具體的研究內容包括:提高壓縮效率、提高魯棒性和錯誤恢復能力、減少實時的時延、減少信道獲取時間和隨機接入時延、降低復雜度等。H264由於演算法優化,可以低於1Mbps的速度實現標清數字圖像傳送;H265則可以實現利用1~2Mbps的傳輸速度傳送720P(解析度1280*720)普通高清音視頻傳送。
H.265旨在在有限帶寬下傳輸更高質量的網路視頻,僅需原先的一半帶寬即可播放相同質量的視頻。這也意味著,我們的智能手機、平板機等移動設備將能夠直接在線播放1080p的全高清視頻。
H.265標准也同時支持4K(4096×2160)和8K(8192×4320)超高清視頻。可以說,H.265標准讓網路視頻跟上了顯示屏「高解析度化」的腳步。
2、H.264
H.264,同時也是MPEG-4第十部分,是由ITU-T視頻編碼專家組(VCEG)和ISO/IEC動態圖像專家組(MPEG)聯合組成的聯合視頻組(JVT,Joint Video Team)提出的高度壓縮數字視頻編解碼器標准。
這個標准通常被稱之為H.264/AVC(或者AVC/H.264或者H.264/MPEG-4AVC或MPEG-4/H.264 AVC)而明確的說明它兩方面的開發者。
H.264最大的優勢是具有很高的數據壓縮比率,在同等圖像質量的條件下,H.264的壓縮比是MPEG-2的2倍以上,是MPEG-4的1.5~2倍。舉個例子,原始文件的大小如果為88GB,採用MPEG-2壓縮標准壓縮後變成3.5GB,壓縮比為25∶1。
而採用H.264壓縮標准壓縮後變為879MB,從88GB到879MB,H.264的壓縮比達到驚人的102∶1。低碼率(Low Bit Rate)對H.264的高的壓縮比起到了重要的作用,和MPEG-2和MPEG-4ASP等壓縮技術相比,H.264壓縮技術將大大節省用戶的下載時間和數據流量收費。
尤其值得一提的是,H.264在具有高壓縮比的同時還擁有高質量流暢的圖像,正因為如此,經過H.264壓縮的視頻數據,在網路傳輸過程中所需要的帶寬更少,也更加經濟。
㈡ 視頻編碼的基本原理是什麼
視頻編碼的基本原理
視頻圖像數據有極強的相關性,也就是說有大量的冗餘信息。其中冗餘信息可分為空域冗餘信息和時域冗餘信息。壓縮技術就是將數據中的冗餘信息去掉(去除數據之間的相關性),壓縮技術包含幀內圖像數據壓縮技術、幀間圖像數據壓縮技術和熵編碼壓縮技術。
去時域冗餘信息
使用幀間編碼技術可去除時域冗餘信息,它包括以下三部分:
- 運動補償
運動補償是通過先前的局部圖像來預測、補償當前的局部圖像,它是減少幀序列冗餘信息的有效方法。
- 運動表示
不同區域的圖像需要使用不同的運動矢量來描述運動信息。運動矢量通過熵編碼進行壓縮。
- 運動估計
運動估計是從視頻序列中抽取運動信息的一整套技術。
註:通用的壓縮標准都使用基於塊的運動估計和運動補償
去空域冗餘信息
主要使用幀間編碼技術和熵編碼技術:
- 變換編碼
幀內圖像和預測差分信號都有很高的空域冗餘信息。變換編碼將空域信號變換到另一正交矢量空間,使其相關性下降,數據冗餘度減小。
- 量化編碼
經過變換編碼後,產生一批變換系數,對這些系數進行量化,使編碼器的輸出達到一定的位率。這一過程導致精度的降低。
- 熵編碼
熵編碼是無損編碼。它對變換、量化後得到的系數和運動信息,進行進一步的壓縮。
視頻編碼的基本框架
H.261
H.261標準是為ISDN設計,主要針對實時編碼和解碼設計,壓縮和解壓縮的信號延時不超過150ms,碼率px64kbps(p=1~30)。
H.261標准主要採用運動補償的幀間預測、DCT變換、自適應量化、熵編碼等壓縮技術。 只有I幀和P幀,沒有B幀,運動估計精度只精確到像素級。支持兩種圖像掃描格式:QCIF和CIF。
H.263
H.263標準是甚低碼率的圖像編碼國際標准,它一方面以H.261為基礎,以混合編碼為核心,其基本原理框圖和H.261十分相似,原始數據和碼流組織也相似;另一方面,H.263也吸收了MPEG等其它一些國際標准中有效、合理的部分,如:半像素精度的運動估計、PB幀預測等,使它性能優於H.261。
H.263使用的位率可小於64Kb/s,且傳輸比特率可不固定(變碼率)。H.263支持多種解析度: SQCIF(128x96)、 QCIF、CIF、4CIF、16CIF。
與H.261和H.263相關的國際標准
與H.261有關的國際標准
H.320:窄帶可視電話系統和終端設備;
H.221:視聽電信業務中64~1 920Kb/s信道的幀結構;
H.230:視聽系統的幀同步控制和指示信號;
H.242:使用直到2Mb/s數字信道的視聽終端的系統。
與H.263有關的國際標准
H.324:甚低碼率多媒體通信終端設備;
H.223:甚低碼率多媒體通信復合協議;
H.245:多媒體通信控制協議;
G.723.1.1:傳輸速率為5.3Kb/s和6.3Kb/s的語音編碼器。
JPEG
國際標准化組織於1986年成立了JPEG(Joint Photographic Expert Group)聯合圖片專家小組,主要致力於制定連續色調、多級灰度、靜態圖像的數字圖像壓縮編碼標准。常用的基於離散餘弦變換(DCT)的編碼方法,是JPEG演算法的核心內容。
MPEG-1/2
MPEG-1標准用於數字存儲體上活動圖像及其伴音的編碼,其數碼率為1.5Mb/s。 MPEG-1的視頻原理框圖和H.261的相似。
MPEG-1視頻壓縮技術的特點:1. 隨機存取;2. 快速正向/逆向搜索;3 .逆向重播;4. 視聽同步;5. 容錯性;6. 編/解碼延遲。MPEG-1視頻壓縮策略:為了提高壓縮比,幀內/幀間圖像數據壓縮技術必須同時使用。幀內壓縮演算法與JPEG壓縮演算法大致相同,採用基於DCT的變換編碼技術,用以減少空域冗餘信息。幀間壓縮演算法,採用預測法和插補法。預測誤差可在通過DCT變換編碼處理,進一步壓縮。幀間編碼技術可減少時間軸方向的冗餘信息。
MPEG-2被稱為「21世紀的電視標准」,它在MPEG-1的基礎上作了許多重要的擴展和改進,但基本演算法和MPEG-1相同。
MPEG-4
MPEG-4標准並非是MPEG-2的替代品,它著眼於不同的應用領域。MPEG-4的制定初衷主要針對視頻會議、可視電話超低比特率壓縮(小於64Kb/s)的需求。在制定過程中,MPEG組織深深感受到人們對媒體信息,特別是對視頻信息的需求由播放型轉向基於內容的訪問、檢索和操作。
MPEG-4與前面提到的JPEG、MPEG-1/2有很大的不同,它為多媒體數據壓縮編碼提供了更為廣闊的平台,它定義的是一種格式、一種框架,而不是具體演算法,它希望建立一種更自由的通信與開發環境。於是MPEG-4新的目標就是定義為:支持多種多媒體的應用,特別是多媒體信息基於內容的檢索和訪問,可根據不同的應用需求,現場配置解碼器。編碼系統也是開放的,可隨時加入新的有效的演算法模塊。應用范圍包括實時視聽通信、多媒體通信、遠地監測/監視、VOD、家庭購物/娛樂等。
JVT:新一代的視頻壓縮標准
JVT是由ISO/IEC MPEG和ITU-T VCEG成立的聯合視頻工作組(Joint Video Team),致力於新一代數字視頻壓縮標準的制定。
JVT標准在ISO/IEC中的正式名稱為:MPEG-4 AVC(part10)標准;在ITU-T中的名稱:H.264(早期被稱為H.26L)
H264/AVC
H264集中了以往標準的優點,並吸收了以往標准制定中積累的經驗, 採用簡潔設計,使它比MPEG4更容易推廣。H.264創造性了多參考幀、多塊類型、整數變換、幀內預測等新的壓縮技術,使用了更精細的分象素運動矢量(1/4、1/8)和新一代的環路濾波器,使得壓縮性能大大提高,系統更加完善。
H.264主要有以下幾大優點:
- 高效壓縮:與H.263+和MPEG4 SP相比,減小50%比特率
- 延時約束方面有很好的柔韌性
- 容錯能力
- 編/解碼的復雜性可伸縮性
- 解碼全部細節:沒有不匹配
- 高質量應用
- 網路友善
監控中的視頻編碼技術
目前監控中主要採用MJPEG、MPEG1/2、MPEG4(SP/ASP)、H.264/AVC等幾種視頻編碼技術。對於最終用戶來言他最為關心的主要有:清晰度、存儲量(帶寬)、穩定性還有價格。採用不同的壓縮技術,將很大程度影響以上幾大要素。
MJPEG
MJPEG(Motion JPEG)壓縮技術,主要是基於靜態視頻壓縮發展起來的技術,它的主要特點是基本不考慮視頻流中不同幀之間的變化,只單獨對某一幀進行壓縮。
MJPEG壓縮技術可以獲取清晰度很高的視頻圖像,可以動態調整幀率、解析度。但由於沒有考慮到幀間變化,造成大量冗餘信息被重復存儲,因此單幀視頻的佔用空間較大,目前流行的MJPEG技術最好的也只能做到3K位元組/幀,通常要8~20K!
MPEG-1/2
MPEG-1標准主要針對SIF標准解析度(NTSC制為352X240;PAL制為352X288)的圖像進行壓縮. 壓縮位率主要目標為1.5Mb/s.較MJPEG技術,MPEG1在實時壓縮、每幀數據量、處理速度上有顯著的提高。但MPEG1也有較多不利地方:存儲容量還是過大、清晰度不夠高和網路傳輸困難。
MPEG-2 在MPEG-1基礎上進行了擴充和提升,和MPEG-1向下兼容,主要針對存儲媒體、數字電視、高清晰等應用領域,解析度為:低(352x288),中(720x480),次高(1440x1080),高(1920x1080)。MPEG-2視頻相對MPEG-1提升了解析度,滿足了用戶高清晰的要求,但由於壓縮性能沒有多少提高,使得存儲容量還是太大,也不適和網路傳輸。
MPEG-4
MPEG-4視頻壓縮演算法相對於MPEG-1/2在低比特率壓縮上有著顯著提高,在CIF(352*288)或者更高清晰度(768*576)情況下的視頻壓縮,無論從清晰度還是從存儲量上都比MPEG1具有更大的優勢,也更適合網路傳輸。另外MPEG-4可以方便地動態調整幀率、比特率,以降低存儲量。
MPEG-4由於系統設計過於復雜,使得MPEG-4難以完全實現並且兼容,很難在視頻會議、可視電話等領域實現,這一點有點偏離原來地初衷。另外對於中國企業來說還要面臨高昂的專利費問題,目前規定:
- 每台解碼設備需要交給MPEG-LA 0.25美元
- 編碼/解碼設備還需要按時間交費(4美分/天=1.2美元/月 =14.4美元/年)
H.264/AVC
H.264集中了以往標準的優點,在許多領域都得到突破性進展,使得它獲得比以往標准好得多整體性能:
- 和H.263+和MPEG-4 SP相比最多可節省50%的碼率,使存儲容量大大降低;
- H.264在不同解析度、不同碼率下都能提供較高的視頻質量;
- 採用「網路友善」的結構和語法,使其更有利於網路傳輸。
H.264採用簡潔設計,使它比MPEG4更容易推廣,更容易在視頻會議、視頻電話中實現,更容易實現互連互通,可以簡便地和G.729等低比特率語音壓縮組成一個完整的系統。
MPEG LA吸收MPEG-4的高昂專利費而使它難以推廣的教訓,MPEG LA制定了以下低廉的H.264收費標准:H.264廣播時基本不收費;產品中嵌入H.264編/解碼器時,年產量10萬台以下不收取費,超過10萬台每台收取0.2美元,超過500萬台每台收取0.1美元。低廉的專利費使得中國H.264監控產品更容易走向世界。
監控中視頻編碼解析度的選擇
目前監控行業中主要使用以下解析度:SQCIF、QCIF、CIF、4CIF。
SQCIF和QCIF的優點是存儲量低,可以在窄帶中使用,使用這種解析度的產品價格低廉;缺點是圖像質量往往很差、不被用戶所接受。
CIF是目前監控行業的主流解析度,它的優點是存儲量較低,能在普通寬頻網路中傳輸,價格也相對低廉,它的圖像質量較好,被大部分用戶所接受。缺點是圖像質量不能滿足高清晰的要求。
4CIF是標清解析度,它的優點是圖像清晰。缺點是存儲量高,網路傳輸帶寬要求很高,價格也較高。
解析度新的選擇-528x384
2CIF(704x288)已被部分產品採用,用來解決CIF清晰度不夠高和4CIF存儲量高、價格高昂的缺點。但由於704x288隻是水平解析度的提升,圖像質量提高不是特別明顯。
經過測試,我們發現另外一種2CIF解析度528x384,比704x288能更好解決CIF、4CIF的問題。特別是在512Kbps-1Mbps碼率之間,能獲得穩定的高質量圖像,滿足用戶較高圖像質量的要求。目前這一解析度已被許多網路多媒體廣播所採用,被廣大用戶所接受。比如杭州網通網上影院是採用512x384解析度,在768k下能穩定地獲得近似DVD的圖像質量。
監控中實現視頻編碼的最佳方式
目前視頻編碼正處於一個技術日新月異的時期,視頻編碼的壓縮性能在不斷得到提升。
在監控中主要使用ASCI和DSP兩種方案。由於ASIC晶元的設計、生產周期過長,使它已跟不上視頻編碼的發展速度。而DSP晶元,由於它的通用設計,使它能實現各種視頻編碼演算法,並且可以及時更新視頻編碼器,緊跟視頻編碼的發展速度。另外使用DSP晶元可以比ASIC更靈活的配置編碼器,使編碼器達到最佳性能。
海康威視產品目前達到的技術水準
海康威視產品採用最先進的H.264視頻壓縮演算法和高性能的DSP處理器。
強大的H.264視頻壓縮引擎使產品獲得極高的壓縮比、高質量的圖像質量和良好的網路傳輸性能。高性能的DSP處理器能靈活的配置視頻編/解碼器:動態設置解析度、幀率、碼率、圖像質量等;可以雙碼流輸出,達到本地存儲和網路傳輸分別處理的功能。
使用TM130X DSP的產品,單個晶元能實時壓縮一路以下解析度的視頻:SQCIF、QCIF、CIF、2CIF(PAL:704x288或528x384)。
使用DM642 DSP的產品,單個晶元能實時壓縮4路以下解析度的視頻:SQCIF、QCIF、CIF、2CIF(PAL:704x288或528x384)。單個晶元能實時壓縮2路4CIF視頻。
一、基本概念:嵌入式、實時與多任務
?1、嵌入式:軟體(包括操作系統和功能軟體)集成於硬體系統之中,簡單的說就是軟體與硬體一體的系統。
?2、實時:在規定的時限內響應事件。超時的響應是失敗的響應。
?3、多任務:同時響應多個請求
?4、實時系統與分時系統:
實時與非實時相對
分時與非分時(獨占)相對
二、嵌入式硬碟錄像機的特點
1、嵌入式、實時、多任務設備
2、軟硬體專業性強,無多餘功能
3、結構簡單緊湊,體積小
五、嵌入式硬碟錄像機技術難點?
1、硬碟管理
硬碟記錄數據的有效性、可快速檢索、錯誤恢復能力、硬碟的使用壽命(無論是嵌入式還是PC式DVR,目前硬碟管理問題沒有得到有效解決)
?2、網路傳輸
硬碟錄像機:網路管理
視頻:網路傳輸
?3、視頻編解碼
視頻編解碼及其輔助功能的實現
六、嵌入式硬碟錄像機現狀?
1、國內品牌為主
–不同的技術要求和標准
–客戶定製化服務的要求越來越高
–及時的技術支持和售後服務
?2、廠商越來越多,競爭非常激烈
?3、產品正逐步走向成熟
七、嵌入式硬碟錄像機發展趨勢?
1、更廣的應用領域
?2、更高的幀率、解析度
?3、更低的碼率
?4、更豐富的功能
?5、更強的主機性能,支持更多通道
?6、更高的可*性
?7、更強的網路性能
?8、與基於PC機的DVR長期共存
一. 市場背景
伴隨著計算機及網路技術的飛速發展,尤其視頻編解碼技術的日益成熟、計算機處理能力的快速提高、以及寬頻的逐漸普及,基於Internet的視頻網路實時應用在許多行業和政府部門被大范圍採用,尤其是銀行、廣電、石油、電力等行業,出現了許多成功案例。
提到基於Internet的視頻網路實時應用,我們可能更多地會想到可視電話及視頻會議系統、電視網路實況轉播、遠程教育等。這些Internet視頻實時應用對軟硬體的性能要求很高,要求既達到較高的幀率,又達到較低的碼率,所以需要足夠強大的處理能力(包括演算法及晶元處理能力)。而要具備這種處理能力,往往需要昂貴的專用設備。
對於安防所涉及的數字視頻網路監控系統,由於行業特性所決定,數據採集點較多,需要相應配置大量的編碼設備,因此,與其他視頻網路實時應用相比,價格成為一個相對比較敏感的因素。
以往的數字視頻網路監控系統,基本上都是基於區域網或者專網。但是實際應用環境卻很難保證這樣的網路條件,因此系統集成商無法給用戶提供一個完整的解決方案。
例如銀行的ATM機數字集中式監控系統,就可能需要提供基於Internet的解決方案:寬頻為主,窄帶為輔。
首先ATM機原來預留的專網入口需要傳輸業務數據,考慮到ATM機24小時在線的業務服務和24小時視頻監控的要求,我們很難提供一種解決方式,在同一個專網上,既保證業務數據傳輸穩定,又保證監控畫面流暢,因此,我們需要考慮從寬頻運營商租用線路,通過寬頻傳輸視頻數據。而且,從運行模式和成本上考慮,很多ATM機並不需要隨時傳輸視頻數據,往往只在異常發生的情況下,主動要求監控中心切換監控點;或者在監控中心定時巡查各監控點的時候才需要在線。這種情況下,就不需要為ATM機常年租用線路,只需要開通ADSL、ISDN、甚至通過電話線連接的方式。
近兩年,國內廠商不斷推出高性能、高性價比的視音頻壓縮卡和嵌入式網路監控設備,使得基於Internet的數字視頻網路監控系統成為可能,如上述ATM機數字集中式監控系統。
㈢ 監控視頻壓縮編解碼的介紹
(一)、M-JPEG
M-JPEG(Motion- Join Photographic Experts Group)技術即運動靜止圖像(或逐幀)壓縮技術,廣泛應用於非線性編輯領域可精確到幀編輯和多層圖像處理,把運動的視頻序列作為連續的靜止圖像來處理,這種壓縮方式單獨完整地壓縮每一幀,在編輯過程中可隨機存儲每一幀,可進行精確到幀的編輯,此外M-JPEG的壓縮和解壓縮是對稱的,可由相同的硬體和軟體實現。但M-JPEG只對幀內的空間冗餘進行壓縮。不對幀間的時間冗餘進行壓縮,故壓縮效率不高。採用M-JPEG數字壓縮格式,當壓縮比7:1時,可提供相當於Betecam SP質量圖像的節目。
JPEG標准所根據的演算法是基於DCT(離散餘弦變換)和可變長編碼。JPEG的關鍵技術有變換編碼、量化、差分編碼、運動補償、霍夫曼編碼和遊程編碼等
M-JPEG的優點是:可以很容易做到精確到幀的編輯、設備比較成熟。缺點是壓縮效率不高。
此外,M-JPEG這種壓縮方式並不是一個完全統一的壓縮標准,不同廠家的編解碼器和存儲方式並沒有統一的規定格式。這也就是說,每個型號的視頻伺服器或編碼板有自己的M-JPEG版本,所以在伺服器之間的數據傳輸、非線性製作網路向伺服器的數據傳輸都根本是不可能的。
(二)、MPEG系列標准
MPEG是活動圖像專家組(Moving Picture Exports Group)的縮寫,於1988年成立,是為數字視/音頻制定壓縮標準的專家組,目前已擁有300多名成員,包括IBM、SUN、BBC、NEC、INTEL、AT&T等世界知名公司。MPEG組織最初得到的授權是制定用於「活動圖像」編碼的各種標准,隨後擴充為「及其伴隨的音頻」及其組合編碼。後來針對不同的應用需求,解除了「用於數字存儲媒體」的限制,成為現在制定「活動圖像和音頻編碼」標準的組織。MPEG組織制定的各個標准都有不同的目標和應用,目前已提出MPEG-1、MPEG-2、MPEG-4、MPEG-7和MPEG-21標准。
1.MPEG-1標准
MPEG-1標准於1993年8月公布,用於傳輸1.5Mbps數據傳輸率的數字存儲媒體運動圖像及其伴音的編碼。該標准包括五個部分:
第一部分說明了如何根據第二部分(視頻)以及第三部分(音頻)的規定,對音頻和視頻進行復合編碼。第四部分說明了檢驗解碼器或編碼器的輸出比特流符合前三部分規定的過程。第五部分是一個用完整的C語言實現的編碼和解碼器。
該標准從頒布的那一刻起,MPEG-1取得一連串的成功,如VCD和MP3的大量使用,Windows95以後的版本都帶有一個MPEG-1軟體解碼器,可攜式MPEG-1攝像機等等。
2.MPEG-2標准
MPEG組織於1994年推出MPEG-2壓縮標准,以實現視/音頻服務與應用互操作的可能性。MPEG-2標準是針對標准數字電視和高清晰度電視在各種應用下的壓縮方案和系統層的詳細規定,編碼碼率從每秒3兆比特~100兆比特,標準的正式規范在ISO/IEC13818中。MPEG-2不是MPEG-1的簡單升級,MPEG-2在系統和傳送方面作了更加詳細的規定和進一步的完善。MPEG-2特別適用於廣播級的數字電視的編碼和傳送,被認定為SDTV和HDTV的編碼標准。
MPEG-2圖像壓縮的原理是利用了圖像中的兩種特性:空間相關性和時間相關性。這兩種相關性使得圖像中存在大量的冗餘信息。如果我們能將這些冗餘信息去除,只保留少量非相關信息進行傳輸,就可以大大節省傳輸頻帶。而接收機利用這些非相關信息,按照一定的解碼演算法,可以在保證一定的圖像質量的前提下恢復原始圖像。一個好的壓縮編碼方案就是能夠最大限度地去除圖像中的冗餘信息。
MPEG-2的編碼圖像被分為三類,分別稱為I幀,P幀和B幀。
I幀圖像採用幀內編碼方式,即只利用了單幀圖像內的空間相關性,而沒有利用時間相關性。P幀和B幀圖像採用幀間編碼方式,即同時利用了空間和時間上的相關性。P幀圖像只採用前向時間預測,可以提高壓縮效率和圖像質量。P幀圖像中可以包含幀內編碼的部分,即P幀中的每一個宏塊可以是前向預測,也可以是幀內編碼。B幀圖像採用雙向時間預測,可以大大提高壓縮倍數。
MPEG-2的編碼碼流分為六個層次。為更好地表示編碼數據,MPEG-2用句法規定了一個層次性結構。它分為六層,自上到下分別是:圖像序列層、圖像組(GOP)、圖像、宏塊條、宏塊、塊。
MPEG-2標准在廣播電視領域中的主要應用如下:
(1)視音頻資料的保存
一直以來,電視節目、音像資料等都是用磁帶保存的。這種方式有很多弊端:易損,佔地大,成本高,難於重新使用。更重要的是難以長期保存,難以查找、難以共享。隨著計算機技術和視頻壓縮技術的發展,高速寬頻計算機網路以及大容量數據存儲系統給電視台節目的網路化存儲、查詢、共享、交流提供了可能。
採用MPEG-2壓縮編碼的DVD視盤,給資料保存帶來了新的希望。電視節目、音像資料等可通過MPEG-2編碼系統編碼,保存到低成本的CD-R光碟或高容量的可擦寫DVD-RAM上,也可利用DVD編著軟體(如Daikin Scenarist NT、Spruce DVDMaestro等)製作成標準的DVD視盤,既可節約開支,也可節省存放空間。
(2)電視節目的非線性編輯系統及其網路
在非線性編輯系統中,節目素材是以數字壓縮方式存儲、製作和播出的, 視頻壓縮技術是非線性編輯系統的技術基礎。目前主要有M-JPEG和MPEG-2兩種數字壓縮格式。
M-JPEG技術即運動靜止圖像(或逐幀)壓縮技術,可進行精確到幀的編輯,但壓縮效率不高。
MPEG-2採用幀間壓縮的方式,只需進行I幀的幀內壓縮處理,B幀和P幀通過偵測獲得,因此 ,傳輸和運算的數據大多由幀之間的時間相關性得到,相對來說,數據量小,可以實現較高的壓縮比。隨著逐幀編輯問題的解決,MPEG-2將廣泛應用於非線性編輯系統,並大大地降低編輯成本,同時MPEG-2的解壓縮是標準的,不同廠家設計的壓縮器件壓縮的數據可由其他廠家設計解壓縮器來解壓縮,這一點保證了各廠家的設備之間能完全兼容。
由於採用MPEG-2 IBP視頻壓縮技術,數據量成倍減少,降低了存儲成本,提高了數據傳輸速度,減少了對計算機匯流排和網路帶寬的壓力,可採用純乙太網組建非線性編輯網路系統已成為可能,而在目前乙太網是最為成熟的網路,系統管理比較完善,價格也比較低廉。
基於MPEG-2的非線性編輯系統及非線性編輯網路將成為未來的發展方向。
(3)衛星傳輸
MPEG-2已經通過ISO認可,並在廣播領域獲得廣泛的應用,如數字衛星視頻廣播(DVB-S)、DVD視盤和視頻會議等。目前,全球有數以千萬計的DVB-S用戶,DVB-S信號採用MPEG-2壓縮格式編碼,通過衛星或微波進行傳輸,在用戶端經MPEG-2衛星接收解碼器解碼,以供用戶觀看。此外,採用MPEG-2壓縮編碼技術,還可以進行遠程電視新聞或節目的傳輸和交流。
(4)電視節目的播出
在整個電視技術中播出是一個承上啟下的環節,對播出系統進行數字化改造是非常必要的,其中最關鍵一步就是構建硬碟播出系統。MPEG-2硬碟自動播出系統因編播簡便、儲存容量大、視頻指標高等優點,而為人們所青睞。但以往MPEG-2播出設備因非常昂貴,而只有少量使用。隨著MPEG-2技術的發展和相關產品成本的下降,MPEG-2硬碟自動系統播出可望得到普及。
3.MPEG-4標准
運動圖像專家組MPEG 於1999年2月正式公布了MPEG-4(ISO/IEC14496)標准第一版本。同年年底MPEG-4第二版亦告底定,且於2000年年初正式成為國際標准。
MPEG-4與MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具體壓縮演算法,它是針對數字電視、互動式繪圖應用(影音合成內容)、互動式多媒體(WWW、資料擷取與分散)等整合及壓縮技術的需求而制定的國際標准。MPEG-4標准將眾多的多媒體應用集成於一個完整的框架內,旨在為多媒體通信及應用環境提供標準的演算法及工具,從而建立起一種能被多媒體傳輸、存儲、檢索等應用領域普遍採用的統一數據格式。
MPEG-4的編碼理念是:MPEG-4標准同以前標準的最顯著的差別在於它是採用基於對象的編碼理念,即在編碼時將一幅景物分成若干在時間和空間上相互聯系的視頻音頻對象,分別編碼後,再經過復用傳輸到接收端,然後再對不同的對象分別解碼,從而組合成所需要的視頻和音頻。這樣既方便我們對不同的對象採用不同的編碼方法和表示方法,又有利於不同數據類型間的融合,並且這樣也可以方便的實現對於各種對象的操作及編輯。例如,我們可以將一個卡通人物放在真實的場景中,或者將真人置於一個虛擬的演播室里,還可以在互聯網上方便的實現交互,根據自己的需要有選擇的組合各種視頻音頻以及圖形文本對象。
MPEG-4系統的一般框架是:對自然或合成的視聽內容的表示;對視聽內容數據流的管理,如多點、同步、緩沖管理等;對靈活性的支持和對系統不同部分的配置。
與MPEG-1、MPEG-2相比,MPEG-4具有如下獨特的優點:
(1) 基於內容的交互性
MPEG-4提供了基於內容的多媒體數據訪問工具,如索引、超級鏈接、上下載、刪除等。利用這些工具,用戶可以方便地從多媒體資料庫中有選擇地獲取自己所需的與對象有關的內容,並提供了內容的操作和位流編輯功能,可應用於互動式家庭購物,淡入淡出的數字化效果等。MPEG-4提供了高效的自然或合成的多媒體數據編碼方法。它可以把自然場景或對象組合起來成為合成的多媒體數據。
(2)高效的壓縮性
MPEG-4基於更高的編碼效率。同已有的或即將形成的其它標准相比,在相同的比特率下,它基於更高的視覺聽覺質量,這就使得在低帶寬的信道上傳送視頻、音頻成為可能。同時MPEG-4還能對同時發生的數據流進行編碼。一個場景的多視角或多聲道數據流可以高效、同步地合成為最終數據流。這可用於虛擬三維游戲、三維電影、飛行模擬練習等
(3)通用的訪問性
MPEG-4提供了易出錯環境的魯棒性,來保證其在許多無線和有線網路以及存儲介質中的應用,此外,MPEG-4還支持基於內容的的可分級性,即把內容、質量、復雜性分成許多小塊來滿足不同用戶的不同需求,支持具有不同帶寬,不同存儲容量的傳輸信道和接收端。
這些特點無疑會加速多媒體應用的發展,從中受益的應用領域有:網際網路多媒體應用;廣播電視;互動式視頻游戲;實時可視通信;互動式存儲媒體應用;演播室技術及電視後期製作;採用面部動畫技術的虛擬會議;多媒體郵件;移動通信條件下的多媒體應用;遠程視頻監控;通過ATM網路等進行的遠程資料庫業務等。MPEG-4主要應用如下:
(1)應用於網際網路視音頻廣播
由於上網人數與日俱增,傳統電視廣播的觀眾逐漸減少,隨之而來的便是廣告收入的減少,所以現在的固定式電視廣播最終將轉向基於TCP/IP的網際網路廣播,觀眾的收看方式也由簡單的遙控器選擇頻道轉為網上視頻點播。視頻點播的概念不是先把節目下載到硬碟,然後再播放,而是流媒體視頻(streaming video),點擊即觀看,邊傳輸邊播放。
現在網際網路中播放視音頻的有:Real Networks公司的 Real Media,微軟公司的 Windows Media,蘋果公司的 QuickTime,它們定義的視音頻格式互不兼容,有可能導致媒體流中難以控制的混亂,而MPEG-4為網際網路視頻應用提供了一系列的標准工具,使視音頻碼流具有規范一致性。因此在網際網路播放視音頻採用MPEG-4,應該說是一個安全的選擇。
(2)應用於無線通信
MPEG-4高效的碼率壓縮,交互和分級特性尤其適合於在窄帶移動網上實現多媒體通信,未來的手機將變成多媒體移動接收機,不僅可以打移動電視電話、移動上網,還可以移動接收多媒體廣播和收看電視。
(3)應用於靜止圖像壓縮
靜止圖像(圖片)在網際網路中大量使用,現在網上的圖片壓縮多採用JPEG技術。MPEG-4中的靜止圖像(紋理)壓縮是基於小波變換的,在同樣質量條件下,壓縮後的文件大小約是JPEG壓縮文件的十分之一。把網際網路上使用的JPEG圖片轉換成MPEG-4格式,可以大幅度提高圖片在網路中的傳輸速度。
(4)應用於電視電話
傳統用於窄帶電視電話業務的壓縮編碼標准,如H261,採用幀內壓縮、幀間壓縮、減少象素和抽幀等辦法來降低碼率,但編碼效率和圖像質量都難以令人滿意。MPEG-4的壓縮編碼可以做到以極低碼率傳送質量可以接受的聲像信號,使電視電話業務可以在窄帶的公用電話網上實現。
(5)應用於計算機圖形、動畫與模擬
MPEG-4特殊的編碼方式和強大的交互能力,使得基於MPEG-4的計算機圖形和動畫可以從各種來源的多媒體資料庫中獲取素材,並實時組合出所需要的結果。因而未來的計算機圖形可以在MPEG-4語法所允許的范圍內向所希望的方向無限發展,產生出今天無法想像的動畫及模擬效果。
(6)應用於電子游戲
MPEG-4可以進行自然圖像與聲音同人工合成的圖像與聲音的混合編碼,在編碼方式上具有前所未有的靈活性,並且能及時從各種來源的多媒體資料庫中調用素材。這可以在將來產生象電影一樣的電子游戲,實現極高自由度的互動式操作。
(三)H.264
H.264是ITU-T的VCEG(視頻編碼專家組)和ISO/IEC的MPEG(活動圖像編碼專家組)的聯合視頻組(JVT:joint video team)開發的一個新的數字視頻編碼標准,它既是ITU-T的H.264,又是ISO/IEC的MPEG-4的第10 部分。1998年1月份開始草案徵集,1999年9月,完成第一個草案,2001年5月制定了其測試模式TML-8,2002年6月的 JVT第5次會議通過了H.264的FCD板。2003年3月正式發布。
H.264和以前的標准一樣,也是DPCM加變換編碼的混合編碼模式。但它採用回歸基本的簡潔設計,不用眾多的選項,獲得比H.263++好得多的壓縮性能;加強了對各種信道的適應能力,採用網路友好的結構和語法,有利於對誤碼和丟包的處理;應用目標范圍較寬,以滿足不同速率、不同解析度以及不同傳輸(存儲)場合的需求;它的基本系統是開放的,使用無需版權。
在技術上,H.264標准中有多個閃光之處,如統一的VLC符號編碼,高精度、多模式的位移估計,基於4×4塊的整數變換、分層的編碼語法等。這些措施使得H.264演算法具有很的高編碼效率,在相同的重建圖像質量下,能夠比H.263節約50%左右的碼率。H.264的碼流結構網路適應性強,增加了差錯恢復能力,能夠很好地適應IP和無線網路的應用。 H.264的演算法在概念上可以分為兩層:視頻編碼層(VCL:Video Coding Layer)負責高效的視頻內容表示,網路提取層(NAL:Network Abstraction Layer)負責以網路所要求的恰當的方式對數據進行打包和傳送。在VCL和NAL之間定義了一個基於分組方式的介面,打包和相應的信令屬於NAL的一部分。這樣,高編碼效率和網路友好性的任務分別由VCL和NAL來完成。
VCL層包括基於塊的運動補償混合編碼和一些新特性。與前面的視頻編碼標准一樣,H.264沒有把前處理和後處理等功能包括在草案中,這樣可以增加標準的靈活性。
NAL負責使用下層網路的分段格式來封裝數據,包括組幀、邏輯信道的信令、定時信息的利用或序列結束信號等。例如,NAL支持視頻在電路交換信道上的傳輸格式,支持視頻在Internet上利用RTP/UDP/IP傳輸的格式。NAL包括自己的頭部信息、段結構信息和實際載荷信息,即上層的VCL數據。(如果採用數據分割技術,數據可能由幾個部分組成)。 H.264支持1/4或1/8像素精度的運動矢量。在1/4像素精度時可使用6抽頭濾波器來減少高頻雜訊,對於1/8像素精度的運動矢量,可使用更為復雜的8抽頭的濾波器。在進行運動估計時,編碼器還可選擇增強內插濾波器來提高預測的效果。
在H.264的運動預測中,一個宏塊(MB)可以按圖2被分為不同的子塊,形成7種不同模式的塊尺寸。這種多模式的靈活和細致的劃分,更切合圖像中實際運動物體的形狀,大大提高了運動估計的精確程度。在這種方式下,在每個宏塊中可以包含有1、2、4、8或16個運動矢量。
在H.264中,允許編碼器使用多於一幀的先前幀用於運動估計,這就是所謂的多幀參考技術。例如2幀或3幀剛剛編碼好的參考幀,編碼器將選擇對每個目標宏塊能給出更好的預測幀,並為每一宏塊指示是哪一幀被用於預測。 H.264與先前的標准相似,對殘差採用基於塊的變換編碼,但變換是整數操作而不是實數運算,其過程和DCT基本相似。這種方法的優點在於:在編碼器中和解碼器中允許精度相同的變換和反變換,便於使用簡單的定點運算方式。也就是說,這里沒有反變換誤差。 變換的單位是4×4塊,而不是以往常用的8×8塊。由於用於變換塊的尺寸縮小,運動物體的劃分更精確,這樣,不但變換計算量比較小,而且在運動物體邊緣處的銜接誤差也大為減小。為了使小尺寸塊的變換方式對圖像中較大面積的平滑區域不產生塊之間的灰度差異,可對幀內宏塊亮度數據的16個4×4塊的DC系數(每個小塊一個,共16個)進行第二次4×4塊的變換,對色度數據的4個4×4塊的DC系數(每個小塊一個,共4個)進行2×2塊的變換。
H.264為了提高碼率控制的能力,量化步長的變化的幅度控制在12.5%左右,而不是以不變的增幅變化。變換系數幅度的歸一化被放在反量化過程中處理以減少計算的復雜性。為了強調彩色的逼真性,對色度系數採用了較小量化步長。 在先前的H.26x系列和MPEG-x系列標准中,都是採用的幀間預測的方式。在H.264中,當編碼Intra圖像時可用幀內預測。對於每個4×4塊(除了邊緣塊特別處置以外),每個像素都可用17個最接近的先前已編碼的像素的不同加權和(有的權值可為0)來預測,即此像素所在塊的左上角的17個像素。顯然,這種幀內預測不是在時間上,而是在空間域上進行的預測編碼演算法,可以除去相鄰塊之間的空間冗餘度,取得更為有效的壓縮。
如圖4所示,4×4方塊中a、b、...、p為16 個待預測的像素點,而A、B、...、P是已編碼的像素。如m點的值可以由(J+2K+L+2)/ 4 式來預測,也可以由(A+B+C+D+I+J+K+L)/ 8 式來預測,等等。按照所選取的預測參考的點不同,亮度共有9類不同的模式,但色度的幀內預測只有4類模式。 H.264 草案中包含了用於差錯消除的工具,便於壓縮視頻在誤碼、丟包多發環境中傳輸,如移動信道或IP信道中傳輸的健壯性。
為了抵禦傳輸差錯,H.264視頻流中的時間同步可以通過採用幀內圖像刷新來完成,空間同步由條結構編碼(slice structured coding)來支持。同時為了便於誤碼以後的再同步,在一幅圖像的視頻數據中還提供了一定的重同步點。另外,幀內宏塊刷新和多參考宏塊允許編碼器在決定宏塊模式的時候不僅可以考慮編碼效率,還可以考慮傳輸信道的特性。
除了利用量化步長的改變來適應信道碼率外,在H.264中,還常利用數據分割的方法來應對信道碼率的變化。從總體上說,數據分割的概念就是在編碼器中生成具有不同優先順序的視頻數據以支持網路中的服務質量QoS。例如採用基於語法的數據分割(syntax-based data partitioning)方法,將每幀數據的按其重要性分為幾部分,這樣允許在緩沖區溢出時丟棄不太重要的信息。還可以採用類似的時間數據分割(temporal data partitioning)方法,通過在P幀和B幀中使用多個參考幀來完成。
在無線通信的應用中,我們可以通過改變每一幀的量化精度或空間/時間解析度來支持無線信道的大比特率變化。可是,在多播的情況下,要求編碼器對變化的各種比特率進行響應是不可能的。因此,不同於MPEG-4中採用的精細分級編碼FGS(Fine Granular Scalability)的方法(效率比較低),H.264採用流切換的SP幀來代替分級編碼。
四、H.264的性能比較
TML-8為H.264的測試模式,用它來對H.264的視頻編碼效率進行比較和測試。測試結果所提供的PSNR已清楚地表明,相對於MPEG-4(ASP:Advanced Simple Profile)和H.263++(HLP:High Latency Profile)的性能,H.264的結果具有明顯的優越性。
H.264的PSNR比MPEG-4(ASP)和H.263++(HLP)明顯要好,在6種速率的對比測試中,H.264的PSNR比MPEG-4(ASP)平均要高2dB,比H.263(HLP)平均要高3dB。6個測試速率及其相關的條件分別為:32 kbit/s速率、10f/s幀率和QCIF格式;64 kbit/s速率、15f/s幀率和QCIF格式;128kbit/s速率、15f/s幀率和CIF格式;256kbit/s速率、15f/s幀率和QCIF格式;512 kbit/s速率、30f/s幀率和CIF格式;1024 kbit/s速率、30f/s幀率和CIF格式。
㈣ 視頻編碼的技術
監控中主要採用MJPEG、MPEG1/2、MPEG4(SP/ASP)、H.264/AVC、VC-1、RealVideo等幾種視頻編碼技術。對於最終用戶來言他最為關心的主要有:清晰度、存儲量(帶寬)、穩定性還有價格。採用不同的壓縮技術,將很大程度影響以上幾大要素。
MJPEG
MJPEG(Motion JPEG)壓縮技術,主要是基於靜態視頻壓縮發展起來的技術,它的主要特點是基本不考慮視頻流中不同幀之間的變化,只單獨對某一幀進行壓縮。
MJPEG壓縮技術可以獲取清晰度很高的視頻圖像,可以動態調整幀率、解析度。但由於沒有考慮到幀間變化,造成大量冗餘信息被重復存儲,因此單幀視頻的佔用空間較大,流行的MJPEG技術監控與視頻編碼最好的也只能做到3K位元組/幀,通常要8~20K!
MPEG-1/2
MPEG-1標准主要針對SIF標准解析度(NTSC制為352X240;PAL制為352X288)的圖像進行壓縮. 壓縮位率主要目標為1.5Mb/s.較MJPEG技術,MPEG1在實時壓縮、每幀數據量、處理速度上有顯著的提高。但MPEG1也有較多不利地方:存儲容量還是過大、清晰度不夠高和網路傳輸困難。
MPEG-2 在MPEG-1基礎上進行了擴充和提升,和MPEG-1向下兼容,主要針對存儲媒體、數字電視、高清晰等應用領域,解析度為:低(352x288),中(720x480),次高(1440x1080),高(1920x1080)。MPEG-2視頻相對MPEG-1提升了解析度,滿足了用戶高清晰的要求,但由於壓縮性能沒有多少提高,使得存儲容量還是太大,也不適合網路傳輸。
MPEG-4
MPEG-4視頻壓縮演算法相對於MPEG-1/2在低比特率壓縮上有著顯著提高,在CIF(352*288)或者更高清晰度(768*576)情況下的視頻壓縮,無論從清晰度還是從存儲量上都比MPEG1具有更大的優勢,也更適合網路傳輸。另外MPEG-4可以方便地動態調整幀率、比特率,以降低存儲量。
MPEG-4由於系統設計過於復雜,使得MPEG-4難以完全實現並且兼容,很難在視頻會議、可視電話等領域實現,這一點有點偏離原來地初衷。另外對於中國企業來說還要面臨高昂的專利費問題,規定:
- 每台解碼設備需要交給MPEG-LA 0.25美元。
-編碼/解碼設備還需要按時間交費(4美分/天=1.2美元/月 =14.4美元/年)。
H.264/AVC
視頻壓縮國際標准主要有由ITU-T制定的H.261、H.262、H.263、H.264和由MPEG制定的MPEG-1、MPEG-2、MPEG-4,其中H.262/MPEG-2和H.264/MPEG-4 AVC由ITU-T與MPEG聯合制定。
從簡單來說H.264就是一種視頻編碼技術,與微軟的WMV9都屬於同一種技術也就是壓縮動態圖像數據的「編解碼器」程序。
一般來說,如果動態圖像數據未經壓縮就使用的話,數據量非常大,容易造成通信線路故障及數據存儲容量緊張。因此,在發送動態圖像時、或者把影像內容保存在DVD上時、以及使用存儲介質容量較小的數碼相機或相機手機拍攝映像時,就必須使用編解碼器。雖然編解碼器有許多種類,但DVD-Video與微波數字電視等使用的主要是MPEG2,數碼相機等攝像時主要使用MPEG4。
既然作為壓縮視頻編碼技術,H.264最大的作用對視頻的壓縮了。我們熟悉的MPEG2也就是最常用的DVD視頻編碼技術已經比較落後。
對於最希望看到的HDTV的節目如果播放時間在2小時左右的話,使用MPEG2最小隻能壓縮至30GB,而使用H.264、WMV9這樣的高壓縮率編解碼器,在畫質絲毫不降的前提下可壓縮到15GB以下。
上面的例子可以看出H.264的技術優勢了,一般來說H.264的數據壓縮率在MPEG2的2倍以上、MPEG4的1.5倍以上。從理論上來說,在相同畫質、相同容量的情況下,可比DVD光碟多保存2倍以上時間的影像。作為電影與音樂會等映像內容與便攜設備的編解碼器被廣泛使用。
大家是否都能記得當年的視頻解壓卡,也就是我們說的DVD/VCD解壓縮卡,這個東西的原理很簡單,就是板卡上安裝了DSP晶元,而這個晶元唯一的功能就是用來針對特殊格式的編碼進行解壓縮,當後來顯卡的性能逐漸增強可以滿足視頻播放需要的時候,視頻解壓縮卡也就消失的不見了。
而ATI的做法就是最新的R520 VPU內就包含了H.264解碼技術,這種特殊的演算法直接交給顯卡VPU來運算,而不是完全交給CPU處理,這樣就可以解放出CPU進行更多其他復雜的運算。
H.264集中了以往標準的優點,在許多領域都得到突破性進展,使得它獲得比以往標准好得多整體性能:
- 和H.263+和MPEG-4 SP相比最多可節省50%的碼率,使存儲容量大大降低;
- H.264在不同解析度、不同碼率下都能提供較高的視頻質量;
- 採用「網路友善」的結構和語法,使其更有利於網路傳輸。
H.264採用簡潔設計,使它比MPEG4更容易推廣,更容易在視頻會議、視頻電話中實現,更容易實現互連互通,可以簡便地和G.729等低比特率語音壓縮組成一個完整的系統。
MPEG LA吸收MPEG-4的高昂專利費而使它難以推廣的教訓,MPEG LA制定了以下低廉的H.264收費標准:H.264廣播時基本不收費;產品中嵌入H.264編/解碼器時,年產量10萬台以下不收取費,超過10萬台每台收取0.2美元,超過500萬台每台收取0.1美元。低廉的專利費使得中國H.264監控產品更容易走向世界。
H.264發展歷史
隨著NGN、3G及3G演進和NGBW等對視頻、多媒體業務與網路應用的飛速發展需求,作為視頻業務及存儲應用核心技術的高效率視頻數字壓縮編技術,愈來愈引起人們的關注,成為廣播、視頻與多媒體通信領域中的亮點與熱點,這其中H.264視頻編碼標准更是耳熟能詳的一個名字。
早在1993年,ITU-T(國際電信聯盟電信標准化部門)制定了第一個視頻編碼標准H.261,其輸出速率為p*64 kbit/s,主要用於ISDN及ATM等准寬頻及寬頻信道視頻。隨著時間的不斷發展,經歷了1996年的H.263,1998年的H.263+,2000年的H.263++,到了2001年,MPEG認識到H.26L的潛在優勢及與VCEG聯合工作的必要性,從而兩者合作成立聯合視頻組(JVT),從而形成了2003年第二季度發布的統一標准H.264/AVC。該標准在ITU-T稱為H.264;在ISO/IEC則稱為MPEG4-Part 10 AVC(Advanced Video Coding,第10部分,先進視頻編碼),這也就是今天我們大家都津津樂道的H.264/AVC。
與先前的一些編碼標准相比,H.264標准繼承了H.263和MPEG1/2/4視頻標准協議的優點,但在結構上並沒有變化,只是在各個主要的功能模塊內部使用了一些先進的技術,提高了編碼效率。其主要表現在:編碼不再是基於8×8的塊進行,而是在4×4大小的塊上,進行殘差的變換編碼。所採用的變換編碼方式也不再是DCT變換,而是一種整數變換編碼。採用了編碼效率更高的上下文自適應二進制算術編碼(CABAC),同時與之相應的量化過程也有區別。H.264標准具有演算法簡單易於實現、運算精度高且不溢出、運算速度快、佔用內存小、消弱塊效應等優點,是一種更為實用有效的圖像編碼標准。
H.264/AVC在壓縮編碼效率、視頻內容自適性處理能力方面及網路層面,特別是對IP網路及移動網路的自適應處理能力、抗干擾能力與頑健性等方面,相比H.263/MPEG-4均有大幅度提高,也就造成了H.264被熱炒的局面。應該說,H.264/AVC的應用確屬相當廣泛,包括固定或移動的可視電話、行動電話、實時視頻會議、視頻監控、流媒體、多媒體視頻、Internet視頻及多媒體、IPTV、手機電視、寬頻電話以及視頻信息存儲等,這也是業內普遍看好它的重要原因。
㈤ 視頻的編碼方式有哪些與格式一樣嗎
視頻格式是指視頻文件的存在形式,比如AVI、RMVB、MKV等等,也可以說是封裝壓縮視頻和音頻文件的容器。
音頻數字化主要有壓縮與非壓縮兩種方式。較早出現的數字音頻播放機,如CD唱機和DAT錄音機,均採用線性PCM編碼來存儲音樂信號,為非壓縮方式。在高質量要求的音頻工作站和數字錄像機(如DVCPRO)上,也採用非壓縮的格式。
音視頻編碼:
我們常見的MPEG、Dolby Digital、DTS等則為壓縮方式。壓縮分為有損壓縮和無損壓縮。有損壓縮的目的是提高壓縮率,降低佔用系統資源。可以根據實際需要選用不同的采樣速率、樣本解析度(精度)和數據率。
數字衛星廣播系統的信源編碼技術採用MPEG-2.5第三層聲音編碼演算法。第三層編碼演算法最復雜、延時最大、效率最高。因此對一定的數據速率,第三層協議得到的音質最好。當然,用戶可根據需要選擇8—128Kbps范圍的不同速率。聲音質量可達到CD音質。
㈥ 什麼是視頻編碼的演算法 它有哪幾種典型的演算法 試比較各種典型的視頻編碼演算法。 謝謝了!
1、無聲時代的FLC
FLC、FLI是Autodesk開發的一種視頻格式,僅僅支持256色,但支持色彩抖動技術,因此在很多情況下很真彩視頻區別不是很大,不支持音頻信號,現在看來這種格式已經毫無用處,但在沒有真彩顯卡沒有音效卡的DOS時代確實是最好的也是唯一的選擇。最重要的是,Autodesk的全系列的動畫製作軟體都提供了對這種格式的支持,包括著名的3D Studio X,因此這種格式代表了一個時代的視頻編碼水平。直到今日,仍舊有不少視頻編輯軟體可以讀取和生成這種格式。但畢竟廉頗老矣,這種格式已經被無情的淘汰。
2、載歌載舞的AVI
AVI——Audio Video Interleave,即音頻視頻交叉存取格式。1992年初Microsoft公司推出了AVI技術及其應用軟體VFW(Video for Windows)。在AVI文件中,運動圖像和伴音數據是以交織的方式存儲,並獨立於硬體設備。這種按交替方式組織音頻和視像數據的方式可使得讀取視頻數據流時能更有效地從存儲媒介得到連續的信息。構成一個AVI文件的主要參數包括視像參數、伴音參數和壓縮參數等。AVI文件用的是AVI RIFF形式,AVI RIFF形式由字串「AVI」標識。所有的AVI文件都包括兩個必須的LIST塊。這些塊定義了流和數據流的格式。AVI文件可能還包括一個索引塊。
只要遵循這個標准,任何視頻編碼方案都可以使用在AVI文件中。這意味著AVI有著非常好的擴充性。這個規范由於是由微軟制定,因此微軟全系列的軟體包括編程工具VB、VC都提供了最直接的支持,因此更加奠定了AVI在PC上的視頻霸主地位。由於AVI本身的開放性,獲得了眾多編碼技術研發商的支持,不同的編碼使得AVI不斷被完善,現在幾乎所有運行在PC上的通用視頻編輯系統,都是以支持AVI為主的。AVI的出現宣告了PC上啞片時代的結束,不斷完善的AVI格式代表了多媒體在PC上的興起。
說到AVI就不能不提起英特爾公司的Indeo video系列編碼,Indeo編碼技術是一款用於PC視頻的高性能的、純軟體的視頻壓縮/解壓解決方案。Indeo音頻軟體能提供高質量的壓縮音頻,可用於互聯網、企業內部網和多媒體應用方案等。它既能進行音樂壓縮也能進行聲音壓縮,壓縮比可達8:1而沒有明顯的質量損失。Indeo技術能幫助您構建內容更豐富的多媒體網站。目前被廣泛用於動態效果演示、游戲過場動畫、非線性素材保存等用途,是目前使用最廣泛的一種AVI編碼技術。現在Indeo編碼技術及其相關軟體產品已經被Ligos Technology 公司收購。隨著MPEG的崛起,Indeo面臨著極大的挑戰。
3、容量與質量兼顧的MPEG系列編碼
和AVI相反,MPEG不是簡單的一種文件格式,而是編碼方案。
MPEG-1(標准代號ISO/IEC11172)制定於1991年底,處理的是標准圖像交換格式(standard interchange format,SIF)或者稱為源輸入格式(Source Input Format,SIF)的多媒體流。是針對1.5Mbps以下數據傳輸率的數字存儲媒質運動圖像及其伴音編碼(MPEG-1 Audio,標准代號ISO/IEC 11172-3)的國際標准,伴音標准後來衍生為今天的MP3編碼方案。MPEG-1規范了PAL制(352*288,25幀/S)和NTSC制(為352*240,30幀/S)模式下的流量標准, 提供了相當於家用錄象系統(VHS)的影音質量,此時視頻數據傳輸率被壓縮至1.15Mbps,其視頻壓縮率為26∶1。使用MPEG-1的壓縮演算法,可以把一部120分鍾長的多媒體流壓縮到1.2GB左右大小。常見的VCD就是MPEG-1編碼創造的傑作。MPEG-1編碼也不一定要按PAL/NTSC規范的標准運行,你可以自由設定影像尺寸和音視頻流量。隨著光頭拾取精度的提高,有人把光碟的信息密度加大,並適度降低音頻流流量,於是出現了只要一張光碟就存放一部電影的DVCD。DVCD碟其實是一種沒有行業標准,沒有國家標准,更談不上是國際標準的音像產品。
當VCD開始向市場普及時,電腦正好進入了486時代,當年不少朋友都夢想擁有一塊硬解壓卡,來實現在PC上看VCD的夙願,今天回過頭來看看,覺得真有點不可思議,但當時的現狀就是486的系統不藉助硬解壓是無法流暢播放VCD的,上萬元的486系統都無法流暢播放的MPEG-1被打上了貴族的標志。隨著奔騰的發布,PC開始奔騰起來,直到後來Windows Media Player也直接提供了MPEG-1的支持,至此MPEG-1使用在PC上已經完全無障礙了。
MPEG-2(標准代號IOS/IEC13818)於1994年發布國際標准草案(DIS),在視頻編碼演算法上基本和MPEG-1相同,只是有了一些小小的改良,例如增加隔行掃描電視的編碼。它追求的是大流量下的更高質量的運動圖象及其伴音效果。MPEG-2的視頻質量看齊PAL或NTSC的廣播級質量,事實上MPEG-1也可以做到相似效果,MPEG-2更多的改進來自音頻部分的編碼。目前最常見的MPEG-2相關產品就是DVD了,SVCD也是採用的MPEG-2的編碼。MPEG-2還有一個更重要的用處,就是讓傳統的電視機和電視廣播系統往數碼的方向發展。
MPEG-3最初為HDTV制定,由於MPEG-2的快速發展,MPEG-3還未徹底完成便宣告淘汰。
MPEG-4於1998年公布,和MPEG-2所針對的不同,MPEG-4追求的不是高品質而是高壓縮率以及適用於網路的交互能力。MPEG-4提供了非常驚人的壓縮率,如果以VCD畫質為標准,MPEG-4可以把120分鍾的多媒體流壓縮至300M。MPEG-4標准主要應用於視像電話(Video Phone),視像電子郵件(Video Email)和電子新聞(Electronic News)等,其傳輸速率要求較低,在4800-64000bits/sec之間,解析度為176X144。MPEG-4利用很窄的帶寬,通過幀重建技術,壓縮和傳輸數據,以求以最少的數據獲得最佳的圖象質量。
MJPEG,這並不是專門為PC准備的,而是為專業級甚至廣播級的視頻採集與在設備端回放的准備的,所以MJPEG包含了為傳統模擬電視優化的隔行掃描電視的演算法,如果在PC上播放MJPEG編碼的文件,效果會很難看(如果你的顯卡不支持MJPEG的動態補償),但一旦輸出到電視機端,你立刻會發現這種演算法的好處。
4、屬於網路的流媒體
RealNetworks RealVideo,採用的是 RealNetworks 公司自己開發的 Real G2 Codec,它具有很多先進的設計,例如,SVT (Scalable Video Technology);雙向編碼(Two—Encoding,類似於VBR)。RealMedia 音頻部分採用的是 RealAudio ,可以接納很多音頻編碼方案,可實現聲音在單聲道、立體聲音樂不同速率下的壓縮。最新的RealAudio竟然採用ATRAC3編碼方案,以挑戰日益成熟的MP3。
Windows Media,視頻編碼採用的是非常先進的 MPEG-4 視頻壓縮技術,被稱作 Microsoft MPEG-4 Video Codec,音頻編碼採用的是微軟自行開發的一種編碼方案,目前沒有公布技術資料,在低流量下提供了令人滿意的音質和畫質。最新的Windows Media Encoding Utility V8.0將流技術推向到一個新的高度,我們常見的ASF、WMV、WMA就是微軟的流媒體文件。
事實上我們常見的MPG文件,也具有流媒體的最大特徵——邊讀邊放。
二、常見的編碼與常見的文件格式的對應關系及其常用用途
1、Audodesk FLC
這是一種古老的編碼方案,常見的文件後綴為FLC和FLI。由於FLC僅僅支持256色的調色板,因此它會在編碼過程中盡量使用抖動演算法(也可以設置不抖動),以模擬真彩的效果。這種演算法在色彩值差距不是很大的情況下幾乎可以達到亂真的地步,例如紅色A(R:255,G:0,B:0)到紅色B(R:255,G:128,B:0)之間的抖動。這種格式現在已經很少被採用了,但當年很多這種格式被保留下來,這種格式在保存標准256色調色板或者自定義256色調色板是是無損的,這種格式可以清晰到像素,非常適合保存線框動畫,例如CAD模型演示。現在這種格式很少見了。
2、Microsoft RLE
這是微軟開發為AVI格式開發的一種編碼,文件擴展名為AVI,使用了RLE壓縮演算法,這是一種無損的壓縮演算法,我們常見的tga格式的圖像文件就使用了RLE演算法。
什麼是RLE演算法呢?這是一種很簡單的演算法,舉一個很簡單的例子:
假設一個圖像的像素色彩值是這樣排列的:紅紅紅紅紅紅紅紅紅紅紅紅藍藍藍藍藍藍綠綠綠綠,經過RLE壓縮後就成為了:紅12藍6綠4。這樣既保證了壓縮的可行性,而且不會有損失。而且可以看到,但顏色數越少時,壓縮效率會更高。由於Microsoft RLE僅僅支持256色,而且沒有抖動演算法,在色彩處理方面,FLC明顯的比Microsoft RLE要好很多。當然這也不表示Microsoft RLE一無是處,和FLC一樣,Microsoft RLE在處理相鄰像素時也沒有色染,可以清晰的表現網格。因此同樣可以優秀的表現單色字體和線條。只要色彩不是很復雜,FLC能做的,Microsoft RLE也可以做到。由於AVI可以擁有一個音頻流,而且Windows系統給與了直接的支持,Microsoft RLE最常用的用途是,在256色顯示模式下,通過配合抓屏生成AVI的工具製作一個軟體的操作演示過程,以達到圖文並茂,形聲兼備的效果。
3、Microsoft Video1
這也是由微軟提供的一個AVI編碼,任何Windows系統都自帶了了它的Codec,這個編碼支持真彩,畫面質量很不錯,Microsoft Video1的壓縮效率非常低下,編碼後的文件龐大得讓人受不了。這個Microsoft Video1究竟有什麼用呢?一般被用在保存一些沒有漸變的小型視頻素材方面。
4、Indeo video R3.2
這個編碼由intel架構實驗室開發,對應的文件格式是AVI,相對之前的流行的編碼,Indeo video R3.2最大的特點就是高壓縮比(當然,比起現在的壓縮方案,實在是不值得一提),intel聲稱壓縮比可達8:1而沒有明顯的質量損失,解碼速度也非常快,對系統要求不高,由於Windows9X中自帶Indeo video R3.2的Codec,所以Indeo video R3.2一度成為了最流行的AVI編碼方案。有不少游戲的過場動畫和啟動動畫都是Indeo video R3.2編碼的。Indeo video R3.2同樣不適合高要求的環境,在要表現細線條或大色彩值變化的漸變時,Indeo video R3.2會表現得非常糟糕。如果畫面的色彩值差異不是很大,也沒有明顯的色彩區域界限,Indeo video R3.2還是合適的,例如海天一色的場景。Indeo video R3.2已經基本被淘汰,如果不是為了播放以前遺留的一些Indeo video R3.2編碼視頻,恐怕Windows ME/2000都不會有Indeo video R3.2的Codec了。
5、Indeo video 5.10
這個編碼方案同樣也是intel架構實驗室開發的,它繼承了Indeo video R3.2的優點,對應的文件格式仍然是AVI,解碼速度同樣非常快。Windows ME/2000自帶了Indeo video 5.1的Codec,很多游戲也適用Indeo video 5.10來編碼自己的演示動畫。在沒有DivX普及前,這幾乎是最流行的AVI編碼了,由於微軟和intel的同時支持,這種編碼方案被廣泛採用。
6、None
顧名思義,這是一個沒有損失的視頻編碼方案,對應的文件擴展名為AVI。這種編碼幾乎是不壓縮的,文件大得驚人!那麼這種編碼有什麼用途呢?用途就是保存視頻素材,因為是無損的,保存素材非常合適,代價就是大量的存儲空間。
7、MPEG1
我們熟知的VCD就是MPEG1編碼的,對應的文件擴展名為MPG、MPEG或者DAT。事實上MPEG1可以工作於非PAL制和非NTSC制標准下。它可以自由設置數據流量和畫面尺寸,只是這樣非標準的文件無法直接刻錄成VCD。
8、MPEG2
DVD的視頻部分就是採用的MPEG2,SVCD同樣也採用了MPEG2編碼。對應的文件擴展名一般為VOB、MPG。MPEG2的設計目標就是提供接近廣播級的高品質輸出。
9、DivX
DivX是近2年開始被大家認識的,DivX 視頻編碼技術可以說是一種對 DVD 造成威脅的新生視頻壓縮格式(有人說它是 DVD 殺手)對應的文件擴展名為AVI或者DivX,它由 Microsoft mpeg-4v3 修改而來,使用 MPEG-4 壓縮演算法。據說是美國禁止出口的編碼技術。DivX最大的特點就是高壓縮比和不錯的畫質,更可貴的是,DivX的對系統要求也不高,只要主頻300的CPU就基本可以很流暢的播放了,因此從DivX誕生起,立刻吸引了大家的注意力。DivX擁有比Indeo video 5.10高太多的壓縮效率,編碼質量也遠遠比Indeo video 5.10好,我實在想不出Indeo video 5.10還會有什麼前途。
10、PICVideo MJPEG
MJPEG是很多視頻卡支持的一種視頻編碼,隨卡提供了Codec,安裝完成後可以象使用其它編碼一樣生成AVI文件。MJPEG編碼常用於非線性系統,批上了一層很專業的外衣。MJPEG的編碼質量是相當高的,是一種以質量為最高要求的編碼,這種編碼的設置比較復雜,可以得到很高的壓縮比,但犧牲了解碼速度,如果要保證解碼速度,編碼後的壓縮比確不是很理想,如果您希望從專業的非線性系統上捕捉視頻,然後自行進行處理,這種格式是很有必要去了解一些的。
11、RealNetworks RealVideo
REAL VIDEO(RA、RAM)格式由Real Networks公司開發的,一開始就定位在視頻流應用方面的,也可以說是視頻流技術的始創者。它可以在用 56K MODEM 撥號上網的條件實現不間斷的視頻播放。從RealVideo的定位來看,就是犧牲畫面質量來換取可連續觀看性。其實RealVideo也可以實現不錯的畫面質量,由於RealVideo可以擁有非常高的壓縮效率,很多人把VCD編碼成RealVideo格式的,這樣一來,一張光碟上可以存放好幾部電影。REAL VIDEO存在顏色還原不準確的問題,RealVideo就不太適合專業的場合,但RealVideo出色的壓縮效率和支持流式播放的特徵,使得RealVideo在網路和娛樂場合佔有不錯的市場份額。
12、Windows Media video
Windows Media video就是微軟為了和現在的Real Networks的RealVideo競爭而發展出來的一種可以直接在網上觀看視頻節目的文件壓縮格式!由於它使用了MPEG4的壓縮演算法,所以壓縮率和圖像的質量都很不錯。我們經常看到的ASF和WMV就是Windows Media video。Windows Media video的編碼質量明顯好於RealVideo,因為Windows Media video是微軟的傑作,所以Windows系統給Windows Media video給與了很好的支持,Windows Media Player可以直接播放這些文件。
各種主流音頻編碼(或格式)的介紹
1、PCM編碼
PCM 脈沖編碼調制是Pulse Code Molation的縮寫。前面的文字我們提到了PCM大致的工作流程,我們不需要關心PCM最終編碼採用的是什麼計算方式,我們只需要知道PCM編碼的音頻流的優點和缺點就可以了。PCM編碼的最大的優點就是音質好,最大的缺點就是體積大。我們常見的Audio CD就採用了PCM編碼,一張光碟的容量只能容納72分鍾的音樂信息。
2、WAVE
這是一種古老的音頻文件格式,由微軟開發。WAV是一種文件格式,符合 PIFF Resource Interchange File Format規范。所有的WAV都有一個文件頭,這個文件頭音頻流的編碼參數。WAV對音頻流的編碼沒有硬性規定,除了PCM之外,還有幾乎所有支持ACM規范的編碼都可以為WAV的音頻流進行編碼。很多朋友沒有這個概念,我們拿AVI做個示範,因為AVI和WAV在文件結構上是非常相似的,不過AVI多了一個視頻流而已。我們接觸到的AVI有很多種,因此我們經常需要安裝一些Decode才能觀看一些AVI,我們接觸到比較多的DivX就是一種視頻編碼,AVI可以採用DivX編碼來壓縮視頻流,當然也可以使用其他的編碼壓縮。同樣,WAV也可以使用多種音頻編碼來壓縮其音頻流,不過我們常見的都是音頻流被PCM編碼處理的WAV,但這不表示WAV只能使用PCM編碼,MP3編碼同樣也可以運用在WAV中,和AVI一樣,只要安裝好了相應的Decode,就可以欣賞這些WAV了。
在Windows平台下,基於PCM編碼的WAV是被支持得最好的音頻格式,所有音頻軟體都能完美支持,由於本身可以達到較高的音質的要求,因此,WAV也是音樂編輯創作的首選格式,適合保存音樂素材。因此,基於PCM編碼的WAV被作為了一種中介的格式,常常使用在其他編碼的相互轉換之中,例如MP3轉換成WMA。
3、 MP3編碼
請參閱 MP3全攻略 一文
4、OGG編碼
網路上出現了一種叫Ogg Vorbis的音頻編碼,號稱MP3殺手!Ogg Vorbis究竟什麼來頭呢?OGG是一個龐大的多媒體開發計劃的項目名稱,將涉及視頻音頻等方面的編碼開發。整個OGG項目計劃的目的就是向任何人提供完全免費多媒體編碼方案!OGG的信念就是:OPEN!FREE!Vorbis這個詞彙是特里·普拉特柴特的幻想小說《Small Gods》中的一個"花花公子"人物名。這個詞彙成為了OGG項目中音頻編碼的正式命名。目前Vorbis已經開發成功,並且開發出了編碼器。
Ogg Vorbis是高質量的音頻編碼方案,官方數據顯示:Ogg Vorbis可以在相對較低的數據速率下實現比MP3更好的音質!Ogg Vorbis這種編碼也遠比90年代開發成功的MP3先進,她可以支持多聲道,這意味著什麼?這意味著Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓軌軟體(目前這種軟體還沒有)的支持下,可以對所有的聲道進行編碼,而不是MP3隻能編碼2個聲道。多聲道音樂的興起,給音樂欣賞帶來了革命性的變化,尤其在欣賞交響時,會帶來更多臨場感。這場革命性的變化是MP3無法適應的。
和MP3一樣,Ogg Vorbis是一種靈活開放的音頻編碼,能夠在編碼方案已經固定下來後還能對音質進行明顯的調節和新演算法的改良。因此,它的聲音質量將會越來越好,和MP3相似,Ogg Vorbis更像一個音頻編碼框架,可以不斷導入新技術逐步完善。和MP3一樣,OGG也支持VBR。
5、MPC 編碼
MPC是又是另外一個令人刮目相看的實力派選手,它的普及過程非常低調,也沒有什麼復雜的背景故事,她的出現目的就只有一個,更小的體積更好的音質!MPC以前被稱作MP+,很顯然,可以看出她針對的競爭對手是誰。但是,只要用過這種編碼的人都會有個深刻的印象,就是她出眾的音質。
6、mp3PRO 編碼
2001年6月14日,美國湯姆森多媒體公司(Thomson Multimedia SA)與佛朗赫弗協會(Fraunhofer Institute)於6月14日發布了一種新的音樂格式版本,名稱為mp3PRO,這是一種基於mp3編碼技術的改良方案,從官方公布的特徵看來確實相當吸引人。從各方面的資料顯示,mp3PRO並不是一種全新的格式,完全是基於傳統mp3編碼技術的一種改良,本身最大的技術亮點就在於SBR(Spectral Band Replication 頻段復制),這是一種新的音頻編碼增強演算法。它提供了改善低位率情況下音頻和語音編碼的性能的可能。這種方法可在指定的位率下增加音頻的帶寬或改善編碼效率。SBR最大的優勢就是在低數據速率下實現非常高效的編碼,與傳統的編碼技術不同的是,SBR更像是一種後處理技術,因此解碼器的演算法的優劣直接影響到音質的好壞。高頻實際上是由解碼器(播放器)產生的,SBR編碼的數據更像是一種產生高頻的命令集,或者稱為指導性的信號源,這有點駇idi的工作方式。我們可以看到,mp3PRO其實是一種mp3信號流和SBR信號流的混合數據流編碼。有關資料顯示,SBR技術可以改善低數據流量下的高頻音質,改善程度約為30%,我們不管這個30%是如何得來的,但可以事先預知這種改善可以讓64kbps的mp3達到128kbps的mp3的音質水平(註:在相同的編碼條件下,數據速率的提升和音質的提升不是成正比的,至少人耳聽覺上是這樣的),這和官方聲稱的64kbps的mp3PRO可以媲美128kbps的mp3的宣傳基本是吻合的。
7、WMA
WMA就是Windows Media Audio編碼後的文件格式,由微軟開發,WMA針對的不是單機市場,是網路!競爭對手就是網路媒體市場中著名的Real Networks。微軟聲稱,在只有64kbps的碼率情況下,WMA可以達到接近CD的音質。和以往的編碼不同,WMA支持防復制功能,她支持通過Windows Media Rights Manager 加入保護,可以限制播放時間和播放次數甚至於播放的機器等等。WMA支持流技術,即一邊讀一邊播放,因此WMA可以很輕松的實現在線廣播,由於是微軟的傑作,因此,微軟在Windows中加入了對WMA的支持,WMA有著優秀的技術特徵,在微軟的大力推廣下,這種格式被越來越多的人所接受。
8、RA
RA就是RealAudio格式,這是各位網蟲接觸得非常多的一種格式,大部分音樂網站的在線試聽都是採用了RealAudio,這種格式完全針對的就是網路上的媒體市場,支持非常豐富的功能。最大的閃爍點就是這種格式可以根據聽眾的帶寬來控制自己的碼率,在保證流暢的前提下盡可能提高音質。RA可以支持多種音頻編碼,包括ATRAC3。和WMA一樣,RA不但都支持邊讀邊放,也同樣支持使用特殊協議來隱匿文件的真實網路地址,從而實現只在線播放而不提供下載的欣賞方式。這對唱片公司和唱片銷售公司很重要,在各方的大力推廣下,RA和WMA是目前互聯網上,用於在線試聽最多的音頻媒體格.
㈦ 音視頻編解碼 原理
音視頻同步原理[ffmpeg]
ffmpeg對視頻文件進行解碼的大致流程:
1. 注冊所有容器格式和CODEC: av_register_all()
2. 打開文件: av_open_input_file()
3. 從文件中提取流信息: av_find_stream_info()
4. 窮舉所有的流,查找其中種類為CODEC_TYPE_VIDEO
5. 查找對應的解碼器: avcodec_find_decoder()
6. 打開編解碼器: avcodec_open()
7. 為解碼幀分配內存: avcodec_alloc_frame()
8. 不停地從碼流中提取中幀數據: av_read_frame()
9. 判斷幀的類型,對於視頻幀調用: avcodec_decode_video()
10. 解碼完後,釋放解碼器: avcodec_close()
11. 關閉輸入文件:av_close_input_file()
㈧ 音視頻編碼格式認知
編碼格式對應的就是音頻編碼和視頻編碼,
音頻編碼標准和視頻編碼標准,每種編碼標准都對應的編碼演算法,其目的是通過一定編碼演算法實現數據的壓縮、減少數據的冗餘。
視頻編碼指的是通過特定的壓縮技術,將某個視頻文件格式轉換為另一種視頻格式文件的方式
可變碼率指的是輸出碼流的碼率是可變的,因為視頻信源本身的高峰信息量是變化的,從確保視頻傳輸質量和充分利用信息的角度來說,可變碼率視頻編碼才是最合理的。
相關資料免費分享,領取方式見下方騰訊文檔
C++音視頻開發學習資料 :點擊領取 音視頻開發(資料文檔+視頻教程+面試題)(FFmpeg+WebRTC+RTMP+RTSP+HLS+RTP)
是指視頻成像產品所形成的圖像大小或尺寸,常見的 1080P、4K 等又代表什麼呢,P 本身的含義是逐行掃描,表示視頻像素的總行數,
1080P 表示總共有 1080 行的像素數,而 K 表示視頻像素的總列數,4K 表示有 4000 列的像素數,
通常來說,1080P 就是指 1080 x 1920 的解析度,4 k 指 3840 x 2160 的解析度。
視頻編碼:
Xvid(舊稱為XviD)
是一個開放源代碼的MPEG-4影像編解碼器,是由一群原OpenDivX開發者在OpenDivX於2001年7月停止開發後自行開發的。
Xvid支持量化(Quantization)、范圍控制的運動偵測(Motion Search)、碼率曲線分配(Curve)、動態關鍵幀距(I-frame interval)、心理視覺亮度修正、演職員表選項、外部自定義控制、運動向量加速(Hinted ME)編碼、畫面優化解碼等眾多編碼技術,對用戶來說功能十分強大。
DivX是由MPEG-4衍生出的一種視頻編碼(壓縮)標准,也即我們通常所說的DVDrip格式,
它採用了MPEG4的壓縮演算法,同時又綜合了MPEG-4與MP3各方面的技術,說白了就是使用DivX壓縮技術對DVD碟片的視頻圖像進行高質量壓縮,
同時用MP3或AC3對音頻進行壓縮,然後再將視頻與音頻合成,並加上相應的外掛字幕文件而形成的視頻格式。其畫質直逼DVD,而體積只有DVD的數分之 一。
XviD與DivX幾乎相同,是開源的DivX,不收費,而使用DivX要收費。
H.264是一種高性能的視頻編解碼技術。
目前國際上制定視頻編解碼技術的組織有兩個,一個是「國際電聯(ITU-T)」,它制定的標准有H.261、H.263、H.263+等,
另一個是「國際標准化組織(ISO)」它制定的標准有MPEG-1、MPEG-2、MPEG-4等。
而H.264則是由兩個組織聯合組建的聯合視頻組(JVT)共同制定的新數字視頻編碼標准,
所以它既是ITU-T的H.264,又是ISO/IEC的MPEG-4高級視頻編碼(Advanced Video Coding,AVC),而且它將成為MPEG-4標準的第10部分。
因此,不論是MPEG-4 AVC、MPEG-4 Part 10,還是ISO/IEC 14496-10,都是指H.264。
H.264最具價值的部分是更高的數據壓縮比,在同等的圖像質量,H.264的數據壓縮比能比DVD系統中使用的 MPEG-2高2 3倍,比MPEG-4高1.5 2倍。
舉個例子,原始文件的大小如果為100GB,採用MPEG-2壓縮標准壓縮後變成4GB,壓縮比為25 1,而採用H.264壓縮標准壓縮後變為1GB,從100GB到1GB,H.264的壓縮比達到驚人的100 1。尤其值得一提的是,H.264在具有高壓縮比的同時還擁有高質量流暢的圖像。
微軟是在2003年9月遞交VC-1編碼格式的,目前已經得到了MovieBeam、Modeo等不少公司的採納,同時也包含在HD DVD和藍光中,包括華納和環球等影業公司也有採用這種格式的意向。
VC-1基於微軟Windows Media Video9(WMV9)格式,而WMV9格式現在已經成為VC-1標準的實際執行部分。WMV (Windows Media
Video)是微軟公司的視頻編解碼器家族,包括WMV7、WMV8、WMV9、WPV10。這一族的編解碼器可以應用在從撥號上網的窄帶視頻到高清晰度電視HDTV)的寬頻視頻。使用Windows Media Video用戶還可以將視頻文件刻錄到CD、DVD或者其它一些設備上。它也
適用於用作媒體伺服器。
WMV可以被看作是MPEG-4的一個增強版本。最新的由SMPTE(電視電影工程師協會)承認的WMV-9,也就是我們說的上面的VC-1。
同一個 AVCodecID 可能對應多個不同的編解碼器 (AVCodec) MPEG-4 AVC、MPEG-4 Part 10,還是ISO/IEC 14496-10,都是指H.264。
在編碼方式相同相同的情況下,.avi, .mkv, .mp4隻是封裝格式的區別(文件後綴格式),而封裝格式是不影響畫質的。
就相當於你的100塊錢折一下,或者兩下,或者兩下後不管是放在你的口袋裡,錢包里還是存錢罐里都是100塊錢。
這里的100塊錢就是就是視頻數據,你把100塊折一下,或者兩下,或者兩下就是編碼格式,錢包,口袋,存錢罐就是封裝格式。
㈨ 視頻相關的理論知識與基礎概念
本文將視頻相關的理論知識與基礎概念劃分為 11 個知識點,如下:
根據人眼視覺暫留原理,每秒超過 24 幀的圖像變化看上去是平滑連續的,這樣的連續畫面叫視頻。
解析度是以橫向和縱向的像素數量來衡量的,表示平面圖像的精細程度。視頻精細程度並不只取決於視頻解析度,還取決於屏幕解析度。
1080P 的 P 指 Progressive scan(逐行掃描),即垂直方向像素點,也就是 "高",所以 1920X1080 叫 1080P, 不叫 1920P。
當 720P 的視頻在 1080P 屏幕上播放時,需要將圖像放大,放大操作也叫上采樣。
上采樣幾乎都是採用內插值方法,即在原有圖像的像素點之間採用合適的插值演算法插入新的元素,所以圖像放大也稱為圖像插值。
簡單的記錄一下插值演算法:
(1)鄰插值演算法:
將四個像素(放大一倍)用原圖一個像素的顏色填充,較簡單易實現,早期的時候應用比較普遍,但會產生明顯的鋸齒邊緣和馬賽克現象。
(2)雙線性插值法:
是對鄰插值法的一種改進,先對兩水平方向進行一階線性插值,再在垂直方向上進行一階線性插值。能有效地彌補鄰插值演算法的不足,但還存在鋸齒現象並會導致一些不期望的細節柔化。
(3)雙三次插值法:
是對雙線性插值法的改進,它不僅考慮到周圍四個直接相鄰像素點灰度值的影響,還考慮到它們灰度值變化率的影響,使插值生成的像素灰度值延續原圖像灰度變化的連續性,從而使放大圖像濃淡變化自然平滑。
除此之外還有很多更復雜效果更優的演算法,比如小波插值、分形等等。
當 1080P 的視頻在 720P 屏幕上播放時,需要將圖像縮小,縮小操作也叫下采樣。
下采樣的定義為:對於一個樣值序列,間隔幾個樣值取樣一次,得到新序列。
對於一幅解析度為 M N 的圖像,對其進行 s 倍下采樣,即得到 (M/s) (N/s) 解析度的圖像(s 應為 M、N 的公約數),就是把原始圖像 s*s 窗口內的圖像變成一個像素,這個像素點的值就是窗口內所有像素的均值。
最佳體驗為屏幕與視頻解析度相同且全屏播放,視頻解析度過高的話屏幕沒有能力去呈現,視頻解析度過低的話無法發揮屏幕的能力。
比特率即碼率,在不同領域有不同的含義,在多媒體領域,指單位時間播放音頻或視頻的比特數,可以理解成吞吐量或帶寬。
單位為 bps , 即 bits per second,每秒傳輸的數據量,常用單位有:kbps、mbps 等。
計算公式:碼率(kbps)= 文件大小(kb)/ 時長(s)
通俗一點理解就是取樣率,取樣率越大,精度就越高,圖像質量越好,但數據量也越大,所以要找到一個平衡點:用最低的比特率達到最少的失真。
在一個視頻中,不同時段畫面的復雜程度是不同的,比如高速變化的場景和幾乎靜止的場景,所需的數據量也是不同的,若都使用同一種比特率是不太合理的,所以引入了動態比特率。
(1)動態比特率
簡稱為 VBR,即 Variable Bit Rate,比特率可以隨著圖像復雜程度的不同而隨之變化。
圖像內容簡單的片段採用較小的碼率,圖像內容復雜的片段採用較大的碼率,這樣既保證了播放質量,又兼顧了數據量的限制。
比如 RMVB 視頻文件,其中的 VB 就是指 VBR,表示採用動態比特率編碼方式,達到播放質量與體積兼得的效果。
(2)靜態比特率
簡稱為 CBR,即 Constant Bit Rate,比特率恆定。
圖像內容復雜的片段質量不穩定,圖像內容簡單的片段質量較好。
上面列出的計算公式顯然是針對 CBR ,除 VBR 和 CBR 外,還有 CVBR(Constrained VariableBit Rate) 、ABR (Average Bit Rate) 等等。
定義:每秒從連續信號中提取並組成離散信號的采樣個數,單位為赫茲(Hz)。
對於取樣率、采樣率和抽樣率,沒必要糾結它們的區別,都是同義詞。
(1)音頻中的采樣率
指把音頻信號數字化後 1 個通道 1 秒鍾採取多少個樣本,如 44.1kHz 的采樣率,就是指 1 個通道 1 秒鍾有 44.1k 個數據。
(2)視頻中的采樣率
視頻一般不標識采樣率屬性,比如:
采樣率本身就是一個可泛化的概念,對於視頻來說,若非要用采樣率來描述的話,那就要分為兩個層面:幀頻和場頻。
從幀頻層面來說,采樣率就是指幀率,指 1 秒鍾顯示多少幀圖像。
從場頻層面來說,采樣率就是指像素頻率,指 1 秒鍾顯示多少個像素。
像素頻率是顯示器的一個指標,可以理解成顯示器的最大帶寬,可以起到限制解析度和刷新率的作用,根據含義可得出一個公式:
像素頻率 = 幀率 X 幀像素數量
對於:
定義:用於測量顯示幀數的量度。單位為 FPS(Frames per Second,每秒顯示幀數)或赫茲(Hz)。
幀率越高,畫面越流暢、逼真,對顯卡的處理能力要求越高,數據量越大。
1 中提到每秒超過 24 幀的圖像變化看上去是平滑連續的,這是針對電影等視頻而言,對游戲來說 24 幀是不流暢的。
為什麼 24fps 的電影感覺流暢,而 24fps 的游戲就感覺很卡呢?
第一個原因:兩者圖像生成原理不同
電影的一幀在一段時間曝光,每一幀都包含一段時間的信息,而游戲的畫面則是由顯卡計算生成的,一幀只包含那一瞬間的信息。
比如一個圓從左上角移動到右下角:
前者為電影的一幀,後者為游戲的一幀,可以看到在電影中動作會出現拖影,給人以動感的效果,連貫而不卡。
第二個原因:電影的FPS是穩定的,而游戲則是不穩定的
電影若為 24fps,那就表示每隔 1/24 秒刷新一次畫面,幀間隔是固定的。
游戲若為 60fps,表示大約每隔 1/60 秒刷新一次畫面,幀間隔是不穩定的,即使 1 秒能顯示 60 幀,那也可能是前半秒顯示了 59 幀,後半秒顯示了 1 幀。
定義:通過特定的壓縮技術,將某個視頻格式的文件轉換成另一種視頻格式。
視頻數據在時域和空域層面都有極強的相關性,這也表示有大量的時域冗餘信息和空域冗餘信息,壓縮技術就是去掉數據中的冗餘信息。
(1)去除時域冗餘信息
運動補償:通過先前的局部圖像來預測、補償當前的局部圖像,可有效減少幀序列冗餘信息。
運動表示:不同區域的圖像使用不同的運動矢量來描述運動信息,運動矢量通過熵編碼進行壓縮(熵編碼在編碼過程中不會丟失信息)。
運動估計:從視頻序列中抽取運動信息。
通用的壓縮標准使用基於塊的運動估計和運動補償。
(2)去除空域冗餘信息
變換編碼:將空域信號變換到另一正交矢量空間,使其相關性下降,數據冗餘度減小。
量化編碼:對變換編碼產生的變換系數進行量化,控制編碼器的輸出位率。
熵編碼: 對變換、量化後得到的系數和運動信息,進行進一步的無損壓縮。
視頻壓縮編碼技術可分為兩大類:無損壓縮和有損壓縮。
(1)無損壓縮
無損壓縮也稱為可逆編碼,重構後的數據與原數據完全相同,適用於磁碟文件的壓縮等。
主要採用熵編碼方式,包括香農編碼、哈夫曼編碼和算術編碼等。
<1>香農編碼
香農編碼採用信源符號的累計概率分布函數來分配碼字,效率不高,實用性不大,但對其他編碼方法有很好的理論指導意義。
<2>哈夫曼編碼
哈夫曼編碼完全依據出現概率來構造異字頭的平均長度最短的碼字。
基本方法為:先對圖像數據掃描一遍,計算出各種像素出現的概率,按概率的大小指定不同長度的唯一碼字,由此得到一張該圖像的霍夫曼碼表。
編碼後的圖像數據記錄的是每個像素的碼字,而碼字與實際像素值的對應關系記錄在碼表中。
<3>算術編碼
算術編碼是用符號的概率和編碼間隔兩個基本參數來描述的,在給定符號集和符號概率的情況下,算術編碼可以給出接近最優的編碼結果。
使用算術編碼的壓縮演算法通常先要對輸入符號的概率進行估計,然後再編碼,估計越准,編碼結果就越接近最優的結果。
(2)有損壓縮
有損壓縮也稱為不可逆編碼,重構後的數據與原數據有差異,適用於任何允許有失真的場景,例如視頻會議、可視電話、視頻廣播、視頻監控等。
編碼方式包括預測編碼、變換編碼、量化編碼、混合編碼等。
定義:為保證編碼的正確性,編碼要規范化、標准化,所以就有了編碼標准。
研製視頻編碼標準的有兩大正式組織:ISO/IEC(國際標准化組織)、ITU-T(國際電信聯盟通信標准部)。
ISO/IEC 制定的編碼標准有:MPEG-1、MPEG-2、MPEG-4、MPEG-7、MPEG-21 和 MPEG-H 等。
ITU-T 制定的編碼標准有:H.261、H.262、H.263、H.264 和 H.265 等。
MPEG-x 和 H.26x 標準的視頻編碼都是採用有損壓縮的混合編碼方式,主要區別在於處理圖像的解析度、預測精度、搜索范圍、量化步長等參數的不同,所以其應用場合也不同。
MPEG-x 系列:
(1)MPEG-1
MPEG-1 共 5 部分。
第 2 部分視頻編碼方案,規定了逐行掃描視頻的編碼方案。
第 3 部分音頻編碼方案,將音頻流的壓縮分為 3 層並依次增大壓縮比,廣為流傳的 MP3(MPEG-1 Layer 3)就是按照此部分編碼方案壓縮之後的文件格式。
(2)MPEG-2
MPEG-2 共 11 個部分,在 MPEG-1 的基礎上提高了碼率和質量。
第 2 部分視頻編碼方案,規定了隔行掃描視頻的編碼方案,是和 ITU-T 共同開發的,ITU-T 稱其為 H.262。
第 3 部分音頻編碼方案,延續了 MPEG-1 的 3 層壓縮方案,壓縮後文件格式仍未 MP3,但在壓縮演算法上有所改進。
第 7 部分首次提出 AAC(MPEG Advanced Audio Coding)編碼,目的以更小的容量和更好的音質取代 MP3 格式。
(3)MPEG-4
MPEG-4 共 27 個部分,更加註重多媒體系統的交互性和靈活性。
第 3 部分音頻編碼方案,優化了 AAC 編碼演算法,並在推出後逐漸取代 MP3,比如和視頻封裝在一起的音頻優先考慮 AAC 格式,但就民用而言大部分還是使用 MP3 格式。
第 10 部分提出 AVC(Advanced Video Coding)編碼,是和 ITU-T 共同開發的,ITU-T 稱其為 H.264。
第 14 部分提出了 MP4 格式封裝,官方文件後綴名是 ".mp4",還有其他的以 mp4 為基礎進行的擴展或縮水版本的格式,包括:M4V, 3GP, F4V 等。
(4)MPEG-7
MPEG-7 不同於 MPEG-1、MPEG-2、MPEG-4,它不是音視頻壓縮標准。
MPEG-7 被稱為 "多媒體內容描述介面",目的就是產生一種描述多媒體信息的標准,並將該描述與所描述的內容相聯系,以實現快速有效的檢索。
(5)MPEG-12
MPEG-12 其實就是一些關鍵技術的集成,通過這種集成環境對全球數字媒體資源進行管理,實現內容描述、創建、發布、使用、識別、收費管理、版權保護等功能。
(6)MPEG-H
MPEG-H 包含了 1 個數字容器標准、1 個視頻壓縮標准、1 個音頻壓縮標准和 2 個一致性測試標准。
其中視頻壓縮標准為高效率視頻編碼(HEVC),和 ITU-T 聯合開發,相比 H.264/MPEG-4 AVC 數據壓縮率增加了 1 倍。
H.26x 系列:
(1)H.261
H.261 是第一個實用的數字視頻編碼標准,使用了混合編碼框架,包括了基於運動補償的幀間預測,基於離散餘弦變換的空域變換編碼,量化,zig-zag 掃描和熵編碼。
H.261 的設計相當成功,之後的視頻編碼國際標准基本上都是基於 H.261 的設計框架,包括 MPEG-1,MPEG-2/H.262,H.263,甚至 H.264。
(2)H.262
H.262 由 MPEG-1 擴充而來,支持隔行掃描,在技術內容上和 MPEG-2 視頻標准一致,DVD 就是採用了該技術。
(3)H.263
H.263 是一種用於視頻會議的低碼率視頻編碼標准,在 H.261 基礎上發展而來。
與 H.261 相比採用了半象素的運動補償,並增加了 4 種有效的壓縮編碼模式,在低碼率下能夠提供比 H.261 更好的圖像效果。
H.263 於 1995 年推出第一版,後續在 1998 年和 2000 年還推出了第二版 H.263+、第三版 H.263++ 。
(4)H.264
H.264 又稱為 MPEG-4 第 10 部分,即 MPEG-4 AVC,它是一種面向塊,基於運動補償的視頻編碼標准。
於 2003 年正式發布,現在已經成為高精度視頻錄制、壓縮和發布的最常用格式之一。
H.264 可以在低碼率情況下提供高質量的視頻圖像,相比 H.263 可節省 50% 的碼率。
相比 H.263,H.264 不需設置較多的編碼選項,降低了編碼的復雜度。
H.264 可以根據不同的環境使用不同的傳輸和播放速率,並且提供了豐富的錯誤處理工具,可以很好的控制或消除丟包和誤碼。
H.264 性能的改進是以增加復雜性為代價而獲得的,H.264 編碼的計算復雜度大約相當於 H.263 的 3 倍,解碼復雜度大約相當於 H.263 的 2 倍。
H.264 協議中定義了三種幀,分別為 I 幀、P 幀以及 B 幀。
<1>I 幀
I幀即幀內編碼幀、關鍵幀,可以理解為一幀畫面的完整保留,解碼時只需要本幀數據就可以完成,不需要參考其他畫面,數據量比較大。
<2>P 幀
P幀即前向預測編碼幀,記錄當前幀跟上一關鍵幀(或P幀)的差別,解碼時依賴之前緩存的畫面,疊加上本幀定義的差別,才能生成最終畫面,數據量較 I 幀小很多。
<3>B 幀
B幀即雙向預測編碼幀,記錄當前幀跟前後幀的差別,解碼時依賴前面的I幀(或P幀)和後面的P幀,數據量比I幀和P幀小很多。
數據壓縮比大約為: I幀:P幀:B幀 = 7:20:50,可見 P 幀和 B 幀極大的節省了數據量,節省出來的空間可以用來多保存一些 I 幀,以實現在相同碼率下,提供更好的畫質。
(5)H.265
H.265 即高效視頻編碼(High Efficiency Video Coding ,簡稱 HEVC),於 2013 年正式推出。
H.265 編碼架構和 H.264 相似,主要也包含,幀內預測、幀間預測、轉換、量化、去區塊濾波器、熵編碼等模塊。
H.265 編碼架構整體被分為編碼單位、預測單位和轉換單位。
H.265 在 H.264 的基礎之上,使用先進的技術用以改善碼流、編碼質量、延時和演算法復雜度之間的關系,達到最優化設置。
在碼率減少 51-74% 的情況下,H.265 編碼視頻的質量還能與 H.264 編碼視頻近似甚至更好。
H.265 可以在有限帶寬下傳輸更高質量的網路視頻,智能手機、平板機等移動設備將能直接在線播放 1080p 的全高清視頻,讓網路視頻跟上了顯示屏 「高解析度化」 的腳步。
來張圖感受一下吧:
除 MPEG-x 和 H.26x 系列標准外,還有其他的編碼標准,如谷歌的 VP 系列,對視頻編碼標准歸納一下,如圖:
視頻封裝格式如 mp4、mkv,用來存儲或傳輸編碼數據,可以理解成一個容器。
封裝就是按照一定規則把音視頻、字幕等數據組織起來,包含編碼類型等公共信息,播放器可以按照這些信息來匹配解碼器、同步音視頻。
不同的封裝格式支持的視音頻編碼格式是不一樣的,比如 MKV 格式支持比較多,RMVB 則主要支持 Real 公司的視音頻編碼格式。
這里 列出了常見的視頻封裝格式,可以查看各封裝格式支持的音視頻編碼格式等信息。
定義:將視頻壓縮編碼過的數據,解壓縮成為視頻原始數據,即視頻編碼的反過程。
對於一個播放器來說,很重要的一個指標就是能支持多少種視頻解碼。
播放一個本地視頻文件,需要經過解封裝,解碼音視頻,音視頻同步等步驟。
解封裝:就是將輸入的封裝格式的數據,分離成為音頻壓縮編碼數據和視頻壓縮編碼數據。例如,FLV 格式的數據,經過解封裝操作後,輸出 H.264 編碼的視頻碼流和 AAC 編碼的音頻碼流。
解碼:將視頻/音頻壓縮編碼數據,解碼成為非壓縮的視頻/音頻原始數據。音頻的壓縮編碼標准包含 AAC,MP3,AC-3 等等,視頻的壓縮編碼標准則包含 H.264,MPEG2,VC-1 等等。解碼是整個系統中最重要也是最復雜的一個環節。通過解碼,壓縮編碼的視頻數據輸出成為非壓縮的顏色數據,例如 YUV420P,RGB 等等;壓縮編碼的音頻數據輸出成為非壓縮的音頻抽樣數據,例如 PCM 數據。
視音頻同步:根據解封裝模塊處理過程中獲取到的參數信息,同步解碼出來的視頻和音頻數據,並將視頻音頻數據送至系統的顯卡和音效卡播放出來。
上面播放原理中分析的是本地視頻文件,如果播放的是互聯網上的視頻,步驟則為:解協議,解封裝,解碼音視頻,音視頻同步,多了一個解協議的步驟。
解協議:將流媒體協議的數據,解析為標準的相應的封裝格式數據。
視音頻在網路上傳播的時候,常常採用各種流媒體協議,例如 HTTP,RTMP, MMS 等等。這些協議在傳輸視音頻數據的同時,也會傳輸一些信令數據。
這些信令數據包括對播放的控制(播放,暫停,停止),或者對網路狀態的描述等。
解協議的過程中會去除掉信令數據而只保留視音頻數據。例如,採用 RTMP 協議傳輸的數據,經過解協議操作後,輸出 FLV 格式的數據。
㈩ 視頻編碼的基本含義
MPEG是活動圖像專家組(Moving Picture Experts Group)的縮寫,於1988年成立,是為數字視/音頻制定壓縮標準的專家組,已擁有300多名成員,包括IBM、SUN、BBC、NEC、INTEL、AT&T等世界知名公司。MPEG組織最初得到的授權是制定用於「活動圖像」編碼的各種標准,隨後擴充為「及其伴隨的音頻」及其組合編碼。後來針對不同的應用需求,解除了「用於數字存儲媒體」的限制,成為制定「活動圖像和音頻編碼」標準的組織。MPEG組織制定的各個標准都有不同的目標和應用,已提出MPEG-1、MPEG-2、MPEG-4、MPEG-7和MPEG-21標准。
視頻壓縮技術是計算機處理視頻的前提。視頻信號數字化後數據帶寬很高,通常在20MB/秒以上,因此計算機很難對之進行保存和處理。採用壓縮技術通常數據帶寬降到1-10MB/秒,這樣就可以將視頻信號保存在計算機中並作相應的處理。常用的演算法是由ISO制訂的,即JPEG和MPEG演算法。JPEG是靜態圖像壓縮標准,適用於連續色調彩色或灰度圖像,它包括兩部分:一是基於DPCM(空間線性預測)技術的無失真編碼,一是基於DCT(離散餘弦變換)和哈夫曼編碼的有失真演算法,前者壓縮比很小,主要應用的是後一種演算法。在非線性編輯中最常用的是MJPEG演算法,即Motion JPEG。它是將視頻信號50幀/秒(PAL制式)變為25幀/秒,然後按照25幀/秒的速度使用JPEG演算法對每一幀壓縮。通常壓縮倍數在3.5-5倍時可以達到Betacam的圖像質量。MPEG演算法是適用於動態視頻的壓縮演算法,它除了對單幅圖像進行編碼外還利用圖像序列中的相關原則,將冗餘去掉,這樣可以大大提高視頻的壓縮比。前MPEG-I用於VCD節目中,MPEG-II用於VOD、DVD節目中。
AVS音視頻編碼是中國支持制訂的新一代編碼標准,壓縮效率比MPEG-2增加了一倍以上,能夠使用更小的帶寬傳輸同樣的內容。AVS已經成為國際上三大視頻編碼標准之一,AVS標准在廣電總局正式全面推廣,率先在廣電行業普及。中國第一顆AVS編碼晶元,由北京博雅華錄公司設計,於2012年在北京誕生。
音頻視頻編碼及文件格式(容器)是一個很龐大的知識領域,完整的說清楚,那就需要寫成一本教材了。這里先就幾個簡單的概念問題作以介紹:
首先要分清楚媒體文件和編碼的區別:文件是既包括視頻又包括音頻、甚至還帶有腳本的一個集合,也可以叫容器;
文件當中的視頻和音頻的壓縮演算法才是具體的編碼。也就是說一個.avi文件,當中的視頻可能是編碼a,也可能是編碼b,音頻可能是編碼5,也可能是編碼6,具體的用那種編碼的解碼器,則由播放器按照avi文件格式讀取信息去調用了。