视频解码算法

发布时间: 2022-11-05 19:49:43

㈠视频编码h264和h265是什么意思

1、H.265

H.265是ITU-TVCEG继H.264之后所制定的新的视频编码标准。H.265标准围绕着现有的视频编码标准H.264，保留原来的某些技术，同时对一些相关的技术加以改进。新技术使用先进的技术用以改善码流、编码质量、延时和算法复杂度之间的关系，达到最优化设置。

具体的研究内容包括：提高压缩效率、提高鲁棒性和错误恢复能力、减少实时的时延、减少信道获取时间和随机接入时延、降低复杂度等。H264由于算法优化，可以低于1Mbps的速度实现标清数字图像传送；H265则可以实现利用1~2Mbps的传输速度传送720P（分辨率1280*720）普通高清音视频传送。

H.265旨在在有限带宽下传输更高质量的网络视频，仅需原先的一半带宽即可播放相同质量的视频。这也意味着，我们的智能手机、平板机等移动设备将能够直接在线播放1080p的全高清视频。

H.265标准也同时支持4K(4096×2160)和8K(8192×4320)超高清视频。可以说，H.265标准让网络视频跟上了显示屏“高分辨率化”的脚步。

2、H.264

H.264，同时也是MPEG-4第十部分，是由ITU-T视频编码专家组（VCEG）和ISO/IEC动态图像专家组（MPEG）联合组成的联合视频组（JVT，Joint Video Team）提出的高度压缩数字视频编解码器标准。

这个标准通常被称之为H.264/AVC（或者AVC/H.264或者H.264/MPEG-4AVC或MPEG-4/H.264 AVC）而明确的说明它两方面的开发者。

H.264最大的优势是具有很高的数据压缩比率，在同等图像质量的条件下，H.264的压缩比是MPEG-2的2倍以上，是MPEG-4的1.5～2倍。举个例子，原始文件的大小如果为88GB，采用MPEG-2压缩标准压缩后变成3.5GB，压缩比为25∶1。

而采用H.264压缩标准压缩后变为879MB，从88GB到879MB，H.264的压缩比达到惊人的102∶1。低码率（Low Bit Rate）对H.264的高的压缩比起到了重要的作用，和MPEG-2和MPEG-4ASP等压缩技术相比，H.264压缩技术将大大节省用户的下载时间和数据流量收费。

尤其值得一提的是，H.264在具有高压缩比的同时还拥有高质量流畅的图像，正因为如此，经过H.264压缩的视频数据，在网络传输过程中所需要的带宽更少，也更加经济。

㈡视频编码的基本原理是什么

视频编码的基本原理
视频图像数据有极强的相关性，也就是说有大量的冗余信息。其中冗余信息可分为空域冗余信息和时域冗余信息。压缩技术就是将数据中的冗余信息去掉（去除数据之间的相关性），压缩技术包含帧内图像数据压缩技术、帧间图像数据压缩技术和熵编码压缩技术。

去时域冗余信息
使用帧间编码技术可去除时域冗余信息，它包括以下三部分：
－运动补偿
运动补偿是通过先前的局部图像来预测、补偿当前的局部图像，它是减少帧序列冗余信息的有效方法。
－运动表示
不同区域的图像需要使用不同的运动矢量来描述运动信息。运动矢量通过熵编码进行压缩。
－运动估计
运动估计是从视频序列中抽取运动信息的一整套技术。
注：通用的压缩标准都使用基于块的运动估计和运动补偿

去空域冗余信息
主要使用帧间编码技术和熵编码技术：
－变换编码
帧内图像和预测差分信号都有很高的空域冗余信息。变换编码将空域信号变换到另一正交矢量空间，使其相关性下降，数据冗余度减小。
－量化编码
经过变换编码后，产生一批变换系数，对这些系数进行量化，使编码器的输出达到一定的位率。这一过程导致精度的降低。
－熵编码
熵编码是无损编码。它对变换、量化后得到的系数和运动信息，进行进一步的压缩。

视频编码的基本框架

H.261
H.261标准是为ISDN设计，主要针对实时编码和解码设计，压缩和解压缩的信号延时不超过150ms，码率px64kbps(p=1~30)。
H.261标准主要采用运动补偿的帧间预测、DCT变换、自适应量化、熵编码等压缩技术。只有I帧和P帧，没有B帧，运动估计精度只精确到像素级。支持两种图像扫描格式：QCIF和CIF。

H.263
H.263标准是甚低码率的图像编码国际标准，它一方面以H.261为基础，以混合编码为核心，其基本原理框图和H.261十分相似，原始数据和码流组织也相似；另一方面，H.263也吸收了MPEG等其它一些国际标准中有效、合理的部分，如：半像素精度的运动估计、PB帧预测等，使它性能优于H.261。
H.263使用的位率可小于64Kb/s,且传输比特率可不固定（变码率）。H.263支持多种分辨率： SQCIF(128x96)、 QCIF、CIF、4CIF、16CIF。

与H.261和H.263相关的国际标准
与H.261有关的国际标准
H.320：窄带可视电话系统和终端设备；
H.221：视听电信业务中64~1 920Kb/s信道的帧结构；
H.230：视听系统的帧同步控制和指示信号；
H.242：使用直到2Mb/s数字信道的视听终端的系统。
与H.263有关的国际标准
H.324：甚低码率多媒体通信终端设备；
H.223：甚低码率多媒体通信复合协议；
H.245：多媒体通信控制协议；
G.723.1.1：传输速率为5.3Kb/s和6.3Kb/s的语音编码器。

JPEG
国际标准化组织于1986年成立了JPEG(Joint Photographic Expert Group)联合图片专家小组，主要致力于制定连续色调、多级灰度、静态图像的数字图像压缩编码标准。常用的基于离散余弦变换(DCT)的编码方法，是JPEG算法的核心内容。

MPEG-1/2
MPEG-1标准用于数字存储体上活动图像及其伴音的编码，其数码率为1.5Mb/s。 MPEG-1的视频原理框图和H.261的相似。
MPEG-1视频压缩技术的特点：1. 随机存取；2. 快速正向/逆向搜索；3 .逆向重播；4. 视听同步；5. 容错性；6. 编/解码延迟。MPEG-1视频压缩策略：为了提高压缩比，帧内/帧间图像数据压缩技术必须同时使用。帧内压缩算法与JPEG压缩算法大致相同，采用基于DCT的变换编码技术，用以减少空域冗余信息。帧间压缩算法，采用预测法和插补法。预测误差可在通过DCT变换编码处理，进一步压缩。帧间编码技术可减少时间轴方向的冗余信息。
MPEG-2被称为“21世纪的电视标准”，它在MPEG-1的基础上作了许多重要的扩展和改进，但基本算法和MPEG-1相同。

MPEG-4
MPEG-4标准并非是MPEG-2的替代品，它着眼于不同的应用领域。MPEG-4的制定初衷主要针对视频会议、可视电话超低比特率压缩（小于64Kb/s）的需求。在制定过程中，MPEG组织深深感受到人们对媒体信息，特别是对视频信息的需求由播放型转向基于内容的访问、检索和操作。
MPEG-4与前面提到的JPEG、MPEG-1/2有很大的不同，它为多媒体数据压缩编码提供了更为广阔的平台，它定义的是一种格式、一种框架，而不是具体算法，它希望建立一种更自由的通信与开发环境。于是MPEG-4新的目标就是定义为：支持多种多媒体的应用，特别是多媒体信息基于内容的检索和访问，可根据不同的应用需求，现场配置解码器。编码系统也是开放的，可随时加入新的有效的算法模块。应用范围包括实时视听通信、多媒体通信、远地监测/监视、VOD、家庭购物/娱乐等。
JVT：新一代的视频压缩标准
JVT是由ISO/IEC MPEG和ITU-T VCEG成立的联合视频工作组（Joint Video Team），致力于新一代数字视频压缩标准的制定。
JVT标准在ISO/IEC中的正式名称为：MPEG-4 AVC(part10)标准；在ITU-T中的名称:H.264（早期被称为H.26L）

H264/AVC
H264集中了以往标准的优点，并吸收了以往标准制定中积累的经验, 采用简洁设计,使它比MPEG4更容易推广。H.264创造性了多参考帧、多块类型、整数变换、帧内预测等新的压缩技术，使用了更精细的分象素运动矢量（1/4、1/8)和新一代的环路滤波器，使得压缩性能大大提高，系统更加完善。
H.264主要有以下几大优点：
－高效压缩：与H.263+和MPEG4 SP相比，减小50%比特率
－延时约束方面有很好的柔韧性
－容错能力
－编/解码的复杂性可伸缩性
－解码全部细节：没有不匹配
－高质量应用
－网络友善

监控中的视频编码技术
目前监控中主要采用MJPEG、MPEG1/2、MPEG4(SP/ASP)、H.264/AVC等几种视频编码技术。对于最终用户来言他最为关心的主要有：清晰度、存储量（带宽）、稳定性还有价格。采用不同的压缩技术，将很大程度影响以上几大要素。

MJPEG
MJPEG（Motion JPEG）压缩技术，主要是基于静态视频压缩发展起来的技术，它的主要特点是基本不考虑视频流中不同帧之间的变化，只单独对某一帧进行压缩。
MJPEG压缩技术可以获取清晰度很高的视频图像，可以动态调整帧率、分辨率。但由于没有考虑到帧间变化，造成大量冗余信息被重复存储，因此单帧视频的占用空间较大，目前流行的MJPEG技术最好的也只能做到3K字节/帧，通常要8~20K！

MPEG-1/2
MPEG-1标准主要针对SIF标准分辨率(NTSC制为352X240；PAL制为352X288)的图像进行压缩. 压缩位率主要目标为1.5Mb/s.较MJPEG技术，MPEG1在实时压缩、每帧数据量、处理速度上有显着的提高。但MPEG1也有较多不利地方:存储容量还是过大、清晰度不够高和网络传输困难。
MPEG-2 在MPEG-1基础上进行了扩充和提升，和MPEG-1向下兼容，主要针对存储媒体、数字电视、高清晰等应用领域，分辨率为：低(352x288)，中(720x480)，次高(1440x1080)，高(1920x1080)。MPEG-2视频相对MPEG-1提升了分辨率，满足了用户高清晰的要求，但由于压缩性能没有多少提高，使得存储容量还是太大，也不适和网络传输。

MPEG-4
MPEG-4视频压缩算法相对于MPEG-1/2在低比特率压缩上有着显着提高，在CIF（352*288）或者更高清晰度（768*576）情况下的视频压缩，无论从清晰度还是从存储量上都比MPEG1具有更大的优势，也更适合网络传输。另外MPEG-4可以方便地动态调整帧率、比特率，以降低存储量。
MPEG-4由于系统设计过于复杂，使得MPEG-4难以完全实现并且兼容，很难在视频会议、可视电话等领域实现，这一点有点偏离原来地初衷。另外对于中国企业来说还要面临高昂的专利费问题，目前规定：
－每台解码设备需要交给MPEG-LA 0.25美元
－编码/解码设备还需要按时间交费（4美分/天=1.2美元/月 =14.4美元/年）

H.264/AVC
H.264集中了以往标准的优点，在许多领域都得到突破性进展，使得它获得比以往标准好得多整体性能：
－和H.263+和MPEG-4 SP相比最多可节省50％的码率，使存储容量大大降低；
－ H.264在不同分辨率、不同码率下都能提供较高的视频质量；
－采用“网络友善”的结构和语法，使其更有利于网络传输。
H.264采用简洁设计,使它比MPEG4更容易推广，更容易在视频会议、视频电话中实现，更容易实现互连互通，可以简便地和G.729等低比特率语音压缩组成一个完整的系统。
MPEG LA吸收MPEG-4的高昂专利费而使它难以推广的教训，MPEG LA制定了以下低廉的H.264收费标准：H.264广播时基本不收费；产品中嵌入H.264编/解码器时，年产量10万台以下不收取费，超过10万台每台收取0.2美元，超过500万台每台收取0.1美元。低廉的专利费使得中国H.264监控产品更容易走向世界。

监控中视频编码分辨率的选择
目前监控行业中主要使用以下分辨率：SQCIF、QCIF、CIF、4CIF。
SQCIF和QCIF的优点是存储量低，可以在窄带中使用，使用这种分辨率的产品价格低廉；缺点是图像质量往往很差、不被用户所接受。
CIF是目前监控行业的主流分辨率，它的优点是存储量较低，能在普通宽带网络中传输，价格也相对低廉，它的图像质量较好，被大部分用户所接受。缺点是图像质量不能满足高清晰的要求。
4CIF是标清分辨率，它的优点是图像清晰。缺点是存储量高，网络传输带宽要求很高，价格也较高。

分辨率新的选择－528x384
2CIF（704x288）已被部分产品采用，用来解决CIF清晰度不够高和4CIF存储量高、价格高昂的缺点。但由于704x288只是水平分辨率的提升，图像质量提高不是特别明显。
经过测试，我们发现另外一种2CIF分辨率528x384，比704x288能更好解决CIF、4CIF的问题。特别是在512Kbps－1Mbps码率之间，能获得稳定的高质量图像，满足用户较高图像质量的要求。目前这一分辨率已被许多网络多媒体广播所采用，被广大用户所接受。比如杭州网通网上影院是采用512x384分辨率,在768k下能稳定地获得近似DVD的图像质量。

监控中实现视频编码的最佳方式
目前视频编码正处于一个技术日新月异的时期，视频编码的压缩性能在不断得到提升。
在监控中主要使用ASCI和DSP两种方案。由于ASIC芯片的设计、生产周期过长，使它已跟不上视频编码的发展速度。而DSP芯片，由于它的通用设计，使它能实现各种视频编码算法，并且可以及时更新视频编码器，紧跟视频编码的发展速度。另外使用DSP芯片可以比ASIC更灵活的配置编码器，使编码器达到最佳性能。

海康威视产品目前达到的技术水准
海康威视产品采用最先进的H.264视频压缩算法和高性能的DSP处理器。
强大的H.264视频压缩引擎使产品获得极高的压缩比、高质量的图像质量和良好的网络传输性能。高性能的DSP处理器能灵活的配置视频编/解码器：动态设置分辨率、帧率、码率、图像质量等；可以双码流输出，达到本地存储和网络传输分别处理的功能。
使用TM130X DSP的产品，单个芯片能实时压缩一路以下分辨率的视频：SQCIF、QCIF、CIF、2CIF(PAL:704x288或528x384)。
使用DM642 DSP的产品，单个芯片能实时压缩4路以下分辨率的视频：SQCIF、QCIF、CIF、2CIF(PAL:704x288或528x384)。单个芯片能实时压缩2路4CIF视频。

一、基本概念：嵌入式、实时与多任务
?1、嵌入式：软件(包括操作系统和功能软件)集成于硬件系统之中，简单的说就是软件与硬件一体的系统。
?2、实时：在规定的时限内响应事件。超时的响应是失败的响应。
?3、多任务：同时响应多个请求
?4、实时系统与分时系统：
实时与非实时相对
分时与非分时(独占)相对

二、嵌入式硬盘录像机的特点
1、嵌入式、实时、多任务设备
2、软硬件专业性强，无多余功能
3、结构简单紧凑，体积小

五、嵌入式硬盘录像机技术难点?
1、硬盘管理
硬盘记录数据的有效性、可快速检索、错误恢复能力、硬盘的使用寿命（无论是嵌入式还是PC式DVR，目前硬盘管理问题没有得到有效解决）
?2、网络传输
硬盘录像机：网络管理
视频：网络传输
?3、视频编解码
视频编解码及其辅助功能的实现
六、嵌入式硬盘录像机现状?
1、国内品牌为主
–不同的技术要求和标准
–客户定制化服务的要求越来越高
–及时的技术支持和售后服务
?2、厂商越来越多，竞争非常激烈
?3、产品正逐步走向成熟
七、嵌入式硬盘录像机发展趋势?
1、更广的应用领域
?2、更高的帧率、分辨率
?3、更低的码率
?4、更丰富的功能
?5、更强的主机性能，支持更多通道
?6、更高的可*性
?7、更强的网络性能
?8、与基于PC机的DVR长期共存

一．市场背景
伴随着计算机及网络技术的飞速发展，尤其视频编解码技术的日益成熟、计算机处理能力的快速提高、以及宽带的逐渐普及，基于Internet的视频网络实时应用在许多行业和政府部门被大范围采用，尤其是银行、广电、石油、电力等行业，出现了许多成功案例。
提到基于Internet的视频网络实时应用，我们可能更多地会想到可视电话及视频会议系统、电视网络实况转播、远程教育等。这些Internet视频实时应用对软硬件的性能要求很高，要求既达到较高的帧率，又达到较低的码率，所以需要足够强大的处理能力（包括算法及芯片处理能力）。而要具备这种处理能力，往往需要昂贵的专用设备。
对于安防所涉及的数字视频网络监控系统，由于行业特性所决定，数据采集点较多，需要相应配置大量的编码设备，因此，与其他视频网络实时应用相比，价格成为一个相对比较敏感的因素。
以往的数字视频网络监控系统，基本上都是基于局域网或者专网。但是实际应用环境却很难保证这样的网络条件，因此系统集成商无法给用户提供一个完整的解决方案。
例如银行的ATM机数字集中式监控系统，就可能需要提供基于Internet的解决方案：宽带为主，窄带为辅。
首先ATM机原来预留的专网入口需要传输业务数据，考虑到ATM机24小时在线的业务服务和24小时视频监控的要求，我们很难提供一种解决方式，在同一个专网上，既保证业务数据传输稳定，又保证监控画面流畅，因此，我们需要考虑从宽带运营商租用线路，通过宽带传输视频数据。而且，从运行模式和成本上考虑，很多ATM机并不需要随时传输视频数据，往往只在异常发生的情况下，主动要求监控中心切换监控点；或者在监控中心定时巡查各监控点的时候才需要在线。这种情况下，就不需要为ATM机常年租用线路，只需要开通ADSL、ISDN、甚至通过电话线连接的方式。
近两年，国内厂商不断推出高性能、高性价比的视音频压缩卡和嵌入式网络监控设备，使得基于Internet的数字视频网络监控系统成为可能，如上述ATM机数字集中式监控系统。

㈢监控视频压缩编解码的介绍

（一）、M-JPEG
M-JPEG（Motion- Join Photographic Experts Group）技术即运动静止图像（或逐帧）压缩技术，广泛应用于非线性编辑领域可精确到帧编辑和多层图像处理，把运动的视频序列作为连续的静止图像来处理，这种压缩方式单独完整地压缩每一帧，在编辑过程中可随机存储每一帧，可进行精确到帧的编辑，此外M-JPEG的压缩和解压缩是对称的，可由相同的硬件和软件实现。但M-JPEG只对帧内的空间冗余进行压缩。不对帧间的时间冗余进行压缩，故压缩效率不高。采用M-JPEG数字压缩格式，当压缩比7:1时，可提供相当于Betecam SP质量图像的节目。
JPEG标准所根据的算法是基于DCT（离散余弦变换）和可变长编码。JPEG的关键技术有变换编码、量化、差分编码、运动补偿、霍夫曼编码和游程编码等
M-JPEG的优点是：可以很容易做到精确到帧的编辑、设备比较成熟。缺点是压缩效率不高。
此外，M-JPEG这种压缩方式并不是一个完全统一的压缩标准，不同厂家的编解码器和存储方式并没有统一的规定格式。这也就是说，每个型号的视频服务器或编码板有自己的M-JPEG版本，所以在服务器之间的数据传输、非线性制作网络向服务器的数据传输都根本是不可能的。
（二）、MPEG系列标准
MPEG是活动图像专家组(Moving Picture Exports Group)的缩写，于1988年成立，是为数字视/音频制定压缩标准的专家组，目前已拥有300多名成员，包括IBM、SUN、BBC、NEC、INTEL、AT&T等世界知名公司。MPEG组织最初得到的授权是制定用于“活动图像”编码的各种标准，随后扩充为“及其伴随的音频”及其组合编码。后来针对不同的应用需求，解除了“用于数字存储媒体”的限制，成为现在制定“活动图像和音频编码”标准的组织。MPEG组织制定的各个标准都有不同的目标和应用，目前已提出MPEG-1、MPEG-2、MPEG-4、MPEG-7和MPEG-21标准。
1．MPEG-1标准
MPEG-1标准于1993年8月公布，用于传输1.5Mbps数据传输率的数字存储媒体运动图像及其伴音的编码。该标准包括五个部分：
第一部分说明了如何根据第二部分（视频）以及第三部分（音频）的规定，对音频和视频进行复合编码。第四部分说明了检验解码器或编码器的输出比特流符合前三部分规定的过程。第五部分是一个用完整的C语言实现的编码和解码器。
该标准从颁布的那一刻起，MPEG-1取得一连串的成功，如VCD和MP3的大量使用，Windows95以后的版本都带有一个MPEG-1软件解码器，可携式MPEG-1摄像机等等。
2．MPEG-2标准
MPEG组织于1994年推出MPEG-2压缩标准，以实现视/音频服务与应用互操作的可能性。MPEG-2标准是针对标准数字电视和高清晰度电视在各种应用下的压缩方案和系统层的详细规定，编码码率从每秒3兆比特～100兆比特，标准的正式规范在ISO/IEC13818中。MPEG-2不是MPEG-1的简单升级，MPEG-2在系统和传送方面作了更加详细的规定和进一步的完善。MPEG-2特别适用于广播级的数字电视的编码和传送，被认定为SDTV和HDTV的编码标准。
MPEG-2图像压缩的原理是利用了图像中的两种特性：空间相关性和时间相关性。这两种相关性使得图像中存在大量的冗余信息。如果我们能将这些冗余信息去除，只保留少量非相关信息进行传输，就可以大大节省传输频带。而接收机利用这些非相关信息，按照一定的解码算法，可以在保证一定的图像质量的前提下恢复原始图像。一个好的压缩编码方案就是能够最大限度地去除图像中的冗余信息。
MPEG-2的编码图像被分为三类，分别称为I帧，P帧和B帧。
I帧图像采用帧内编码方式，即只利用了单帧图像内的空间相关性，而没有利用时间相关性。P帧和B帧图像采用帧间编码方式，即同时利用了空间和时间上的相关性。P帧图像只采用前向时间预测，可以提高压缩效率和图像质量。P帧图像中可以包含帧内编码的部分，即P帧中的每一个宏块可以是前向预测，也可以是帧内编码。B帧图像采用双向时间预测，可以大大提高压缩倍数。
MPEG-2的编码码流分为六个层次。为更好地表示编码数据，MPEG-2用句法规定了一个层次性结构。它分为六层，自上到下分别是：图像序列层、图像组(GOP)、图像、宏块条、宏块、块。
MPEG-2标准在广播电视领域中的主要应用如下：
（1）视音频资料的保存
一直以来，电视节目、音像资料等都是用磁带保存的。这种方式有很多弊端：易损，占地大，成本高，难于重新使用。更重要的是难以长期保存，难以查找、难以共享。随着计算机技术和视频压缩技术的发展，高速宽带计算机网络以及大容量数据存储系统给电视台节目的网络化存储、查询、共享、交流提供了可能。
采用MPEG-2压缩编码的DVD视盘，给资料保存带来了新的希望。电视节目、音像资料等可通过MPEG-2编码系统编码，保存到低成本的CD-R光盘或高容量的可擦写DVD-RAM上，也可利用DVD编着软件(如Daikin Scenarist NT、Spruce DVDMaestro等)制作成标准的DVD视盘，既可节约开支，也可节省存放空间。
（2）电视节目的非线性编辑系统及其网络
在非线性编辑系统中，节目素材是以数字压缩方式存储、制作和播出的, 视频压缩技术是非线性编辑系统的技术基础。目前主要有M-JPEG和MPEG-2两种数字压缩格式。
M-JPEG技术即运动静止图像（或逐帧）压缩技术，可进行精确到帧的编辑，但压缩效率不高。
MPEG-2采用帧间压缩的方式，只需进行I帧的帧内压缩处理，B帧和P帧通过侦测获得，因此，传输和运算的数据大多由帧之间的时间相关性得到，相对来说，数据量小，可以实现较高的压缩比。随着逐帧编辑问题的解决，MPEG-2将广泛应用于非线性编辑系统，并大大地降低编辑成本，同时MPEG-2的解压缩是标准的,不同厂家设计的压缩器件压缩的数据可由其他厂家设计解压缩器来解压缩,这一点保证了各厂家的设备之间能完全兼容。
由于采用MPEG-2 IBP视频压缩技术，数据量成倍减少，降低了存储成本，提高了数据传输速度，减少了对计算机总线和网络带宽的压力，可采用纯以太网组建非线性编辑网络系统已成为可能，而在目前以太网是最为成熟的网络，系统管理比较完善，价格也比较低廉。
基于MPEG-2的非线性编辑系统及非线性编辑网络将成为未来的发展方向。
（3）卫星传输
MPEG-2已经通过ISO认可，并在广播领域获得广泛的应用，如数字卫星视频广播(DVB-S)、DVD视盘和视频会议等。目前，全球有数以千万计的DVB-S用户，DVB-S信号采用MPEG-2压缩格式编码，通过卫星或微波进行传输，在用户端经MPEG-2卫星接收解码器解码，以供用户观看。此外，采用MPEG-2压缩编码技术，还可以进行远程电视新闻或节目的传输和交流。
（4）电视节目的播出
在整个电视技术中播出是一个承上启下的环节，对播出系统进行数字化改造是非常必要的，其中最关键一步就是构建硬盘播出系统。MPEG-2硬盘自动播出系统因编播简便、储存容量大、视频指标高等优点，而为人们所青睐。但以往MPEG-2播出设备因非常昂贵，而只有少量使用。随着MPEG-2技术的发展和相关产品成本的下降，MPEG-2硬盘自动系统播出可望得到普及。
3．MPEG-4标准
运动图像专家组MPEG 于1999年2月正式公布了MPEG-4（ISO/IEC14496）标准第一版本。同年年底MPEG-4第二版亦告底定，且于2000年年初正式成为国际标准。
MPEG-4与MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具体压缩算法，它是针对数字电视、交互式绘图应用（影音合成内容）、交互式多媒体（WWW、资料撷取与分散）等整合及压缩技术的需求而制定的国际标准。MPEG-4标准将众多的多媒体应用集成于一个完整的框架内，旨在为多媒体通信及应用环境提供标准的算法及工具，从而建立起一种能被多媒体传输、存储、检索等应用领域普遍采用的统一数据格式。
MPEG-4的编码理念是：MPEG-4标准同以前标准的最显着的差别在于它是采用基于对象的编码理念，即在编码时将一幅景物分成若干在时间和空间上相互联系的视频音频对象，分别编码后，再经过复用传输到接收端，然后再对不同的对象分别解码，从而组合成所需要的视频和音频。这样既方便我们对不同的对象采用不同的编码方法和表示方法，又有利于不同数据类型间的融合，并且这样也可以方便的实现对于各种对象的操作及编辑。例如，我们可以将一个卡通人物放在真实的场景中，或者将真人置于一个虚拟的演播室里，还可以在互联网上方便的实现交互，根据自己的需要有选择的组合各种视频音频以及图形文本对象。
MPEG-4系统的一般框架是：对自然或合成的视听内容的表示；对视听内容数据流的管理，如多点、同步、缓冲管理等；对灵活性的支持和对系统不同部分的配置。
与MPEG-1、MPEG-2相比，MPEG-4具有如下独特的优点：
（1）基于内容的交互性
MPEG-4提供了基于内容的多媒体数据访问工具，如索引、超级链接、上下载、删除等。利用这些工具，用户可以方便地从多媒体数据库中有选择地获取自己所需的与对象有关的内容，并提供了内容的操作和位流编辑功能，可应用于交互式家庭购物，淡入淡出的数字化效果等。MPEG-4提供了高效的自然或合成的多媒体数据编码方法。它可以把自然场景或对象组合起来成为合成的多媒体数据。
（2）高效的压缩性
MPEG-4基于更高的编码效率。同已有的或即将形成的其它标准相比，在相同的比特率下，它基于更高的视觉听觉质量，这就使得在低带宽的信道上传送视频、音频成为可能。同时MPEG-4还能对同时发生的数据流进行编码。一个场景的多视角或多声道数据流可以高效、同步地合成为最终数据流。这可用于虚拟三维游戏、三维电影、飞行仿真练习等
（3）通用的访问性
MPEG-4提供了易出错环境的鲁棒性，来保证其在许多无线和有线网络以及存储介质中的应用，此外，MPEG-4还支持基于内容的的可分级性，即把内容、质量、复杂性分成许多小块来满足不同用户的不同需求，支持具有不同带宽，不同存储容量的传输信道和接收端。
这些特点无疑会加速多媒体应用的发展，从中受益的应用领域有：因特网多媒体应用；广播电视；交互式视频游戏；实时可视通信；交互式存储媒体应用；演播室技术及电视后期制作；采用面部动画技术的虚拟会议；多媒体邮件；移动通信条件下的多媒体应用；远程视频监控；通过ATM网络等进行的远程数据库业务等。MPEG-4主要应用如下：
（1）应用于因特网视音频广播
由于上网人数与日俱增，传统电视广播的观众逐渐减少，随之而来的便是广告收入的减少，所以现在的固定式电视广播最终将转向基于TCP/IP的因特网广播，观众的收看方式也由简单的遥控器选择频道转为网上视频点播。视频点播的概念不是先把节目下载到硬盘，然后再播放，而是流媒体视频（streaming video），点击即观看，边传输边播放。
现在因特网中播放视音频的有：Real Networks公司的 Real Media，微软公司的 Windows Media，苹果公司的 QuickTime，它们定义的视音频格式互不兼容，有可能导致媒体流中难以控制的混乱，而MPEG-4为因特网视频应用提供了一系列的标准工具，使视音频码流具有规范一致性。因此在因特网播放视音频采用MPEG-4，应该说是一个安全的选择。
（2）应用于无线通信
MPEG-4高效的码率压缩，交互和分级特性尤其适合于在窄带移动网上实现多媒体通信，未来的手机将变成多媒体移动接收机，不仅可以打移动电视电话、移动上网，还可以移动接收多媒体广播和收看电视。
（3）应用于静止图像压缩
静止图像（图片）在因特网中大量使用，现在网上的图片压缩多采用JPEG技术。MPEG-4中的静止图像（纹理）压缩是基于小波变换的，在同样质量条件下，压缩后的文件大小约是JPEG压缩文件的十分之一。把因特网上使用的JPEG图片转换成MPEG-4格式，可以大幅度提高图片在网络中的传输速度。
（4）应用于电视电话
传统用于窄带电视电话业务的压缩编码标准，如H261，采用帧内压缩、帧间压缩、减少象素和抽帧等办法来降低码率，但编码效率和图像质量都难以令人满意。MPEG-4的压缩编码可以做到以极低码率传送质量可以接受的声像信号，使电视电话业务可以在窄带的公用电话网上实现。
（5）应用于计算机图形、动画与仿真
MPEG-4特殊的编码方式和强大的交互能力，使得基于MPEG-4的计算机图形和动画可以从各种来源的多媒体数据库中获取素材，并实时组合出所需要的结果。因而未来的计算机图形可以在MPEG-4语法所允许的范围内向所希望的方向无限发展，产生出今天无法想象的动画及仿真效果。
（6）应用于电子游戏
MPEG-4可以进行自然图像与声音同人工合成的图像与声音的混合编码，在编码方式上具有前所未有的灵活性，并且能及时从各种来源的多媒体数据库中调用素材。这可以在将来产生象电影一样的电子游戏，实现极高自由度的交互式操作。
（三）H.264
H.264是ITU-T的VCEG（视频编码专家组）和ISO/IEC的MPEG（活动图像编码专家组）的联合视频组（JVT：joint video team）开发的一个新的数字视频编码标准，它既是ITU-T的H.264，又是ISO/IEC的MPEG-4的第10 部分。1998年1月份开始草案征集，1999年9月，完成第一个草案，2001年5月制定了其测试模式TML-8，2002年6月的 JVT第5次会议通过了H.264的FCD板。2003年3月正式发布。
H.264和以前的标准一样，也是DPCM加变换编码的混合编码模式。但它采用回归基本的简洁设计，不用众多的选项，获得比H.263++好得多的压缩性能；加强了对各种信道的适应能力，采用网络友好的结构和语法，有利于对误码和丢包的处理；应用目标范围较宽，以满足不同速率、不同分辨率以及不同传输（存储）场合的需求；它的基本系统是开放的，使用无需版权。
在技术上，H.264标准中有多个闪光之处，如统一的VLC符号编码，高精度、多模式的位移估计，基于4×4块的整数变换、分层的编码语法等。这些措施使得H.264算法具有很的高编码效率，在相同的重建图像质量下，能够比H.263节约50%左右的码率。H.264的码流结构网络适应性强，增加了差错恢复能力，能够很好地适应IP和无线网络的应用。 H.264的算法在概念上可以分为两层：视频编码层（VCL：Video Coding Layer）负责高效的视频内容表示，网络提取层（NAL：Network Abstraction Layer）负责以网络所要求的恰当的方式对数据进行打包和传送。在VCL和NAL之间定义了一个基于分组方式的接口，打包和相应的信令属于NAL的一部分。这样，高编码效率和网络友好性的任务分别由VCL和NAL来完成。
VCL层包括基于块的运动补偿混合编码和一些新特性。与前面的视频编码标准一样，H.264没有把前处理和后处理等功能包括在草案中，这样可以增加标准的灵活性。
NAL负责使用下层网络的分段格式来封装数据，包括组帧、逻辑信道的信令、定时信息的利用或序列结束信号等。例如，NAL支持视频在电路交换信道上的传输格式，支持视频在Internet上利用RTP/UDP/IP传输的格式。NAL包括自己的头部信息、段结构信息和实际载荷信息，即上层的VCL数据。（如果采用数据分割技术，数据可能由几个部分组成）。 H.264支持1/4或1/8像素精度的运动矢量。在1/4像素精度时可使用6抽头滤波器来减少高频噪声，对于1/8像素精度的运动矢量，可使用更为复杂的8抽头的滤波器。在进行运动估计时，编码器还可选择增强内插滤波器来提高预测的效果。
在H.264的运动预测中，一个宏块（MB）可以按图2被分为不同的子块，形成7种不同模式的块尺寸。这种多模式的灵活和细致的划分，更切合图像中实际运动物体的形状，大大提高了运动估计的精确程度。在这种方式下，在每个宏块中可以包含有1、2、4、8或16个运动矢量。
在H.264中，允许编码器使用多于一帧的先前帧用于运动估计，这就是所谓的多帧参考技术。例如2帧或3帧刚刚编码好的参考帧，编码器将选择对每个目标宏块能给出更好的预测帧，并为每一宏块指示是哪一帧被用于预测。 H.264与先前的标准相似，对残差采用基于块的变换编码，但变换是整数操作而不是实数运算，其过程和DCT基本相似。这种方法的优点在于：在编码器中和解码器中允许精度相同的变换和反变换，便于使用简单的定点运算方式。也就是说，这里没有反变换误差。变换的单位是4×4块，而不是以往常用的8×8块。由于用于变换块的尺寸缩小，运动物体的划分更精确，这样，不但变换计算量比较小，而且在运动物体边缘处的衔接误差也大为减小。为了使小尺寸块的变换方式对图像中较大面积的平滑区域不产生块之间的灰度差异，可对帧内宏块亮度数据的16个4×4块的DC系数（每个小块一个，共16个）进行第二次4×4块的变换，对色度数据的4个4×4块的DC系数（每个小块一个，共4个）进行2×2块的变换。
H.264为了提高码率控制的能力，量化步长的变化的幅度控制在12.5%左右，而不是以不变的增幅变化。变换系数幅度的归一化被放在反量化过程中处理以减少计算的复杂性。为了强调彩色的逼真性，对色度系数采用了较小量化步长。在先前的H.26x系列和MPEG-x系列标准中，都是采用的帧间预测的方式。在H.264中，当编码Intra图像时可用帧内预测。对于每个4×4块（除了边缘块特别处置以外），每个像素都可用17个最接近的先前已编码的像素的不同加权和（有的权值可为0）来预测，即此像素所在块的左上角的17个像素。显然，这种帧内预测不是在时间上，而是在空间域上进行的预测编码算法，可以除去相邻块之间的空间冗余度，取得更为有效的压缩。
如图4所示，4×4方块中a、b、...、p为16 个待预测的像素点，而A、B、...、P是已编码的像素。如m点的值可以由（J+2K+L+2）/ 4 式来预测，也可以由（A+B+C+D+I+J+K+L）/ 8 式来预测，等等。按照所选取的预测参考的点不同，亮度共有9类不同的模式，但色度的帧内预测只有4类模式。 H.264 草案中包含了用于差错消除的工具，便于压缩视频在误码、丢包多发环境中传输，如移动信道或IP信道中传输的健壮性。
为了抵御传输差错，H.264视频流中的时间同步可以通过采用帧内图像刷新来完成，空间同步由条结构编码（slice structured coding）来支持。同时为了便于误码以后的再同步，在一幅图像的视频数据中还提供了一定的重同步点。另外，帧内宏块刷新和多参考宏块允许编码器在决定宏块模式的时候不仅可以考虑编码效率，还可以考虑传输信道的特性。
除了利用量化步长的改变来适应信道码率外，在H.264中，还常利用数据分割的方法来应对信道码率的变化。从总体上说，数据分割的概念就是在编码器中生成具有不同优先级的视频数据以支持网络中的服务质量QoS。例如采用基于语法的数据分割（syntax-based data partitioning）方法，将每帧数据的按其重要性分为几部分，这样允许在缓冲区溢出时丢弃不太重要的信息。还可以采用类似的时间数据分割（temporal data partitioning）方法，通过在P帧和B帧中使用多个参考帧来完成。
在无线通信的应用中，我们可以通过改变每一帧的量化精度或空间/时间分辨率来支持无线信道的大比特率变化。可是，在多播的情况下，要求编码器对变化的各种比特率进行响应是不可能的。因此，不同于MPEG-4中采用的精细分级编码FGS（Fine Granular Scalability）的方法（效率比较低），H.264采用流切换的SP帧来代替分级编码。
四、H.264的性能比较
TML-8为H.264的测试模式，用它来对H.264的视频编码效率进行比较和测试。测试结果所提供的PSNR已清楚地表明，相对于MPEG-4（ASP：Advanced Simple Profile）和H.263++（HLP：High Latency Profile）的性能，H.264的结果具有明显的优越性。
H.264的PSNR比MPEG-4（ASP）和H.263++（HLP）明显要好，在6种速率的对比测试中，H.264的PSNR比MPEG-4（ASP）平均要高2dB，比H.263（HLP）平均要高3dB。6个测试速率及其相关的条件分别为：32 kbit/s速率、10f/s帧率和QCIF格式；64 kbit/s速率、15f/s帧率和QCIF格式；128kbit/s速率、15f/s帧率和CIF格式；256kbit/s速率、15f/s帧率和QCIF格式；512 kbit/s速率、30f/s帧率和CIF格式；1024 kbit/s速率、30f/s帧率和CIF格式。

㈣视频编码的技术

监控中主要采用MJPEG、MPEG1/2、MPEG4(SP/ASP）、H.264/AVC、VC-1、RealVideo等几种视频编码技术。对于最终用户来言他最为关心的主要有：清晰度、存储量（带宽）、稳定性还有价格。采用不同的压缩技术，将很大程度影响以上几大要素。
MJPEG
MJPEG（Motion JPEG）压缩技术，主要是基于静态视频压缩发展起来的技术，它的主要特点是基本不考虑视频流中不同帧之间的变化，只单独对某一帧进行压缩。
MJPEG压缩技术可以获取清晰度很高的视频图像，可以动态调整帧率、分辨率。但由于没有考虑到帧间变化，造成大量冗余信息被重复存储，因此单帧视频的占用空间较大，流行的MJPEG技术监控与视频编码最好的也只能做到3K字节/帧，通常要8~20K！
MPEG-1/2
MPEG-1标准主要针对SIF标准分辨率(NTSC制为352X240；PAL制为352X288）的图像进行压缩. 压缩位率主要目标为1.5Mb/s.较MJPEG技术，MPEG1在实时压缩、每帧数据量、处理速度上有显着的提高。但MPEG1也有较多不利地方：存储容量还是过大、清晰度不够高和网络传输困难。
MPEG-2 在MPEG-1基础上进行了扩充和提升，和MPEG-1向下兼容，主要针对存储媒体、数字电视、高清晰等应用领域，分辨率为：低（352x288），中（720x480），次高（1440x1080），高（1920x1080）。MPEG-2视频相对MPEG-1提升了分辨率，满足了用户高清晰的要求，但由于压缩性能没有多少提高，使得存储容量还是太大，也不适合网络传输。
MPEG-4
MPEG-4视频压缩算法相对于MPEG-1/2在低比特率压缩上有着显着提高，在CIF（352*288）或者更高清晰度（768*576）情况下的视频压缩，无论从清晰度还是从存储量上都比MPEG1具有更大的优势，也更适合网络传输。另外MPEG-4可以方便地动态调整帧率、比特率，以降低存储量。
MPEG-4由于系统设计过于复杂，使得MPEG-4难以完全实现并且兼容，很难在视频会议、可视电话等领域实现，这一点有点偏离原来地初衷。另外对于中国企业来说还要面临高昂的专利费问题，规定：
－每台解码设备需要交给MPEG-LA 0.25美元。
－编码/解码设备还需要按时间交费（4美分/天=1.2美元/月 =14.4美元/年）。
H.264/AVC
视频压缩国际标准主要有由ITU-T制定的H.261、H.262、H.263、H.264和由MPEG制定的MPEG-1、MPEG-2、MPEG-4，其中H.262/MPEG-2和H.264/MPEG-4 AVC由ITU-T与MPEG联合制定。
从简单来说H.264就是一种视频编码技术，与微软的WMV9都属于同一种技术也就是压缩动态图像数据的“编解码器”程序。
一般来说，如果动态图像数据未经压缩就使用的话，数据量非常大，容易造成通信线路故障及数据存储容量紧张。因此，在发送动态图像时、或者把影像内容保存在DVD上时、以及使用存储介质容量较小的数码相机或相机手机拍摄映像时，就必须使用编解码器。虽然编解码器有许多种类，但DVD-Video与微波数字电视等使用的主要是MPEG2，数码相机等摄像时主要使用MPEG4。
既然作为压缩视频编码技术，H.264最大的作用对视频的压缩了。我们熟悉的MPEG2也就是最常用的DVD视频编码技术已经比较落后。
对于最希望看到的HDTV的节目如果播放时间在2小时左右的话，使用MPEG2最小只能压缩至30GB，而使用H.264、WMV9这样的高压缩率编解码器，在画质丝毫不降的前提下可压缩到15GB以下。
上面的例子可以看出H.264的技术优势了，一般来说H.264的数据压缩率在MPEG2的2倍以上、MPEG4的1.5倍以上。从理论上来说，在相同画质、相同容量的情况下，可比DVD光盘多保存2倍以上时间的影像。作为电影与音乐会等映像内容与便携设备的编解码器被广泛使用。
大家是否都能记得当年的视频解压卡，也就是我们说的DVD/VCD解压缩卡，这个东西的原理很简单，就是板卡上安装了DSP芯片，而这个芯片唯一的功能就是用来针对特殊格式的编码进行解压缩，当后来显卡的性能逐渐增强可以满足视频播放需要的时候，视频解压缩卡也就消失的不见了。
而ATI的做法就是最新的R520 VPU内就包含了H.264解码技术，这种特殊的算法直接交给显卡VPU来运算，而不是完全交给CPU处理，这样就可以解放出CPU进行更多其他复杂的运算。
H.264集中了以往标准的优点，在许多领域都得到突破性进展，使得它获得比以往标准好得多整体性能：
－和H.263+和MPEG-4 SP相比最多可节省50%的码率，使存储容量大大降低；
－ H.264在不同分辨率、不同码率下都能提供较高的视频质量；
－采用“网络友善”的结构和语法，使其更有利于网络传输。
H.264采用简洁设计，使它比MPEG4更容易推广，更容易在视频会议、视频电话中实现，更容易实现互连互通，可以简便地和G.729等低比特率语音压缩组成一个完整的系统。
MPEG LA吸收MPEG-4的高昂专利费而使它难以推广的教训，MPEG LA制定了以下低廉的H.264收费标准：H.264广播时基本不收费；产品中嵌入H.264编/解码器时，年产量10万台以下不收取费，超过10万台每台收取0.2美元，超过500万台每台收取0.1美元。低廉的专利费使得中国H.264监控产品更容易走向世界。
H.264发展历史
随着NGN、3G及3G演进和NGBW等对视频、多媒体业务与网络应用的飞速发展需求，作为视频业务及存储应用核心技术的高效率视频数字压缩编技术，愈来愈引起人们的关注，成为广播、视频与多媒体通信领域中的亮点与热点，这其中H.264视频编码标准更是耳熟能详的一个名字。
早在1993年，ITU-T（国际电信联盟电信标准化部门）制定了第一个视频编码标准H.261，其输出速率为p*64 kbit/s，主要用于ISDN及ATM等准宽带及宽带信道视频。随着时间的不断发展，经历了1996年的H.263，1998年的H.263+，2000年的H.263++，到了2001年，MPEG认识到H.26L的潜在优势及与VCEG联合工作的必要性，从而两者合作成立联合视频组（JVT），从而形成了2003年第二季度发布的统一标准H.264/AVC。该标准在ITU-T称为H.264；在ISO/IEC则称为MPEG4-Part 10 AVC（Advanced Video Coding，第10部分，先进视频编码），这也就是今天我们大家都津津乐道的H.264/AVC。
与先前的一些编码标准相比，H.264标准继承了H.263和MPEG1/2/4视频标准协议的优点，但在结构上并没有变化，只是在各个主要的功能模块内部使用了一些先进的技术，提高了编码效率。其主要表现在：编码不再是基于8×8的块进行，而是在4×4大小的块上，进行残差的变换编码。所采用的变换编码方式也不再是DCT变换，而是一种整数变换编码。采用了编码效率更高的上下文自适应二进制算术编码（CABAC），同时与之相应的量化过程也有区别。H.264标准具有算法简单易于实现、运算精度高且不溢出、运算速度快、占用内存小、消弱块效应等优点，是一种更为实用有效的图像编码标准。
H.264/AVC在压缩编码效率、视频内容自适性处理能力方面及网络层面，特别是对IP网络及移动网络的自适应处理能力、抗干扰能力与顽健性等方面，相比H.263/MPEG-4均有大幅度提高，也就造成了H.264被热炒的局面。应该说，H.264/AVC的应用确属相当广泛，包括固定或移动的可视电话、移动电话、实时视频会议、视频监控、流媒体、多媒体视频、Internet视频及多媒体、IPTV、手机电视、宽带电话以及视频信息存储等，这也是业内普遍看好它的重要原因。

㈤视频的编码方式有哪些与格式一样吗

视频格式是指视频文件的存在形式，比如AVI、RMVB、MKV等等，也可以说是封装压缩视频和音频文件的容器。

音频数字化主要有压缩与非压缩两种方式。较早出现的数字音频播放机，如CD唱机和DAT录音机，均采用线性PCM编码来存储音乐信号，为非压缩方式。在高质量要求的音频工作站和数字录像机（如DVCPRO）上，也采用非压缩的格式。

音视频编码：

我们常见的MPEG、Dolby Digital、DTS等则为压缩方式。压缩分为有损压缩和无损压缩。有损压缩的目的是提高压缩率，降低占用系统资源。可以根据实际需要选用不同的采样速率、样本分辨率（精度）和数据率。

数字卫星广播系统的信源编码技术采用MPEG-2.5第三层声音编码算法。第三层编码算法最复杂、延时最大、效率最高。因此对一定的数据速率，第三层协议得到的音质最好。当然，用户可根据需要选择8—128Kbps范围的不同速率。声音质量可达到CD音质。

㈥什么是视频编码的算法它有哪几种典型的算法试比较各种典型的视频编码算法。谢谢了！

1、无声时代的FLC
FLC、FLI是Autodesk开发的一种视频格式，仅仅支持256色，但支持色彩抖动技术，因此在很多情况下很真彩视频区别不是很大，不支持音频信号，现在看来这种格式已经毫无用处，但在没有真彩显卡没有声卡的DOS时代确实是最好的也是唯一的选择。最重要的是，Autodesk的全系列的动画制作软件都提供了对这种格式的支持，包括着名的3D Studio X，因此这种格式代表了一个时代的视频编码水平。直到今日，仍旧有不少视频编辑软件可以读取和生成这种格式。但毕竟廉颇老矣，这种格式已经被无情的淘汰。

2、载歌载舞的AVI
AVI——Audio Video Interleave，即音频视频交叉存取格式。1992年初Microsoft公司推出了AVI技术及其应用软件VFW（Video for Windows）。在AVI文件中，运动图像和伴音数据是以交织的方式存储，并独立于硬件设备。这种按交替方式组织音频和视像数据的方式可使得读取视频数据流时能更有效地从存储媒介得到连续的信息。构成一个AVI文件的主要参数包括视像参数、伴音参数和压缩参数等。AVI文件用的是AVI RIFF形式，AVI RIFF形式由字串“AVI”标识。所有的AVI文件都包括两个必须的LIST块。这些块定义了流和数据流的格式。AVI文件可能还包括一个索引块。
只要遵循这个标准，任何视频编码方案都可以使用在AVI文件中。这意味着AVI有着非常好的扩充性。这个规范由于是由微软制定，因此微软全系列的软件包括编程工具VB、VC都提供了最直接的支持，因此更加奠定了AVI在PC上的视频霸主地位。由于AVI本身的开放性，获得了众多编码技术研发商的支持，不同的编码使得AVI不断被完善，现在几乎所有运行在PC上的通用视频编辑系统，都是以支持AVI为主的。AVI的出现宣告了PC上哑片时代的结束，不断完善的AVI格式代表了多媒体在PC上的兴起。
说到AVI就不能不提起英特尔公司的Indeo video系列编码，Indeo编码技术是一款用于PC视频的高性能的、纯软件的视频压缩/解压解决方案。Indeo音频软件能提供高质量的压缩音频，可用于互联网、企业内部网和多媒体应用方案等。它既能进行音乐压缩也能进行声音压缩，压缩比可达8:1而没有明显的质量损失。Indeo技术能帮助您构建内容更丰富的多媒体网站。目前被广泛用于动态效果演示、游戏过场动画、非线性素材保存等用途，是目前使用最广泛的一种AVI编码技术。现在Indeo编码技术及其相关软件产品已经被Ligos Technology 公司收购。随着MPEG的崛起，Indeo面临着极大的挑战。

3、容量与质量兼顾的MPEG系列编码
和AVI相反，MPEG不是简单的一种文件格式，而是编码方案。
MPEG-1（标准代号ISO/IEC11172）制定于1991年底，处理的是标准图像交换格式（standard interchange format，SIF）或者称为源输入格式（Source Input Format，SIF）的多媒体流。是针对1.5Mbps以下数据传输率的数字存储媒质运动图像及其伴音编码（MPEG-1 Audio,标准代号ISO/IEC 11172-3）的国际标准,伴音标准后来衍生为今天的MP3编码方案。MPEG-1规范了PAL制（352*288，25帧/S）和NTSC制（为352*240，30帧/S）模式下的流量标准，提供了相当于家用录象系统（VHS）的影音质量，此时视频数据传输率被压缩至1.15Mbps,其视频压缩率为26∶1。使用MPEG-1的压缩算法，可以把一部120分钟长的多媒体流压缩到1.2GB左右大小。常见的VCD就是MPEG-1编码创造的杰作。MPEG-1编码也不一定要按PAL/NTSC规范的标准运行，你可以自由设定影像尺寸和音视频流量。随着光头拾取精度的提高，有人把光盘的信息密度加大，并适度降低音频流流量，于是出现了只要一张光盘就存放一部电影的DVCD。DVCD碟其实是一种没有行业标准，没有国家标准，更谈不上是国际标准的音像产品。
当VCD开始向市场普及时，电脑正好进入了486时代，当年不少朋友都梦想拥有一块硬解压卡，来实现在PC上看VCD的夙愿，今天回过头来看看，觉得真有点不可思议，但当时的现状就是486的系统不借助硬解压是无法流畅播放VCD的，上万元的486系统都无法流畅播放的MPEG-1被打上了贵族的标志。随着奔腾的发布，PC开始奔腾起来，直到后来Windows Media Player也直接提供了MPEG-1的支持，至此MPEG-1使用在PC上已经完全无障碍了。
MPEG-2（标准代号IOS/IEC13818）于1994年发布国际标准草案（DIS），在视频编码算法上基本和MPEG-1相同，只是有了一些小小的改良，例如增加隔行扫描电视的编码。它追求的是大流量下的更高质量的运动图象及其伴音效果。MPEG-2的视频质量看齐PAL或NTSC的广播级质量，事实上MPEG-1也可以做到相似效果，MPEG-2更多的改进来自音频部分的编码。目前最常见的MPEG-2相关产品就是DVD了，SVCD也是采用的MPEG-2的编码。MPEG-2还有一个更重要的用处，就是让传统的电视机和电视广播系统往数码的方向发展。
MPEG-3最初为HDTV制定，由于MPEG-2的快速发展，MPEG-3还未彻底完成便宣告淘汰。
MPEG-4于1998年公布，和MPEG-2所针对的不同，MPEG-4追求的不是高品质而是高压缩率以及适用于网络的交互能力。MPEG-4提供了非常惊人的压缩率，如果以VCD画质为标准，MPEG-4可以把120分钟的多媒体流压缩至300M。MPEG-4标准主要应用于视像电话(Video Phone)，视像电子邮件(Video Email)和电子新闻(Electronic News)等，其传输速率要求较低，在4800-64000bits/sec之间，分辨率为176X144。MPEG-4利用很窄的带宽，通过帧重建技术，压缩和传输数据，以求以最少的数据获得最佳的图象质量。
MJPEG，这并不是专门为PC准备的，而是为专业级甚至广播级的视频采集与在设备端回放的准备的，所以MJPEG包含了为传统模拟电视优化的隔行扫描电视的算法，如果在PC上播放MJPEG编码的文件，效果会很难看（如果你的显卡不支持MJPEG的动态补偿），但一旦输出到电视机端，你立刻会发现这种算法的好处。

4、属于网络的流媒体
RealNetworks RealVideo，采用的是 RealNetworks 公司自己开发的 Real G2 Codec，它具有很多先进的设计，例如，SVT （Scalable Video Technology）；双向编码（Two—Encoding，类似于VBR）。RealMedia 音频部分采用的是 RealAudio ，可以接纳很多音频编码方案，可实现声音在单声道、立体声音乐不同速率下的压缩。最新的RealAudio竟然采用ATRAC3编码方案，以挑战日益成熟的MP3。
Windows Media，视频编码采用的是非常先进的 MPEG-4 视频压缩技术，被称作 Microsoft MPEG-4 Video Codec，音频编码采用的是微软自行开发的一种编码方案，目前没有公布技术资料，在低流量下提供了令人满意的音质和画质。最新的Windows Media Encoding Utility V8.0将流技术推向到一个新的高度，我们常见的ASF、WMV、WMA就是微软的流媒体文件。
事实上我们常见的MPG文件，也具有流媒体的最大特征——边读边放。

二、常见的编码与常见的文件格式的对应关系及其常用用途

1、Audodesk FLC
这是一种古老的编码方案，常见的文件后缀为FLC和FLI。由于FLC仅仅支持256色的调色板，因此它会在编码过程中尽量使用抖动算法（也可以设置不抖动），以模拟真彩的效果。这种算法在色彩值差距不是很大的情况下几乎可以达到乱真的地步，例如红色A（R:255,G:0,B:0）到红色B（R:255,G:128,B:0）之间的抖动。这种格式现在已经很少被采用了，但当年很多这种格式被保留下来，这种格式在保存标准256色调色板或者自定义256色调色板是是无损的，这种格式可以清晰到像素，非常适合保存线框动画，例如CAD模型演示。现在这种格式很少见了。

2、Microsoft RLE
这是微软开发为AVI格式开发的一种编码，文件扩展名为AVI，使用了RLE压缩算法，这是一种无损的压缩算法，我们常见的tga格式的图像文件就使用了RLE算法。
什么是RLE算法呢？这是一种很简单的算法，举一个很简单的例子：
假设一个图像的像素色彩值是这样排列的：红红红红红红红红红红红红蓝蓝蓝蓝蓝蓝绿绿绿绿，经过RLE压缩后就成为了：红12蓝6绿4。这样既保证了压缩的可行性，而且不会有损失。而且可以看到，但颜色数越少时，压缩效率会更高。由于Microsoft RLE仅仅支持256色，而且没有抖动算法，在色彩处理方面，FLC明显的比Microsoft RLE要好很多。当然这也不表示Microsoft RLE一无是处，和FLC一样，Microsoft RLE在处理相邻像素时也没有色染，可以清晰的表现网格。因此同样可以优秀的表现单色字体和线条。只要色彩不是很复杂，FLC能做的，Microsoft RLE也可以做到。由于AVI可以拥有一个音频流，而且Windows系统给与了直接的支持，Microsoft RLE最常用的用途是，在256色显示模式下，通过配合抓屏生成AVI的工具制作一个软件的操作演示过程，以达到图文并茂，形声兼备的效果。

3、Microsoft Video1
这也是由微软提供的一个AVI编码，任何Windows系统都自带了了它的Codec，这个编码支持真彩，画面质量很不错，Microsoft Video1的压缩效率非常低下，编码后的文件庞大得让人受不了。这个Microsoft Video1究竟有什么用呢？一般被用在保存一些没有渐变的小型视频素材方面。

4、Indeo video R3.2
这个编码由intel架构实验室开发，对应的文件格式是AVI，相对之前的流行的编码，Indeo video R3.2最大的特点就是高压缩比（当然，比起现在的压缩方案，实在是不值得一提），intel声称压缩比可达8:1而没有明显的质量损失，解码速度也非常快，对系统要求不高，由于Windows9X中自带Indeo video R3.2的Codec，所以Indeo video R3.2一度成为了最流行的AVI编码方案。有不少游戏的过场动画和启动动画都是Indeo video R3.2编码的。Indeo video R3.2同样不适合高要求的环境，在要表现细线条或大色彩值变化的渐变时，Indeo video R3.2会表现得非常糟糕。如果画面的色彩值差异不是很大，也没有明显的色彩区域界限，Indeo video R3.2还是合适的，例如海天一色的场景。Indeo video R3.2已经基本被淘汰，如果不是为了播放以前遗留的一些Indeo video R3.2编码视频，恐怕Windows ME/2000都不会有Indeo video R3.2的Codec了。

5、Indeo video 5.10
这个编码方案同样也是intel架构实验室开发的，它继承了Indeo video R3.2的优点，对应的文件格式仍然是AVI，解码速度同样非常快。Windows ME/2000自带了Indeo video 5.1的Codec，很多游戏也适用Indeo video 5.10来编码自己的演示动画。在没有DivX普及前，这几乎是最流行的AVI编码了，由于微软和intel的同时支持，这种编码方案被广泛采用。

6、None
顾名思义，这是一个没有损失的视频编码方案，对应的文件扩展名为AVI。这种编码几乎是不压缩的，文件大得惊人！那么这种编码有什么用途呢？用途就是保存视频素材，因为是无损的，保存素材非常合适，代价就是大量的存储空间。

7、MPEG1
我们熟知的VCD就是MPEG1编码的，对应的文件扩展名为MPG、MPEG或者DAT。事实上MPEG1可以工作于非PAL制和非NTSC制标准下。它可以自由设置数据流量和画面尺寸，只是这样非标准的文件无法直接刻录成VCD。

8、MPEG2
DVD的视频部分就是采用的MPEG2，SVCD同样也采用了MPEG2编码。对应的文件扩展名一般为VOB、MPG。MPEG2的设计目标就是提供接近广播级的高品质输出。

9、DivX
DivX是近2年开始被大家认识的，DivX 视频编码技术可以说是一种对 DVD 造成威胁的新生视频压缩格式（有人说它是 DVD 杀手）对应的文件扩展名为AVI或者DivX，它由 Microsoft mpeg-4v3 修改而来，使用 MPEG-4 压缩算法。据说是美国禁止出口的编码技术。DivX最大的特点就是高压缩比和不错的画质，更可贵的是，DivX的对系统要求也不高，只要主频300的CPU就基本可以很流畅的播放了，因此从DivX诞生起，立刻吸引了大家的注意力。DivX拥有比Indeo video 5.10高太多的压缩效率，编码质量也远远比Indeo video 5.10好，我实在想不出Indeo video 5.10还会有什么前途。

10、PICVideo MJPEG
MJPEG是很多视频卡支持的一种视频编码，随卡提供了Codec，安装完成后可以象使用其它编码一样生成AVI文件。MJPEG编码常用于非线性系统，批上了一层很专业的外衣。MJPEG的编码质量是相当高的，是一种以质量为最高要求的编码，这种编码的设置比较复杂，可以得到很高的压缩比，但牺牲了解码速度，如果要保证解码速度，编码后的压缩比确不是很理想，如果您希望从专业的非线性系统上捕捉视频，然后自行进行处理，这种格式是很有必要去了解一些的。

11、RealNetworks RealVideo
REAL VIDEO（RA、RAM）格式由Real Networks公司开发的，一开始就定位在视频流应用方面的，也可以说是视频流技术的始创者。它可以在用 56K MODEM 拨号上网的条件实现不间断的视频播放。从RealVideo的定位来看，就是牺牲画面质量来换取可连续观看性。其实RealVideo也可以实现不错的画面质量，由于RealVideo可以拥有非常高的压缩效率，很多人把VCD编码成RealVideo格式的，这样一来，一张光盘上可以存放好几部电影。REAL VIDEO存在颜色还原不准确的问题，RealVideo就不太适合专业的场合，但RealVideo出色的压缩效率和支持流式播放的特征，使得RealVideo在网络和娱乐场合占有不错的市场份额。

12、Windows Media video
Windows Media video就是微软为了和现在的Real Networks的RealVideo竞争而发展出来的一种可以直接在网上观看视频节目的文件压缩格式！由于它使用了MPEG4的压缩算法，所以压缩率和图像的质量都很不错。我们经常看到的ASF和WMV就是Windows Media video。Windows Media video的编码质量明显好于RealVideo，因为Windows Media video是微软的杰作，所以Windows系统给Windows Media video给与了很好的支持，Windows Media Player可以直接播放这些文件。

各种主流音频编码（或格式）的介绍

1、PCM编码
PCM 脉冲编码调制是Pulse Code Molation的缩写。前面的文字我们提到了PCM大致的工作流程，我们不需要关心PCM最终编码采用的是什么计算方式，我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好，最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码，一张光盘的容量只能容纳72分钟的音乐信息。

2、WAVE
这是一种古老的音频文件格式，由微软开发。WAV是一种文件格式，符合 PIFF Resource Interchange File Format规范。所有的WAV都有一个文件头，这个文件头音频流的编码参数。WAV对音频流的编码没有硬性规定，除了PCM之外，还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。很多朋友没有这个概念，我们拿AVI做个示范，因为AVI和WAV在文件结构上是非常相似的，不过AVI多了一个视频流而已。我们接触到的AVI有很多种，因此我们经常需要安装一些Decode才能观看一些AVI，我们接触到比较多的DivX就是一种视频编码，AVI可以采用DivX编码来压缩视频流，当然也可以使用其他的编码压缩。同样，WAV也可以使用多种音频编码来压缩其音频流，不过我们常见的都是音频流被PCM编码处理的WAV，但这不表示WAV只能使用PCM编码，MP3编码同样也可以运用在WAV中，和AVI一样，只要安装好了相应的Decode，就可以欣赏这些WAV了。
在Windows平台下，基于PCM编码的WAV是被支持得最好的音频格式，所有音频软件都能完美支持，由于本身可以达到较高的音质的要求，因此，WAV也是音乐编辑创作的首选格式，适合保存音乐素材。因此，基于PCM编码的WAV被作为了一种中介的格式，常常使用在其他编码的相互转换之中，例如MP3转换成WMA。

3、 MP3编码
请参阅 MP3全攻略一文

4、OGG编码
网络上出现了一种叫Ogg Vorbis的音频编码，号称MP3杀手！Ogg Vorbis究竟什么来头呢？OGG是一个庞大的多媒体开发计划的项目名称，将涉及视频音频等方面的编码开发。整个OGG项目计划的目的就是向任何人提供完全免费多媒体编码方案！OGG的信念就是：OPEN！FREE！Vorbis这个词汇是特里·普拉特柴特的幻想小说《Small Gods》中的一个"花花公子"人物名。这个词汇成为了OGG项目中音频编码的正式命名。目前Vorbis已经开发成功，并且开发出了编码器。
Ogg Vorbis是高质量的音频编码方案，官方数据显示：Ogg Vorbis可以在相对较低的数据速率下实现比MP3更好的音质！Ogg Vorbis这种编码也远比90年代开发成功的MP3先进，她可以支持多声道，这意味着什么？这意味着Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓轨软件（目前这种软件还没有）的支持下，可以对所有的声道进行编码，而不是MP3只能编码2个声道。多声道音乐的兴起，给音乐欣赏带来了革命性的变化，尤其在欣赏交响时，会带来更多临场感。这场革命性的变化是MP3无法适应的。
和MP3一样，Ogg Vorbis是一种灵活开放的音频编码，能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。因此，它的声音质量将会越来越好，和MP3相似，Ogg Vorbis更像一个音频编码框架，可以不断导入新技术逐步完善。和MP3一样，OGG也支持VBR。

5、MPC 编码
MPC是又是另外一个令人刮目相看的实力派选手，它的普及过程非常低调，也没有什么复杂的背景故事，她的出现目的就只有一个，更小的体积更好的音质！MPC以前被称作MP+，很显然，可以看出她针对的竞争对手是谁。但是，只要用过这种编码的人都会有个深刻的印象，就是她出众的音质。

6、mp3PRO 编码
2001年6月14日，美国汤姆森多媒体公司(Thomson Multimedia SA)与佛朗赫弗协会(Fraunhofer Institute)于6月14日发布了一种新的音乐格式版本，名称为mp3PRO，这是一种基于mp3编码技术的改良方案，从官方公布的特征看来确实相当吸引人。从各方面的资料显示，mp3PRO并不是一种全新的格式，完全是基于传统mp3编码技术的一种改良，本身最大的技术亮点就在于SBR（Spectral Band Replication 频段复制），这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码，与传统的编码技术不同的是，SBR更像是一种后处理技术，因此解码器的算法的优劣直接影响到音质的好坏。高频实际上是由解码器（播放器）产生的，SBR编码的数据更像是一种产生高频的命令集，或者称为指导性的信号源，这有点駇idi的工作方式。我们可以看到，mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码。有关资料显示，SBR技术可以改善低数据流量下的高频音质，改善程度约为30%，我们不管这个30%是如何得来的，但可以事先预知这种改善可以让64kbps的mp3达到128kbps的mp3的音质水平（注：在相同的编码条件下，数据速率的提升和音质的提升不是成正比的，至少人耳听觉上是这样的），这和官方声称的64kbps的mp3PRO可以媲美128kbps的mp3的宣传基本是吻合的。

7、WMA
WMA就是Windows Media Audio编码后的文件格式，由微软开发，WMA针对的不是单机市场，是网络！竞争对手就是网络媒体市场中着名的Real Networks。微软声称，在只有64kbps的码率情况下，WMA可以达到接近CD的音质。和以往的编码不同，WMA支持防复制功能，她支持通过Windows Media Rights Manager 加入保护，可以限制播放时间和播放次数甚至于播放的机器等等。WMA支持流技术，即一边读一边播放，因此WMA可以很轻松的实现在线广播，由于是微软的杰作，因此，微软在Windows中加入了对WMA的支持，WMA有着优秀的技术特征，在微软的大力推广下，这种格式被越来越多的人所接受。

8、RA
RA就是RealAudio格式，这是各位网虫接触得非常多的一种格式，大部分音乐网站的在线试听都是采用了RealAudio，这种格式完全针对的就是网络上的媒体市场，支持非常丰富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率，在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码，包括ATRAC3。和WMA一样，RA不但都支持边读边放，也同样支持使用特殊协议来隐匿文件的真实网络地址，从而实现只在线播放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要，在各方的大力推广下，RA和WMA是目前互联网上，用于在线试听最多的音频媒体格.

㈦音视频编解码原理

音视频同步原理[ffmpeg]
ffmpeg对视频文件进行解码的大致流程：
1. 注册所有容器格式和CODEC: av_register_all()
2. 打开文件: av_open_input_file()
3. 从文件中提取流信息: av_find_stream_info()
4. 穷举所有的流，查找其中种类为CODEC_TYPE_VIDEO
5. 查找对应的解码器: avcodec_find_decoder()
6. 打开编解码器: avcodec_open()
7. 为解码帧分配内存: avcodec_alloc_frame()
8. 不停地从码流中提取中帧数据: av_read_frame()
9. 判断帧的类型，对于视频帧调用: avcodec_decode_video()
10. 解码完后，释放解码器: avcodec_close()
11. 关闭输入文件:av_close_input_file()

㈧音视频编码格式认知

编码格式对应的就是音频编码和视频编码，

音频编码标准和视频编码标准，每种编码标准都对应的编码算法，其目的是通过一定编码算法实现数据的压缩、减少数据的冗余。

视频编码指的是通过特定的压缩技术，将某个视频文件格式转换为另一种视频格式文件的方式

可变码率指的是输出码流的码率是可变的，因为视频信源本身的高峰信息量是变化的，从确保视频传输质量和充分利用信息的角度来说，可变码率视频编码才是最合理的。

相关资料免费分享，领取方式见下方腾讯文档

C++音视频开发学习资料：点击领取音视频开发（资料文档+视频教程+面试题）（FFmpeg+WebRTC+RTMP+RTSP+HLS+RTP）

是指视频成像产品所形成的图像大小或尺寸，常见的 1080P、4K 等又代表什么呢，P 本身的含义是逐行扫描，表示视频像素的总行数，

1080P 表示总共有 1080 行的像素数，而 K 表示视频像素的总列数，4K 表示有 4000 列的像素数，

通常来说，1080P 就是指 1080 x 1920 的分辨率，4 k 指 3840 x 2160 的分辨率。

视频编码：

Xvid（旧称为XviD）

是一个开放源代码的MPEG-4影像编解码器，是由一群原OpenDivX开发者在OpenDivX于2001年7月停止开发后自行开发的。

Xvid支持量化（Quantization）、范围控制的运动侦测（Motion Search）、码率曲线分配（Curve）、动态关键帧距（I-frame interval）、心理视觉亮度修正、演职员表选项、外部自定义控制、运动向量加速（Hinted ME）编码、画面优化解码等众多编码技术，对用户来说功能十分强大。

DivX是由MPEG-4衍生出的一种视频编码(压缩)标准，也即我们通常所说的DVDrip格式，

它采用了MPEG4的压缩算法，同时又综合了MPEG-4与MP3各方面的技术，说白了就是使用DivX压缩技术对DVD盘片的视频图像进行高质量压缩，

同时用MP3或AC3对音频进行压缩，然后再将视频与音频合成，并加上相应的外挂字幕文件而形成的视频格式。其画质直逼DVD，而体积只有DVD的数分之一。

XviD与DivX几乎相同，是开源的DivX，不收费，而使用DivX要收费。

H.264是一种高性能的视频编解码技术。

目前国际上制定视频编解码技术的组织有两个，一个是“国际电联（ITU-T）”，它制定的标准有H.261、H.263、H.263+等，

另一个是“国际标准化组织（ISO）”它制定的标准有MPEG-1、MPEG-2、MPEG-4等。

而H.264则是由两个组织联合组建的联合视频组（JVT）共同制定的新数字视频编码标准，

所以它既是ITU-T的H.264，又是ISO/IEC的MPEG-4高级视频编码（Advanced Video Coding，AVC），而且它将成为MPEG-4标准的第10部分。

因此，不论是MPEG-4 AVC、MPEG-4 Part 10，还是ISO/IEC 14496-10，都是指H.264。

H.264最具价值的部分是更高的数据压缩比，在同等的图像质量，H.264的数据压缩比能比DVD系统中使用的 MPEG-2高2 3倍，比MPEG-4高1.5 2倍。

举个例子，原始文件的大小如果为100GB，采用MPEG-2压缩标准压缩后变成4GB，压缩比为25 1，而采用H.264压缩标准压缩后变为1GB，从100GB到1GB，H.264的压缩比达到惊人的100 1。尤其值得一提的是，H.264在具有高压缩比的同时还拥有高质量流畅的图像。

微软是在2003年9月递交VC-1编码格式的，目前已经得到了MovieBeam、Modeo等不少公司的采纳，同时也包含在HD DVD和蓝光中，包括华纳和环球等影业公司也有采用这种格式的意向。

VC-1基于微软Windows Media Video9(WMV9)格式，而WMV9格式现在已经成为VC-1标准的实际执行部分。WMV (Windows Media

Video)是微软公司的视频编解码器家族，包括WMV7、WMV8、WMV9、WPV10。这一族的编解码器可以应用在从拨号上网的窄带视频到高清晰度电视HDTV)的宽带视频。使用Windows Media Video用户还可以将视频文件刻录到CD、DVD或者其它一些设备上。它也

适用于用作媒体服务器。

WMV可以被看作是MPEG-4的一个增强版本。最新的由SMPTE(电视电影工程师协会)承认的WMV-9,也就是我们说的上面的VC-1。

同一个 AVCodecID 可能对应多个不同的编解码器 (AVCodec) MPEG-4 AVC、MPEG-4 Part 10，还是ISO/IEC 14496-10，都是指H.264。

在编码方式相同相同的情况下，.avi, .mkv, .mp4只是封装格式的区别(文件后缀格式)，而封装格式是不影响画质的。

就相当于你的100块钱折一下，或者两下，或者两下后不管是放在你的口袋里，钱包里还是存钱罐里都是100块钱。

这里的100块钱就是就是视频数据，你把100块折一下，或者两下，或者两下就是编码格式，钱包，口袋，存钱罐就是封装格式。

㈨视频相关的理论知识与基础概念

本文将视频相关的理论知识与基础概念划分为 11 个知识点，如下：

根据人眼视觉暂留原理，每秒超过 24 帧的图像变化看上去是平滑连续的，这样的连续画面叫视频。

分辨率是以横向和纵向的像素数量来衡量的，表示平面图像的精细程度。视频精细程度并不只取决于视频分辨率，还取决于屏幕分辨率。
1080P 的 P 指 Progressive scan（逐行扫描），即垂直方向像素点，也就是 "高"，所以 1920X1080 叫 1080P，不叫 1920P。
当 720P 的视频在 1080P 屏幕上播放时，需要将图像放大，放大操作也叫上采样。
上采样几乎都是采用内插值方法，即在原有图像的像素点之间采用合适的插值算法插入新的元素，所以图像放大也称为图像插值。
简单的记录一下插值算法：

（1）邻插值算法：
将四个像素（放大一倍）用原图一个像素的颜色填充，较简单易实现，早期的时候应用比较普遍，但会产生明显的锯齿边缘和马赛克现象。
（2）双线性插值法：
是对邻插值法的一种改进，先对两水平方向进行一阶线性插值，再在垂直方向上进行一阶线性插值。能有效地弥补邻插值算法的不足，但还存在锯齿现象并会导致一些不期望的细节柔化。
（3）双三次插值法：
是对双线性插值法的改进，它不仅考虑到周围四个直接相邻像素点灰度值的影响，还考虑到它们灰度值变化率的影响，使插值生成的像素灰度值延续原图像灰度变化的连续性，从而使放大图像浓淡变化自然平滑。

除此之外还有很多更复杂效果更优的算法，比如小波插值、分形等等。

当 1080P 的视频在 720P 屏幕上播放时，需要将图像缩小，缩小操作也叫下采样。

下采样的定义为：对于一个样值序列，间隔几个样值取样一次，得到新序列。
对于一幅分辨率为 M N 的图像，对其进行 s 倍下采样，即得到 (M/s) (N/s) 分辨率的图像（s 应为 M、N 的公约数），就是把原始图像 s*s 窗口内的图像变成一个像素，这个像素点的值就是窗口内所有像素的均值。

最佳体验为屏幕与视频分辨率相同且全屏播放，视频分辨率过高的话屏幕没有能力去呈现，视频分辨率过低的话无法发挥屏幕的能力。

比特率即码率，在不同领域有不同的含义，在多媒体领域，指单位时间播放音频或视频的比特数，可以理解成吞吐量或带宽。

单位为 bps , 即 bits per second，每秒传输的数据量，常用单位有：kbps、mbps 等。

计算公式：码率（kbps）= 文件大小（kb）/ 时长（s）
通俗一点理解就是取样率，取样率越大，精度就越高，图像质量越好，但数据量也越大，所以要找到一个平衡点：用最低的比特率达到最少的失真。
在一个视频中，不同时段画面的复杂程度是不同的，比如高速变化的场景和几乎静止的场景，所需的数据量也是不同的，若都使用同一种比特率是不太合理的，所以引入了动态比特率。

（1）动态比特率
简称为 VBR，即 Variable Bit Rate，比特率可以随着图像复杂程度的不同而随之变化。
图像内容简单的片段采用较小的码率，图像内容复杂的片段采用较大的码率，这样既保证了播放质量，又兼顾了数据量的限制。
比如 RMVB 视频文件，其中的 VB 就是指 VBR，表示采用动态比特率编码方式，达到播放质量与体积兼得的效果。

（2）静态比特率
简称为 CBR，即 Constant Bit Rate，比特率恒定。
图像内容复杂的片段质量不稳定，图像内容简单的片段质量较好。
上面列出的计算公式显然是针对 CBR ，除 VBR 和 CBR 外，还有 CVBR（Constrained VariableBit Rate）、ABR (Average Bit Rate) 等等。

定义：每秒从连续信号中提取并组成离散信号的采样个数，单位为赫兹（Hz）。
对于取样率、采样率和抽样率，没必要纠结它们的区别，都是同义词。
（1）音频中的采样率
指把音频信号数字化后 1 个通道 1 秒钟采取多少个样本，如 44.1kHz 的采样率，就是指 1 个通道 1 秒钟有 44.1k 个数据。
（2）视频中的采样率
视频一般不标识采样率属性，比如：

采样率本身就是一个可泛化的概念，对于视频来说，若非要用采样率来描述的话，那就要分为两个层面：帧频和场频。
从帧频层面来说，采样率就是指帧率，指 1 秒钟显示多少帧图像。
从场频层面来说，采样率就是指像素频率，指 1 秒钟显示多少个像素。
像素频率是显示器的一个指标，可以理解成显示器的最大带宽，可以起到限制分辨率和刷新率的作用，根据含义可得出一个公式：
像素频率 = 帧率 X 帧像素数量
对于：

定义：用于测量显示帧数的量度。单位为 FPS（Frames per Second，每秒显示帧数）或赫兹（Hz）。
帧率越高，画面越流畅、逼真，对显卡的处理能力要求越高，数据量越大。
1 中提到每秒超过 24 帧的图像变化看上去是平滑连续的，这是针对电影等视频而言，对游戏来说 24 帧是不流畅的。
为什么 24fps 的电影感觉流畅，而 24fps 的游戏就感觉很卡呢？
第一个原因：两者图像生成原理不同
电影的一帧在一段时间曝光，每一帧都包含一段时间的信息，而游戏的画面则是由显卡计算生成的，一帧只包含那一瞬间的信息。
比如一个圆从左上角移动到右下角：

前者为电影的一帧，后者为游戏的一帧，可以看到在电影中动作会出现拖影，给人以动感的效果，连贯而不卡。
第二个原因：电影的FPS是稳定的，而游戏则是不稳定的
电影若为 24fps，那就表示每隔 1/24 秒刷新一次画面，帧间隔是固定的。
游戏若为 60fps，表示大约每隔 1/60 秒刷新一次画面，帧间隔是不稳定的，即使 1 秒能显示 60 帧，那也可能是前半秒显示了 59 帧，后半秒显示了 1 帧。

定义：通过特定的压缩技术，将某个视频格式的文件转换成另一种视频格式。
视频数据在时域和空域层面都有极强的相关性，这也表示有大量的时域冗余信息和空域冗余信息，压缩技术就是去掉数据中的冗余信息。

（1）去除时域冗余信息
运动补偿：通过先前的局部图像来预测、补偿当前的局部图像，可有效减少帧序列冗余信息。
运动表示：不同区域的图像使用不同的运动矢量来描述运动信息，运动矢量通过熵编码进行压缩（熵编码在编码过程中不会丢失信息）。
运动估计：从视频序列中抽取运动信息。
通用的压缩标准使用基于块的运动估计和运动补偿。

（2）去除空域冗余信息
变换编码：将空域信号变换到另一正交矢量空间，使其相关性下降，数据冗余度减小。
量化编码：对变换编码产生的变换系数进行量化，控制编码器的输出位率。
熵编码：对变换、量化后得到的系数和运动信息，进行进一步的无损压缩。
视频压缩编码技术可分为两大类：无损压缩和有损压缩。
（1）无损压缩
无损压缩也称为可逆编码，重构后的数据与原数据完全相同，适用于磁盘文件的压缩等。
主要采用熵编码方式，包括香农编码、哈夫曼编码和算术编码等。
<1>香农编码
香农编码采用信源符号的累计概率分布函数来分配码字，效率不高，实用性不大，但对其他编码方法有很好的理论指导意义。
<2>哈夫曼编码
哈夫曼编码完全依据出现概率来构造异字头的平均长度最短的码字。
基本方法为：先对图像数据扫描一遍，计算出各种像素出现的概率，按概率的大小指定不同长度的唯一码字，由此得到一张该图像的霍夫曼码表。
编码后的图像数据记录的是每个像素的码字，而码字与实际像素值的对应关系记录在码表中。
<3>算术编码
算术编码是用符号的概率和编码间隔两个基本参数来描述的，在给定符号集和符号概率的情况下，算术编码可以给出接近最优的编码结果。
使用算术编码的压缩算法通常先要对输入符号的概率进行估计，然后再编码，估计越准，编码结果就越接近最优的结果。
（2）有损压缩
有损压缩也称为不可逆编码，重构后的数据与原数据有差异，适用于任何允许有失真的场景，例如视频会议、可视电话、视频广播、视频监控等。
编码方式包括预测编码、变换编码、量化编码、混合编码等。

定义：为保证编码的正确性，编码要规范化、标准化，所以就有了编码标准。
研制视频编码标准的有两大正式组织：ISO/IEC（国际标准化组织）、ITU-T（国际电信联盟通信标准部）。
ISO/IEC 制定的编码标准有：MPEG-1、MPEG-2、MPEG-4、MPEG-7、MPEG-21 和 MPEG-H 等。
ITU-T 制定的编码标准有：H.261、H.262、H.263、H.264 和 H.265 等。
MPEG-x 和 H.26x 标准的视频编码都是采用有损压缩的混合编码方式，主要区别在于处理图像的分辨率、预测精度、搜索范围、量化步长等参数的不同，所以其应用场合也不同。
MPEG-x 系列：
（1）MPEG-1
MPEG-1 共 5 部分。
第 2 部分视频编码方案，规定了逐行扫描视频的编码方案。
第 3 部分音频编码方案，将音频流的压缩分为 3 层并依次增大压缩比，广为流传的 MP3（MPEG-1 Layer 3）就是按照此部分编码方案压缩之后的文件格式。
（2）MPEG-2
MPEG-2 共 11 个部分，在 MPEG-1 的基础上提高了码率和质量。
第 2 部分视频编码方案，规定了隔行扫描视频的编码方案，是和 ITU-T 共同开发的，ITU-T 称其为 H.262。
第 3 部分音频编码方案，延续了 MPEG-1 的 3 层压缩方案，压缩后文件格式仍未 MP3，但在压缩算法上有所改进。
第 7 部分首次提出 AAC（MPEG Advanced Audio Coding）编码，目的以更小的容量和更好的音质取代 MP3 格式。
（3）MPEG-4
MPEG-4 共 27 个部分，更加注重多媒体系统的交互性和灵活性。
第 3 部分音频编码方案，优化了 AAC 编码算法，并在推出后逐渐取代 MP3，比如和视频封装在一起的音频优先考虑 AAC 格式，但就民用而言大部分还是使用 MP3 格式。
第 10 部分提出 AVC（Advanced Video Coding）编码，是和 ITU-T 共同开发的，ITU-T 称其为 H.264。
第 14 部分提出了 MP4 格式封装，官方文件后缀名是 ".mp4"，还有其他的以 mp4 为基础进行的扩展或缩水版本的格式，包括：M4V, 3GP, F4V 等。
（4）MPEG-7
MPEG-7 不同于 MPEG-1、MPEG-2、MPEG-4，它不是音视频压缩标准。
MPEG-7 被称为 "多媒体内容描述接口"，目的就是产生一种描述多媒体信息的标准，并将该描述与所描述的内容相联系，以实现快速有效的检索。
（5）MPEG-12
MPEG-12 其实就是一些关键技术的集成，通过这种集成环境对全球数字媒体资源进行管理，实现内容描述、创建、发布、使用、识别、收费管理、版权保护等功能。
（6）MPEG-H
MPEG-H 包含了 1 个数字容器标准、1 个视频压缩标准、1 个音频压缩标准和 2 个一致性测试标准。
其中视频压缩标准为高效率视频编码（HEVC），和 ITU-T 联合开发，相比 H.264/MPEG-4 AVC 数据压缩率增加了 1 倍。
H.26x 系列：
（1）H.261
H.261 是第一个实用的数字视频编码标准，使用了混合编码框架，包括了基于运动补偿的帧间预测，基于离散余弦变换的空域变换编码，量化，zig-zag 扫描和熵编码。
H.261 的设计相当成功，之后的视频编码国际标准基本上都是基于 H.261 的设计框架，包括 MPEG-1，MPEG-2／H.262，H.263，甚至 H.264。
（2）H.262
H.262 由 MPEG-1 扩充而来，支持隔行扫描，在技术内容上和 MPEG-2 视频标准一致，DVD 就是采用了该技术。
（3）H.263
H.263 是一种用于视频会议的低码率视频编码标准，在 H.261 基础上发展而来。
与 H.261 相比采用了半象素的运动补偿，并增加了 4 种有效的压缩编码模式，在低码率下能够提供比 H.261 更好的图像效果。
H.263 于 1995 年推出第一版，后续在 1998 年和 2000 年还推出了第二版 H.263+、第三版 H.263++ 。
（4）H.264
H.264 又称为 MPEG-4 第 10 部分，即 MPEG-4 AVC，它是一种面向块，基于运动补偿的视频编码标准。
于 2003 年正式发布，现在已经成为高精度视频录制、压缩和发布的最常用格式之一。
H.264 可以在低码率情况下提供高质量的视频图像，相比 H.263 可节省 50% 的码率。
相比 H.263，H.264 不需设置较多的编码选项，降低了编码的复杂度。
H.264 可以根据不同的环境使用不同的传输和播放速率，并且提供了丰富的错误处理工具，可以很好的控制或消除丢包和误码。
H.264 性能的改进是以增加复杂性为代价而获得的，H.264 编码的计算复杂度大约相当于 H.263 的 3 倍，解码复杂度大约相当于 H.263 的 2 倍。
H.264 协议中定义了三种帧，分别为 I 帧、P 帧以及 B 帧。
<1>I 帧
I帧即帧内编码帧、关键帧，可以理解为一帧画面的完整保留，解码时只需要本帧数据就可以完成，不需要参考其他画面，数据量比较大。
<2>P 帧
P帧即前向预测编码帧，记录当前帧跟上一关键帧（或P帧）的差别，解码时依赖之前缓存的画面，叠加上本帧定义的差别，才能生成最终画面，数据量较 I 帧小很多。
<3>B 帧
B帧即双向预测编码帧，记录当前帧跟前后帧的差别，解码时依赖前面的I帧（或P帧）和后面的P帧，数据量比I帧和P帧小很多。
数据压缩比大约为： I帧：P帧：B帧 = 7：20：50，可见 P 帧和 B 帧极大的节省了数据量，节省出来的空间可以用来多保存一些 I 帧，以实现在相同码率下，提供更好的画质。
（5）H.265
H.265 即高效视频编码（High Efficiency Video Coding ，简称 HEVC），于 2013 年正式推出。
H.265 编码架构和 H.264 相似，主要也包含，帧内预测、帧间预测、转换、量化、去区块滤波器、熵编码等模块。
H.265 编码架构整体被分为编码单位、预测单位和转换单位。
H.265 在 H.264 的基础之上，使用先进的技术用以改善码流、编码质量、延时和算法复杂度之间的关系，达到最优化设置。
在码率减少 51-74% 的情况下，H.265 编码视频的质量还能与 H.264 编码视频近似甚至更好。
H.265 可以在有限带宽下传输更高质量的网络视频，智能手机、平板机等移动设备将能直接在线播放 1080p 的全高清视频，让网络视频跟上了显示屏 “高分辨率化” 的脚步。
来张图感受一下吧：

除 MPEG-x 和 H.26x 系列标准外，还有其他的编码标准，如谷歌的 VP 系列，对视频编码标准归纳一下，如图：

视频封装格式如 mp4、mkv，用来存储或传输编码数据，可以理解成一个容器。

封装就是按照一定规则把音视频、字幕等数据组织起来，包含编码类型等公共信息，播放器可以按照这些信息来匹配解码器、同步音视频。

不同的封装格式支持的视音频编码格式是不一样的，比如 MKV 格式支持比较多，RMVB 则主要支持 Real 公司的视音频编码格式。

这里列出了常见的视频封装格式，可以查看各封装格式支持的音视频编码格式等信息。

定义：将视频压缩编码过的数据，解压缩成为视频原始数据，即视频编码的反过程。

对于一个播放器来说，很重要的一个指标就是能支持多少种视频解码。

播放一个本地视频文件，需要经过解封装，解码音视频，音视频同步等步骤。

解封装：就是将输入的封装格式的数据，分离成为音频压缩编码数据和视频压缩编码数据。例如，FLV 格式的数据，经过解封装操作后，输出 H.264 编码的视频码流和 AAC 编码的音频码流。
解码：将视频/音频压缩编码数据，解码成为非压缩的视频/音频原始数据。音频的压缩编码标准包含 AAC，MP3，AC-3 等等，视频的压缩编码标准则包含 H.264，MPEG2，VC-1 等等。解码是整个系统中最重要也是最复杂的一个环节。通过解码，压缩编码的视频数据输出成为非压缩的颜色数据，例如 YUV420P，RGB 等等；压缩编码的音频数据输出成为非压缩的音频抽样数据，例如 PCM 数据。
视音频同步：根据解封装模块处理过程中获取到的参数信息，同步解码出来的视频和音频数据，并将视频音频数据送至系统的显卡和声卡播放出来。

上面播放原理中分析的是本地视频文件，如果播放的是互联网上的视频，步骤则为：解协议，解封装，解码音视频，音视频同步，多了一个解协议的步骤。
解协议：将流媒体协议的数据，解析为标准的相应的封装格式数据。
视音频在网络上传播的时候，常常采用各种流媒体协议，例如 HTTP，RTMP， MMS 等等。这些协议在传输视音频数据的同时，也会传输一些信令数据。
这些信令数据包括对播放的控制（播放，暂停，停止），或者对网络状态的描述等。
解协议的过程中会去除掉信令数据而只保留视音频数据。例如，采用 RTMP 协议传输的数据，经过解协议操作后，输出 FLV 格式的数据。

㈩视频编码的基本含义

MPEG是活动图像专家组（Moving Picture Experts Group）的缩写，于1988年成立，是为数字视/音频制定压缩标准的专家组，已拥有300多名成员，包括IBM、SUN、BBC、NEC、INTEL、AT&T等世界知名公司。MPEG组织最初得到的授权是制定用于“活动图像”编码的各种标准，随后扩充为“及其伴随的音频”及其组合编码。后来针对不同的应用需求，解除了“用于数字存储媒体”的限制，成为制定“活动图像和音频编码”标准的组织。MPEG组织制定的各个标准都有不同的目标和应用，已提出MPEG-1、MPEG-2、MPEG-4、MPEG-7和MPEG-21标准。
视频压缩技术是计算机处理视频的前提。视频信号数字化后数据带宽很高，通常在20MB/秒以上，因此计算机很难对之进行保存和处理。采用压缩技术通常数据带宽降到1-10MB/秒，这样就可以将视频信号保存在计算机中并作相应的处理。常用的算法是由ISO制订的，即JPEG和MPEG算法。JPEG是静态图像压缩标准，适用于连续色调彩色或灰度图像，它包括两部分：一是基于DPCM（空间线性预测）技术的无失真编码，一是基于DCT（离散余弦变换）和哈夫曼编码的有失真算法，前者压缩比很小，主要应用的是后一种算法。在非线性编辑中最常用的是MJPEG算法，即Motion JPEG。它是将视频信号50帧/秒（PAL制式）变为25帧/秒，然后按照25帧/秒的速度使用JPEG算法对每一帧压缩。通常压缩倍数在3.5-5倍时可以达到Betacam的图像质量。MPEG算法是适用于动态视频的压缩算法，它除了对单幅图像进行编码外还利用图像序列中的相关原则，将冗余去掉，这样可以大大提高视频的压缩比。前MPEG-I用于VCD节目中，MPEG-II用于VOD、DVD节目中。
AVS音视频编码是中国支持制订的新一代编码标准，压缩效率比MPEG-2增加了一倍以上，能够使用更小的带宽传输同样的内容。AVS已经成为国际上三大视频编码标准之一，AVS标准在广电总局正式全面推广，率先在广电行业普及。中国第一颗AVS编码芯片，由北京博雅华录公司设计，于2012年在北京诞生。
音频视频编码及文件格式（容器）是一个很庞大的知识领域，完整的说清楚，那就需要写成一本教材了。这里先就几个简单的概念问题作以介绍：
首先要分清楚媒体文件和编码的区别：文件是既包括视频又包括音频、甚至还带有脚本的一个集合，也可以叫容器；
文件当中的视频和音频的压缩算法才是具体的编码。也就是说一个.avi文件，当中的视频可能是编码a，也可能是编码b，音频可能是编码5，也可能是编码6，具体的用那种编码的解码器，则由播放器按照avi文件格式读取信息去调用了。

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：594

制作脚本网站发布：2025-10-20 08:17:34 浏览：889

python中的init方法发布：2025-10-20 08:17:33 浏览：583

图案密码什么意思发布：2025-10-20 08:16:56 浏览：766

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：685

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1014

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：257

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：115

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：807

python股票数据获取发布：2025-10-20 07:39:44 浏览：714

视频解码算法

与视频解码算法相关的资讯