视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 1
第四章 VCD激光视盘机基本原理 VCD激光视盘机是在激光CD机的基础上发展起来的,它沿用了CD机的激光头,伺服系统,控制系统以
及机械系统,两者的结构具有极大的相似性.
VCD光盘采用了CD光盘的记录格式.按照MPEG-Ⅰ标准压缩处理的VCD音视频数据信号录制在CD格式
的音频数据记录区,VCD 视盘机在 CD 机基础上相应增加了 MPEG-Ⅰ标准的 VCD 音视频解码电路,这就是两
种机器最大差别.
第一节 CD/VCD光盘信号的记录
CD 光盘上记录的音频信号要先按照规定的信号和记录格式处理成复合数字信号,再用该复合信号去控
制激光调制器的通断,使其在光盘上刻制如图 4-1-1 所示的信息坑点,这些具有长短变化的坑点代表了该
复合信号,这样,就可将音频信号记录在光盘上.
CD/VCD光盘有8cm和12cm两种直径规格,通用使用12cm光盘.图4-1-2所示是CD光盘信号记录处理
流程.下面对图中各部分的作用分别说明.
一,低通滤波器
用于消除有效音频信号频带范围以上的干扰信号,防止A/D转换时出现重叠镜像噪声.
二,模数转换器ADC
对模拟音频信号进行采样保持,量化,脉冲编码等A/D转换处理,将模拟音频信号转换成16位二进制
的数字信号.
CD音频信号的量化位数采用16位,数据传输的时钟频率=采样频率×量化位数,对于立体声来说,每
一声道数据传输时钟=44.1KHz×16=705.6KHz.由于CD录制信号的左,右声道的数据字是交替排列,为了
使数据流在正确的时标内能保持原有的音频信息,所以数据传输的时钟频率必须提高到原来的两倍,即
705.6KHz×2=1.4112MHz.
VCD视频信号采样值的量化位数采用8位,在A/D转换时被变换成8位二进制数字信号.VCD音频信号
采样值采用16位量化等级,被转化为16位二进制数字信号.VCD音视频数字信号接着被送到MPEG-1编码
器进行压缩编码处理,其中视频信号的压缩率为1/120~1/130,音频信号的压缩率为1/6.
三,多路复用器1
将左右声道数据信号交替混合在一起.
四,交叉交织里德索罗门编码
参见第二章第二节.
五,控制字
数据字在完成交叉交织里德索罗门编码后,经过多路复用器 2 时,还要插入一个 8 位的附加数据字,
这个附加数据字称为控制字或子码.控制字的作用是提供光盘所录制信号内容的一些信息,控制字中的每
一位都有识别标识.控制字位于音频数据流之后,同步字之前一起录入光盘. 光盘在播放时,控制字由CD-DSP识别出来,每一位控制字被插入到指定的存储器中,通过以固定时间
间隔对有关的存储器进行分析,从而确定在过去一段时间里已读出的信息. CD和VCD视盘机一般只使用控制字的P,Q两种子码,而其余几种主要是供计算机显示器和显示图形的
EFM
调制
交叉交织里
德索所门编
码CIRC
左声道
右声道
ADC
ADC
多路复
用器1
多路复
用器2
控制字
P~W
多路复
用器3
激光调
制器
同步字 至光盘
图4-1-2
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 2
有关软件使用.P码一般用于释放音频数据信号而准备静噪的静噪电路,Q码则包含有大量的信息:总的播
放时间;总的音乐轨迹数量/或曲目数;识别单个音乐轨迹或单首曲目的始末点;每一首/段音乐的重放时
间;音乐的结束信息(以便自动停机操作);去加重信息(是否具有杜比环绕声). 另外,Q码还包含复印,目录号,光盘制造日期以及其它不常用的其它信息.光盘总的播放时间和音乐
轨迹/曲目数构成光盘的内容目录表,即TOC,TOC是CD/VCD机播放光盘所必备的
信息.
六,EFM调制
EFM是英文Eight-Fourteen Modulation的缩写,即8位扩展到14位的调制.EFM是在数据加入控制
字之后的又一重要信号处理过程,在该处理过程中,每组 16 位 CD 音频数据串被分成两组 8位数据字按一
定的规则扩展为14位.这种EFM调制能够非常有效地解决数字信号在录制和读取过程中出现的一些问题.
参见第二章第二节.
七,耦合位
在每两个14位数据字之间都排列有三个附加位,这三个附加位称为耦合位. 当上一个14位数据以1结尾,而一个14位数据以1开始时,在记录信号中就会出现了连续两个1的
情况,为这消除这种情况,就在两个14位数据字之间加入耦合位.微处理器通过分析最末一个数据字的信
号,来控制三个附加位的内容,使其满足前述EFM调制规则.耦合位在CD/VCD机中无其它作用,它将由CD/VCD
机中的解码器识别出来并逐位滤除.
八,凹坑长度
数据录在CD/VCD 光盘上的最终时钟频率 4.3218MHz.任何一个凹坑长度都是该时钟周期的整数倍,由
于进行了EFM调制处理,最短凹坑的时间长度为3T,最长为11T,共有九种不同长度的凹坑录制在光盘上.
在播放光盘时,与数据信息相关的各种不同的凹坑长度将不断出现,每一种凹坑长度将产生出时钟频
率的一种谐波.时钟频率关系到CD/VCD机中的CD信号解码器内部的压控振荡器(VCO)的工作频率,VCO通
常工作于2倍时钟频率,即4.3218×2=8.6436MHz.
九,同步字
在数据处理过程 ,最后被插入的信息是同步字,同步字中作为待处理数据的起始点,也作为光盘转速
控制电路的比较信号.
同步字不同于光盘上所有其它数据信息,它是该24位数据组
成:100000000001000000000010.
第二节 CD/VCD信号的记录格式
一,记录帧格式
一个完整的信息帧由同步字,控制字(子码),耦合位,纠错位以及音视频数据字组成,同步字位于一
帧之中所有数据字的最前面,1帧共有588个数字位.
由于1帧包含CD音频左右声道的六个采样点,而采样频率为44.1KHz,故帧频:FS=44.1KHz/6=7.35KHz;
记录读出时钟频率=7.35KHz×588位/帧=4.3218MHz.
二,帧组格式
由98个7.35KHz的帧构成一个帧组,又称扇区.帧组是98帧纵向排列而成.帧组的头两帧子码是S0
和S1两个14位数字.它是在前述EFM调制过程中剩余里挑选的.因此,帧组中的子码就成了由96×8bit
构成一个子码组(块).S0和S1作为子码帧组的同步和识别码.
因为子码中含有播放节目的时间,章节等信息,因此光盘在播放过程中可以实现快速选曲,选时.
第三节 图像压缩编码和解码原理
一,图像压缩的基本途径
图像的数据量极大,必须对其数据总量大大压缩,才能够存储在直径12cm的光盘上.在实用技术上,
可通过以下途径来压缩图像数据的总量.
1,采用亮度(Y),色度(C)取样方式
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 3
实用彩色电视技术没有传输,处理红,蓝,绿三基色信号,而传输,处理亮度信号Y和色度信号C.这
种处理方法有利于实现彩色电视和黑白电视的兼容,也利于限制彩色电视信号的频带宽度.在数字图像处
理技术中,仍然采用传输,处理亮度信号 Y 和色度信号 C 的方法.由于人眼晴对亮度信息敏感,对彩色信
息不够敏感,因而对 Y 信号以较高清晰度传送,对 C 信号以较低清晰度传送.实际作法是这样的:对每个
亮度Y像素都进行传送;而将色度C分解为U,V两个色差信号(或写为Cb,Cr,B-Y,R-Y),分别进行传送;
对亮度Y实行逐点取样,而对色度C则取样较少.即对应于4个亮度取样点,仅对色度信号取样1个点,
即对U,V像素的取样较低,各取1个取样点,这种取样格式称为YUV411格式. 采用YUV411取样格式后,它的数据总量将比三基色取样量格式时减少一半.若采用三种基色取样方式
时,各基色应与亮度信号取样方式一样,即对每个红,绿,蓝色采取逐点取样的方法.采用Y,C传输方式
时,取样次数减少一半,传输数码也减少一半.人眼睛对色度的敏感程度较低,利用人眼睛这一生理视觉
特性,人们在主观感觉上并没有感到图像清晰度下降.显然,这是压缩图像数据码率的一个得力措施.
2,将整幅图像分割为小区域进行分割处理
对图像进行数据处理时,对每帧图像进行分割处理.首先图像横向切成若干条,每一条称为一片,将
每一片再纵向切成若干块,称宏块,宏块是图像压缩的基本单位.每个宏块的彩色图像可用1个亮度信号Y
和两个色差信号 Cb,Cr(即 U,V)来表示,或者说,每个宏块分为三层,一层亮度 Y,两层色度(各为 Cb,
Cr),统称为一个宏块.
由于人眼睛对亮度,色度的主观敏感程度不同,通常把亮度宏块再平均分成 4 块,每一小块称为像块
或区块,见示意图4.3.1.每个区块可以进一步分割,
称为像素或像点,像素是构成图像的最小单位.对于
数字图像来说,每一个像素作为一个取样点,有一个
对应的取样数值.可以看出,图像分割越细,像素数
越多,取样点越多,图像清晰度越高;反之,像素数
越少,图像清晰度越低.实际上,对图像压缩处理,
就是对图像区块的数据,像素的数据进行压缩处理.
彩电制式不同,分割图像的具体数据将有所变化.例如 PAL 制,大多数为 625 行扫描标准,那么每帧
图像被切为18片,每片再切成22个宏块,即每帧图像分成396个宏块;而525行的NTSC制,每帧图像被
切为15片,每片再切成22个宏块,即每帧图像分成330个宏块.对亮度信号来说,每个宏块又分为4个
区块,每个区块含有 8×8=64 个像素,则每个宏块含有 256 个像素.但对两个色差信号来说,宏块像素数
等于区块像素数,即像素数是8×8=64个,是亮度像素的1/4.尽管两色差信号的像素较少,清晰度低,但
不影响人眼睛的主观感觉.在进行数字图像处理时,按照图中各个 8×8 方块( 共 64 块) 编成次序,再按
照编号顺序依次处理.也就是说,以8×8像素的方块作基本操作单元,依次处理每个像素(即取样点)的取
样数值.
3,采用帧间和帧内数据压缩技术
实用电视每秒钟传送25-30帧画面,使画面变化具有连续感,电视活动图像是由各帧画面差别很小的
一系列画面组成的.各帧画面的微小变化主要表现于画面主体部分,画面的背景差别很小.图像是由亮度,
色度信息来描述的,在各相邻帧图像内,若分别比较同一相对位置的亮度,色度信号,通常其差别较小.
5
8×8
5
8×8
1
8×8
2
8×8
4
8×8
3
8×8
VCD激光视盘机基本原理 47_47vcd
图4.3.1
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 4
经大量统计发现,在各个像素当中仅有 10%以下的像素点的亮度差值变化超过去时 2%,而色度差值变化在
0.1%以下.在各帧图像中具有大量重复内容,这些重复内容的数据属于多余(冗余)信息,于是,可以通过
减少时域冗余信息的方法,即运用帧间数据压缩技术,来减少图像传输的数码率. 经分析发现,在同一帧画面内也存在相当多的冗余信息.对图像主体部分和眼睛最敏感的部分,应当
准确,详细地处理,需要对每个像素点进行精细传输;但对于图像非主体部分和眼睛不敏感的部分,则可
以进行粗略地处理,即进行信息数据的压缩处理.于是,可以根据一帧图像内容的具体分布情况,对不同
位置可采用不同的数据量来传送,减少传送图像的数据量,使图像数据得到压缩.这种压缩数据的方法,
是在同一帧图像的不同空间部位进行数据压缩,称为空间域冗余压缩.例如,有一幅人像画面,其面部和
头部的线条清晰度可以不相同,尤其是眼睛,嘴唇部位表情丰富,线条比较精细复杂,是观众最注意的部
位,应当用高清晰度传送;而头顶部位和面颊侧面,轮廓变化较少,灰度层次变化较小,观众不太注意这
些部位.显然,图像的主要部位,灰度层次变化较大的部位,人眼睛敏感的部位,应当以较大数据量进行
精细传送;而那些图像的次要部位,灰度层次变化较小的部位,人眼睛不注意的部位,则可用较少数据量
进行粗略传送,甚至于仅仅传送它们的平均亮度信息.
以下具体讨论数字图像的数据压缩原理.先讨论静止图像的数据压缩技术,即帧内数据压缩技术;然
后讨论活动图像的数据压缩技术,即帧间数据压缩技术.
二,帧内数据压缩技术
首先对整幅图像进行分割处理,经分割取得最小操作单元.下面按8×8=64个像素组成的区块来讨论.
每一个像素值都可以按一定规律取样,例如可对亮度各个像素的亮度值取样,若每个像素按8bit量化,则
每个区块的总数据量为 8bit×64(像素点),即 512bit.可见,对全画面各像素量化处理后数据量十分庞
大,需要进行数据压缩.通常,经过离散余弦变换,Z字型扫描,可变长度编码等处理过程,可将数据总量
进行大量压缩.
1,离散余弦变换(DCT)编码
1) 功能简述
离散余弦变换简称为 DCT(是英 Discrete Cosine Transform的缩写词),是一种数字处理方法,经常
用于数据处理.DCT 是多种数字变换方法的一种,它是把空间域图像变换到频率域进行分析的方法.由于
DCT的变换核构成的基向量与图像内容无关,而且变换核是可以分离的,既二维DCT可以用两次一维DCT来
完成,使得数学运算难度大大简化,再配以已经发现的其它快速算法,使得 DCT 编码得到了广泛的应用.
将 DCT 应用于图像数据压缩,可以减少代表图像亮度(或色度)层次数码信息,达到数据压缩的目的.利用
DCT不仅可将图像编码,还可以在编码变换过程发现图像细节的位置,以便删去或略去对视觉不敏感的部分,
而更加突出视觉的敏感部分,通过选择主要数据来传输,重视图像.
利用 DCT 压缩图像数据,主要是根据图像信号在频率域的统计特性.在空间域看来,图像内容千差万
别;但在频率域上,经过对大量图像的统计分析发现,图像经过 DCT 变换后,其频率系数的主要成分集中
于比较小的范围,且主要位于低频部分.利用 DCT 变换揭示出这种规律后,可以再采取一些措施把频谱中
能量较小的部分舍弃,尽量保留传输频谱中主要的频率分量,就能够达到图像数据压缩目的.
2) 规律和特点
① 时间域信号的频谱
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 5
对于一个随时间变化的波形来说,它是随时间变化的周期信号,它是以一定幅度值为波形的直流平均
值,其波形可看成是基波与无数次谐波叠加而成.其基波振幅最大,然后各次谐波振幅逐渐减小.各次谐
波叠加次数越高,则合成波形越接近于理想矩形波.此分析方法就是应用日益广泛的频谱分析方法.其中
各次正弦波谐波的振幅值经常称为频谱系数,将频谱系数排列起来,可以组成一个系数列.上述事实说明,
周期性矩形波可以由时间域 (反映幅度-时间关系)来描述,也可以由频率域(幅度-频率关系)来描述.两
者有互相对应的关系.实际上,各种时间域信号都可以由频率域的规律来描述,两种描述方法存在内在的
联系,可以互相转换.
② 空间域信号的频谱系数
对于各种空间域分布的信号,也可以进行类似的频率变换,即将空间域信号转变为频率域信号.DCT就
是其中一种频率分析方法.如图4.3.2来说明DCT变换过程.
由图像内取出一个区块,分成 8×8 个像素的 64 格阵列,即由图(a)转变为图(b).经过对逐个像素的
亮度(或讨论色度)数值取样,并将像素的亮度数值列成矩阵形表格,见图(C).然后利用离散余弦变换
(DCT)可将各空间取样值转变为频率域的数值,这里称为DCT系数.
对于上述64点阵列来说,可得
到 64 个 DCT 系数,转换为图(d)
矩形阵列表格.它已经将64个点的
图像采样值组成的阵列,变为一个
直流平均值和63个不同频率余弦波
幅值组成的64个点阵列,并称为DCT
系数阵列.经过上述变换后,已将
空间坐标的数据转换为频率坐标的
数据,即DCT频率系数.原有8×8
区块的各个像素的数值取样量化
后,转变为频率域图像信号的频谱
系数,即可用64个频率系数来表述,
称它们为 64 个"正交基信号",每
个基信号对应于64个独立二维空间
频率中的一个.这些空间频率是由
输入信号的"频谱"组成.所得 64
个变换系数当中,第一项代表直流分量,即 64 个空间图像采样值的平均值,其余 63 个系数代表各基信号
的幅度.
观察图 4.3.2(d)数据可发现规律,矩阵左上角的数值较大,而右下角的数值较小,且趋近于零值.
于是,可以按照Z字形扫描顺序,将各基信号的DCT系数列成一个表格.Z字形扫描的具体轨迹,如图4.3.2(e)
所示.按照此规律将 DCT 系数排列成数据系列,成为 DCT 系数编码顺序.经过上述处理后,已将二维数据
量转换为一维数据量,该数列第一项是该区块的平均亮度值,后面各项系数的分布和大小可以反映亮度起
伏变化的剧烈程度.若系数较大,说明亮度起伏较大,该区域图像轮廓较细致;若数值较小,则说明该区
区块
26 22 18 20 24 31 42 47
27 24 21 21 23 29 38 44
27 25 23 22 22 27 36 43
32 27 19 20 23 29 37 43
35 28 17 19 24 30 39 44
26 24 21 22 23 30 40 45
21 22 25 24 23 31 42 45
25 24 24 26 27 33 42 45
232.
3
49.0 41.7 -2.0 2.3 2.7 -2.6 -0.9
-4.5 2.2 4.8 2.1 2.3 -1.7 0.0 0.1
1.9 -8.9 -6.4 -4.1 -2.2 2.1 0.7 0.9
-0.5 -4.2 3.3 2.5 0.1 0.2 -0.9 0.0
3.3 0.7 3.7 6.3 2.2 -1.1 -1.5-0. 4
-1.6 -2.6 -1.5 -2.7 -1.6 0.9 0.6 0.2
0.0 -0.4 -0.7 -1.0 0.6 -0.1 -0.1 -0.1
0.2 0.2 0.5 -1.0 -0.2 0.3 -0.1 0.4
(a)原图 (b)8×8区域
(c)各像素 亮度值取样
(d)64个DCT系数 (e)DCT系数的排列方式
图4.3.2 DCT变换过程
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 6
内亮度变化较平缓;若数值为零,表示数列中高频分量数值为零,亮度电平无变化.在实际数据处理过程
中,排在后面的系数值基本上都是零值,或者趋于零值.由63个系数集合及变化情况,可反映出该区块内
图像细节情况,即图像清晰度状况.
图 4.3.2(d)矩阵数值非常具有实用价值.左上角数值较大,它们代表了图像信息的直流成分和低频
分量,它是图像信息的主体部分,也是区块内信息的主要部分;而右下角数值较小,它们代表了图像信息
的高频分量,其幅值原本就比较小,它主要反映图像的细节部分.人眼睛对图像的亮度信息有较高的相对
灵敏度,对图像的彩色信息不够敏感;还有,人眼睛对图像信息的低频分量具有较高的视觉灵敏度.经 Z
字形字扫描后所形成的数据系列,恰好与人眼睛对图像信息的敏感程度形成良好的对应关系.根据视觉生
理的上述规律,可对图像数据进行压缩.
2,DCT系数的再量化处理
经过上述 DCT 处理的频率数据可以进行再处理,进一步压缩数据量.人眼睛对各种频率的敏感程度不
同,并可取得统计性灵敏度数值.由此可对每种频率分量设定不同的折算值,将前述经转换得到的 DCT 系
数再次进行折算,以便进一步突出视觉效果影响大的成分,而削弱或忽略视觉效果影响小的成分.这种处
理方法称为量化处理,简称 Q 处理.对于 64 点阵列的 64 个系数来说,对应了 64 种不同频率,可使用 64
个不同的折算值.通常称这 64 个折算值为量化表,每个折算值称为量化步长,或称量化值.在 64 点阵列
中,左上角的数据量化值较小,右下角的数据量化值较大.对 DCT 系数的再量化处理,可利用量化器电路
来实现.该电路可将区块的64个系数分别除以量化表中对应位置量化步长,再进行四舍五入取整后,即可
得到经过再量化处理的64个数据值.
经过量化处理后,量化值大的系数值所得商值较小,也就是数据压缩比较大,原图
像相应部分的忽略
内容较多;量化值小的系数所得商数值较大,也就是数据压缩比较小,原图像相应部分不予忽略或极小忽
略.于是,经过量化处理后的DCT系数矩阵,可出现许多零值.一般左上角位置的数据的商数是非0,在右
下角位置的数据的商数很小,经四舍五入取整值后可简写为0.在系数矩阵上出现了许多0值,则大大减少
了数据量.一方面保留了图像信息的主体部分,另一方面大大压缩了像数据. 3,可变长度编码(VLC)
经量化处理的系数矩阵出现了许多 0 值,若进行 Z 字形扫描时,后面的系数将也出现连续 0 的状况.
此时,数据传输总量已经明显减少,但码位并未减少,仍为64个系数位.为了进一步压缩数据总量,可采
用可变长度编码,并简称VLC(Variable Length Coding).
通常,采用两种方法进行可变长度编码.第一种,是根据数据出现的频率,分配以不同长度的码字来
代替,对于频繁出现的数据,分配以较短的码字,那些不经常出现的数据,则赋予较长的码字,这样处理
后可减少传输的总码率.第二种方法,虽然 Z 字形扫描使系数列尾部出现多个 0 个值,但不需要逐位地传
输0值,仅需传送表0的"个数"码,待重放时再按规定恢复为0位,以便填满矩阵的64位.例如00000,
则可表示为50,在解码时恢复为00000.
总之,对于静止画面来说,采用离散余弦变换,Z字形扫描,量化处理和可变长度编码等方法,可使图
像数据量大大压缩.在数据解码时,先经过可变长度解码,恢复为数据的固定长度;再对系数进行反量化,
恢复为原来的DCT频率系数;再经过反向离散余弦变换,恢复为图像的空间坐标数值,即原来图像的数据.
三,帧间数据压缩技术
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 7
对于活动图像来说,相邻帧的图像具有强烈的相关性.在保存和记录动态图像时,不需要将每一帧图
像的全部信息都记录和保存下来,可以将前面第一帧图像全部数据都记录下来,把它看成是静态图像,可
用静态图像数据压缩方法来处理.而后面诸帧图像,可以仅记录与前面帧图像有差异的信息.于是,在重
放时,利用前面帧图像的数据和后面帧的差异数据,即可恢复出后面帧的图像.这种处理方法省去许多数
据.
1,三种画面
按照MPEG-1标准,传送的活动画面可分为3种类型.第1种,是场景更换后的第1帧画面,它是一种
VCD激光视盘机基本原理 47_47vcd
独立的画面,这种画面采用较高清晰度的逐点取样法进行传送,此画面称为 I 画面(内码帧,或称帧内编
码帧).该画面信息是由自身画面决定,不必参考其它画面.该画面的数据代表了活动图像的主体内容和背
景内容,它是电视画面的基础.第 2 种,是与 I 画面相隔一定时间,活动图像主体位置在同一背景上已发
生明显变化的画面,此画面称P画面(预测帧,或称前向预测编码帧).该画面用前面的I画面作为参考画
面,该画面不传送背景等重复性信息,仅传送主体变化的差值,这就省略了一部分细节信息,而在重放时
依靠帧存储器将 I 画面的主要部分和 P 画面的差值进行运算,即可得出新画面的完整内容,它是既有背景
又有现时运动主体状态的实际画面.第3种,其情况与P画面相似,用来传送在I,P画面之间的画面,称
B画面(双向预测帧,或称双向预测内插编码帧).该画面仅反映在I,P画面之间的运动主体变化情况,并
用位移矢量(或称运动矢量等)表示画面主体移动情况.其信息量更小些.因为在重放它时,既可参考 I
画面内容,也要参考P画面内容,所以称为双向预测帧.
将一串连续相关的画面分为I,P,B帧后,传输信息量明显减少.在P,B画面当中,几乎不传送反映
实物的象素,仅传送其主体移动的差值,其具体的处理方法是采用了区块对比的方法,在两个变化的画面
当中,将区块或宏块作为处理单元,将一个画面的宏,区块与参与 画面中邻近范围内的宏,区块进行数
值运算对比,寻找与该块最相近,误差最小的区块,找到近似的该区块后,记录该区块在两个画面中的位
移值,即为位移矢量以及反映两画面的差值量.若位移矢量坐标变化为0,说明该块没有移动,例如相同的
背景景物;若位移矢量值有变化,而区块差值为0,则说明景物有移动,而形状没有变化,例如飞行中的球
类和奔驰的车辆等.可见,位移矢量和区块差值可在重放时依靠参考画面得出新画面的完整场景,而传送
时却省略了背景和主体内容,只传送代表位移矢量和差值的少量数据,使图像得到大量压缩.
2,三种画面的连接
通常,更换场景后的第一帧就是I帧,I帧应当全帧传送.从压缩的程度来看,I画面的压缩量最少;
P画面次之,它是以I画面为基础;B画面压缩最多.为了加大压缩比,通常在I帧后面相隔2帧(最多3
帧)设置1个P帧,在I,P帧之间都是B帧,在两个P帧之间也是设置2~3帧B帧.B帧传送它与I帧或
P帧之间的差值信息,或者P帧与后面P帧,I帧之间的差值信息,或者它与前后I,P帧或P,P帧平均值
之间的差值信息.当主体内容变化愈大时,两个I画面之间的帧数值越小;当主体内容变化小时,I面画的
间隔可以适当大一些.或者说,B 帧,P 帧所占比例越大,图像压缩比越高.一般两个 I 画面相隔 13~15
帧,相隔帧数不宜再多.
下面以15帧为例,说明VCD图像帧的排列顺序.I,P,B三种画面的典型设置方式,对NTSC制共约需
半秒时间.节目输入顺序是按实际出现顺序排列的,即
I,B,B,P,B,B,P,B,B……I,B,B,P……;
但为了解码时便于从I,P画面插补得到B画面,在编码录制节目时,将顺序改变了,即按照I,P,B,B……
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 8
顺序,即改为按原来 0,3,1,2,6,4,5,9,7,8…的画面顺序.解码时先解出 0 帧,3 帧,再由其插
补预测计算得出1帧,2帧等等.为此,须在解码器内设置动态存储器,将I,P帧先解码并存储,再计算
出各个B帧.不过最后输出时,还是应当按照实际播放顺序重组读出,按正确顺序输出.
VCD采用的帧间压缩技术标准,对图像编码顺序和各帧间隔是有具体规定的.采用帧压缩技术后,各帧
之间的信息冗余量大大减少,图像码率进一步压缩,压缩比可达3-20余倍. 四,图像压缩编码过程和解压缩过程
1,编码过程
这里谈谈VCD所采用MPEG-1标准的编码过程.因为相邻帧画面相同或基本相同,将这种画面群的第1
幅画面作为 I 画面,将它送入编码器.编码器首先将它割裂为许多片,宏块,区块等,将各区块分割为 8
×8=64点阵列,再进行Z字形描述和DCT变换,将64个亮度(或色度)取样数值变换为64个DCT系数,再
对64个系数值分别进行相应的量化,经量化处理后再进行VLC处理,即得到了代表一个区块数据的最短的
数码,至此,完成了该画面群第1帧的第1列图像中第1宏块的编码.依次类推,可得到第1帧画面的全
部压缩数据编码.原为二维空间的一帧图像信息已经转变为一维空间的串行数据,这些数据被全部存储起
来,成为继续进行数据处理的基础.至此,I画面数据处理完毕.
完成第 1 帧图像压缩编码后,接着输入第 2帧图像.编码器按照相同的方法步骤对第 2 帧进行压缩编
码,得到第 2 帧数据.此时,编码器不再将第 2 帧数据进行完整的存储和传送,而是将它与第 1 帧数据进
行比较运算.若运算中发现,两帧间数据差别很小时,说明两帧图像差别不大,仅将其差值存入存储器,
而舍掉其大部分重复数据.按照此方法再进行第3,第4帧编码,并进行比较运算,
直到找到某一帧,差别
较大且超过规定值时,再将此帧数据中与第 1 帧的差别(包括位移矢量和差值)部分存储起来,并将此帧数
据排在第1帧(I帧)后面传送出去,该帧就是P画面.当传送I,P画面后,再传送3,4帧的差别数据,这
些画面都是B画面.它们之间的差别不大,是处于I,P之间的画面.按照此程序和方法,可再选出许多组
运动预测
和补偿
反量化Q-1
输出
缓冲器
多路
混合器
变长编码
VLC
帧改组
(帧重排)
DCT量化Q
调整器
反DCT
+
I,P,B
帧存储器
视频输入 编码输出
比较运算
帧内
帧间
图4.3.3 MPEG-1视频压缩编码方框图
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 9
P和B画面.通常,每隔13~15帧后,再设置一个I画面,作为后续画面的参考基准.如遇到较新的场景,
将出现一幅不相同的新画面,这幅新出现的画面也作为I画面.
图4.3.3是MPEG-1图像压缩编码器方框图.代表亮度Y和色度分量CB,CR的二进制数码化信号,首
先进入帧改组器(或称帧重排电路),将画面分割为片,宏块,区块.区块经过比较运算电路再进入 DCT 电
路,量化器,VLC电路,取得已压缩数据.再将数据送到多路混合器和传输缓冲器.传输缓冲器用于暂存压
缩数据,并按照控制指令的先后按时序输出数据.该缓冲器通过调整器(又称为量化自适应器)与量化器相
连接.调整器可用来检测缓冲器的缓冲区的数据暂存程度,并根据暂存数据量自动调整量化步长.在编码
器内设置有反馈通路,它主要包括反量化器(Q-1),离散余弦逆变换(IDCT),相加器以及IPB画面帧存储器
等.反馈回路用于预测图像产生,进行画面分类处理(计算,区分并处理 I,P,B 画面),主要用于帧间数
据压缩编码处理.还有,运动预测和补偿电路可用于运动补偿.
2,图像解压缩电路方框图
图像解压缩电路简称为解压电路,解码电路.VCD视盘机内,经过数字信号解调电路(CD-DSP)处理后,
输出压缩编码视频数据流,需要经过视频解压缩电路进行数据解压缩,恢复为未压缩的视频信号.解码过
程是编码的逆过程,图4.3.4是MPEG-1视频解压缩电路方框图,其电路结构比编码器稍简单一些.
来自CD-DSP电路的压缩编码信号送到输入缓冲器,然后进入去混合电路,将图像的编码模式标志,运
动向量(位移矢量)和图像数据分离开,分别送往帧存储器和解压缩主通道电路. 主通道要处理 I,P,B 帧数据,这些数据已经按照图像编码系列的规定,以数据封包头标指出,这些
数据分别暂存在缓冲存储器的存储区内,根据数据量大小暂存在容量不同的存储器区中.在微处理器控制
下,先将I画面数据按序取出,送到VLC(可变长度码解调器),按照ROM存放的可变长度码对照表,逐一将
编码时压缩的码位恢复为压缩前的DCT量化值,再将各区块分为64个数据的量化值逐位乘以反量化参数,
这些参数位于ROM中存放的64位视觉心理模式量化表的相对位置,重新恢复为DCT频率系数,完成反量化
过程.
经过反量化的数据,再送入 IDCT(离散余弦逆变换)电路.这是另一次逆变换,也是通过查表法,将反
量化值所代表的各频率余弦分量的幅值进行逆变换,重新恢复为DCT变换前的图像(Y,CB,CR)取样数据,
从而取得代表图像压缩前的区块信息.4个区块的信息组成一个宏区块,若干个宏区块组成片,再由若干片
组成完整画面的总数据,这就是I帧画面.这些繁重的相加工作都需要在加法器中进行.
恢复出来的I帧画面数据存入帧存储器.I画面与后续输入的P画面数据相加,可恢复出P画面,P画
面也存入帧存储器.然后根据运动矢量和运动后图像差值(即B画面数据),与I,P画面存储数据在加法器
I,P,B
帧存储器
帧
重
排
DCT-1Q-1VLD 去
混
合
电
路
缓
冲
器
运动矢量及编码
模式控制信号
量化步长
加法器
视频输出
压缩编码输入
(来自DSP)
图4.3.4 MPEG-1视频解压缩电路方框图
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 10
中相加,并受编码模式信号的控制,以便决定I,P图像的成分多少,从而恢复出不同前后的B帧画面.经
以上处理所得 I,P,B 各种画面数据都需要存入缓冲存储器,还要根据编码模式的指示及输出制式的帧频
要求,按照I,B,B,P,B,B,P,B,B…B,I,B,B,P,B…的正常顺序进行重新编排,按照一定的速度
从帧重排电路输出.输出的解压缩数据送到D/A转换器,转变为R,G,B三基色模拟信号.
通常,在解压缩电路可还要辅设视频编码器和调制器.视频编码器可将三基色信号编码为NTSC/PAL制
彩色电视信号,并加入同步,消隐,色同步和彩色副载波信号等,以视频模拟全电视信号形式输出.这种
输出形式的信号需要输送到电视接收机的 AV 输入端口.但是,有些老式电视机没有设置 AV 输入端口,为
了适应这种现象,输出的视频全电视信号需要再一次进行高频调制,利用调制器以某个特定频道的RF调幅
形式输出电视信号.此时,VCD机需要设置RF输出端口,其输出信号可直接送到电视机的天线输入端口.
第四节 音频编码和解码原理
每张CD光盘重放双声道立体声信号可达74分钟.VCD视盘机要同时重放声音和
VCD激光视盘机基本原理 47_47vcd
图像,图像信号数据需
要压缩,其伴音信号数据也要压缩,否则伴音信号难于存储到VCD光盘中. 一,伴音压缩编码原理
伴音信号的结构较图像信号简单一些.伴音信号的压缩方法与图像信号压缩技术有相似性,也要从伴
音信号中剔除冗余信息.人耳朵对音频信号的听觉灵敏度有其规律性,对于不同频段或不同声压级的伴音
有其特殊的敏感特性.在伴音数据压缩过程中,主要应用了听觉阈值及掩蔽效应等听觉心理特性.
1,阈值和掩蔽效应
1)阈值特性
人耳朵对不同频率的声音具有不同的听觉灵敏度,对低频段(例如 100Hz 以下)和超高频段(例如 16KHZ
以上)的听觉灵敏度较低,而在 1K-5KHZ 的中音频段时,听觉灵敏度明显提高.通常,将这种现象称为人
耳的阈值特性.若将这种听觉特性用曲线表示出来,就称为人耳的阈值特性曲线,阈值特性曲线反映该特
性的数值界限.将曲线界限以下的声音舍弃掉,对人耳的实际听音效果没有影响,这些声音属于冗余信息.
在伴音压缩编码过程中,应当将阈值曲线以上的可听频段的声音信号保留住,它是可听频段的主要成
分,而那些听觉不灵敏的频段信号不易被察觉.应当保留强大的信号,忽略舍弃弱小的信号.经过这样处
理的声音,人耳在听觉上几乎察觉不到其失真.在实际伴音压缩编码过程中,也要对不同频段的声音数据
进行量化处理.可对人耳不敏感频段采用较粗的量化步长进行量化,可舍弃一些次要信息;而对人耳敏感
频段则采用较细小的量化步长,使用较多的码位来传送.
2) 掩蔽效应
掩蔽效应是人耳的另一个重要生理特征.如果在一段较窄的频段上存在两种声音信号,当一个强度大
于另一个时,则人耳的听觉阈值将提高,人耳朵可以听到大音量的声音信号,而其附近频率小音量的声音
信号却听不到,好像是小音量信号被大音量信号掩蔽掉了.由于其它声音信号存在而听不到本声音存在的
现象,称为掩蔽效应.
根据人耳的掩蔽特性,可将大音量附近的小音量信号舍弃掉,对实际听音效果不会发生影响.既使保
留这些小音量信号,人耳也听不到它们的存在,它属于伴音信号中的冗余信息.舍弃掉这些信号,可以进
一步压缩伴音数据总量.
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 11
经仔细观察,掩蔽效应分为两大类,一类是同时掩蔽效应,另一类是短时掩蔽效应.
其中,同时掩蔽
效应是指同时存在一个弱信号和一个强信号,两者频率接近,强信号将提高弱信号的听阈值,将弱信号的
听阈值提高到一定程度时,可使人耳听不到弱信号.例如,同时出现A,B两声,若A声的听觉阈值为50dB,
由于存在另一个不同频率的B声,将使A声的阈值提高到64~68dB,例如取68dB,那么数值(68~50)dB=18dB,
该值称为掩蔽量.将强大的 B 声称为掩蔽声,而较弱的 A 声称为被掩蔽声.上述掩蔽现象说明,若仅有 A
声时,其声压级50dB以上的声音可以传送出去,而50dB以下的声音将听不到;若同时出现B声,B声具有
同时掩蔽效应,使得A声在声压级68dB以下的声音也听不到了,即50~68dB之间的A声人耳也听不到了,
这些声音不必传送,即使传送也听不到,只须传送声压级68dB以上的声音.总之,为了提高一个声音的阈
值,可以同时设置另一个声音,使用这种办法可以压缩掉一部分声音数据.在周围十分安静的环境下,人
耳可以听到声压级很低的各种频率声音,但对低频声和高频声的掩蔽阈值较高,即听觉不灵敏.经研究还
发现,掩蔽声越强,掩蔽作用越强;当掩蔽声与被掩蔽声的频率相差越小,掩蔽效果越明显,两者频率相
等时,掩蔽效果最佳;低频声(设为B)可有效地掩蔽高频声(设为 A),而高频声(设为B)几乎不能掩蔽低频
声(设为A).因而输入信号时,在受掩蔽的频带内加入更大的噪声时,人耳也感觉不到与原始信号有所区别.
上述的同时掩蔽效应,又称为频域掩蔽效应,它主要反映在频域方面对掩蔽作用的影响.在声音压缩编码
中,更多地使用单频声音的掩蔽效应.
如果A声和B声不同时出现,也可发生掩蔽作用,称它为短时掩蔽效应.短时掩蔽又可分为两种类型,
作用仍可持续一段时间,即后向掩蔽和前向掩蔽.后向掩蔽是指掩蔽声 B 消失后,其掩蔽作用仍可持续一
段时间,一般可达0.5~2秒.掩蔽机理是人耳的存储效应所致.而前向掩蔽是指被掩蔽声A出现一段时间
后出现掩蔽声B,只要A,B声音隔不太大(一般在0.05~0.2秒以内),B也可对A起掩蔽作用.掩蔽机理
是 A 声尚未被人耳感知接受时,强大的 B 声已来临所致.在实践中,后向掩蔽有较高的应用价值.短时掩
蔽效应具有很强的时域结构特性,故又称为时域掩蔽效应.在声音压缩编码中,应兼顾好人耳的频域和时 域两种掩蔽效应.
2,子带编码原理
1)子带编码和解码过程
所谓子带编码技术,是将原始信号由时间
域转变为频率域,然后将其分割为若干个子频
带,并对其分别进行数字编码的技术.它是利
用带通滤波器(BPF)组把原始信号分割为若干
(例如m个)子频带(简称子带).见图4.4.1.
将各子带通过等效于单边带调幅的调制特性,
将各子带搬移到零频率附近,分别经过BPF(共
m 个)之后,再以规定的速率(奈奎斯特速率)
对各子带输出信号进行取样,并对取样数值进
行通常的数字编码,其设置m路数字编码器.
将各路数字编码信号送到多路复用器,最后输
出子带编码数据流.
(a)发送端
编码器1 BPF1
编码器2 BPF2
编码器m BPFm
原始信号信道
多
路
复
用
器
(b)接收端
BPF1 解码器1
BPF2 解码器2
BPFm 解码器m
信道 恢复信号
同
步
相
加
器
图4.4.1子带编码示意图
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 12
在接收端实现发送端的逆过程.输入子带编码数据流,将各子带信号分别送到相应的数字解码电路(共
m 个)进行数字解调,经过诸路低通滤波器(m 路),并重新解调,可把各子带频域恢复为当初原始信号的分
布状态.最后,将各路子带输出信号送到同步相加器,经过相加恢复为原始信号,该恢复的信号与原始信
号十分相似.
2)子带编码的应用
子带编码技术具有突出的优点.首先,声音频谱各频率分量的幅度值各不相同,若对不同子带分配以
合适的比例系数,可以更合理地分别控制各子带的量化电平数目和相应的重建误差,使码率更精确地与各
子带的信号源特性相匹配.通常,在低频基音附近,采用较大的比特数目来表示取样值,而在高频段则可
分配以较小的编码比特.其次,通过合理分配不同子带的比特数,可控制总的重建误差频谱形状,通过与
声学心理模型相结合,可将噪声频谱按人耳主观噪声感知特性来形成.于是,利用人耳听觉掩蔽效应可节
省大量比特数.
在采用子带编码时,利用了听觉的掩蔽效应进行处理.它对一些子带信号予以删除或大量减少比特数
目,可明显压缩传输数据总量.比如,不存在信号频率分量的子带,被噪声掩蔽的信号频率的子带,被邻
近强信号掩蔽的信号频率分量子带等,都可进行删除处理.另外,全系统的传输信息量与信号的频带范围,
动态范围等均有关系,而动态范围则决定于量化比特数,若对信号引入合理的比特数,可使不同子带内按
需要给以不同的比特数,也可压缩其信息量.
二,MPEG-1音频编码方框图
1,MPEG-1音频编码的依据
MPEG-1 音频压缩编码标准采用了心理学算法.利用感知模型删去那些听觉不灵敏的声音数据,而使重
建的声音质量无明显下降.它采用子带编码技术,根据心理声学模型取得不同子带的听觉掩蔽阈值;对各
子带的取样值进行动态量化.它根据不同频段上大音量信号所引起的小音量信号掩蔽阈值的变化规律,对
不同频段给以不同的量化步长,以便保留主要信号,而舍弃对听觉效果影响很小的成分,经过数据压缩,
可取得合理的比特流,将原来大约1.5Mbit/s的声音传输码率减少到0.3Mbit/s,即压缩率可达到1/5.
2,编码流程
图4.4.2是基于MUSICAM(掩蔽模式通用子带编码和多路复用)的MPEG-1音频压缩编码方框图.输入信
号是经过取样的二进制PCM数字音频信号,取样频率可以取44.1KHz,48KHz或32KHz,该音频数码信号的
码值与原来采样信号的幅度,频率成正比.
位流
格式化
心理声学模型
阈值/掩蔽/比例因子
快速傅里叶
变换(1024点)
辅助
信息
再量化
32分频
数字滤波器
224kbit/s
线性脉冲调制
数字音频
1.4Mbit/s
图4.4.2 MPEG-1音频编码方框图
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 13
数字音频信号首先进入数字滤波器组,它被分成等带宽的 32 个子频带,可由数字滤波器输出 32 个子
带数据信号.这种处理方法与图像编码信号进行DCT变换的作用相似,但不是像图像信号那样分为64种余
弦频率信息,这里仅分成 32 个子带,即将音频数据流改为 32 种频率的组合.声音的分解力低于图像,这
种处理方法是可行的.然后,对32个子带的伴音数据进行再量化,以便再压缩数据量.对于各个子频带的
量化步长不相同,量化步长是根据人耳的听觉阈值和掩蔽效应而确定的.经过量化处理的已压缩数据,保
留了伴音信息的主体部分,而舍弃了听觉效果影响较小的伴音信息.
进入编码系统的输入信号,分流部分信号送到并列的 1024 点快速傅利叶变换器(FFT)进行变换,它检
测输入信号每一个瞬间取样点在主频谱分量频域的分布的强度,经变换的信号送到心理声学模型控制单元.
根据听觉心理声学测量统计结果,可以归纳出一个心理声学控制对照表格,并按照此表格制成控制单元,
而单元电路可以集中地反映出人耳的阈值特性和掩蔽特性.
经过量化的32个子频带数据已经被压缩,还要加上比例因子,位分配信息等辅助信息,共同加到1位
流格式化单元,编码成为两个层次的伴音编码信号.它既含有32个子频带的伴音数码,又带有这些数码所
对应的位分配数据和不同频带数据的强弱比例因子.待将来数据解码时,可根据各子频带的数据恢复声音
信号,以及压缩时码位分配和强弱比例情况,在进行反量化时,参照压缩时的程序
VCD激光视盘机基本原理 47_47vcd
进行还原.
可见,伴音的压缩编码和图像处理一样,也要经过变换,量化,码位压缩等处理过程,它运用了许多
数学模型和心理听觉测量的统计数据,对32个子频带和各个层次信号的处理也各有不相同的取样速率.实
际的心理听觉模型和适时处理控制过程十分复杂.这些算法细节都已按硬件方式被固化在解码芯片中,这
些内容不能再改变.
3,伴音与图像的同步
图像和声音信号的压缩方法有许多不同,图像数据量又远远大于声音数据量,两者传送的数据码率大
不相同.每传送14~15个视频数据包才传送1个音频数据包,而播放声音和图像的内容又必须作到良好同
步,否则将无法保证视听统一的效果.
为了作到声图同步,MPEG-1 采用了独立的系统时钟(简称为 STC)作为编码的参照基准,并将图像和声
音的数据分为许多播放单元.例如,将图像分为若干帧,将声音分为若干段落.在数据编码时,在每个播
放单元前面加置一个展示时标(PTS),或者加置一个解码时标(DTS).当这些时标出现时,表示前一个播放
单元已经结束,一个新的图像和声音播放单元立即开始.在播放相互对应的同一图像单元和声音单元时,
可实现互相同步.
为了使整个系统在时钟在编码和重放时,声图有共同的时钟基准,又引入系统参考时钟 SCR 的概念.
系统参考时钟是一个实时时钟,其数值代表声图的实际播放时间,用它作为参照基准,以保证声图信号的
传输时间保持一致.实时时钟 SCR 必须与生活中的真实时间一致,要求它的准确度很高,否则可能发生声
音和图像都播快或播慢的现象.为了使 SCR 时间基准稳定,准确,MPEG-1 采用了系统时钟频率 SCF,以它
作为定时信息的参照基础.SCF系统时钟的频率是90KHz,频率误差为
90KHz±4.5KHz.声图信号以SCF为
统一的基准,其它定时信号SCR,PTS,DTS也是以它为基础.
三,其它MPEG标准的音频编码器
1,MPEG-2音频编码方框图
MPEG-1是处理双声道立体声信号,而MPEG-2是处理5声道(或7声道)环绕立体声信号,它的重放效
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 14
果更加逼真.
图4.4.3是MPEG-2音频编码方框图.它输入互相独立的5声道音频信号,有前置左,右主声道(L,R),
前置中央声道(C),还有后置左,右环绕声道(LS,RS).各声源经过模-数转化后,首
先进入子带滤波器,
每一声道都要分割为32个子频带,各子带的带宽均为750Hz.为了兼容MPEG-1,普通双声道立体声和环绕
模拟立体声等编码方式,原来按MPEG-1编码的立体声道能够扩展为多声道,应当包括所有5声道的信息,
为此设置了矩阵变换电路.该电路可生成兼容的传统立体声信号LO,RO,还有经过"加重"的左,中,右,
左环绕,右环绕声音信号(共 5 路).对 5 路环绕立体声信号进行"加重"处理的原因:当计算兼容的立体
声信号(LO,RO)时,为了防止过载,已在编码前对所有信号进行了衰减,经加重处理可以去失真;另外,矩
阵转变中也包含了衰减因子和类似相移的处理.
编码器原始信号是 5 路,输入通道是 5 个,经过矩阵转化处理后产生了 7 种声音信号.应当设置通道
选择电路,它能够根据需要,对 7 路信号进行合理的选择处理.该处理过程决定于解矩阵的过程,以及传
输通道的分配信息;合理的通道选择,有利于减弱人为噪声加工而引起的噪声干扰.此外,还设置了多声
道预测计算电路,用于减少各通道间冗余度.在进行多声道预测时,在传输通道内的兼容信号 LO,RO,可
由MPEG-1数据计算出来.根据人耳生理声学基础,后级设置了动态串话电路,可在给定比特的情况下提高
声音质量,或在要求声音质量的前提下降低比特率.但设置该电路增加了MPEG-2解码器的复杂程度.
经过编码器产生了多种信息,主要有编码取样值,比例因子,比特分配数据,动态串话模式,多声道
预测信息,通道预测选择信号等,诸信息传递给复接成帧模块电路,最后以MPEG-2比特流形式输出压缩编
码信号.
MPEG-2 解码器基本上是编码器的逆过程,其电路结构简单一些,运算量小一些.解码器的解码转换矩
阵可输出5路信号,再经过32分频子带滤波器处理,可输出LS,L,C,R,RS信号;另外,经过量化,SCF 和子带滤波器处理后,还可以取得前置立体声LO,RO,共计可输出7路音频信号. 2,MPEG-4音频解码
预测选择
动态
串话模式
复
接
成
帧
模
块
通道选择
预
测
计
算
通
道
转
换
动态
串话
心理声学
模型
SCF
比例因子
编码
取样值
矩
阵
变
换
子带
滤波器 预量化
子带
滤波器
子带
滤波器 预量化
子带
滤波器
子带
滤波器 预量化
SCF
采样1/SCF量化
电平Bit分配
比特
分配数
MPEG-2
比特流
多声道
预测信息
图4.4.3 MPEG-2音频编码方框图
L
C
R
RS
LS
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 15
MPEG-4音频编码和MPEG-4视频编码一样,具有许多特点和功能,例如可分级性,有限时间音频流,音
频变化/时间尺度变化,可编辑性,延迟性等.它具优越的交互性能和高压缩比.它不仅利用分级方法可对
语言和音乐进行编辑,也能解决合成语言和音乐问题,它将成为多媒体世界的一个主要格式,将成为"全
能"的系统.
通过 MPEG-4 音频编码,可以存储,传送多种音频内容.它具有高质量的音频信号(单声道,立体声和
多通道).它采用低码率编码,而声音重放质量很高.它可以传送宽带语言信号(例如 7KHz 宽的语音),也
可传送窄带宽语言信号(例如长途电话).可以传输,制作可理解的各种语音信号.可以合成语言,例如进
行音素或其它记号为基础的文本转换;也可以合成音频,例如支持音乐描述语言. 四,杜比AC-3技术
1,什么是杜比AC-3
在杜比定向逻辑环绕声技术的基础上,于1990年杜比公司与日本先锋公司合作,采用先进的数位压缩
技术,推出新颖的全数字化杜比数码环绕声系统.它可使多声道信号有更多的信息被压缩到双声道中去,
并将这种系统称为AC-3.AC是英语"音频感觉编码系统"的缩写词.AC-3技术首先应用到电影院,后来又
进入普通家庭.
杜比AC-3系统设置完全独立的6个声道,即全频带的左,中,右,左环绕和右环绕声道,再加上一个
超重低音声道.由于这样声道的结构,AC-3系统又称为5.1声道.
2,杜比AC-3的基本原理
1) 应用听觉掩蔽效应开发出自适应编码系统
AC-3技术的理论基础,也是利用心理声学中的听觉阈值和掩蔽效应,但具体技术上与MPEG标准又有所
不同.
对音频信号进行数据处理时,都要进行数据压缩,将没有用途或用途不大的数据信息忽略掉.为此,
可以应用听觉阈值和掩蔽规律,省略掉那些多余的数据信息.杜比公司除运用上述声学原理外,还运用了
它拥有的杜比降噪技术,开发出数码化的"自适应编码"系统.这是一种极具选择性和抑制噪声能力的自
适应编码体系.杜比公司依据音响心理学的基本原理,在未输入音乐信号时,保持宁静状态;当输入音乐
信号时,对复杂的音频信号进行分析和分解,用较强信号掩蔽噪声,删除听觉界限
以外,或由于频率相近
而音量小的信号,经过这种处理方法,可以大大减少需要处理的数据信息.人耳的听觉范围是20Hz-20KHz,
在如此宽阔的频带范围内,人耳对不同频率的听觉灵敏度具有极大的差异.杜比AC-3根据这个特性,将各
声道的音响频道划分为许多大小不等的狭窄频带,各个子频带与人耳临界频带的宽度相接近,保留有效的
音频,将不同的噪声频率紧跟每个声道信号进行编码,即编码噪声只能存在于编码音频信号的频带内.这
样能够更陡峭地滤除掉编码噪声,将频带内多余信号和无音频信号的编码噪声降低或除掉,而将有用的音
频信号保留下来.AC-3 系统精确地运用了掩蔽效应和"公用位元群"的设计方法,使数据压缩效率大大提
高,且具有很高水平的音质.该系统的比特率是根据个别频谱的需要,或者音源的动态状况,再分配到每
个窄频段,它设计了内置的听觉掩盖程序,可让编码器改变其频率灵敏度和时间分解力,以确保有充足的
比特被采用,掩盖掉噪声,而良好地记录音乐信号.
为了高效地利用有限的信息传输介质(光盘,胶片等),它在压缩音频信号时与其它压缩系统一样,利
用人耳的听觉特性,根据当时的具体情况,将某些声道的系数合并(这些声道系数反映了那个频带的能量大
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 16
小),以便提高压缩率.并不是所有声道都能进行这种合并.编码器可根据各声道的信息特征自动决定和调
整,只有相似的声道才能混合在一起,若压缩比不要求很高时也不必合并.一般情况下,合并的起始频率
越高,音质就越好,但要求数据传输速率也越高.当取样频率为48KHz时,合并的起始频率应为3.42MHz;
若取样频率为44.1KHz时,起始频率应为3.14MHz.若硬件和软件搭配适当,AC-3的音质可达到或接近CD
唱片的水平.
2) 杜比AC-3解码器简易方框图
AC-3 解码器输入信号是一组频谱信号,它是由时域信号 PCM数据经过时-频变换而得到.该频谱数据
流分为指数部和尾数部两部分,指数部分采用差分方式进行编码,编码后的指数代表了整个信号的频谱,
可作为频谱包络的参数.其尾数部分按照比特分配的结果进行量化.于是,量化尾数和频谱包络形成了AC-3
码流的主要信息,连同其它辅助信号(例如比特分配等)构成了AC-3比特流. 图4.4.4是AC-3系统的解码方框图,它是AC-3编码的逆过程.AC-3比特流首先进入缓冲级,然后以
帧为处理单元进行误码纠错,经纠错处理后对比特流中的固定数据(指数数据,匹
VCD激光视盘机基本原理 47_47vcd
配系数,模式符号等)解
码,使数据比特流恢复为原来的比特分配.
然后,数据信号分为两路.其中一路,将比特流恢复为原来的比特分配之后,确定尾数部量化的大小,
再对比特流中的可变数据解码;再接着恢复高频成分,为反频率变换做好准备.最后,将指数部数据和尾
数部数据汇合,变换为固定小数点数据,再对它进行频率变换,以获得时间轴数据.已经恢复为时域的数
据信号需进行窗处理,进行重叠运算,即可得到5.1环绕声道的输出信号. 3,杜比AC-3的特点
1) 配置5.1声道
将输入的音频信号解码后,可以输出5.1声道信号,其中有3个前置声道(L,C,R),还有2个后置环
绕声道(LS,RS),它们互相独立,频响宽度都是全声频域,即20Hz-20KHz(±0.5dB)及3Hz-20.3KHz(-3dB),
各频道的频响十分宽阔.目前,广泛应用于音响系统的杜比定向逻辑环绕声系统,无法和杜比AC-3频带宽
度相比.还有,杜比定向逻辑环绕声系统实为 4 声道系统,即前置左,中,右和后置环绕声,它的环绕声
实为单声道环绕声,两个后置环绕声道重放共同的声音信号,两声道采取并联甚至串联方式;其环绕声的
频响被限制在 100Hz-7KHz 范围内;另外,它没有设置独立的超低音声道,它是由前置左,右声道分离出
20Hz-120Hz 的超重低音,来重放具有震撼效果的超重低音.AC-3 系统配置了独立的超低声道,其频响为
20Hz-120HZ(±0.5dB)及3Hz-121Hz(-3dB),要求超低音箱的音量比其它各声道大10dB,具有更加震撼的
窗函数处理
交叠加运算
反频率
变换
输入
缓冲
误码
校正
固定数
据解调
固定小数
点变换
比特分配
可变数据解调
高频成分恢复
图4.4.4 AC-3解码器方框图
AC-3
数据流
5.1声道
环绕声输出
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 17
低效果.
2) 各声道全数字化且互相独立
AC-3各声道互相独立地携带不同信号,是全数字化音频信号.取样频率是32,44.1或48KHz,数据传
输量每声道为32kb/s-640kb/s,在5.1声道模式下取典型值384kb/s,在双声道模式下典型值为192kb/s.
经过数字处理后,5个主声道的频率压缩在20Hz-20KHz范围内.
3) 可将5.1声道压缩输出
由于 AC-3 的"比特流"内对每种节目方式(单声道,立体声,环绕声等)都有一个"指导信号",能使
AC-3自动地为使用者指出节目方式.它可把5.1声道信号压缩为双声道,以供给录制常规VHS录像带,或
作为杜比环绕声的输入节目源,以便与它兼容,它甚至可将 5.1 声道信号压缩为单声道输出.总之,AC-3
可输出 5.1 声道杜比环绕声,混合 4声道杜比环绕声,双声道立体声及单声道.将 5.1 声道数据压缩后所
占频带较窄,例如可在LD视盘机的FM调制的右声道所占用的频带宽度内,编入AC-3数据编码,输出AC-3
的RF信号,它的中心频率取在2.88MHz,可由LD原先的模拟输出右声道取出频率为2.88MHz的AC-3编码
信号.于是,在原有一个模拟声道内就能够容纳5.1声道的全部内容.
4) 经过声音时间校准使音效极为理想
杜比AC-3将所有声道通过"时间校准"技术,使每个扬声器的声音好像与聆听者的距离相同,以产生
更好的音响效果,其环绕声效果不仅是前,后,左,右的声源定位鲜明,上下的音场也清晰可辨.
第五节 VCD视盘机的基本结构
如图4-5-1所示,VCD视盘机主要由激光头组件,RF前置放大电路,伺服及DSP电路,MPEG-1解码电
路,音视频输出电路,电源电路以及机械结构等组成,如图4-5-1.
光头
组件
RF
前置放大 动态
储存器 EPROM
/FLASH
DSP及伺服
处理
伺服
驱动放大 解码处理
音频
处理
视频
处理
音
视
频
输
出
电
路
面板控制 卡拉OK 电源组件
A,B
C,D
E,F
RF,TE
FE,SE
FO,RA
SL,SP
FO+/-,RA+/-,
SL+/-,SP+/-
IR
VFD-CLK
VFD-SDA
CD-BCK
CD-LRCK
CD-DTAT
+5V,+8V
~3.5V,-27V
DA-XCK
DA-BCK
DA-LRCK
DA-DATA
YUV[0:7]
HSYNC
VSYNC
LOUT
ROUT
Y
C
CVBS
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 18
一,激光头组件
其主要作用是发射恒定功率的激光束,投射到光盘的信息面上,同时接收光盘反射的随光盘信息坑点
变化的激光信号,并将其转换成电信号输出,以此得到声图信号和伺服控制信号. 二,RF前置放大电路
RF 放大电路主要对激光头读取的电信号 A,B,C,D,E,F 进行电流电压(I/V)的转换,并处理形成带
有声音和图像的RF信号,循迹误差信号TE和聚焦信号FE.此外,它还包括自动激光功率控制电路(APC).
RF信号:RF=A+B+C+D或D2+D3+D4
循迹误差信号:TE=E-F 聚焦误差信号:FE=(A+C)-(B+D)或D1-D5
三,DSP及伺服电路
(一) CD信号处理电路
CD数字信号处理电路的作用是,将记录在CD格式数据区域内的音,视频EFM信号解码成MPEG-Ⅰ标准
编码的音,视频数据 CD-DATA 信号,同时还产生位时钟信号 CD-BCK,左右时钟信号 CD-LRCK,这三个信号
被送往VCD解码电路,以进行MPEG-Ⅰ解码处理.
CD 数字信号处理电路一般均采用大规模数字处理集成电路,故又称 CD DSP,它是 CD 信号处理的关键
部件,虽然市面上流行的型号很多,但它们大都具有以下主要功能,如图4-5-2: 限幅电平电路去除EFM信号幅度上的干扰信号;由PLL锁相环电路进行EFM时钟再生;EFM解调;帧同
步分离,保护,内插;子码的解调;Q 子码 CRC(循环冗余)检验;加重补偿输出;起伏吸收;CIRC译码(译
码,去交织,纠错);插补(平均值/前值保持)静噪;CLV伺服控制等.
经限幅处理已变成逻辑电平的EFM信号在DSP内分别输入PLL电路,帧同步检测
电路,EFM解调等电路.
1,PLL电路
在 PLL电路中,EFM 脉冲信号与压控振荡器(VCO)的相位和频率进行比较,产生用于同步目的的信息坑
时钟,即位时钟信号.PLL电路置于无调整化状态,VCO 的自由振荡频率不需调整,VCO 的相位差和频率误
差经低通滤波器送到 VCO 的控制端,以调整VCO 的振荡频率处于相对于重放EFM 脉冲信号的锁定状态,从
而产生位时钟信号.
2,EFM信号的解调
PLL电路中的VCO产生参考时钟为4.3218MHz,解调器内任一部分所用的时序均可由它导出.
非对称
性校正叠加
EFM
解调
寄
存
器
寄
存
器
RAM
D/A
数据
处理器
串/并
行处
理器
同步保护电路
时钟
发生器
数字
PLL
误码校正
子码P-W处理器
子码Q处理器
数字
输出
RF信号
低通
滤波
网络
图4-5-2
VCD激光视盘机基本原理 47_47vcd
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 19
为了解调 EFM 信号,用帧同步检测器将重放EFM 信号中的 7.35KHz 帧同步信号取出,与晶振分频产生
的基准7.35KHz帧同步信号相比较,同步时DSP输出同步标志信号,进行EFM信号的解调,即将14位的EFM
信号变换成8位的数字信号,与此同时,将数据分离成音视频数据和子码数据. 对于子码数据的解调,首先检出子码帧同步信号,子码解调电路再将其分为 P~W 八种数据,对 Q 码进
行 CRC 检验,通过检验 DSP就可输出识别信号,同时向系统 CPU 传递子码数据.此外还要检测有无加重,
有加重时DSP输出控制识别信号.
3,去交织与CIRC译码
音视频数据在输入CIRC译码电路后,将在时间序列上把分散的数据依时间序列顺序交替排列,进行CIRC
译码和去交织处理,同时根据CIRC符号对数据错误进行校验.如果产生超出此种纠错能力的错误数据,接
着就要进行插补和静噪等处理,再输出16位的音视频数据信号.
在 CIRC 译码和去交织处理期间,如果光盘旋转出现时基误差数据,就要将这些数据存储于存储器(使
用与EFM信号同步并来自VCO的位时钟信号来进行存储),读出数据则使用晶振产生的标准时钟来读取,这
样可吸收重放信号的时基误差.
4,插补与静噪
当音视频数据信号出现一个错误字时,DSP将采用线性插补或保持前面字的方法来保持信号的连贯性.
线性内插是指用前后取样值的平均值来代替错误的信息值;而保持前面字的方法是根据模拟信号的连续性,
用前一个采样值来代替错误的采样值.
当连续出现两个以上错误字时,经系统识别,将信号处理电路在出错的地方断开,使其无信号输出, 从而避免了噪声的出现. (二)伺服电路
伺服电路主要由聚焦伺服,循迹伺服,进给伺服以及主轴伺服电路组成,与 LD 视盘机相比,VCD 视盘 机无主轴转速检测FG信号发生器(DVD一般设置)和倾斜伺服系统.
1,聚焦伺服电路
控制聚焦线圈带动物镜自动跟踪光盘信号面的上下波动,使激光束的焦点始终处于光盘信号面上,以
消除机械误差和光盘旋转振动造成的光盘对激光束焦点的偏离.
2,循迹伺服电路
控制循迹线圈带动物镜作径向自动调整,使0次主光束始终跟踪信号轨迹. 3,进给伺服电路
控制激光头组件在其运动轨道上移动,使激光头处于所搜索或播放的轨迹处,以
便实现循迹伺服的正
常跟踪.
VCD 光盘上的信息坑点轨迹是由内逐渐向外呈螺旋状排列,激光束通过循迹伺服由内向外跟踪信号轨
迹,但循迹伺服的最大循迹范围为0.3mm,只能作精细循迹,而光盘信息轨迹的范围远远大于0.3mm,要想
从头到尾播放完光盘节目,在精细循迹的同时,还需逐渐向外移动整个激光头组件,以保证所读取的信息 轨迹处于循迹细伺服的范围,这就是进给伺服.进给伺服也可以理解成粗循迹伺服. 在播放过程中,激光头是由内向外连续循迹,这样总能产生一个向外的循迹误差分量,通常进给伺服
使用一个低通滤波器从循迹线圈上取出循迹伺服向外的直流分量,作为进给伺服误差信号,送到进给伺服
放大器,驱动进给电机旋转,带动激光头组件缓慢向外移动,使激光头始终处于循迹伺服的跟踪范围.当
系统初始化或搜索选曲时,系统控制切断低通滤波器,即断开进给伺服,控制进给伺服放大器将进给电机
置于高速运动状态,使激光头组件快速移到目标位置.
4,主轴伺服电路
控制光盘按规定的速度和相位进行旋转,保证信号的正确读取.CD/VCD 光盘为恒线速度光盘,速度为 1.2~1.4m/s,最内圈角速度为500转/分钟,最外圈角速度为200转/分钟.CD/VCD机的主轴伺服采用数字
CLV伺服.
(三)伺服驱动电路
对伺服处理器送来的循迹,聚焦,主轴,进给误差信号进行放大,一般采用四通道伺服驱动放大集成
电路直接驱动伺服执行机构(线圈和电机).
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 20
四,解码电路
VCD 视盘机解码电路都是以解码芯片为中心的音视频处理电路,其主要作用是将来自 CD 数字信号处理
器的压缩编码信号CD-DATA进行MPEG-1解码,还原成已解压缩的音视频数据信号.
如图所示为MPEG-1解码器的基本结构.主要由以下接口电路组成.
1,基本接口
主要为解码芯片内部各电路提供电源,复位,时钟等基本信号.解码芯片供电一般采用5V或3.3V,1.8V;
所需工作时钟由外接晶振产生,一般采用27MHz和40.5MHz晶振.
2,主电路接口
与系统 CPU 相连接的数据传递接口电路,主要用于接收系统 CPU 的控制指令,并同时向CPU 提供实现
正确控制所需的各种状态信息(现在一般系统CPU这部分电路均已集成在解码芯片内部,因此无需此接口).
3,CD信号接口
主要用于接收CD数字信号处理器的数据CD-DATA,左右声道时钟CD-LRCK及位时钟CD-BCK三个基本信
号,其中CD-DATA为激光头从光盘读取的记录信号,它已被CD DSP转化为脉冲数据信号.
由于VCD视盘机主要是在CD机的基础上增加了解码电路,而解码电路所处理的信号来自CD-DSP电路,
因此这部分电路被称为CD接口电路.
4,RISC处理器和解压协处理器(内部电路)
主要用于MEPG-Ⅰ编码信号的解码,将编码信号还原成压缩前的数字音视频信号,是解码器的核心部分.
其中 RISC 是 Reduction Instruction Set Computer 的缩写,直译为降低结构设置计算机,也就是解压缩
处理器,它具有解码功能和其它一些简单的图像处理功能,如静像,慢放,多画面等.解压协处理器主要
用于协助32位RISC处理器的操作.
5,DRAM接口
由于VCD解码电路处理的数据量较大,它需要较多的存储器来支持,解码器通过DRAM接口电路外接动
态随机存储器DRAM.
在解码工作时,DRAM 里面暂存的有未解压缩的音视频数据,正在解压缩过程中的音视频数据,解压缩
完成后的音视频数据以及其它系统控制数据.
6,ROM接口
犹如计算机一样,只有硬件并不能完成控制操作,ROM接口用于向解码芯片提供软件支持.EPROM中存
储的是系统控制软件,它由视盘机生产厂家编写(目前DVD一般使用FLASH芯片). 7,视频接口
经解压缩还原后的经,绿,蓝三基色数字视频信号通过该接口输出传送到DAC转换器(现在一般解码芯
片均集成了视频编码和DAC模块,因此视频接口输出的是模拟视频信号). 8,音视频接口
解码芯片通过该电路输出解压缩还原后的数字音频信号,一般有解压缩音频数据信号DA-DATA,解压缩
音频左右时钟信号DA-LRCK,解压缩音频位时钟信号DA-BCK,音频系统时钟DA-XCK等信号(DVD一般具有模
拟AC-3,数字同轴和光纤音频输出).
五,音视频输出电路
主要将音视频数据信号转换成模拟信号,并进行相应地处理以满足后续设备的使用电性能要求(符合行
业电性能要求).
1,音频数模转换和输出
经解码后一般产生音频数字信号输出至音频数模转换集成电路,经转换后产生模拟音频左右声道信号,
再送音频放大电路和静音电路处理,最后输出到音频输出插座.
2,视频数模转换和输出
经解码后一般产生视频数据信号VD(0~7),行同步信号HSYNC,场同步信号VSYNC和视频时钟信号VCLK,
这些信号输出至视频编码和数模转换集成电路,经转换后产生模拟复合视频信号CVBS,S端子信号Y/C,再
送视频放大,箝位电路和低通滤波电路处理,最后输出到视频输出插座(DVD 一般还具有色差,逐行色差和
VGA接口).
视盘基础知识-----资料来源http://zfq2008.nease.net/[福泉在线] 21
六,卡拉OK和面板控制电路
1,卡拉OK电路
在视盘机中,卡拉 OK 处理一般设置单独电路板,它只有小信号放大功能(部分机器还有回响和混响处
理),麦克风信号一般在解码芯片或音频输出电路上与光盘主音频信号混合. 2,操作显示电路
由遥控接收器,键矩阵电路以及显示屏等组成,主要用于接收用户键控或遥控指令,并将用户指令转
换成机器原始码,通过串行I2C数据线传送到系统控制CPU,系统控制CPU收到这些信号后立即进行解码分
析,然后向伺服电路,信号处理电路等发出相应的指令数据,控制执行电路,伺服电路以及信号处理电路
完成相应的操作.同时系统 CPU 还将各种显示信号传送到显示控制驱动电路,控制显示屏进行实时显示,
以此完成人机对话功能.
七,电源电路
电源电路用于产生各模块电路工作所需的电源电压.视盘机采用开关电源和线性电源两种.我公司的
VCD均采用线性电源,DVD采用开关电源.
视盘机电源一般提供以下几组电源:
1,~3.5V:显示屏灯丝电压;
2,-21V/-25V/-27V:显示屏显示驱动电压;
3,+5V:RF 放大,DSP 处理,解码,音视频处理和系统控制等电路的工作电压,其中部分电路供电电
压更低,它是将5V电压进行降压后产生的,一般有+3.3V或2.5V和1.8V; 4,±8V/±9V/±12V:音频放大电压(部分采用单电源供电);
5,+5V/+8V/9V/12V:伺服驱动电压.
牛bb文章网欢迎您转载