一般说来,记录在紧凑光盘(CD)上的音频数据以44.1KHz取样,音频数
据的每个样本都按16位量化。与LP(密纹)相比,这种CD在使用和存储方
面是有利的,但是人们常说CD的音质不如LP。例如,如果再现以44.1KHz
取样和按16位量化的音频数据,就难以再现原来的声音,与CD上一代的盘
相比,音质可能变坏。事实上,人的听觉频率范围可在20KHz之上,而动态
范围应是120dB。不可能用CD记录或再现与人们日益感兴趣的多声道音乐
有关的音频数据,因为CD最多只能记录两个声道的音频信号。
为了解决这些问题,提出了通过提高音频数据的取样频率及增加记录声
道的数目来改进再现的音质的方法。
当前,设计出了一种再现多种盘的盘再现设备。这多种盘之一是数字多
用途盘(DVD)。在DVD上,视频和音频数据以高密度记录。视频数据以MPEG
格式记录。音频数据以线性脉码调制(PCM)、Dolby AC-3或MPEG格式记
录。再现DVD视频盘的设备具有再现视频/音频数据的配置以便读出记录在
该DVD视频盘上的视频/音频数据。
在DVD视频盘的导入区中记录视频节目组(video title set)信息管理表
(VTSI_MAT),而在其后的数据区中记录音频/视频数据。在DVD视频盘的
数据区中记录的音频数据具有音频包(audio pack)的结构。下面首先观察
VTSI_MAT然后观察音频包的结构。
如上所述,DVD视频盘具有包含再现视频数据和音频数据的信息的
VTSI_MAT。这在以下1a、1b、2a和2b各表中示出。
[表1a]
RBP
内容
字节数
0至11
VTS_ID
VTS标识符
12字节
12至15
VTS_EA
VTS的结束地址
4字节
16至27
保留
保留
12字节
28至31
VTSI_EA
VTSI的结束地址
4字节
32至33
VERN
DVD视频规范的版本号
2字节
34至37
VTS_CAT
VTS类别
4字节
38至127
保留
保留
90字节
128至131
VTSI_MAT_EA
VTSI_MAT的结束地址
4字节
[表1b]
132至191
保留
保留
60字节
192至195
VTSM_VOBS_SA
VTSM_VOBS的起始
地址
4字节
196至199
VTS_VOBS_SA
VTSTT_VOBS的起始
地址
4字节
200至203
VTS_PTT_SR.PPT_SA
VTS_PTT_SRPT的起
始地址
4字节
204至207
VTS_PGCIT_SA
VTS_PFCIT的起始地
址
4字节
208至211
VTSM_PGCI_UT_SA
VTSM_PGCI_UT的起
始地址
4字节
212至215
VTS_TMAPT_SA
VTS_TMAPT的起始
地址
4字节
216至219
VTSM_C_ADT_SA
VTSM_C_ADT的起始
地址
4字节
220至223
VTSM_VOBU_ADMAP_S
A
VTSM_VOBU_ADM
AP的起始地址
4字节
224至227
VTS_C_AST_SA
VTS_C_ADT的起始
地址
4字节
228至231
VTS_VOBU_ADMAP_SA
VTS_VOBU_ADMAP
的起始地址
4字节
[表2a]
RBP
内容
字节数
232至255
保留
保留
24字节
256至257
VTSM_V_ATR
VTSM的视频属性
2字节
258至259
VTSM_AST_Ns
VTSM的音频流数目
2字节
260至267
VTSM_AST_ATR
VTSM的音频流属性
8字节
268至323
保留
保留
56字节
324至339
保留
保留
16字节
340至341
VTSM_SPST_Ns
VTSM的子图像流数目
2字节
342至347
VTSM_SPST_ATR
VTSM的子图像流属性
6字节
[表2b]
348至511
保留
保留
164字节
512至513
VTS_V_ATR
VTS的视频属性
2字节
514至515
VTSM_AST_Ns
VTS的音频流数目
2字节
516至579
VTS_AST_ATRT
VTS的音频
流属性表
64字节
580至595
保留
保留
16字节
596至597
VTS_SPST_Ns
VTS的子图像
流数目
2字节
598至789
VTS_SPST_ATRT
VTS的子图像
流属性表
192字节
790至791
保留
保留
2字节
792至983
VTS_MU_AST_ATRT
VTS的多声道
音频流属性表
192字节
984至1023
保留
保留
40字节
1024至2047
保留
保留
1024字节
在表1a、1b、2a和2b的VTSI_MAT中,RBP 260-267的VTSM_AST_ATR
表示图1的VTSM_VOBS的音频流属性。各字段的数值成为VTSM_VOBS
的音频流的内部信息。参看图1,记录在b63-b61中的音频编码方式的信息
的存储如下表3。
[表3]
b63-b61
音频编码方式
000b
Dolby AC-3
010b
MPEG-1或MPEG-2,不存在扩展位流时使用
011b
MPEG-1,存在扩展位流时使用
100b
线性PCM音频
其他
保留
在b55-b54中,量化/DRC信息的存储如下。如果音频编码方式为“000b”
(b=二进制数),则记录11b。如果音频编码方式为010b或011b,则定义量
化信息如下。
00b:在MPEG音频流中不存在动态范围控制数据。
01b:在MPEG音频流中存在动态范围控制数据。
10b:保留
11b:保留
如果音频编码方式为100b,则量化信息的存储如表4所示。
[表4]
b55-b54
量化/DRC
00b
16位
01b
20位
10b
24位
11b
保留
在图1中表示取样频率的b53-b52示于表5。
[表5]
b53-b52
fs
00b
48KHz
01b
96KHz
10b
保留
11b
保留
在图1中表示声道数目的b50-b28示于表6。
[表6]
b50-b28
声道数目
000b
1ch(单声道)
001b
2ch(立体声)
010b
3ch(多声道)
011b
4ch(多声道)
100b
5ch(多声道)
101b
6ch(多声道)
110b
7ch(多声道)
111b
8ch(多声道)
其他
保留
在表1a、1b、2a和2b的VTSI_MAT中,RBP 516-579的VTS_AST_ATRT
表示图2的VTS的音频流属性。各字段的数值成为VTSM_VOBS的音频流
的内部信息。参看图2,记录在b63-b31中的音频编码方式的信息的存储如
下表7。
[表7]
b63-b61
音频编码方式
000b
Dolby AC-3
010b
MPEG-1或MPEG-2,不存在扩展位流时使用
011b
MPEG-2,存在扩展位流时使用
100b
线性PCM音频
110b
DTS(任选)
111b
SDDS(任选)
其他
保留
b60的多声道扩展是指示是否执行多声道扩展的信息存储区。如果记录
0b,就表示不选择多声道扩展。如果记录1b,就表示按照记录在RBP 792-
983上的VTS_MU_AST_ATRT信息来执行多声道扩展。
b59-b58的音频型式如下表8所示。
[表8]
b59-b58
音频型式
00b
不规定
01b
含语言
其他
保留
b57-b56的音频应用方式示于下表9。
[表9]
b57-b56
音频应用方式
00b
不规定
01b
卡拉OK方式
10b
环绕方式
11b
保留
量化/DRC、取样频率fs和声道数目分别示于表4、5和6中。
在表1a、1b、2a和2b的VTSI_MAT中,RBP 792-983表示图3a和3b
的VTS的多声道音频流属性表。该VTS_MU_AST_ATRT有两种型式,即图
3a所示的VTS_MU_AST_ATR(1)和图3b所示的VTS_MU_AST_ATR(2)。如
果在图2的VTS_AST_ATRT的b60写入0b,则存储音频流的所有位都存储
0b。
DVD再现设备分析记录在DVD视频盘上的写入VTSI管理表中的信
息,然后再现写在盘上的视频/音频数据。这里,写在DVD视频盘上的音频
数据和视频数据以包为单位制作。图4表示在DVD中无填充小包(padding
packet)的包结构。参看图4,一个包的大小为2048字节,其中14字节为包
头,2034字节为视频、音频、子图像、DSI或PCI用的小包。14字节的包头
包括4字节的包起始码、6字节的SCR、3字节的program_mux_rate(节目复
用率)和1字节的stuffing_length(填充长度)。
图5a至5e表示DVD视频中使用的音频包的结构。具体说,参考图5a,
该图描述线性PCM音频包的结构,该包由14字节的包头和2034字节的线
性音频小包组成。这里,音频小包具有1字节的小包头、1字节的
sub_stream_id(子流标识符)、3字节的音频帧信息、3字节的音频数据信息、
和1字节至2013字节的线性PCM音频数据。
图5b表示Dolby AC-3音频包的结构。参照图5b,该包具有14字节的
包头和2034字节的Dolby AC-3音频小包。音频小包有1字节的小包头、1
字节的sub_stream_id,3字节的音频帧信息、1字节至2016字节的AC-3音
频数据。
图5c表示没有扩展位流的MPEG-1音频或MPEG-2音频包的结构。图
5d和5e表示有扩展位流的MPEG-2音频包。图5a至5e所示的音频包都分
别具有表10a和10b的相同结构,但是分别具有与各自格式相应的专用数据
区。
[表10a]
字段
位数
字节数
数值
注释
packet_start_code_prefix
24
3
000001b
stream_id
8
1
10111101b
private_stream_1
PES_packet_length
16
2
‘10’
2
3
10b
PES_scrambling_control
2
00b
不加扰
PES_priority
1
0
无优先权
data_alignment_indicator
1
0
不由描述符定义
copyright
1
0
不由描述符定义
original_or_copy
1
1 or 0
原始的:1,复制:0
PTS_DTS_flags
2
10b or 00b
ESCR_flag
1
0
无ESCR字段
ES_rate_flag
1
0
无ES率字段
DSM_trick_mode_flag
1
0
无特技方式字段
additional_copy_info_flag
1
0
无复制信息字段
PES_CRC_flag
1
0
无CRC字段
PES_extension_flag
1
0或1
PES_header_data_length
8
0至15
[表10b]
‘0010’
4
5
由提供者定义
注1
PTS[32..30]
3
marker_bit
1
PTS[29..15]
15
marker_bit
1
PTS[14..0]
15
marker_bit
1
PES_private_data_flag
1
1
0
注2
pack_header_field_flag
1
0
program_packet_sequence_counter_fla
g
1
0
P_STD_buffer_flag
1
1
保留
3
111b
PES_extension_flag_2
1
0
‘01’
2
2
01b
注2
P_STD_buffer_scale
1
1
P_STD_buffer_size
13
58
stuffing_byte
-
0-7
表10a和10b中的注1和注2说明如下。
注1:PTS[32..0]置入包含音频帧第一个样本的每一个音频小包中。
注2:此值只包括在每个VOB的第一个音频小包中,但不包括在各后
继的音频小包中。
在具有图5a结构的线性PCM数据的音频小包中,表10a和10b所示的
通用数据之外的写入专用数据区的数据示于表11。
[表11]
字段
位数
字节数
数值
注释
sub_stream_id
8
1
10100***b
注1
number_of_frame_headers
8
3
由提供者定义
注2
first_access_unit_pointer
16
由提供者定义
注3
audio_emphasis_flag
1
3
由提供者定义
注4
audio_mute_flag
1
由提供者定义
注5
保留
1
0
audio_frame_number
5
由提供者定义
注6
Quantization_word_length
2
由提供者定义
注7
Audio_sampling_frequency
2
由提供者定义
注8
保留
1
0
number_of_audio_channels
3
由提供者定义
注9
Dynamic_range_control
8
由提供者定义
注10
音频数据区(线性PCM)
在表11中,注1至注10如下。
注1:***表示解码音频数据流数。
注2:“number_of_frame_headers”表示在相应的音频小包中含有第一字
节的音频帧数。
注3:访问单元为音频帧。first_access_unit(第一访问单元)表示在相应的
音频小包中含有第一字节的第一音频帧。
注4:“audio_emphasis_flag(音频加重标志)”表示加重的状态。如果
audio_sampling_frequency(音频取样频率)为96KHz,就在该区中记录“加重
不起作用”。加重从第一访问单元的样本起实施。
0b:加重不起作用
1b:加重起作用
注5:“audio_mute_flag(音频静音标志)”表示如果音频帧内的所有数据
全为零时的静音状态。静音从第一访问单元的第一样本起实施。
0b:静音不起作用
1b:静音起作用
注6:“audio_frame_number(音频帧数)”是音频小包的第一访问单元的
音频帧组(GOF)内部的帧数。该数包括“0”至“19”。
注7:“quantization_word_length(量化字长)”是在音频样本的量化中使
用的位数。
00b:16位
01b:20位
10b:24位
11b:保留
注8:“audio_sampling_frequency”是在音频样本的取样中使用的取样频
率。
00b:48KHz
01b:96KHz
其他:保留
注9:“number_of_audio_channels(声道数)”表示声道数。
000b:1ch(单声道)
001b:2ch(立体声)
010b:3ch(多声道)
011b:4ch(多声道)
100b:5ch(多声道)
101b:6ch(多声道)
110b:7ch(多声道)
111b:8ch(多声道)
注10:“dynamic_range_control(动态范围控制)”表示从第一访问单元起
压缩动态范围的动态范围控制字。
在图5a至5e的音频小包中的流标识符(stream id)确定如下。首先,线性
PCM音频包的流标识符成为1011 1101b(private_stream_1),其sub_stream_id
为1010 0***b。其次AC-3音频小包的流标识符成为1011
1101b(private_stream_1),其sub_stream_id为1000 0***b。第三,MPEG音
频小包的流标识符成为1100 0***b或1101 0***b,而没有sub_stream_id。
在流标识符或sub_stream_id中,“***”表示数值在0至7之间的解码音频流
数。各解码音频流数不赋予同一数,这与音频压缩方式无关。
图6是说明音频包和音频流结构的图。在DVD中使用的音频数据可以
是线性PCM数据、Dolby AC-3数据、或MPEG音频数据。这样的音频流如
图6所示划分成多个音频包。以2048字节为单位控制这些音频包。线性PCM
音频数据的编码格式如表12所示。
[表12]
取样频率(fs)
48KHz
96KHz
取样相位
对于流中的所有声道应该同时
量化
16位以上,2的补码
加重
实施(零点:50μs,极点:15μs)
不实施
在表12中,线性PCM音频流数据由邻接的多个GOF组成,除最后的
GOF外每个GOF具有20个音频帧。最后的GOF为等于或小于20个音频帧。
图7表示音频帧的结构。参照图7,一个音频帧具有与1/600秒相应的
样本数据。如果取样频率fs=48KHz,则一个音频帧包含80个音频样本数
据。如果取样频率fs=96KHz,则一个音频帧包含160个音频样本数据。一
个GOF与1/30秒一致。
图8a至8c表示线性PCM的样本数据顺序。该样本数据由同时取样的
各声道数据的片(pieces)组成。样本数据的大小随音频流属性而变化,各个样
本数据连续排列。图8a、8b和8c表示两种方式下样本数据的两种格式。图
8a表示16位方式的样本数据的顺序。图8b表示20位方式的样本数据的顺
序。图8c表示24位方式的样本数据的顺序。
线性PCM音频的小包数据的结构示于表13中。
[表13]
流的方式
小包中的数据
声道数
fs(KHz
)
量化(位)
在小包中的
最大样本数
数据长度
(字节)
第一/其他
PES小包的
小包填充
(字节)
用于第一/其
他PES小包
的填充小包
(字节)
1(单声道)
48/96
16
1004
2008
2/5
0/0
|
48/96
20
804
2010
0/3
0/0
48/96
24
670
2010
0/3
0/0
2(立体声)
48/96
16
502
2008
2/5
0/0
|
48/96
20
402
2010
0/3
0/0
48/96
24
334
2004
6/0
0/9
3
48/96
16
334
2004
6/0
0/9
|
48/96
20
268
2010
0/3
0/0
48
24
222
1988
0/0
12/15
4
48/96
16
250
2000
0/0
10/13
|
48
20
200
2000
0/0
10/13
48
24
166
1992
0/0
18/21
5
48
16
200
2000
0/0
10/13
|
48
20
160
2000
0/0
10/13
48
24
134
2010
0/3
0/0
6
48
16
166
1992
0/0
18/21
48
20
134
2010
0/3
0/0
7
48
16
142
1988
0/0
22/25
8
48
16
124
1984
0/0
26/29
如果样本数小于表13中的数值,则增加填充小包的长度以便控制包的
大小。样本指定给小包的边界。即,线性PCM音频的所有音频小包的样本
数据总是以S2n的第一字节开始,如表13所示。
根据对线性PCM声道分配的说明,ACH 0和ACH 1分别对应于立体声
方式的L声道和R声道。对于多声道编码,使其与立体声方式兼容。
作为DVD的音频选项,有一种数字影院系统(DTS)。该DTS的音频包
具有如图9所示的包头和音频小包。该音频包对准音频帧单元内部的各LB
之间的边界。参看图9,一个音频包由14字节的包头和2021字节的DTS音
频小包组成。DTS音频小包具有1字节的小包头、1字节的sub_stream_id、
3字节的音频帧信息和1字节至2016字节的DTS音频数据。DTS音频小包
的流标识符是1011 1101b(private_1),其sub_stream_id是1000 1***b。这里,
sub_stream_id的***表示具有数值0至7的解码音频流数。各解码音频流数
不赋予同一数,这与音频压缩方式无关。
DTS音频小包的结构示于表10中,专用数据区则在表14中。
[表14]
字段
位数
字节数
数值
注释
sub_stream_id
8
1
10001***b
注1
number_of_frame_headers
8
1
由提供者定义
注2
First_access_unit_pointer
16
2
由提供者定义
注3
DTS音频数据区
在表14中,注1至注3的内容如下。
注1:“***”表示解码音频流数。
注2:“number_of_frame_headers”表示在DTS音频小包中存在第一字
节情况下的音频帧数。
注3:访问单元是音频帧。第一访问单元是具有音频帧第一字节、定义
为音频包的PTS的音频帧。“first_access_unit_pointer(第一访问单元指针)”
表示具有从信息区的最后字节起的RBN的第一访问单元的第一字节地址。
如果不存在第一访问单元的第一字节,则记录0000 0000h。
给DTS提供高质量多声道声音的DTS标准。这些DTS标准示于表15
中。
[表15]
比特率
单声道(1ch)64至384kbps
立体声(2ch)96k至769kbps
5.1声道256k至1536kbps
取样频率
只用48KHz
音频编码方式
1/0,2/0,3/0,2/1,2/2,3/2,
*1
保护
CRC被禁止
多语言声道
0
在表15中,对于在各个音频方式中的低频音效声道来说,*1是有用的。
具有这种小包结构的DTS音频可定义为高质量多声道声音。
在DVD视频中线性PCM可能得到的声道数示于图10中。在图10中,
最大的比特率是6.75Mbps,而声道由表16决定。
[表16]
取样频率
量化位数
声道数
48KHz
16位
8声道
20位
6声道
24位
5声道
96KHz
16位
4声道
20位
3声道
24位
2声道
在DVD视频盘上记录的音频数据的音质远比在CD音频盘上的音频数
据的好。与CD音频盘上记录的音频数据相比,DVD盘上记录的音频数据有
较高的取样频率、较多的量化位数和较多的声道数。因此,DVD再现设备可
以用多声道再现高音质的音频数据。
DVD视频盘允许最大为10.08Mbps的数据传送。以此为准,以192KHz
取样的数据可以用两个声道再现。这些数值接近在日本于1996年4月召开
的先进数字音频会议上作为下一代音频必要要求而指定的最大取样频率。
如果在DVD盘上记录纯粹的音频数据,并且DVD再现设备播放该DVD
音频盘,就获得音质好得多的音频信号。
本发明提出一种DVD音频盘和再现该盘的设备和方法。按照本发明的
DVD音频盘的VTSI_MAT,改变表1中的DVD视频盘的VTSI_MAT中的
音频信息。用本发明的DVD音频盘,改变在表1a和1b的VTSI_MAT中的
RBP 260-267的VTSM_AST_ATR、RBP 516-579的VTS_AST_ATRT、和
RBP 984-2047的保留区的信息。
VTSM_AST_ATR和VTS_AST_ATRT的音频编码方式存储记录在盘上
的音频数据的编码信息。在本发明的优选实施例中,示出了以线性PCM方
式或伪无耗(pseudo-lossless)音质编码方式在DVD音频盘上记录音频数据的
例子。在本实施例中,假设音质编码方式使用DTS编码方式。这里,DTS
编码方式可以任选地使用。如果b63-b61为“110b”,则是DTS音频编码方
式。
现在说明VTSM_AST_ATR的变化,如图11所示,改变了b55-b48的
数据模式和定义。在图2的VTSM_AST_ATR的b55-b48中,保留位b51被
吞并到表示声道数的声道位中。
按照在图11中改变的定义,音频取样频率fs的改变如表17所示。
[表17]
b55-b54
fs
00b
48KHz
01b
96KHz
10b
192KHz
11b
保留
声道数的改变如表18a和18b。
[表18a]
b51-b48
声道数
0000b
1ch(单声道)
0001b
2ch(立体声)
0010b
3ch(多声道)
0011b
4ch(多声道)
0100b
5ch(多声道)
[表18b]
0101b
6ch(多声道)
0110b
7ch(多声道)
0111b
8ch(多声道)
1000b
9ch(多声道)
1001b
10ch(多声道)
1010b
11ch(多声道)
1011b
12ch(多声道)
1100b
13ch(多声道)
1101b
14ch(多声道)
1110b
15ch(多声道)
1111b
16ch(多声道)
就VTS_AST_ATRT而言,b55-b48的数据模式和定义的改变如图12。
在图3 VTS_AST_ATRT中,保留位b51被吞并到声道数中。按照图11中改
变的定义,音频取样频率fs的改变如表17,声道数的改变如表18a和18b。
给VTS_MU_AST_ATR加上了图13a和13b的信息。
VTS_MU_AST_ATR给线性PCM音频提供的信息只到但是不多于8个声
道。如果写入线性PCM数据,最多可得到13个声道,因此,在
VTS_MU_AST_ATR之后的保留区中写入第9至13声道的信息。如同
VTS_MU_AST_ATR,VTS_MU_AST_ATR_EXT由图13a的
VTS_MU_AST_EXT(1)和图13b的VTS_MU_AST_ATR_EXT(2)组成。
具有如上改变的VTSI_MAT的DVD音频盘的格式分为线性PCM区和
伪无耗音质已编码数据。
首先,在线性PCM区的DVD音频盘中,数据以线性PCM方式记录。
取样频率为48、96和192KHz。量化位数为16、20和24位。记录声道数为
1个至比特率允许的最大数目。该记录声道数用下列公式1确定。
N = Mbr Fs * Qb ]]>
Fs:取样频率(Hz);48,96,192KHz
Qb:量化位数;16,20,24位
Mbr:DVD盘的最大数据传送率(Mbps);10.08Mbps
N:由DVD盘的数据传送率、取样频率和量化位数确定的可记录声道数。
由公式1确定的声道数示于表19中。
[表19]
取样频率
量化位数
最大的声道数
48KHz
16位
13声道
48KHz
20位
10声道
48KHz
24位
8声道
96KHz
16位
6声道
96KHz
20位
5声道
96KHz
24位
4声道
192KHz
16位
3声道
192KHz
20位
2声道
192KHz
24位
2声道
本发明的DVD音频盘的数据结构以MPEG 2系统层为基础。如果是本
发明的线性PCM,则音频包的制作如图14。图14的线性PCM音频包具有
与图5a相同的结构。该音频包具有14字节的包头和最大2021字节的线性
PCM小包。图14的包头符合MPEG 2系统层的标准。
线性PCM音频小包的结构以MPEG2系统层的标准为基础。线性PCM
的音频小包的结构示于表10和20。
[表20]
字段
位数
字节数
数值
注释
sub_stream_id
8
1
10100***b
注1
number_of_frame_headers
8
3
由提供者定义
注2
first_access_unit_pointer
16
由提供者定义
注3
audio_emphasis_flag
1
由提供者定义
注4
audio_mute_flag
1
由提供者定义
注5
保留
1
0
0
audio_frame_number
5
由提供者定义
注6
quantization_word_length
2
由提供者定义
注7
audio_sampling_frequency
2
由提供者定义
注8
number_of_audio_channels
4
由提供者定义
注9
dynamic_range_control
8
由提供者定义
注10
音频数据区(线性PCM)
在表20中,注1至注10的内容如下。
注1:***表示解码音频数据流数。
注2:“number_of_frame_headers”表示在相应的音频小包内含有第一字
节的音频帧数。
注3:访问单元为音频帧。first_access_unit表示在相应的音频小包内含
有第一字节的第一音频帧。
注4:“audio_emphasis_flag”表示加重的状态。如果音频取样频率为
96、192KHz,则该状态应表示为“加重不起作用”。加重从第一访问单元的
样本起实施。
0b:加重不起作用
1b:加重起作用
注5:“audio_mute_flag”表示如果音频帧内的所有数据全为零时的静音
状态。静音从第一访问单元的第一样本起实施。
0b:静音不起作用
1b:静音起作用
注6:“audio_frame_number”是音频小包的第一访问单元的音频帧组
GOF内部的号数。该数的覆盖范围是自0至19。
注7:“quantization_word_length”是在音频样本的量化中使用的位数。
00b:16位
01b:20位
10b:24位
11b:保留
注8:“audio_sampling_frequency”是在音频样本的取样中使用的取样频
率。
00b:48KHz
01b:96KHz
10b:192KHz
11b:保留
注9:“number_of_audio_channels”表示声道数。
0000b:1ch(单声道)
0001b:2ch(立体声)
0010b:3ch(多声道)
0011b:4ch(多声道)
0100b:5ch(多声道)
0101b:6ch(多声道)
0110b:7ch(多声道)
0111b:8ch(多声道)
1000b:9ch(多声道)
1001b:10ch(多声道)
1010b:11ch(多声道)
1011b:12ch(多声道)
1100b:13ch(多声道)
注10:“dynamic_range_control”表示从第一访问单元起压缩动态范围
的动态范围控制字。
线性PCM音频小包的结构和相应的帧长度示于表21a和21b中。
[表21a]
流的方式
小包中的数据
声道数
fs(KHz)
量化
(位)
在小包中的
最大样本数
数据长
度(字
节)
第一/其他
PES小包的小
包填充(字节)
用于第一/其他
PES小包的填充
小包(字节)
1(单声道)
48/96/192
16
1004
2008
2/5
0/0
48/96/192
20
804
2010
0/3
0/0
48/96/192
24
670
2010
0/3
0/0
2(立体声)
48/96/192
16
502
2008
2/5
0/0
48/96/192
20
402
2010
0/5
0/0
48/96/192
24
334
2004
6/0
0/9
3
48/96/192
16
334
2004
6/0
0/9
48/96
20
268
2010
0/3
0/0
48/96
24
222
1988
0/0
12/15
4
48/96
16
250
2000
0/0
10/13
48/96
20
200
2000
0/0
10/13
48/96
24
166
1992
0/0
18/21
[表21b]
5
48/96
16
200
2000
0/0
10/13
48/96
20
160
2000
0/0
10/13
48
24
134
2010
0/3
0/0
6
48/96
16
166
1992
0/0
18/21
48
20
134
2010
0/3
0/0
48
24
110
1980
0/0
30/33
7
48
16
142
1988
0/0
22/25
48
20
114
1995
0/0
15/18
48
24
94
1974
0/0
36/39
8
48
16
124
1984
0/0
26/29
48
20
100
2000
0/0
10/13
48
24
82
1968
0/0
42/45
9
48
16
110
1968
0/0
30/33
48
20
88
1980
0/0
30/33
10
48
16
100
2000
0/0
10/13
48
20
80
2000
0/0
10/13
11
48
16
90
1980
0/0
30/33
12
48
16
82
1968
0/0
42/45
13
48
16
76
1976
0/0
34/37
如果样本数小于表21a和21b中的数值,则增加填充小包的长度以适配
包的长度。样本与小包边界一致。即,所有音频小包都从S2n的第一字节开
始。在一个小包内,音频样本数总是偶数。
下面描述记录音质已编码音频数据的DVD音频盘。
如果记录线性PCM的音频数据并且如果使用表19中的48KHz的取样
频率和16位的量化器,则可获得13个通道,使得音频数据可以写入多声道
音乐所需要的多达10个声道中。然而,如果是192KHz的取样频率和24位
的量化器,则如表19所示最多写入2个声道的音频数据,这不能满足多声
道音频的需要。如果以高取样频率用很多位进行取样,就难以实现多声道音
频的功能。为此,使用了无耗编码或伪无耗音质编码。但是由于在大多数场
合无耗编码的压缩率是2∶1,难于期望在实现多声道方面有明显效果。
在本实施例中,假定伪无耗音质编码方法使用具有4∶1压缩率的DTS
编码方式。DTS编码方式能含有足够的声道数而不使音质变坏。例如,不象
其他当前存在的编码算法,DTS使编码能以192KHz和14位的高技术规格
实施,并且能在不减低比特率的情况下尽量减少音质的变坏。取样频率为
48、96和192KHz,量化位数为16、20和24位,记录的声道数是从1个到
由编码方式和比特率允许的最大数目。记录通道数由下列公式2确定。
N = M br * Ccr F s * Qb ]]>
Fs:取样频率(Hz);48KHz,96KHz,192KHz
Qb:量化位数;16位,20位,24位
Mbs:DVD盘的最大数据传送率(10.08Mbps)
Ccr:由压缩编码方式决定的压缩比
N:由DVD盘的数据传送率、取样频率、量化位数和压缩比确定的最大可记
录声道数。这里,假设编码方式使用具有4∶1压缩比的DTS。在此情况下
由公式2确定的声道数示于表22中。
[表22]
取样频率
量化位数
最大的声道数
48KHz
16位
52个声道
48KHz
20位
42个声道
48KHz
24位
35个声道
96KHz
16位
26个声道
96KHz
20位
21个声道
96KHz
24位
17个声道
192KHz
16位
13个声道
192KHz
20位
10个声道
192KHz
24位
8个声道
如上所述,本发明的DVD音频盘的结构以MPEG 2系统层为基础,因
此压缩的音频包的制作如图15。制成的压缩音频包具有14字节的包头和最
大为2021字节的压缩音频小包。在图14中,包头符合MPEG 2系统层的标
准。
压缩的音频小包的结构也以MPEG 2系统层的标准为基础。编码后的音
频小包的结构如表10和23。
[表23]
字段
位数
字节数
数值
注释
sub_stream_id
8
1
&&&&***b
注1
number_of_frame_headers
8
1
供应者定义
注2
first_access_unit_pointer
16
2
供应者定义
注3
DTS音频数据区
在上表23中,注1至注3的内容如下。
注1:“sub_stream_id”因编码方式而不同。如果编码方式为DTS,则该
字段成为“1000 1***b”。在sub_stream_id中,***是解码音频流数。
注2:“number_of_frame_headers”表示在相应的音频小包内含有第一字
节的音频帧数。
注3:访问单元为音频帧。first_access_unit表示在相应的音频小包内含
有第一字节的第一音频帧。
压缩编码方式的DVD音频盘具有以下的技术规格。允许压缩的声道数
大于8个声道。取样频率为48、96或192KHz。量化位数为16、20或24位。
可得到的压缩率为1∶1至5∶1。缩混(down mixing)、动态范围和时戳(time
stamp)被使能。最后,优良的音质是实际公认的。
可以独立地形成再现DVD音频盘的设备。也可以将该设备连接到DVD
视频再现设备。在本实施例中,首先说明DVD音频盘再现设备,然后说明
该DVD音频盘再现设备附加的再现设备。
DVD音频盘再现设备示于图16中。与用户接口的系统控制器111控制
DVD音频盘再现设备的全部操作。系统控制器111分析记录在DVD音频盘
上的VTSI_MAT、音频包头和小包头,以便执行再现音频信号的全部操作。
拾取器112执行读出记录在DVD音频盘上的数据的功能。在系统控制器111
的控制下,伺服控制器113控制拾取器112的驱动,从而执行各种伺服功能。
数据接收器114对从拾取器112输出的音频数据进行差错分析和纠错。数据
接收器114包含纠错电路(ECC)。音频解码器115把从数据接收器114输出
的音频信息送到系统控制器111,以及在系统控制器111的控制下对接收的
音频数据解码。
音频解码器115具有对线性PCM音频数据和压缩的音频数据解码的结
构,以便对本发明实施例的音频数据解码。该结构示于图17。
参照图17,输入数据缓冲器211接收和存储从数据接收器114输出的音
频数据。在系统控制器111的控制下,流选择器212有选择地输出从输入数
据缓冲器211输出的音频数据流。线性PCM解码器213接收从流选择器212
输出的线性音频数据,然后将其解码和作为原始音频数据输出。伪无耗音质
解码器214接收从流选择器212输出的压缩数据,然后将其解码和作为原始
音频数据输出。输出数据缓冲器215存储和输出从解码器213和214输出的
音频数据。数字音频格式化器216将从解码器213和214输出的音频数据改
变为系统控制器111指定的格式。定时控制器210控制系统控制器111以便
产生控制音频解码器115中各部件操作的定时控制信号。
高比特高取样数字滤波器116接收从音频解码器115输出的音频数据,
以及按照系统控制器111的控制信号对音频数据进行数字滤波。高性能数模
变换器及模拟音频电路117把从高比特高取样数字滤波器116输出的音频数
据变换成模拟信号。
参照图16和17,数据接收器114经过拾取器112把从DVD音频盘再
现的音频数据送至音频解码器115。再现的音频数据顺序地存储到音频解码
器115的输入数据缓冲器211。流选择器212有选择地把存储在输入数据缓
冲器211中的数据输出到相应的解码器213或214。当系统控制器111请求
对线性PCM的音频数据解码时,流选择器212把存储在输入数据缓冲器211
中的音频数据传送给线性PCM解码器213。如果系统控制器111请求对压缩
数据解码,则流选择器212把存储在输入数据缓冲器211中的音频数据传送
给解码器214。
现在说明线性PCM音频数据的解码。线性PCM解码器213进行输入信
号的多声道缩混、取样频率变换和再量化。例如,如果从流选择器212输出
的数据是8声道数据,而要求在其输出把该数据变换成双声道数据,线性
PCM解码器213就通过进行多声道缩混来制造所需的声道数。如果输入数据
以192KHz取样,但是系统控制器111要求96KHz的取样数据输出,则线性
PCM解码器213进行取样频率变换,将输入数据变换成具有所需取样频率的
音频数据。如果音频数据输入是24位量化数据但是系统控制器111要求16
位量化数据输出,则线性PCM解码器213进行再量化,于是产生所需位数
的输出音频数据。
现在说明压缩音频数据的解码。在系统控制器111的控制下,解码器214
通过使用相应的算法对压缩音频数据解码。从解码器214输出的音频数据的
形式由系统控制器111指定。在本发明的实施例中,解码器214可以成为
DTS解码器。解码器214进行输入信号的多声道缩混、取样频率变换和再量
化、以及指定算法的解码。
从解码器213或214解码和输出的音频数据传送到输出数据缓冲器215
和数字音频格式化器216。然后,输出数据缓冲器215存储输入的已解码音
频数据,与从定时控制器210输出的控制信号同步地将该存储的数据输出。
数字音频格式化器216根据数字设备之间的传送格式进行已解码音频数据的
格式化,然后与从定时控制器210输出的控制信号同步地输出已格式化的数
据。这里,向外输出的音频数据可以输出到音频/视频设备或具有相同传送格
式的计算机。
从音频解码器115输出的已解码数据由高比特高取样数字滤波器116进
行数字滤波和输出,高性能数模变换器和模拟音频电路117变换从高比特高
取样数字滤波器116输出的音频数据。这里,滤波器116用一些数字滤波器
组成,用于排除音频信号频带之外的噪声分量。为了处理以192KHz取样和
以24位量化的音频数据,高比特高取样数字滤波器116要求其滤波器系数
的分辨率和抽头数远大于DVD或CD中采用的数字滤波器的系数分辨率和
抽头数。如果普遍采用96或192KHz的D/A变换器,则可以把高比特高取
样数字滤波器116包含在D/A变换器中。高性能数模变换器和模拟音频电路
117由D/A变换器组成,它将高比特高取样数字滤波器116排除噪声后的音
频数据变换成模拟音频信号。
用于再现DVD视频盘和音频盘二者的设备的结构示于图18中。与用户
接口的系统控制器111控制该再现设备的全部操作。系统控制器111分析记
录在DVD视频盘和DVD音频盘上的VTSI_MAT、音频包头和小包头,鉴
别盘的种类,并按照鉴别结果进行再现视频信号或音频信号的全部控制。拾
取器312执行读出记录在DVD盘上的数据的功能。在系统控制器311的控
制下,伺服控制器313控制拾取器312的驱动,从而执行各种伺服功能。数
据接收器314进行差错分析和对从拾取器312输出的音频数据的纠错。数据
接收器314含有ECC。在系统控制器311的控制下,音频/视频解码器315
把从数据接收器314输出的信息传送给系统控制器311,并对接收的音频/视
频数据解码。
音频/视频解码器315具有对视频/音频数据解码的结构,如图19所示。
参看图19,输入数据缓冲器411接收和存储从数据接收器314输出的音频/
视频数据。在系统控制器311的控制下,流分析器(stream parser)412有选择
地输出从输入数据缓冲器411输出的音频/视频数据流。音频解码器413接收
从流分析器412有选择地输出的音频数据,并以由系统控制器311输出的控
制数据选择的方式对音频数据解码。解码音频输出器414输出从音频解码器
413解码并输出的音频数据。视频解码器415接收从流分析器412有选择地
输出的视频数据,并以由系统控制器311的输出控制数据选择的方式对视频
数据解码。解码视频输出器416输出从视频解码器415解码并输出的视频数
据。定时控制器410产生用于控制音频/视频解码器315的各部件操作的定时
控制信号。
在图19中,音频解码器413应有分别对应于线性PCM、MPEG、AC-3
和压缩编码方式的各个解码设备。其中,线性PCM和压缩编码方式还必须
具有再现记录在本发明的盘中的音频数据的结构。即,本发明具有按照本实
施例的取样频率、量化位数和声道数再现音频数据的多个解码器,及具有分
配对应于多个解码器的音频数据的流选择器。
根据系统控制器311的控制信号,高比特高取样数字滤波器316接收从
音频/视频解码器315输出的音频信号,并对音频输入进行数字滤波。高性能
数模变换器和模拟音频电路317对从高比特高取样数字滤波器316输出的音
频数据进行模拟变换。NTSC编码器视频数模变换器的模拟视频电路318对
从视频解码器315输出的视频数据进行NTSC编码,并将其变换成模拟信
号。
参看图18和19,从拾取器312输出的盘的再现数据传送到数据接收器
314,数据接收器314对接收的数据先纠错后分析,然后将其传送给音频/视
频解码器315。从数据接收器314输出的数据加到和存入音频/视频解码器315
的输入数据缓冲器411。流分析器412根据系统控制器311的控制数据选择
所需的流,分析输入数据,将视频数据传送给视频解码器415,及将音频数
据传送给音频解码器413。
音频解码器413按照系统控制器311的控制把从流分析器412输出的音
频数据先变形后输出。音频解码器413必须包括DVD视频盘的音频解码和
DVD音频盘的音频解码。
视频解码器415按照系统控制器311的控制进行输入视频数据的解码、
变形和输出。视频解码器415的视频数据变形是指视频信号处理,如
sub_title(字幕)处理或pan_scan(扫视)。
从音频解码器413和视频解码器415输出的已解码音频/视频数据被输
出到解码音频输出器414和解码视频输出器416。然后,输出器414和416
存储已解码数据输入,及与从定时控制器410输出的定时控制信号同步地输
出该已解码数据输入。解码音频输出器414向外传送按照数字设备之间的传
送格式格式化的数字音频数据。从解码音频输出器414输出的音频数据传送
到其他音频/视频设备或计算机。
图18所示的再现设备的音频/视频解码器315在处理视频信号方面符合
DVD视频标准,而在处理音频信号方面既执行本发明的算法也执行DVD视
频标准规定的算法。音频解码器413包括DVD视频盘的音频标准中的线性
PCM和DTS算法,所以即使在插入DVD视频盘或插入本发明的DVD音频
盘时也必须使该盘能够播放。
这里,在对DVD视频盘的解码中所需的音频算法是线性PCM解码(1)
+AC-3解码+MPEG解码。在对本发明的DVD音频盘的解码中所需的音频
算法是线性PCM解码(2)+伪无耗音质解码。因此,DVD视频盘的线性PCM
算法包含在本发明的线性PCM算法中。在DVD视频/音频盘再现设备中使
用的音频数据解码算法必须包含公式3的功能,该算法在音频解码器413中
进行。
公式3
音频解码器=线性PCM解码器(2)+伪无耗音质解码器+AC-3解码器
+MPEG解码器
具有图16或18结构的再现设备分析存储在盘的导入区中的VTSI_MAT
的信息,以从而再现对应于VTSI_MAT的节目的音频。在本发明的本实施例
中,假设使用DVD音频盘。
图20表示在系统控制器111中分析和设置VTSI_MAT信息的流程图。
参照图20,系统控制器111在盘的导入区读出如表1和2的待再现节目的
VTSI_MAT。在步骤513中,系统控制器111分析读出的VTSI_MAT,并检
查是否有菜单和加载到盘中的命令或用户是否需要播放。
如果需要播放菜单,系统控制器111就在步骤515从VSTI_MAT的信
息中读出图11所示的VTSM_AST_ATR,并确认需要的算法。在步骤517,
系统控制器111读出VTSM_AST_ATR的音频编码方式,确认相应的音频编
码方式,以及设置音频解码器115以便执行相应音频编码方式的算法。这里,
必须在音频解码器115中设定的功能是量化/DRC信息、取样频率fs、和声
道数。在设置音频解码器115之后,系统控制器111在执行步骤519和521
时再现相应节目的菜单。此过程是再现节目菜单的过程。
如果在步骤513不需要播放菜单或者在步骤521结束了播放节目菜单,
则系统控制器111前进到步骤523,以便根据VTSI_MAT的信息确认图12
的VTSM_AST_ATR信息。这里,系统控制器111确认图12所示的
VTSM_AST_ATR中的音频编码方式,从而确认相应音频数据的算法。在步
骤525,系统控制器111确认VTS_AST_ATR中的量化信息、取样频率和声
道数,以从而设置音频解码器115。在步骤527,音频解码器115接受控制,
以便将相应节目的音频小包解码。
图21表示在图20的步骤517和525中设置音频解码器115的流程图。
参照图21来描述系统控制器111按照VTS_AST_ATR和VTSM_AST_ATR
设置音频解码器115的操作。这里假设音频编码方式是线性PCM音频和DTS
编码音频。
首先,在步骤611,系统控制器111分析VTS_AST_ATR和
VTSM_AST_ATR的音频编码方式,以从而检查存储在DVD音频盘中的音
频数据的编码方式。这里,如果音频算法是线性PCM,系统控制器111就在
步骤611中获悉这一点,然后检查线性PCM音频数据的声道数是否大于8
或取样频率是否为192KHz。如果是这种情况,该盘就是根据本发明实施例
的具有新格式的DVD音频盘,因此在步骤621设置音频解码器115以执行
相应的算法和设置输出数据缓冲器215到相应的取样频率。
如果在步骤613中声道数小于8并且取样频率低于96KHz,则音频具有
与DVD视频盘相同的格式,因此在步骤619系统控制器111按照该取样频
率设置音频解码器115和输出数据缓冲器215以便执行相应的算法。
如果在步骤611中音频算法不是线性PCM,则步骤615检查
VTS_AST_ATR和VTSM_AST_ATR的音频算法是否为DTS。这里,如果盘
中是DTS音频,则在步骤617检查声道数是否大于6或者取样频率是否为
96或192KHz。如果是,就执行步骤621,因为该盘为新格式的DVD音频盘。
然而,如果DTS数据的声道数低于6并且取样频率为48KHz,则前进到步
骤619,因为该盘具有与DVD视频盘相同的音频格式。
在设置音频解码器115之后,系统控制器111执行图22的过程,即初
始化高比特高取样数字滤波器116及高性能数模变换器和模拟音频电路
117。在步骤711,系统控制器111控制高性能数模变换器和模拟音频电路
117以使模拟音频输出为静音。在步骤713,控制高比特高取样数字滤波器
116以按照取样频率选择数字滤波器程序,然后在步骤715,确定待滤波的
输入块的长度。在步骤717,系统控制器111初始化去加重标志,然后在步
骤719运行程序以起动中断。接着,在步骤721,系统控制器111控制音频
输出117以解除模拟音频输出的静音。
在按照VTSI_MAT信息通过图20、21和22的步骤设置音频解码器之
后,系统控制器111分析存储在盘的数据区中的音频包,并再现存储在盘中
的音频数据,如图23。
在步骤811系统控制器111控制已设置的音频解码器115去指示解码的
开始。在步骤813,控制流选择器212把接收的音频数据传送给具有相应音
频算法的解码器213或214。然后,相应的解码器213或214对相应算法的
音频数据解码。这里,在步骤815,系统控制器111检查解码器213或214
的操作状态。如果出现解码故障,步骤821进而控制当前正在操作的解码器
中断解码操作。然后控制流选择器212去中断数据的传送,根据故障情况驱
动一处治算法,然后返回步骤811。
如果在步骤815当前正在操作的解码器运行正常,则在步骤817通过输
出数据缓冲器215或数字音频格式化器216向外输出已解码音频数据。在步
骤819,检查音频解码器115的操作状态。如果出现解码故障则进入步骤
821,否则步骤返回到对下一音频数据解码。
如果在音频解码器115中结束了对音频流的解码,系统控制器111通过
图24的步骤控制高比特高取样数字滤波器116及高性能数模变换器和模拟
音频电路117,将已解码的音频数据变换成模拟音频信号。如果从音频解码
器115输出已解码音频数据,则通过步骤911至917系统控制器111控制高
比特高取样数字滤波器116按照取样频率执行数字滤波。首先,系统控制器
111检查取样频率,按照48、96或192KHz执行过取样(oversampling)数字滤
波。这里,如果取样频率为48KHz,则进行32倍过取样数字滤波。如果频
率为96KHz,则进行16倍过取样数字滤波。如果为192KHz,则进行8倍过
取样数字滤波。
在按照取样频率进行过取样数字滤波之后,在步骤919系统控制器111
控制高性能数模变换器和模拟音频电路117将已数字滤波的音频信号变换成
模拟音频信号,然后在步骤921在音频频带中低通滤波和缓存已变换的模拟
音频信号。
如上所述,本发明的DVD音频盘能记录最大为192KHz的取样频率和
24位的量化音频数据,还能大大扩展声道数。因此,如果精确地再现记录在
DVD音频盘上的音频数据,就再现了对应于多声道音乐的优良品质的音频信
号。由于音频信号通过使用编码算法以高取样频率和许多量化位记录,所以
可以使受所用盘的数据传输速度限制的可记录声道数、信号的取样频率和样
本的量化位数倍增。
一般的DVD视频再现设备的技术规格赶不上DVD音频盘的技术规
格,可以根据其性能给DVD视频再现设备配置能再现192KHz和24位数据
的DVD音频再现设备。这里,DVD音频再现设备包括进行抽取和再量化的
音频解码器,通过使用与记录在DVD音频盘上的编码方式一致的解码算法,
DVD音频再现设备可以再现多声道音乐。
因此,应当理解,本发明不局限于作为实现本发明的最佳方式而公开的
特定实施例,也不局限于在本说明书中描述的各具体实施例,本发明只受所
附的权利要求书的限定。