书签 分享 收藏 举报 版权申诉 / 16

从音频比特流估计节奏度量.pdf

  • 上传人:b***
  • 文档编号:6246021
  • 上传时间:2019-05-25
  • 格式:PDF
  • 页数:16
  • 大小:973.58KB
  • 摘要
    申请专利号:

    CN201580008921.5

    申请日:

    2015.02.18

    公开号:

    CN106030693A

    公开日:

    2016.10.12

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):G10H 1/00申请日:20150218|||公开

    IPC分类号:

    G10H1/00; G10H1/40; G10L19/008

    主分类号:

    G10H1/00

    申请人:

    杜比国际公司

    发明人:

    A·比斯沃斯

    地址:

    荷兰阿姆斯特丹

    优先权:

    2014.02.18 US 61/941,283

    专利代理机构:

    中国国际贸易促进委员会专利商标事务所 11038

    代理人:

    宿小猛

    PDF完整版下载: PDF下载
    内容摘要

    本发明涉及直接从编码音频信息的、优选地为音乐的比特流估计节奏信息。所述节奏信息从至少一个周期性被得出,该至少一个周期性从音频信息中包括的至少两个起始点的检测被得出。这样的起始点通过检测长块到短块的转变(在比特流中)被检测到,或/和通过检测关于编码/传输比特流中被编码的变换系数的指数的比特分配改变(成本改变)被检测到。

    权利要求书

    1.一种用于基于表示音频信号的被编码的比特流估计与音频信
    号相关的节奏度量的方法,其中该比特流包括多个音频块,
    该方法包括:
    接收比特流;
    检测比特流中所述音频块的块大小的转变;
    确定与所检测的转变的重现相关的至少一个周期性;以及
    基于所确定的周期性来确定估计的节奏度量。
    2.如权利要求1所述的方法,其中所检测的转变是从长音频块
    到短音频块的转变。
    3.如权利要求1或权利要求2所述的方法,其中比特流被用包
    括尾数和指数以表示变换系数的格式编码,其中指数与变换
    系数的二进制表示中前导零的数目相关。
    4.如前述权利要求中任一权利要求所述的方法,其中块大小与
    表示变换系数的块所需的比特量相关。
    5.如前述权利要求中任一权利要求所述的方法,其中对指数进
    行编码的成本被确定。
    6.如权利要求5所述的方法,其中所述成本的改变与所述块大
    小的转变相关。
    7.如权利要求5所述的方法,其中对指数进行编码的成本依赖
    于每个音频块的指数策略被确定。
    8.如权利要求7所述的方法,其中指数策略依赖于音频信号的
    信号条件。
    9.如权利要求7所述的方法,其中指数策略包括频率指数共享,
    时间指数共享和指数的重复传输和/或编码中的任一者。
    10.如权利要求9所述的方法,其中频率指数共享包括在至少
    两个尾数中共享一个指数。
    11.如权利要求9所述的方法,其中时间指数共享包括在第一
    音频块中编码指数,并重新使用所述指数作为对于后续音频
    块编码的指数。
    12.如权利要求9所述的方法,其中指数的重复传输和/或编
    码包括在第一音频块和一个或多个后续音频块中分布指数。
    13.如权利要求5或从属于权利要求5的权利要求6到12中
    任一权利要求所述的方法,其中对指数进行编码的成本的第
    一增加表示音频信号中包括的第一起始点。
    14.如权利要求13所述的方法,其中对指数进行编码的成本
    的第二增加表示音频信号中包括的第二起始点。
    15.如权利要求14所述的方法,其中所述至少一个周期性由
    第一起始点和第二起始点确定。
    16.如权利要求15所述的方法,其中所述成本的至少一个进
    一步增加被确定,成本的所述进一步增加表示进一步的起始
    点,且其中至少一个进一步周期性由所述第一起始点、第二
    起始点和进一步的起始点中的至少两个确定。
    17.如权利要求16所述的方法,其中细化周期性由第一周期
    性和进一步周期性中的任一个确定。
    18.如权利要求17所述的方法,其中被估计的节奏度量基于
    所述细化周期性。
    19.如权利要求5或从属于权利要求5的权利要求6到18中
    任一权利要求所述的方法,其中
    比特流包括数个被编码通道,该被编码通道包含数个单
    独通道和至少一个耦合通道,以及
    对于用于所述数个通道的指数进行编码的成本是通过计
    算编码所述单独通道和至少一个耦合通道的谱包络的成本之
    和被确定的。
    20.一种用于基于表示音频信号的被编码的比特流来估计与音
    频信号相关的节奏度量的方法,比特流被用包括尾数和指数
    以表示变换系数的格式编码,该方法包含:
    接收比特流,
    基于比特流的元数据中包括的信息反复确定对指数进行
    编码的成本,
    检测所述成本的改变;
    确定与所检测的成本的改变的重现相关的至少一个周期
    性;以及
    基于被确定的周期性来确定被估计的节奏度量。
    21.如权利要求20所述的方法,其中在元数据中包括的信息
    与由编码器端先前使用的用以将比特分配给所述指数的所述
    编码的指数策略相关。
    22.如权利要求21所述的方法,其中对指数进行编码的成本
    基于指数策略被确定。
    23.如权利要求21或权利要求22所述的方法,其中指数策略
    依赖于音频信号的信号条件。
    24.如权利要求21到23中任一权利要求所述的方法,其中指
    数策略包括频率指数共享、时间指数共享和指数的重复传输
    和/或编码中的任一者。
    25.如权利要求24所述的方法,其中频率指数共享包括在至
    少两个尾数中共享一个指数。
    26.如权利要求24或权利要求25所述的方法,其中时间指数
    共享包括在第一音频块中编码指数并重新使用所述指数作为
    对于比特流的后续音频块被编码的指数。
    27.如权利要求24到26中任一权利要求所述的方法,其中指
    数的重复编码包括在比特流的第一音频块和一个或多个后续
    音频块中分布指数。
    28.如权利要求21到27中任一权利要求所述的方法,其中对
    指数进行编码的成本的第一增加表示音频信号中包括的第一
    起始点。
    29.如权利要求28所述的方法,其中对指数进行编码的成本
    的第二增加表示音频信号中包括的第二起始点。
    30.如权利要求29所述的方法,其中所述至少一个周期性由
    第一起始点和第二起始点确定。
    31.如权利要求30所述的方法,其中所述成本的至少一个进
    一步增加被确定,所述成本的进一步增加表示进一步的起始
    点,且其中至少一个进一步周期性由所述第一起始点、第二
    起始点和进一步起始点中的至少两个确定。
    32.如权利要求31所述的方法,其中细化周期性由第一周期
    性和进一步周期性中的任一个确定。
    33.如权利要求32所述的方法,其中被估计的节奏度量基于
    所述细化周期性。
    34.如权利要求20到33中任一权利要求所述的方法,其中
    比特流包括数个被编码通道,该数个被编码通道包含数
    个单独通道和至少一个耦合通道,以及对于用于所述数个通
    道的指数进行编码的成本是通过计算编码所述单独通道和至
    少一个耦合通道的谱包络的成本之和被确定的。
    35.一种用于基于表示音频信号的被编码比特流来估计与音频
    信号相关的节奏度量的设备,其中比特流包括多个音频块,
    该设备包含:
    用于接收比特流的输入单元;以及
    计算单元,用于:
    检测比特流中所述音频块块大小的转变,
    确定与所检测的转变的重现相关的至少一个周期
    性,
    基于被确定的周期性来确定被估计的节奏度量。
    36.一种用于基于表示音频信号的被编码比特流来估计与音频
    信号相关的节奏度量的设备,比特流被用包括尾数和指数以
    表示变换系数的格式编码,该设备包含:
    用于接收比特流的输入单元;以及
    计算单元,用于:
    基于在比特流的元数据中包括的信息反复确定对指
    数进行编码的成本,
    检测所述成本的改变,
    确定与所检测的成本的改变的重现相关的至少一个
    周期性,以及,
    基于所确定的周期性来确定被估计的节奏度量。
    37.一种非暂态计算机可读存储介质,存储用于在计算机上运
    行时执行如权利要求1-34中任一权利要求所述的方法的可执
    行的计算机程序指令。
    38.一种包含被配置成执行如权利要求1-34中任一权利要求
    所述的方法的装置的设备。

    说明书

    从音频比特流估计节奏度量

    对相关申请的交叉引用

    本申请要求于2014年2月18日提交的美国临时专利申请No.
    61/941,283的优先权,该美国临时申请整体通过引用被结合于此。

    技术领域

    此处描述的示例实施例总体涉及音频信号处理,更具体地涉及从
    音频比特流中估计节奏度量。

    背景技术

    便携式手持设备(PDA)(例如智能手机,功能手机,便携式媒
    体播放器等)通常包括访问各种娱乐内容以及支持社交媒体应用的音
    频和/或视频呈现能力。这种PDA由于它们的计算能力受限及能量消
    耗受到约束而使用低复杂度算法。各种工具可以被低复杂度算法使用,
    例如音乐信息检索(MRI)应用,该应用对媒体文件进行分组或分类。
    用于各种MIR应用的重要音乐特征包括使用音乐相似性(例如音乐
    节奏)的流派和情感分类,音乐综述,音频缩略,自动播放列表产生
    和音乐推荐系统。因此,需要从来自音频信号的被编码比特流的音频
    信号中提取节奏信息的过程。

    发明内容

    鉴于上述内容,此处公开的示例实施例提供了用于基于表示音频
    信号的被编码比特流估计与音频信号相关的节奏度量的方法,其中比
    特流包括多个音频块。该方法包括,接收比特流,检测比特流中音频
    块的块大小的转变,确定与被检测的转变的重现(re-occurrence)相
    关的至少一个周期性,和基于被确定的周期性来确定被估计的节奏度
    量。

    在另一个示例实施例中,提供用于基于表示音频信号的被编码比
    特流估计与音频信号相关的节奏度量的设备,其中比特流包括多个音
    频块。该设备包括用于接收比特流的输入单元,和计算单元,该计算
    单元用于检测比特流中音频块的块大小的转变,确定与被检测的转变
    的重现相关的至少一个周期性,并基于被确定的周期性确定被估计的
    节奏度量。

    在另一个示例实施例中,提供用于基于表示音频信号的被编码比
    特流估计与音频信号相关的节奏度量的设备,比特流被以包括尾数和
    指数以表示变换系数的格式编码。该设备包括用于接收比特流的输入
    单元,和计算单元,该计算单元用于基于在比特流的元数据中包括的
    信息反复确定对指数进行编码的成本,检测成本的改变,确定与被检
    测的成本改变的重现相关的至少一个周期性,及基于被确定的周期性
    确定被估计的节奏度量。

    在另一个示例实施例中,提供非暂态计算机可读存储介质,该非
    暂态计算机可读存储介质存储可执行的计算机程序指令,该指令用于
    执行用于基于表示音频信号的被编码比特流估计与音频信号相关的节
    奏度量的方法,其中,比特流包括多个音频块。该方法包括接收比特
    流,检测比特流中音频块的块大小的转变,确定与被检测的转变的重
    现相关的至少一个周期性,和基于被确定的周期性确定被估计的节奏
    度量。

    这些和其他示例实施例和方面在下面被具体地详细描述。

    本发明的示例实施例的前述和其他方面在结合附图阅读时,在下
    面的详细描述中被进一步解释。

    附图说明

    图1A示出根据本公开的示例实施例从音频文件中估计节奏度量;

    图1B示出根据本公开的示例实施例的用于基于表示音频信号的
    被编码比特流估计与音频信号相关的节奏度量的另一方法的另一示意
    图;

    图2示出根据本公开的示例实施例的、音频比特流中的指数和改
    进的离散余弦变换(MDCT)系数的曲线图;

    图3示出根据本公开的示例实施例的在频率上(例如,在作为平
    稳信号(stationary signal)的调音器信号上)共享指数的例子;

    图4A示出根据本公开的示例实施例的用于基于表示音频信号的
    被编码比特流估计与音频信号相关的节奏度量的设备的简化框图;

    图4B示出根据本公开的示例实施例的用于基于表示音频信号的
    被编码比特流估计与音频信号相关的节奏度量的另一个设备的简化框
    图;

    图5示出适合实现本公开的示例实施例的示例计算机系统的简化
    框图。在全部附图中,相同或相应的附图标记指的是相同或相应的部
    分。

    具体实施方式

    现在将参考图中示出的各种示例实施例描述本公开的原理。应当
    认识到,这些实施例的描述只是为了使得本领域的技术人员能够更好
    地理解和进一步实现本公开,不是为了以任何方式限制本公开的范围。

    正如已经提到的,用于各种音乐信息检索(MIR)应用的重要音
    乐特征包括音乐节奏。通常使用以BPM(每分钟节拍数)记的在乐谱
    或活页乐谱上谱写的节奏来表征音乐,这个值往往并不与感知的节奏
    相对应。例如,如果一组听众(包括熟练的音乐家)被要求注释音乐
    选段的节奏,他们通常给出不同的答案,例如他们通常以不同的节律
    水平(metric level)打拍子。对于一些音乐选段,所感知的节奏的歧
    义较少,所有听众通常以相同的节律水平打拍子,但是,对于另一些
    音乐选段,节奏可能是有歧义的,不同的听众识别出不同的节奏。也
    就是说,感知实验显示所感知的节奏可能与谱写的节奏不同。一段音
    乐可能感觉快于或慢于它的谱写节奏,这是因为占主导的感知脉冲可
    具有高于或低于谱写节奏的节律水平。鉴于MIR应用应该优选地考
    虑最有可能被用户感知的节奏这一事实,自动节奏提取器应该预测音
    频信号的感知最显著的节奏。

    此处描述的示例实施例提供了用于基于表示音频信号的被编码比特
    流估计与音频信号相关的节奏度量的方法,技术或算法,其中比特流
    包括多个音频块。该方法包括,接收比特流,检测比特流中音频块的
    块大小的转变,确定与被检测的转变的重现相关的至少一个周期性,
    和基于被确定的周期性来确定被估计的节奏度量。这样的方法具有许
    多优点,例如它展示了低计算复杂度,例如因为它依赖检测在音频比
    特流上的音频块大小的改变。

    节奏估计算法中的基本概念是起始点(onset)的理念。起始点是
    显著韵律事件(例如高亢音符)或瞬时打击事件发生时的时间位置。
    根据此处公开的示例实施例的节奏估计器使用起始点的连续表示,其
    中“软”起始点强度值在有规律的时间位置被提供。由此产生的信号经
    常被称为起始点强度信号。应当认识到,在音频文件中使用“起始点”
    (例如,鼓点)可以确定听众在听音频文件时感知的节奏。此外,此
    处公开的示例实施例可以依赖在比特流域出现的作为音频块大小的改
    变的起始点。在实施例中,被检测的转变是长音频块到短音频块的转
    变。块大小与表示变换系数块所需的比特量有关。

    在实施例中,比特流以包括尾数和指数以表示变换系数的格式被
    编码,其中指数与变换系数的二进制表示中前导零的数目相关。根据
    示例实施例的、此处描述的这种编码方案可以适用于许多不同的编解
    码器(例如,杜比数字(AC-3))。

    在进一步的实施例的另一方面,对指数进行编码的成本被确定。
    该成本可以与编码器处对当前指数进行编码的比特要求相关。应当认
    识到,成本的改变可以与块大小的转变相关。

    因而,应当认识到,此处公开的示例实施例构成了一种确定音频块
    大小的改变作为节奏信息(诸如“起始点”)的间接标识的简单高效的
    方式。

    根据此处的示例实施例,对指数进行编码的成本可例如根据在编码
    端使用的每个音频块的指数策略被确定。指数策略可以被用于优化在
    编码信号时的比特分配。因此,在考虑了在产生比特流时编码器使用
    的指数策略的情况下,编码成本可被更精确地计算。

    在示例实施例的一个方面,指数策略可例如取决于音频信号的信
    号条件。在另一个示例实施例中,指数策略可例如包括频率指数共享,
    时间指数共享和指数的重复(recurring)传输/编码中的任一者。

    本领域的技术人员应当认识到,例如,通过在至少两个尾数中共享
    一个指数,或将指数编码在第一音频块中并重新使用该指数作为对于
    后续音频块编码的指数,或在第一音频块和一个或多个后续音频块中
    分布指数,以上描述的策略将有助于优化前述的在编码音频信号时的
    比特分配。

    如前所述,应当认识到,对指数进行编码的成本的第一增加可能表
    示包括在音频信号中的第一起始点。因而,对指数进行编码的成本的
    第二增加可能表示包括在音频信号中的第二起始点。

    在一个示例实施例中,至少一个周期性由第一和第二起始点确定。

    此处描述的示例实施例可例如被应用于音频文件(例如,音乐文
    件),其中第一和第二起始点的检测可能表示可从中得出节奏度量的
    重复图案。

    在另一个示例实施例中,成本的至少一个进一步增加被确定,其中
    成本的进一步增加表示进一步的起始点,且其中至少一个进一步周期
    性由第一、第二和进一个的起始点中的至少两个确定。

    本领域的技术人员应当认识到,在考虑更多起始点以得出节奏度量
    的情况下,被估计的节奏度量会更精确。例如,音乐的节拍可以包括
    一些“较快”的起始点和一些“较慢”的起始点,例如鼓点。仅考虑较慢
    的鼓点可能展示节奏度量太慢(例如,一半,四分之一),且仅考虑
    较快的鼓点可能导致估计的节奏太高(例如,两倍,三倍,四倍等)。
    因而,细化的周期性可例如从第一周期性和进一步周期性中的任一者
    被确定。所估计的(和更加细化的)节奏度量然后可以基于细化的周
    期性。

    在另一个示例实施例中,被编码比特流也可以包括数个被编码通道,
    该被编码通道包括数个单独通道和至少一个耦合通道,对于用于该数
    个通道的指数进行编码的成本通过计算对单独通道和至少一个耦合通
    道的谱包络进行编码的成本之和被确定。

    在另一个示例实施例中,公开了一种用于基于表示音频信号的被编
    码比特流估计与音频信号相关的节奏度量的方法,该比特流以包括尾
    数和指数以表示变换系数的格式被编码。这种方法可以包括接收比特
    流,基于在比特流的元数据中包括的信息反复确定对指数进行编码的
    成本,检测成本的改变,确定至少一个与所检测的成本的改变的重现
    相关的周期性,和基于被确定的周期性确定被估计的节奏度量。

    应当认识到,成本改变将反映听众在收听时感知的节奏,这是因
    为在音频文件中包括的起始点可能已经在编码端引起了成本改变。

    在另一个实施例中,在元数据中包括的信息与编码器端先前采用的
    用于将比特分配给指数的编码的指数策略相关。

    在另一个示例实施例中,依赖于所使用的指数策略,在编码中,不
    同的比特量被分配给指数。在这样的示例实施例中,对指数进行编码
    的成本可以基于每个音频块的指数策略被确定。

    在一方面,指数策略也可以依赖于例如音频信号的信号条件。在另
    一方面,指数策略可以例如包括频率指数共享,时间指数共享和指数
    的重复传输和/或编码中的任一者。

    本领域的技术人员应当认识到,通过在至少两个尾数中共享一个指
    数,或将指数编码在第一音频块中并重新使用该指数作为对于后续音
    频块编码的指数,或在第一音频块和一个或多个后续音频块中分布指
    数,上面描述的策略可以有助于优化前述在编码音频信号时的比特分
    配。

    如前所述,应当认识到,对指数进行编码的成本的第一增加可能
    表示包括在音频信号中的第一起始点。因而,对指数进行编码的成本
    的第二增加可能表示包括在音频信号中的第二起始点。

    在一个示例实施例中,至少一个周期性由第一和第二起始点确定。

    在另一个实施例中,成本的至少一个进一步增加被确定,所述成
    本的进一步增加表示进一步的起始点,且其中至少一个进一步周期性
    由所述第一、第二和进一个的起始点中的至少两个确定。

    因此,细化的周期性可例如从第一周期性和进一步周期性中的任
    一者被确定。所估计的(和更加细化的)节奏度量然后可以基于所述
    细化的周期性。

    在另一个实施例中,被编码比特流也可以包括数个被编码通道,
    该被编码通道包括数个单独通道和至少一个耦合通道,对于用于该数
    个通道的指数进行编码的成本通过计算对单独通道和至少一个耦合通
    道的谱包络进行编码的成本之和被确定。

    图1A示出根据本公开的示例实施例从音频文件估计节奏度量。

    如图1A所示,音频文件(例如,音乐文件)包括三个起始点3,
    5,7,这三个起始点可例如是以时间距离间隔开的鼓点的特征。音频
    文件被编码成包括长音频块11和短音频块13的编码比特流9。

    如图1A所示,起始点3,5,7的出现导致音频块大小的转变15(长
    块11到短块13)—作为编码策略改变的结果。结果,起始点3,5,7
    可通过检测编码比特流9中的音频块大小的改变被检测到。正如图
    1A中的示例实施例所示的,起始点3,5,7可以引起长到短音频块大
    小的转变15。正如在整个本公开中使用的,块大小是表示变换系数
    块所需要的比特量。

    音频块11,13的大小展示了比特流域中的被编码音频的下混表示。
    本领域的技术人员应当认识到,在一个帧的可用比特(例如,比特池)
    的分布中,包含具有高比特需求的信号的音频块可比其他音频块被更
    重地加权。

    被编码比特流9可以例如包括量化的频率系数(例如,MDCT系
    数)。

    系数可以例如以浮点格式被递送,由此每一个系数可包括指数和尾
    数。还参见图2。来自一个音频块中的指数提供了作为频率的函数的
    整个谱内容的估计。这种表示经常被称为谱包络。在对编码进行指数
    的过程中的比特分配可依赖于谱内容的改变。

    当起始点3,5,7出现时,成本的改变(即,比特分配的改变)可在
    对比特流的指数编码时被观察到。指数的编码依赖于用于当前音频块
    的具体指数策略。当起始点3,5,7出现时,关于后续块的指数策略的
    改变可被应用。

    在起始点3,5,7中的至少两个之间被确定的距离代表与音频文件内
    容(尤其是音乐)的节奏度量相关的周期17,18(例如,反复重复的
    鼓点)。周期可例如是起始点3,5,7中的两个之间的时间。这样的时
    间可从被编码比特流的进一步的属性(例如,在编码时使用的采样率)
    被得出。

    然后,节奏估计可基于所述的周期17,18中的至少一个被得出。

    例如,如果两个起始点间隔0.25秒,则假定在另一个0.25秒之后
    会重复——这样就达到了0.25秒的周期。

    这与例如4Hz频率相对应——指示每秒4拍的节奏。

    在节奏估计确定中的进一步细化可基于考虑周期17,18中的至少两
    个(或更多),例如,通过在估计计算中对它们进行组合和加权和/
    或省略它们中的一个或多个。这种细化步骤适合于对于一半时间,两
    倍时间或其他“八度”错误来校正节奏估计。

    图1b示出了根据本发明的进一步方法的另一个示意图。

    音频文件包括例如展示了起始点3,5,7(例如,特征鼓点)的音乐,
    起始点3,5,7以时间距离被间隔开。

    发明人检测到,起始点3,5,7的出现通常导致成本19,21,23,25的
    改变——作为编码策略改变的结果。

    基于在比特流的元数据中包括的信息,对指数进行编码的成本可被
    确定。

    当起始点3,5,7出现时,成本改变(例如,比特分配改变)可在对
    比特流的指数进行编码时被观察到。

    在起始点3,5,7中的至少两个之间被确定的距离代表与音频文件内
    容(尤其是音乐)的节奏度量相关的周期17,18(例如,反复重复的
    鼓点)。周期可例如是两个起始点之间的时间。这样的时间可从被编
    码比特流的进一步的属性(例如,在编码时使用的采样率)被得出。

    周期17,18被确定为与被检测到的成本改变的重现相关。

    节奏估计可基于所述的周期17,18中的至少一个被得出。

    例如,如果两个起始点间隔0.25秒,则假定在另一个0.25秒之后
    会重复——这样就达到了0.25秒的周期。

    这与例如4Hz频率相对应——其为每秒4拍。

    在节奏估计确定中的进一步细化可基于考虑周期17,18中的至少
    两个(或更多),例如,通过在估计计算中对它们进行组合和加权和
    /或省略它们中的一个或多个。这种细化步骤适合于对于一半时间,
    两倍时间或其他“八度”错误来校正节奏估计。

    对指数进行编码的成本19,21,23,25的第一增加可表示在音频信号
    中包括的第一起始点,且对指数进行编码的成本19,21,23,25的第二
    增加可表示在音频信号中包括的第二起始点。至少一个周期17,18从
    第一和第二起始点被确定。然后,所述成本的一个进一步增加可被确
    定,其中所述的成本的进一步增加表示进一步的起始点3,5,7。至少
    一个进一步周期可从所述的第一,第二和进一步的起始点中的至少两
    个被确定。

    图2示出了音频比特流中的指数和MDCT系数的曲线图。MDCT
    系数的绝对值和指数的振幅在例如250个频率区间上被示出(将频率
    范围划分成250个子范围)。

    指数与变换系数的二进制表示中前导零的数目相关。关于背景信息
    请见下面的参考文献,Davidson,G.A“Digital Audio Coding:Dolby
    AC-3”Digital Signal Processing Handbook,Ed Vijaj K Madisetti and
    Douglas B.Williams,Boca Raton CRC Press LLC,1999。

    图3示出了在频率上共享指数的例子。图3中的例子描述了可被视
    为平稳信号的调音器信号。

    在时间或频率域的一个或两者中共享指数可降低对于一个或多个帧
    的指数编码的总成本。因此,使用指数共享允许更多比特用于尾数量
    化。如果指数将在不使用这种(或其他)共享策略的情况下被进行常
    规编码,可用于尾数量化的比特会更少。此外,在该处指数被重编码
    的块位置可显著地确定各个音频块中尾数分配的有效性。一般地,指
    数共享策略适合通过提供尽可能多的比特以用于对尾数进行量化/编
    码来对于编码优化尾数和指数之间的比特分配,以改善整体编码精确
    度。

    在频率域:指数可在至少两个尾数之间被共享。

    在时间域,来自一个帧的任何两个或多个连续音频块可共享共同的
    指数组。由至少两个尾数“重新使用”该相同指数通常将会使指数编码
    的成本更低。于是,例如,依赖于描述信号更多地是平稳信号还是非
    平稳信号的信号条件,编码器可决定是否以及何时使用频率或时间指
    数共享,何时对指数重编码。这个决策过程常常被称为指数策略。

    对于平稳信号,信号谱从块到块保持基本不变。

    Dolby Digital(简称AC-3)例如使用与6个音频块相关的指数策略。
    当具有例如平稳信号时,编码器在音频块0(AB0)中对指数编码一
    次,然后对于音频块AB1-AB5重新使用它们。所得到的比特分配对
    于所有六个块将大致相同,这适合平稳信号。

    对于非平稳信号,信号谱可从块到块显著地改变。编码器可例如在
    AB0中对指数编码一次,并在一个或多个其他块中也重编码新指数,
    这样就增加了对指数进行编码的成本。新指数的重编码产生了更好地
    匹配原始信号的动态的被编码谱包络的时间曲线。

    在例如AC-3中,编码器在AB0中编码指数。当前帧可例如正在重
    新使用来自前一帧的最后一个块的指数。在该处发生比特分配更新的
    一个(或多个)块由数个参数支配,但是主要由指数策略支配——如
    在各自的元数据字段中反映的。如果任何一个或多个策略标志的状态
    为D15,D25,或D45,则比特分配更新被触发。

    指示指数策略的标志D15可例如指示一个指数仅被一个尾数“共
    享”。D25意味着例如一个指数被两个尾数共享。D45例如意味着一
    个指数被4个尾数共享。

    未共享的指数需要例如5比特。

    比特分配的更新指示信号的起始点。如果新的策略标志被检测到,
    新的比特分配将要被使用,且如果它也与对指数编码的成本的增加有
    关,则它可指示信号中起始点的出现。

    在多通道场景中,比特流可包括数个被编码通道,包含数个单独通
    道和至少一个耦合通道。

    此处,耦合通道的频率系数可被编码,而不是对单独通道的单独通
    道谱进行编码——同时添加附加信息以使能够稍后编码。

    然后,在所述多通道场景中对指数进行编码的成本可被计算成对单
    独通道和至少一个耦合通道的谱包络进行编码的成本之和。

    图4a和4b中的每一个展示了根据本发明的设备。

    图4a的设备30包含输入单元32和计算单元34。

    设备30的功能特性整合了如图1a中描绘和描述的功能特性。

    图4b的设备35包含输入单元37和计算单元39。

    设备35的功能特性整合了如图1b中描绘和描述的功能特性。

    在图1-4中显示的实体使用一个或多个计算机被实现。图5是示出
    示例计算机500的高级框图。计算机500包括与芯片组504耦合的至
    少一个处理器502。芯片组504包括存储器控制器集线器520和输入/
    输出(I/O)控制器集线器522。存储器506和图形适配器512与存储
    器控制器集线器520耦合,且显示器518与图形适配器512耦合。储
    存设备508,键盘510,定位设备514,和网络适配器516与I/O控制
    器集线器522耦合。计算机500的其他实施例具有不同的架构。

    储存设备508是非暂态计算机可读存储介质,例如硬盘驱动器,光
    盘只读存储器(CD-ROM),DVD,或固态存储设备。存储器506保
    持由处理器502使用的指令和数据。定位设备514是鼠标,轨迹球,
    或其他种类的定位设备,且与键盘510结合使用,以将数据输入计算
    机系统500。图形适配器512在显示器518上显示图像和其他信息。
    网络适配器516将计算机系统500与一个或多个计算机网络耦合。

    计算机500适于执行计算机程序模块用以提供此处描述的功能特性。
    如在此处使用的,术语“模块”指的是用于提供具体功能特性的计算机
    程序逻辑。这样,模块可在硬件,固件,和/或软件中被实现。在一
    个实施例中,程序模块被储存在储存设备508中,加载到存储器506
    中,并由处理器502执行。

    由图1-4的实体使用的计算机500的类型可根据实施例和实体需要
    的处理能力而变化。计算机500可能缺少上面描述的部件中的一些,
    例如键盘510,图形适配器512,和显示器518。

    此处公开的示例实施例可以例如提供从编码音频信息(例如,音乐)
    的比特流直接估计节奏信息。

    如在本公开中描述的,节奏信息可以从至少一个周期被得出,该至
    少一个周期从音频信息中包括的至少两个起始点的检测被得出。

    这样的起始点可以通过检测长块到短块转变(在比特流中)被检
    测到,或/和通过检测关于编码/传输比特流中被编码的变换系数的指
    数的比特分配改变(成本改变)被检测到。

    关 键  词:
    音频 比特流 估计 节奏 度量
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:从音频比特流估计节奏度量.pdf
    链接地址:https://www.zhuanlichaxun.net/p-6246021.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1