《智能标引导航系统.pdf》由会员分享,可在线阅读,更多相关《智能标引导航系统.pdf(8页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103678309 A (43)申请公布日 2014.03.26 CN 103678309 A (21)申请号 201210319025.9 (22)申请日 2012.09.03 G06F 17/30(2006.01) G10L 15/08(2006.01) (71)申请人 许丰 地址 100164 北京市丰台区方庄南路 58 号 院 5-4-602 (72)发明人 许丰 (54) 发明名称 智能标引导航系统 (57) 摘要 本发明公开了一种智能标引导航系统, 由多 媒体节目, 网络服务平台、 智能音频标引工具和音 频标引导航模块组成 ; 网络服务平台提供音频特 征数。
2、据库及相关媒体的音频标引导航信息 ; 智能 音频标引工具在原始音频信息中嵌入相对于音频 压缩算法非确定区域不会被舍弃的具有抗噪性、 鲁棒性和不可感知性的音频标引信息, 包括节目 唯一标识、 节目属性、 版权信息、 网络服务平台链 接, 以及与多媒体节目本身相关的各时间节点上 的主题、 人物、 商品与内容介绍关联的应用程序、 支付接口、 多媒体节目、 网络链接、 评价信息、 赞助 商的索引及链接 ; 通过插件还能进行基于图像水 印的标引和导航。本发明还公开了一种基于智能 标引的第二屏社区服务平台。 (51)Int.Cl. 权利要求书 2 页 说明书 5 页 (19)中华人民共和国国家知识产权局 。
3、(12)发明专利申请 权利要求书2页 说明书5页 (10)申请公布号 CN 103678309 A CN 103678309 A 1/2 页 2 1. 一种智能标引导航系统, 其特征在于, 由制作方提供的多媒体节目, 发行方使用的智 能音频标引工具、 用户方使用的音频标引导航模块和服务方提供的网络服务平台组成 ; 所 述多媒体节目是指包含音频数据, 以及在音频数据基础上包含多路音频数据、 文字数据、 图 片数据和视频数据中的一种或多种格式数据的数字文件或数据流 ; 所述智能音频标引工具 通过识别和分析多媒体节目中原始音频的特定压缩算法, 找到位于人的感知盲区的冗余数 据同时又是处于所述特定压缩。
4、算法的非确定区域不会被舍弃的数据, 在其中嵌入具有抗噪 性、 鲁棒性和不可感知性的音频标引信息, 同时为防止音频受损带来的音频标引信息损失, 所述音频标引信息的数据做了一定数据量的备份、 冗余和纠错处理 ; 所述音频标引信息的 基础数据包括多媒体节目的唯一标识、 节目属性、 版权信息和网络服务平台链接, 所述音频 标引信息的扩展数据是与多媒体节目本身相关的各时间节点上的信息及导航链接, 包括 : 主题、 人物与内容介绍, 关联的应用程序、 支付接口、 多媒体节目、 人物及相关商品的链接, 按时间或好评等级分类的评价信息, 附加的详细节目介绍、 导演、 主演、 主题分类、 发行年 份、 国家地区。
5、和赞助商的索引及链接 ; 所述音频标引导航模块, 通过分析和识别多媒体节目 的音频标引信息, 能够获得多媒体节目的唯一标识和版权信息, 并能根据网络服务平台链 接和音频标引信息的扩展数据中的导航链接, 获取实时的链接信息, 指向相关的应用程序、 支付接口、 网页、 博客和多媒体节目链接 ; 所述网络服务平台提供相关导航链接的信息与电 子商务服务。 2. 根据权利要求 1 中所述的智能标引导航系统, 其特征在于, 所述网络服务平台包括 加强型音频搜索引擎, 在传统网页搜索引擎的基础上增加了音频的分析、 识别与搜索, 通过 声学建模、 模式分类和动态规划方法建立音频的旋律特征和每个人物或发声对象的。
6、独特的 声纹特征, 生成音频特征数据库 ; 所述音频标引导航模块在多媒体节目中没有找到相关音 频标引信息的情况下, 还能够与所述网络服务平台的音频特征数据库配合, 进行多媒体节 目的精确匹配, 并通过网络服务平台找到多媒体节目和服务的相关链接。 3. 根据权利要求 2 中所述的智能标引导航系统, 其特征在于, 所述智能标引导航系统 通过云计算的协同模式进行音频特征比对与逐步完善音频特征 ; 即各智能标引导航系统与 网络服务平台配合工作, 在所述智能标引导航系统实时播放或采集音频时, 一方面进行音 频特征分析和提取, 发送到网络服务平台, 同数据库中已有的旋律特征和 / 或声纹特征进 行比对, 。
7、网络服务平台按相似度从高到低返回对应的匹配对象以及关联导航数据给智能标 引导航系统 ; 另一方面各智能标引导航系统也在协同进行特定播放对象的音频特征的分布 式运算 ; 对于通过其它关联数据或人工识别已经确定的特定对象, 音频特征分析和提取的 数据, 发送到网络服务平台进行更新, 对现有数据库中对应的所述特定对象的旋律特征和 / 或声纹特征进行补充。 4. 根据权利要求 3 中所述的智能标引导航系统, 其特征在于, 所述多媒体节目的数据 或数据流, 还能够通过所述网络服务平台更新的智能标引导航系统插件, 以图像水印的标 引形式进行辅助的版权鉴别和导航服务 ; 所述图像水印是采用人眼对特定频率图像。
8、数据亮 度的微弱变化不敏感的原理, 通过小波算法进行频率排序, 对特定像素进行信息嵌入处理 和冗余处理, 形成鲁棒性的与图像一体化的可鉴别水印。 5. 根据权利要求 4 中所述的智能标引导航系统, 其特征在于, 所述智能音频标引工具 还通过在多媒体节目中附加额外的数据包, 添加整体节目的哈希值和防伪认证数据作为数 权 利 要 求 书 CN 103678309 A 2 2/2 页 3 字水印进行原始节目鉴别, 当多媒体节目被截取、 编辑或重新压缩, 其音频旋律特征和鲁棒 性的音频标引信息不会丢失, 但以额外数据包形式存在的数字水印会丢失或不完整, 因此 能够用于检测多媒体节目的完整性和原始性。 。
9、6. 根据权利要求 5 中所述的智能标引导航系统, 其特征在于, 所述网络服务平台使用 基于标识认证的安全技术为通过审核的注册会员提供自助广告服务和电子商务服务, 会员 通过基于多媒体节目本身相关的各时间节点上的信息及导航链接, 包括 : 主题、 人物与内容 介绍, 关联的应用程序、 支付接口、 多媒体节目、 人物及相关商品的链接, 按时间或好评等级 分类的评价信息, 以及附加的详细节目介绍、 导演、 主演、 主题分类、 发行年份、 国家地区和 赞助商的索引及链接, 进行广告和商品匹配以及竞价排名 ; 所述基于标识认证的技术是指, 通过椭圆曲线算法构建多个种子公私钥对, 按特定次序编号, 使用。
10、用户标识的哈希值作为 多项式, 把相关子项值指向的编号对应的公钥进行点加运算形成用户的公钥, 同样把相关 子项值指向的编号对应的私钥进行模加运算形成用户的私钥, 这样就构建了用户标识与公 钥之间的唯一映射关系, 生成用户公钥的种子公钥及算法库公开, 包括在所述音频标引导 航模块中, 生成用户私钥的种子私钥及算法库保密, 包括在所述网络服务平台中, 用户私钥 通过用户设备的唯一标识加密后存储在专用的硬件中或存储空间。 7. 根据权利要求 6 中所述的智能标引导航系统, 其特征在于, 所述音频标引导航模块 包含快捷支付接口, 与所述网络服务平台的电子商城配合, 对于包含支付信息的商品导航 链接, 。
11、能够进入直接所述电子商城的支付流程。 8. 根据权利要求 7 中所述的智能标引导航系统, 其特征在于, 当所述多媒体节目的载 体是带有电子标签的光盘、 硬盘或其它包装形式的硬件时, 所述音频标引信息中还包含有 和电子标签进行匹配的验证数据。用户终端通过电子标签读卡器进行电子标签的加密读 写, 能够控制所述电子标签的有效性、 使用条件和使用次数, 所述电子标签能够提供多媒体 节目的真实性验证及解码条件信息, 包括有效期和使用次数。 9. 根据权利要求 8 中所述的智能标引导航系统, 其特征在于, 所述电子标签的信息存 储空间分为多个数据区, 每个数据区除具备读写密码外, 还采用多种加密算法及密钥。
12、进行 组合的加密方法进行密文存储信息及生成验证码, 主机通过特定的解密程序才能验证并还 原数据信息。 10. 根据权利要求 9 中所述的智能标引导航系统, 其特征在于, 所述多媒体节目中的音 频数据和 / 或其它关联数据为加密数据, 解密密钥由所述音频标引信息或电子标签中包含 的数据进行计算 ; 所述关联数据包括视频数据、 多路音频数据, 文字数据和图片数据。 权 利 要 求 书 CN 103678309 A 3 1/5 页 4 智能标引导航系统 技术领域 0001 本发明涉及一种具备可检测音频特征以及提取预先嵌入的数据信息的音频分析 与识别系统, 通过音频中提取的导航信息能够把原始音视频节目。
13、中所有包含的物体都通过 关联引导到各自的相关数据、 网址或电子商务接口。 背景技术 0002 普通的音频数据不具备导航的特点, 实现防伪、 广告和收费应用都很困难, 如果能 将音视频节目中的所有剧情、 人物和商品信息的相关服务和商务链接作为音频标引都放入 对应的时间轴上的音频数据中, 就能够提供更适于媒体服务的智能标引导航系统。 发明内容 0003 本发明解决了传统音频数据无法被自动识别和导航的缺点, 提供了一种智能标引 导航系统, 其特征在于, 由制作方提供的多媒体节目, 发行方使用的智能音频标引工具、 用 户方使用的音频标引导航模块和服务方提供的网络服务平台组成 ; 所述多媒体节目是指包 。
14、含音频数据, 以及在音频数据基础上包含多路音频数据、 文字数据、 图片数据和视频数据中 的一种或多种格式数据的数字文件或数据流 ; 所述智能音频标引工具通过识别和分析多媒 体节目中原始音频的特定压缩算法, 找到位于人的感知盲区的冗余数据同时又是处于所述 特定压缩算法的非确定区域不会被舍弃的数据, 在其中嵌入具有抗噪性、 鲁棒性和不可感 知性的音频标引信息, 所述音频标引信息的基础数据包括多媒体节目的唯一标识、 节目属 性、 版权信息和网络服务平台链接, 所述音频标引信息的扩展数据是与多媒体节目本身相 关的各时间节点上的信息及导航链接, 包括 : 主题、 人物与内容介绍, 关联的应用程序、 支付。
15、 接口、 多媒体节目、 人物及相关商品的链接, 按时间或好评等级分类的评价信息, 附加的详 细节目介绍、 导演、 主演、 主题分类、 发行年份、 国家地区和赞助商的索引及链接 ; 所述音频 标引导航模块, 通过分析和识别多媒体节目的音频标引信息, 能够获得多媒体节目的唯一 标识和版权信息, 并能根据网络服务平台链接和音频标引信息的扩展数据中的导航链接, 获取实时的链接信息, 指向相关的应用程序、 支付接口、 网页、 博客和多媒体节目链接 ; 所述 网络服务平台提供相关导航链接的信息与电子商务服务。 0004 这样实现的好处是, 节省了媒体资源, 原先广告只能位于片头、 片尾等关键位置, 且不是。
16、每个用户都适合。而音频标引信息是直接以音视频节目每个时刻所在时间点上的 剧情、 人物和商品为索引, 进行展开, 相当于以内容为引导和分类的智能广告检索与导航系 统。 0005 所述的智能标引导航系统, 其特征在于, 所述网络服务平台包括加强型音频搜索 引擎, 在传统网页搜索引擎的基础上增加了音频的分析、 识别与搜索, 通过声学建模、 模式 分类和动态规划方法建立音频的旋律特征, 生成音频特征数据库。 0006 这样做的好处是, 即使是没有嵌入音频标引信息的多媒体节目, 网络服务平台仍 然可以提供关联商品索引和广告服务, 通过特征计算形成匹配数据, 并把相关标引导航信 说 明 书 CN 1036。
17、78309 A 4 2/5 页 5 息和所述匹配数据关联起来, 以后客户端采用音频标引导航模块的智能播放系统能够计算 同样的匹配数据, 通过网络服务平台找到并导入对应的多媒体节目的标引导航信息。 0007 所述的智能标引导航系统, 其特征在于, 所述网络服务平台包括加强型音频搜索 引擎, 在传统网页搜索引擎的基础上增加了音频的分析、 识别与搜索, 通过声学建模、 模式 分类和动态规划方法建立音频的旋律特征和每个人物或发声对象的独特的声纹特征, 生成 音频特征数据库 ; 所述音频标引导航模块在多媒体节目中没有找到相关音频标引信息的情 况下, 还能够与所述网络服务平台的音频特征数据库配合, 进行多。
18、媒体节目的精确匹配, 并 通过网络服务平台找到多媒体节目的相关链接。 0008 所述的智能标引导航系统, 其特征在于, 所述音频标引导航模块在多媒体节目中 没有找到相关音频标引信息的情况下, 还能够与所述网络服务平台的音频特征数据库配 合, 通过以下方法的组合, 进行多媒体节目的精确匹配, 并通过网络服务平台找到多媒体节 目的相关链接 : 0009 (1) 识别文件名 ; 0010 (2) 识别文件头中的属性信息 ; 0011 (3) 识别文件的哈希值 ; 0012 (4) 通过声学建模、 模式分类和动态规划方法识别音频的旋律特征和声纹特征 ; 0013 (5) 通过声学建模、 模式分类和动态。
19、规划方法识别 10 秒内的哼唱特征。 0014 对于文件形式的多媒体节目, 通常以文件名, 文件头以及文件体中包含的特征数 据能够匹配对应准确的多媒体节目, 为了保障更准确, 因此还使用了文件哈希值, 以及某时 间段的音频旋律特征或者由用户通过人声哼唱提供的音频数据旋律特征来加强对多媒体 节目文件的识别。 0015 对于在线数据流形式的多媒体节目, 主要以音频旋律特征来识别。 0016 其它辅助的手段还包括使用额外数据包形式的数字水印, 嵌入图像的水印以及字 幕文件中的文字信息。 0017 所述的智能标引导航系统, 其特征在于, 所述多媒体节目的数据或数据流, 还能够 通过所述网络服务平台更新。
20、的智能标引导航系统插件, 以图像水印的标引形式进行辅助的 版权鉴别和导航服务 ; 所述图像水印是采用人眼对特定频率图像数据亮度的微弱变化不敏 感的原理, 通过小波算法进行频率排序, 对特定像素进行信息嵌入处理和冗余处理, 形成鲁 棒性的与图像一体化的可鉴别水印。 0018 所述的智能标引导航系统, 其特征在于, 所述智能标引导航系统通过云计算的协 同模式进行音频特征比对与逐步完善音频特征 ; 即各智能标引导航系统与网络服务平台配 合工作, 在所述智能标引导航系统实时播放或采集音频时, 一方面进行音频特征分析和提 取, 发送到网络服务平台, 同数据库中已有的旋律特征和 / 或声纹特征进行比对, 。
21、网络服务 平台按相似度从高到低返回对应的匹配对象以及关联导航数据给智能标引导航系统 ; 另一 方面各智能标引导航系统也在协同进行特定播放对象的音频特征的分布式运算 ; 对于通过 其它关联数据或人工识别已经确定的特定对象, 音频特征分析和提取的数据, 发送到网络 服务平台进行更新, 对现有数据库中对应的所述特定对象的旋律特征和 / 或声纹特征进行 补充。 0019 所述的智能标引导航系统, 其特征在于, 所述网络服务平台使用基于标识认证的 说 明 书 CN 103678309 A 5 3/5 页 6 安全技术为通过审核的注册会员提供自助广告服务和电子商务服务, 会员通过基于多媒体 节目本身相关的。
22、各时间节点上的信息及导航链接, 包括 : 主题、 人物与内容介绍, 关联的应 用程序、 支付接口、 多媒体节目、 人物及相关商品的链接, 按时间或好评等级分类的评价信 息, 以及附加的详细节目介绍、 导演、 主演、 主题分类、 发行年份、 国家地区和赞助商的索引 及链接, 进行广告和商品匹配以及竞价排名 ; 所述基于标识认证的技术是指, 通过椭圆曲线 算法构建多个种子公私钥对, 按特定次序编号, 使用用户标识的哈希值作为多项式, 把相关 子项值指向的编号对应的公钥进行点加运算形成用户的公钥, 同样把相关子项值指向的编 号对应的私钥进行模加运算形成用户的私钥, 这样就构建了用户标识与公钥之间的唯。
23、一映 射关系, 生成用户公钥的种子公钥及算法库公开, 包括在所述音频标引导航模块中, 生成用 户私钥的种子私钥及算法库保密, 包括在所述网络服务平台中, 用户私钥通过用户设备的 唯一标识加密后存储在专用的硬件中或存储空间。 0020 所述的智能标引导航系统, 其特征在于, 所述网络服务平台具有电子商务功能, 包 含带有商品审核与发布功能的电子商城和电子支付功能 ; 所述电子商城除采用标准的商品 购买模式, 还采用团购模式和反向团购模式 ; 所述团购模式分成由用户发起的散单拼团按 统一批发价进行购买的用户团购和由商家指定的特定数量商品按统一批发价进行销售且 认购数量超过一定比例才成交的商家团购 。
24、; 所述反向团购模式也分为两种, 一种是由用户 自由出价, 网络服务平台进行自动撮合, 按用户出价价格和出价时间以非统一批发价的价 格组合成交的用户反向团购, 另一种是商家根据已出价用户的平均价格和数量信息, 选择 以特定数量和均价成交的商家反向团购。 0021 所述的智能标引导航系统, 其特征在于, 所述音频标引导航模块包含快捷支付接 口, 与所述网络服务平台的电子商城配合, 对于包含支付信息的商品导航链接, 能够进入直 接所述电子商城的支付流程。 0022 所述的智能标引导航系统, 其特征在于, 当所述多媒体节目的载体是带有电子标 签的光盘、 硬盘或其它包装形式的硬件时, 所述音频标引信息。
25、中还包含有和电子标签进行 匹配的验证数据。用户终端通过电子标签读卡器进行电子标签的加密读写, 能够控制所述 电子标签的有效性、 使用条件和使用次数, 所述电子标签能够提供多媒体节目的真实性验 证及解码条件信息, 包括有效期和使用次数。 0023 所述的智能标引导航系统, 其特征在于, 所述电子标签的信息存储空间分为多个 数据区, 每个数据区除具备读写密码外, 还采用多种加密算法及密钥进行组合的加密方法 进行密文存储信息及生成验证码, 主机通过特定的解密程序才能验证并还原数据信息。 0024 所述的智能标引导航系统, 其特征在于, 所述多媒体节目中的音频数据和 / 或其 它关联数据为加密数据, 。
26、解密密钥由所述音频标引信息或电子标签中包含的数据进行计 算 ; 所述关联数据包括视频数据、 多路音频数据, 文字数据和图片数据。 0025 所述的智能标引导航系统, 其特征在于, 所述多媒体节目是由网络服务平台提供 的在线播放数据流或通过用户端设备采集的人声哼唱的数据。 这样的应用类似智能搜索引 擎, 通过一段音频就能为用户链接原始的多媒体节目以及相关的音频标引信息。 0026 所述的智能标引导航系统, 其特征在于, 所述多媒体节目数据和音频标引信息数 据采用多种对称加密算法和非对称加密算法进行组合。 0027 对称算法包括 : 已公开的对称算法, 典型的如 AES 算法、 3DES 算法、 。
27、IDEA 算法、 SM1 说 明 书 CN 103678309 A 6 4/5 页 7 算法等, 以及自定义的对称算法。 0028 非对称算法包括 : 已公开的非对称算法, 典型的如RSA算法、 ECC算法、 SM2算法等, 以及自定义的非对称算法。 0029 多种密钥组合指采用多个密钥进行复合运算, 如密钥的叠加、 异或和分散等。 典型 的用法包括 : 先产生随机数, 用原始密钥加密随机数生成的密文作为分散密钥, 再对数据进 行加密, 使得原始密钥没有直接使用, 而是通过随机数分散生成过程密钥, 实现一次一密。 0030 验证码的生成方法通常还包括摘要算法。 0031 摘要算法包括 : 已公。
28、开的摘要算法, 典型的如 : MD5算法、 SHA1算法、 SM3算法等, 以 及自定义的摘要算法。 0032 验证码也能够通过多种摘要算法组合来实现针对关键数据生成的验证数据, 用于 接收方检验数据的有效性。 附图说明 0033 无 具体实施方式 0034 本发明的智能标引导航系统具体实施方式为, 首先对提供关联服务的多媒体节目 进行分析与运算, 计算各时间段的音频数据的旋律特征, 以及计算对应音频的人声哼唱的 旋律特征, 存储在网络服务平台的音频特征数据库中。同时针对多媒体节目中原始音频的 特定压缩算法, 找到各时间点上位于人的感知盲区的冗余数据同时又是处于所述特定压缩 算法的非确定区域不。
29、会被舍弃的数据, 做好标记, 为后续在其中嵌入具有抗噪性、 鲁棒性和 不可感知性的音频标引信息做好基础。 0035 抗噪性通常使用位于高频区域的数据, 由于人耳不敏感而噪声不在该频率范围, 通常不受外部干扰, 但容易被音频再压缩损失掉, 鲁棒性不强, 所以本发明采用变换域模 型, 变换域算法采用离散小波变换。基本思想都是结合听觉特性对原始音频数据在一定的 频域内进行变换处理, 然后改变相应的变换系数来嵌入数据。离散小波变换算法是利用小 波基的原始音频进行 L 级小波分解, 保留前 L-1 级的差别分量而对第 L 级的细节分量进行 处理并嵌入数据。此算法的一个特点是将嵌入数据放在音频信号能量最集。
30、中的低频部分。 也是利用了人的感知盲区, 具有很好的鲁棒性和不可感知性。 0036 为防止音频受损带来的音频标引信息损失, 所述音频标引信息的数据做了一定数 据量的备份、 冗余和纠错处理。 0037 网络服务平台对外提供自助招商模式, 商家通过把商品或网址链接信息与某多媒 体节目某时间段的音视频数据或数据中的物体对象做关联。 0038 所述音频标引信息的基础数据包括多媒体节目的唯一标识、 节目属性、 版权信息 和网络服务平台链接, 所述音频标引信息的扩展数据是与多媒体节目本身相关的各时间节 点上的信息及导航链接, 包括 : 主题、 人物与内容介绍, 关联的应用程序、 支付接口、 多媒体 节目、。
31、 人物及相关商品的链接, 按时间或好评等级分类的评价信息, 附加的详细节目介绍、 导演、 主演、 主题分类、 发行年份、 国家地区和赞助商的索引及链接。 0039 用户通过包含音频标引导航模块的智能播放器或智能浏览器, 通过分析和识别多 说 明 书 CN 103678309 A 7 5/5 页 8 媒体节目的音频标引信息, 能够获得多媒体节目的唯一标识和版权信息, 并能根据网络服 务平台链接和音频标引信息的扩展数据中的导航链接, 获取实时的链接信息, 指向相关的 应用程序、 支付接口、 网页、 博客和多媒体节目链接 ; 所述网络服务平台提供相关导航链接 的信息与电子商务服务。 0040 实施例。
32、 1( 基于智能标引的第二屏社区服务平台 ) 0041 本发明的基于智能标引的第二屏社区服务平台, 其特征在于, 用户采用浏览器或 客户端软件登录, 所述基于智能标引的第二屏社区服务平台采用声学建模、 模式分类和动 态规划方法识别音频的旋律特征和声纹特征, 生成音频特征数据库, 用户随时可以通过客 户端设备采集当前音频判断当前多媒体节目或人声哼唱的音频对应的音频特征数据库中 的哪些数据, 从而建立起动态的电视机之外的第二屏社区服务平台, 用户可以发表评论, 共 享关联信息与链接, 以及相互交流, 所述基于智能标引的第二屏社区服务平台通过采集用 户语音生成声纹, 根据音频特征还能够判断是否是真实的用户。 说 明 书 CN 103678309 A 8 。