歌词对齐方法及相关产品.pdf
《歌词对齐方法及相关产品.pdf》由会员分享,可在线阅读,更多相关《歌词对齐方法及相关产品.pdf(21页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010027977.8 (22)申请日 2020.01.10 (71)申请人 腾讯音乐娱乐科技 (深圳) 有限公司 地址 518000 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (72)发明人 庄晓滨 (74)专利代理机构 广州三环专利商标代理有限 公司 44202 代理人 熊永强杜维 (51)Int.Cl. G11B 27/10(2006.01) (54)发明名称 歌词对齐方法及相关产品 (57)摘要 本申请实施例提供了一种歌词对齐方法及 相关产品, 该方法包。
2、括: 根据预设的时间窗口对 所述人声进行处理, 得到N个音频帧; 根据所述预 设的时间窗口以及多个歌词数据中每句歌词的 时间戳对每个歌词数据进行标记, 得到每个歌词 数据的标记序列; 根据所述N个音频帧以及每个 歌词数据的标记序列确定所述多个歌词数据中 的目标歌词数据。 采用本申请实施例可以提高歌 词对齐效率。 权利要求书2页 说明书13页 附图5页 CN 111210850 A 2020.05.29 CN 111210850 A 1.一种歌词对齐方法, 其特征在于, 包括: 对歌曲进行分离, 得到所述歌曲中的人声; 根据预设的时间窗口对所述人声进行处理, 得到N个音频帧; 根据所述预设的时间。
3、窗口 以及多个歌词数据中每句歌词的时间戳对每个歌词数据进行标记, 得到每个歌词数据的标 记序列; 根据所述N个音频帧以及每个歌词数据的标记序列确定所述多个歌词数据中的目 标歌词数据。 2.根据权利要求1所述的方法, 其特征在于, 在按照预设的时间窗口对所述人声进行处 理, 得到N个音频帧之前, 所述方法还包括: 根据所述人声的响度确定缩放比例; 根据所述缩放比例对所述人声的响度进行缩放, 得到缩放后的所述人声; 对缩放后的所述人声进行降采样, 得到目标人声; 所述按照预设的时间窗口对所述人声进行分帧, 得到N个音频帧, 包括: 对所述目标人声进行傅里叶变换, 得到所述目标人声的频域信号; 按照。
4、预设的时间窗口对所述频域信号进行分帧, 得到N个音频帧。 3.根据权利要求1或2所述的方法, 其特征在于, 所述根据所述预设的时间窗口以及多 个歌词数据中每个歌词数据的时间戳对每个歌词数据进行标记, 得到每个歌词数据的标记 序列, 包括: 根据所述预设的时间窗口对所述歌曲的播放时长进行分割, 得到N个播放时间段, 其 中, 所述N个播放时间段与所述N个音频帧一一对应; 根据每个歌词数据的时间戳确定每个播放时间段是否对应有歌词数据, 若有歌词数 据, 将该播放时间段以第一预设值进行标记, 若没有歌词数据, 将该播放时间段以第二预设 值进行标记; 按照所述N个播放时间段对应的先后顺序将所述N个时间。
5、段对应的标记好的预设值组 成每个歌词数据的标记序列。 4.根据权利要求3所述的方法, 其特征在于, 所述根据所述N个音频帧以及每个歌词数 据的标记序列确定所述多个歌词数据中的目标歌词数据, 包括: 确定每个音频帧上各个频点的幅值的平方之和; 确定每个音频帧上各个频点的幅值的平方之和为每个音频帧的能量值; 按照音频帧在时间上的先后顺序将所述N个音频帧的能量值组成与所述人声对应的能 量值序列; 根据所述人声对应的能量序列以及每个歌词数据的标记序列确定每个歌词数据对应 的总能量值; 确定总能量值最大的歌词数据为所述多个歌词数据中的目标歌词数据。 5.根据权利要求1-4中任一项所述的方法, 其特征在于。
6、, 在对歌曲进行分离, 得到所述 歌曲的人声和伴奏之后, 所述方法还包括: 根据预设的偏移量对所述歌曲的歌词数据的时间戳进行M次调整, 得到M个歌词数据, 确定所述M个歌词数据和所述歌曲的歌词数据为所述多个歌词数据, 其中, 所述M个歌词数 据中的部分歌词数据的时间戳中所记录的每个歌词的播放时间早于所述歌曲的歌词数据 的时间戳中所记录的播放时间, 所述M个歌词数据中的另一部分歌词数据的时间戳中所记 权利要求书 1/2 页 2 CN 111210850 A 2 录的每个歌词的播放时间晚于所述歌曲的歌词数据的时间戳中所记录的播放时间。 6.根据权利要求1-5中任一项所述的方法, 其特征在于, 所述。
7、对歌曲进行分离, 得到所 述歌曲的人声和伴奏, 包括: 对所述歌曲进行傅里叶变换, 得到所述歌曲的第一频谱图; 将所述第一频谱图输入到神经网络, 得到人声的第二频谱图以及伴奏的第三频谱图; 根据所述第一频谱图以及所述第二频谱图对所述第二频谱图进行反傅里叶变换得到 所述人声; 以及根据所述第一频谱图以及所述第三频谱图对所述第三频谱图进行反傅里叶 变换, 得到所述伴奏。 7.根据权利要求6所述的方法, 其特征在于, 所述将所述第一频谱图输入到神经网络, 得到人声的第二频谱图以及伴奏的第三频谱图, 包括: 使用所述神经网络对所述第一频谱图进行处理, 以增强所述第一频谱图中所述人声的 谐波特性, 得到。
8、第一处理结果; 使用所述神经网络对所述第一处理结果进行处理, 得到第二处理结果; 使用所述神经网络对所述第二处理结果进行处理, 以增强所述第二处理结果中所述人 声在空间上的连续性, 得到第三处理结果; 使用所述神经网络对所述第三处理结果进行处理, 得到第四处理结果; 根据所述第四处理结果得到所述人声对应的第一比例以及所述伴奏对应的第二比例, 所述第一比例为所述第一频谱图中各个频点所对应的幅值中所述人声所占的比例, 所述第 二比例所述第一频谱图中各个频点所对应的幅值中所述伴奏所占的比例; 根据所述第一比例对所述第一频谱图进行分离, 得到所述人声对应的第二频谱图, 根 据所述第二比例对所述第一频谱。
9、图进行分离, 得到所述伴奏对应的第三频谱图。 8.一种歌词对齐装置, 其特征在于, 包括: 分离单元, 用于对歌曲进行分离, 得到所述歌曲的人声和伴奏; 分帧单元, 用于按照预设的时间窗口对所述人声进行处理, 得到N个音频帧; 标记单元, 用于根据所述预设的时间窗口以及多个歌词数据中每句歌词的时间戳对每 个歌词数据进行标记, 得到每个歌词数据的标记序列; 确定单元, 用于根据所述N个音频以及每个歌词数据的标记序列确定所述多个歌词数 据中的目标歌词数据。 9.一种电子设备, 其特征在于, 包括处理器、 存储器、 通信接口以及一个或多个程序, 其 中, 所述一个或多个程序被存储在所述存储器中, 并。
10、且被配置由所述处理器执行, 所述程序 包括用于执行权利要求1-7任一项方法中的步骤的指令。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程 序, 所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。 权利要求书 2/2 页 3 CN 111210850 A 3 歌词对齐方法及相关产品 技术领域 0001 本申请涉及音频处理技术领域, 具体涉及一种歌词对齐方法及相关产品。 背景技术 0002 近些年来, 音乐创作速度呈现爆炸式增长, 每天有成百上千首原创歌曲产生。 对于 K歌和音乐播放平台来说, 歌曲和歌词数据的来源比较广泛, 歌词数据的制作水准。
11、也参差不 齐, 难以保证每首歌曲的歌词数据是和歌曲严格对齐的。 如果歌词和歌曲对不齐, 会严重影 响听歌和K歌的体验。 0003 但是, 判断歌词数据和歌曲是否对齐是通过人工进行实现的。 但是, 每天产生的音 乐作品太多, 通过人工对齐的方式来进行歌词对齐, 需要投入大量的人力资源; 而且, 人工 判断歌词与歌曲是否对齐, 主观性比较强, 会导致判断的精度较差, 将未对齐的歌词和歌曲 上传至K歌系统, 影响用户的K歌体验。 发明内容 0004 本申请实施例提供了一种歌词对齐方法及相关产品, 通过多个音频帧以及每个歌 词数据的标记序列自动对歌词进行对齐, 进而提高歌词对齐的效率与智能化。 000。
12、5 第一方面, 本申请实施例提供一种歌词对齐方法, 包括: 0006 对歌曲进行分离, 得到所述歌曲中的人声; 0007 根据预设的时间窗口对所述人声进行处理, 得到N个音频帧; 0008 根据所述预设的时间窗口以及多个歌词数据中每句歌词的时间戳对每个歌词数 据进行标记, 得到每个歌词数据的标记序列; 0009 根据所述N个音频帧以及每个歌词数据的标记序列确定所述N个歌词数据中的目 标歌词数据。 0010 第二方面, 本申请实施例提供一种歌词对齐装置, 其特征在于, 包括: 0011 分离单元, 用于对歌曲进行分离, 得到所述歌曲的人声和伴奏; 0012 分帧单元, 用于按照预设的时间窗口对所。
13、述人声进行处理, 得到N个音频帧; 0013 标记单元, 用于根据所述预设的时间窗口以及多个歌词数据中每句歌词的时间戳 对每个歌词数据进行标记, 得到每个歌词数据的标记序列; 0014 确定单元, 用于根据所述N个音频以及每个歌词数据的标记序列确定所述 N个歌 词数据中的目标歌词数据。 0015 第三方面, 本申请实施例提供一种电子设备, 包括处理器、 存储器、 通信接口以及 一个或多个程序, 其中, 所述一个或多个程序被存储在所述存储器中, 并且被配置由所述处 理器执行, 所述程序包括用于执行如第一方面所述的方法中的步骤的指令。 0016 第四方面, 本申请实施例提供一种计算机可读存储介质,。
14、 所述计算机可读存储介 质存储有计算机程序, 所述计算机程序使得计算机执行如第一方面所述的方法。 0017 第五方面, 本申请实施例提供一种计算机程序产品, 所述计算机程序产品包括存 说明书 1/13 页 4 CN 111210850 A 4 储了计算机程序的非瞬时性计算机可读存储介质, 所述计算机可操作来使计算机执行如第 一方面所述的方法。 0018 实施本申请实施例, 具有如下有益效果: 0019 可以看出, 在本申请实施例中, 首先对歌曲进行分离, 得到人声; 然后, 对人声信号 进行分帧, 得到N个音频帧, 并对每个歌词数据进行标记, 得到标记序列; 然后, 基于每个歌 词数据的标记序。
15、列以及该N个音频帧确定出该多个歌词数据中的目标歌词数据, 进而得到 了与该歌曲对齐的歌词数据, 实现自动对歌词数据进行对齐, 减少了人力的投入; 并且排除 了人工对齐时的主观因素, 提高了歌词的对齐精度。 附图说明 0020 为了更清楚地说明本申请实施例中的技术方案, 下面将对实施例描述中所需要使 用的附图作简单地介绍, 显而易见地, 下面描述中的附图是本申请的一些实施例, 对于本领 域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附 图。 0021 图1a为本申请实施例提供的一种歌词对齐方法的流程示意图; 0022 图1b为本申请实施例提供的一种确定总能量值的。
16、示意图; 0023 图2为本申请实施例提供的一种人声与伴奏分离方法的流程示意图; 0024 图3为本申请实施例提供的另一种人声与伴奏分离方法的流程示意图; 0025 图4a为本申请实施例提供的一种神经网络的网络结构图; 0026 图4b为本申请实施例提供的另一种神经网络的网络结构图; 0027 图5为本申请实施例提供的另一种歌词对齐方法的流程示意图; 0028 图6为本申请实施例提供的一种歌词对齐装置的结构示意图; 0029 图7为本申请实施例提供的一种歌词对齐装置的功能单元组成框图。 具体实施方式 0030 下面将结合本申请实施例中的附图, 对本申请实施例中的技术方案进行清楚、 完 整地描述。
17、, 显然, 所描述的实施例是本申请一部分实施例, 而不是全部的实施例。 基于本申 请中的实施例, 本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施 例, 都属于本申请保护的范围。 0031 本申请的说明书和权利要求书及所述附图中的术语 “第一” 、“第二” 、“第三” 和 “第 四” 等是用于区别不同对象, 而不是用于描述特定顺序。 此外, 术语 “包括” 和 “具有” 以及它 们任何变形, 意图在于覆盖不排他的包含。 例如包含了一系列步骤或单元的过程、 方法、 系 统、 产品或设备没有限定于已列出的步骤或单元, 而是可选地还包括没有列出的步骤或单 元, 或可选地还包括对于这些。
18、过程、 方法、 产品或设备固有的其它步骤或单元。 0032 在本文中提及 “实施例” 意味着, 结合实施例描述的特定特征、 结果或特性可以包 含在本申请的至少一个实施例中。 在说明书中的各个位置出现该短语并不一定均是指相同 的实施例, 也不是与其它实施例互斥的独立的或备选的实施例。 本领域技术人员显式地和 隐式地理解的是, 本文所描述的实施例可以与其它实施例相结合。 0033 本申请中的歌词对齐装置可以包括智能手机(如Android手机、 iOS手机、 Windows 说明书 2/13 页 5 CN 111210850 A 5 Phone手机等)、 平板电脑、 掌上电脑、 笔记本电脑、 移动互。
19、联网设备 MID(Mobile Internet Devices, 简称: MID)或穿戴式设备等。 上述歌词对齐装置仅是举例, 而非穷举, 包含但不限 于上述歌词对齐装置。 在实际应用中, 上述歌词对齐装置还可以包括: 智能车载终端、 计算 机设备等等。 0034 为了便于理解本申请, 首先对本申请所涉及到的相关技术进行解释说明。 0035 声伴分离: 将歌曲中的伴奏和人声分离出来的技术手段; 0036 QRC格式: 属于歌词数据的一种格式, 即QQ音乐中一种记录歌词中每个歌词的时间 戳的歌词数据格式, 可精确到毫秒。 0037 参阅图1a, 图1a为本申请实施例提供的一种歌词对齐方法。 该。
20、方法应用于歌词对 齐装置。 该方法包括但不限于以下步骤: 0038 101: 歌词对齐装置对歌曲进行分离, 得到所述歌曲的人声和伴奏。 0039 通过声伴分离技术对歌曲进行分离, 得到该歌曲中的人声和伴奏。 声伴分离技术 在后面详细叙述, 在此不做过多描述。 0040 102: 歌词对齐装置根据预设的时间窗口对所述人声进行处理, 得到N个音频帧。 0041 可选的, 在按照预设的时间窗口对所述人声进行处理, 得到N个音频帧之前, 首先 对该人声进行缩放处理。 具体来说, 根据该人声的响度确定缩放比例, 即根据该人声的响度 以及所要缩放到的目标响度确定缩放比例; 然后, 根据该缩放比例对该人声的。
21、响度进行缩 放, 得到缩放后的人声, 避免音量过高或者过低而难以计算该人声的能量值。 0042 在实际应用中, 对该人声进行缩放时, 实质上就是将该人声的响度与缩放比例对 应的固定值进行相加减。 例如, 当缩放比例等于1/2时, 在将该人声的响度进行缩小时, 可将 该人声的响度统一减去6dB。 0043 进一步地, 对缩放后的人声进行降采样, 得到目标人声。 0044 一般来说, 从歌曲中分离出的人声的采样频率为44.1KHz, 通过降采样之后得到的 目标人声的采样频率为16KHz, 从而减少了后续进行歌词数据匹配时的数据量, 进而提升歌 词数据匹配的精确度。 0045 进一步地, 对该目标人。
22、声进行傅里叶变换(包括短时傅里叶变换和快速傅里叶变 换), 得到该目标人声对应的, 并使用预设的时间窗口(窗函数)对该频域信号进行分帧处 理, 得到N个音频帧。 0046 举例来说, 该时间窗口对应的采样点n可以为1024, 窗移hop_length可以为256, 窗 长win_length可以为1024。 故使用该窗函数对该人声的频域信号进行分帧后, 每个音频帧 对应的时长为256/1600016ms。 因此, 当该歌曲为4分钟时, 可划分出15000个音频帧。 0047 103: 歌词对齐装置根据所述预设的时间窗口以及多个歌词数据中每句歌词的时 间戳对每个歌词数据进行标记, 得到每个歌词数。
23、据的标记序列。 0048 具体来说, 首先根据该预设的时间窗口对该歌曲的播放时长进行分割, 得到N个播 放时间段。 即按照对频域信号进行分帧的处理方式, 对该播放时长进行切割, 得到N个播放 时间段, 故该N个播放时间段与该N个音频帧一一对应。 0049 举例来说, 上述每个音频帧对应的时长为16ms。 因此, 将该播放时长每隔 16ms进 行一次分割, 得到一个播放时间段。 同样可将4分钟的歌曲分割出1500 个播放时间段。 0050 然后, 根据每个歌词数据的时间戳确定该每个播放时间段是否对应有歌词数据, 说明书 3/13 页 6 CN 111210850 A 6 如果有, 可以将该播放时。
24、间段以第一预设值进行标记, 如果否, 可以将该播放是简单以第二 预设值进行标记, 其中, 每个歌词数据的格式为QRC格式。 0051 该一预设值可以为1或者其他值, 该第二预设值可以为0或者其他值。 0052 具体来说, 根据时间戳确定每一个歌词的播放时刻, 然后, 获取每个播放时间段的 起始时刻和终止时刻, 并确定该起始时刻和/或终止时刻是否均对应有歌词数据, 如果该起 始时刻和/或终止时刻对应有歌词数据, 则确定该播放时间段对应有歌词数据, 如果该起始 时刻和终止时刻均没有歌词数据进行对应, 则确定该播时间段内没有歌词对应。 0053 然后, 将各个播放时间段对应的标记好的预设值组成每个歌。
25、词数据的标记序列。 0054 举例来说, 如0-16ms、 16ms-32ms、 32ms-64ms、 64ms-96ms均对应有歌词, 而112ms- 128ms、 144ms-160ms、 176ms-192ms、 208ms-2240ms均没有歌词对应, 则确定该歌词数据对应 的标记序列为1 1 1 1 0 0 0 0。 0055 可选的, 在对每个歌词数据进行标记之前, 首先需要得到该多个歌词数据, 可将该 多个歌词数据作为候选歌词数据。 0056 具体地, 根据预设的偏移量对歌曲的歌词数据(也可称为原始歌词数据) 进行M次 调整, 得到M个歌词数据, 将该M个歌词数据和原始歌词数据组。
26、成该多个歌词数据。 0057 其中, 该偏移量为时间偏移量。 即使用该偏移量对该原始歌词数据的时间戳进行 偏移, 在偏移时需要将该时间戳往前偏移多次, 往后也偏移多次, 得到 M个歌词数据。 故该M 个歌词数据中的部分歌词数据的时间戳中所记录的每个歌词的播放时间早于该歌曲的歌 词数据的时间戳中所记录的播放时间(即往前偏移得到的多个歌词数据), 该M个歌词数据 中的另一部分歌词数据的时间戳中所记录的每个歌词的播放时间晚于该歌曲的歌词数据 的时间戳中所记录的播放时间(即往后偏移得到的多个歌词数据)。 0058 其中, 往前偏移的次数与往后偏移的次数可以相同, 也可以不同, 本申请对此不做 限定。 。
27、另外, 每次往前偏移或者往后偏移所偏移的时间差可以相同, 也可以不同。 0059 此外, 在偏移时, 当偏移的次数过多时, 则会导致生成的歌词数据的时间戳与原始 歌词数据的时间戳之间的差值过大, 此时, 生成的歌词数据必然不会是与该歌曲对齐的文 件。 因此, 在偏移之前为每个方向的偏移设置一个偏移阈值, 其中, 往前偏移和往后偏移的 各自对应的阈值可以相同, 也可以不同。 0060 举例来说, 如每次偏移的偏移量为2ms, 且往前偏移和往后偏移的阈值均为 20ms。 因此, 往前偏移10次, 往后偏移10次, 则可得到20个对时间戳偏移后的歌词数据, 将该20个 歌词数据和原始歌词数据进行组合。
28、得到21个歌词数据。 0061 104: 歌词对齐装置根据所述多个音频以及每个歌词数据的标记序列确定所述多 个歌词数据中的目标歌词数据。 0062 可选的, 确定每个音频帧的能量值, 具体来说, 确定每个音频帧上各个频点的幅值 的平方之和, 将该平方之和作为该音频帧的能量值。 在实际应用中, 还可以采用其他方式来 计算每个音频帧的能量值。 例如, 计算每个音频帧上各个频点的实部的平方之和作为该音 频帧的能量值。 0063 然后, 按照音频帧在时间上的先后顺序将该N个音频帧对应的能量值组成与该人 声对应的能量值序列; 根据该能量值序列以及每个歌词数据的标记序列得到每个歌词数据 的总能量值, 即将。
29、该能量值序列以及每个歌词数据的标记序列进行点乘操作, 得到每个歌 说明书 4/13 页 7 CN 111210850 A 7 词数据的总能量值; 最后, 将总能量值最大的歌词数据作为该多个歌词数据中的目标歌词 数据, 也就是与该歌曲对齐的文件。 0064 如图1b所示, 根据各个歌词标记序列与音频帧的能量值进行点乘, 得到每个歌词 标记序列对应的总能量值。 如图1b所示, 计算出歌词标记序列2对应的总能量值最大, 进而 将该歌词标记序列2对应的歌词数据作为目标歌词数据。 0065 可以看出, 在本申请实施例中, 首先对歌曲进行分离, 得到人声; 然后, 对人声信号 进行分帧, 得到N个音频帧,。
30、 并对每个歌词数据进行标记, 得到标记序列; 然后, 基于每个歌 词数据的标记序列以及该N个音频帧确定出该多个歌词数据中的目标歌词数据, 进而得到 了与该歌曲对齐的歌词数据, 实现自动对歌词数据进行对齐, 减少了人力的投入; 并且排除 了人工对齐时的主观因素, 提高了歌词的对齐精度。 0066 另外, 需要说明的是, 由于歌词数据的时间戳与歌曲的播放时长是相对应的。 因 此, 在本申请中还可以将人声进行偏移, 得到多个候选人声, 偏移方式与上述对歌词数据进 行偏移的方式类似, 不再叙述。 然后, 对多个候选人声分别进行处理, 得到每个候选人声对 应的能量值序列, 其中, 确定能量值的方式与上述。
31、一致, 不再叙述; 由于多人声进行了偏移, 则无需对歌词数据进行偏移, 因此, 只需确定该原始歌词数据的标记序列; 然后, 将每个候 选人声的能量值序列与该标记序列进行点乘, 得到每个候选人声对应的总能量值; 将总能 量值对应的候选人声作为目标人声。 最后, 获取该目标人声对应的偏移量, 使用该偏移量对 该原始歌词数据的时间戳进行偏移, 进而得到目标歌词数据。 0067 下面提供一种对歌曲中人声和伴奏进行分离的方式。 0068 参阅图2, 图2为本申请实施例提供的一种人声和伴奏分离方法的流程示意图, 该 方法应用于歌词对齐装置。 该方法包括但不限于以下步骤: 0069 201: 歌词对齐装置对。
32、歌曲进行傅里叶变换, 得到歌曲的第一频谱图。 0070 其中, 该歌曲可以为单声道歌曲或者双声道歌曲。 0071 可选的, 在对该歌曲进行傅里叶变换之前, 可对该歌曲的响度进行缩放, 按照第一 比例k1将该歌曲的响度缩放k1倍, 避免音量过高或者过低而造成生成的第一频谱图中幅值 过高或过低, 从而难以从该第一频谱图中分离出人声的频谱图和伴奏的频谱图。 在实际应 用中, 对该歌曲进行缩放时, 实质上就是将歌曲的响度与固定值进行相加减。 举例来说, 当 k1等于1/2时, 在歌曲的响度进行缩小时, 就是将歌曲的响度统一减去6dB, 当k1等于1/3时, 就是将歌曲的响度统一减去8dB, 等等, 0。
33、072 在对该歌曲进行缩放后, 对该歌曲进行傅里叶变换, 得到该第一频谱图。 0073 其中, 该傅里叶变换可以为快速傅里叶变换(Fast Fourier Transform, FFT)。 其 中, FFT的采样点数n可以为2048, 窗移length可以为512, 窗长length可以为2048。 0074 202: 歌词对齐装置将第一频谱图输入到神经网络, 得到人声的第二频谱图以及伴 奏的第三频谱图。 0075 可选的, 该第一频谱图为幅值频谱图, 通过该神经网络确定该第一频谱图中各个 频点对应的幅值中人声所占的第一比例以及伴奏所占的第二比例。 如图3 所示, 在得到人 声所占的第一比例以。
34、及伴奏所占的第二比例后, 使用该第一比例从该第一频谱图中剥离出 人声的幅值, 得到该第二频谱图, 使用该第二比例从该第一频谱图中剥离伴奏的幅值, 得到 该第三频谱图。 说明书 5/13 页 8 CN 111210850 A 8 0076 具体来说, 使用神经网络对第一频谱图进行处理, 以增强第一频谱图中所述人声 的谐波特性, 得到第一处理结果; 使用神经网络对第一处理结果进行处理, 得到第二处理结 果; 使用神经网络对所述第二处理结果进行处理, 以增强第二处理结果中所述人声在空间 上的连续性, 得到第三处理结果; 使用神经网络对第三处理结果进行处理, 得到第四处理结 果; 根据第四处理结果得到。
35、人声对应的第一比例以及伴奏对应的第二比例, 第一比例为第 一频谱图中各个频点所对应的幅值中人声所占的比例, 第二比例所述第一频谱图中各个频 点所对应的幅值中伴奏所占的比例; 根据第一比例对第一频谱图进行分离, 得到人声对应 的第二频谱图, 根据第二比例对第一频谱图进行分离, 得到伴奏对应的第三频谱图。 0077 203: 歌词对齐装置根据第一频谱图以及第二频谱图对第二频谱图进行反傅里叶 变换得到人声; 以及根据所述第一频谱图以及第三频谱图对第三频谱图进行反傅里叶变 换, 得到伴奏。 0078 可选的, 对于傅里叶反变换来说, 需要有每个频点的幅值和相位信息(相位角)才 能将频域信号反变换为时域。
36、信号。 对于从歌曲中分离人声和伴奏的情况, 相位信息对人声 和伴奏的本质(音色和响度)影响很小, 因此可以使用混合音频的相位信息作为人声和伴奏 的相位信息。 由于不用考虑相位信息的特殊处理, 故加快了伴奏和人声的分离速度。 0079 具体来说, 获取该第一频谱图上各个频点所对应的相位信息, 即基于各个频点的 实部大小和虚部大小, 得到各个频点的相位信息, 将第一频谱图上各个频点的相位信息作 为该第二频谱图和第三频谱图上各个频点的相位信息。 在确定出该第二频谱图上各个频点 的相位信息后, 使用该第二频谱图上各个频点的相位信息以及各个频点的幅值对各个频点 进行快速傅里叶反变换, 得到人声。 同样,。
37、 使用该第三频谱图上各个频点的相位信息以及各 个频点的幅值对各个频点进行傅里叶反变换, 得到伴奏。 0080 此外, 如果对歌曲进行了缩放处理。 则上述所得到的人声和伴奏均为缩放后的人 声和伴奏。 因此, 为了得到歌曲的真实人声和真实伴奏, 则需要对上述的人声和伴奏进行反 缩放处理。 即使用第二比例k2对上述所得到的人声和伴奏的响度进行缩放处理, 得到真实 的人声和伴奏。 其中, 该第一比例k1和第二比例k2为倒数关系。 0081 可以看出, 在本申请实施例中, 通过神经网络对歌曲的第一频谱图进行处理, 得到 人声的第二频谱图以及伴奏的第三频谱图, 然后, 基于该第一频谱图以及第二频谱图对第 。
38、二频谱图执行反变换操作, 得到人声; 同样, 基于该第一频谱图以及第三频谱图对第三频谱 图进行傅里叶反变换, 得到伴奏; 由于该歌曲可以为单声道歌曲, 进行声伴分离, 得到人声 和伴奏, 从而实现对单声道音频的歌曲直接进行分离。 0082 在一种可能的实现方式中, 从歌曲中分离人声和伴奏时。 还可以考虑相位信息的 影响; 在考虑相位信息的影响的情况下, 参阅图3, 图3为本申请实施例提供的另一种人声和 伴奏分离方法的流程示意图, 该方法还包括如下步骤: 0083 301: 对歌曲进行傅里叶变换, 得到歌曲的第一频谱图。 0084 302: 将该第一频谱图输入到神经网络, 得到人声的实部频谱图以。
39、及虚部频谱图, 以及得到伴奏的实部频谱图和虚部频谱图。 0085 具体来说, 该神经网络为多任务网络, 在对人声和伴奏进行分离时, 可以完成多任 务的输出。 即对该第一频谱图中各个频点的实部和虚部分别进行分离, 得到人声以及伴奏 分别对第一频谱图中各个频点的实部所占比例, 以及对各个频点的虚部所占比例; 根据该 说明书 6/13 页 9 CN 111210850 A 9 人声以及伴奏分别对各个频点的实部所占比例对该第一频谱图中各个频点的实部进行分 离, 得到该人声的实部频谱图(即人声所对应的各个频点的实部大小)以及伴奏的实部频谱 图(即伴奏所对应的各个频点的实部大小); 同样, 根据该人声以及。
40、伴奏各个频点的虚部所 占比例对该第一频谱中各个频点的虚部进行分离, 得到该人声的虚部频谱图(即人声所对 应的各个频点的虚部大小)以及伴奏的虚部频谱图(即人声所对应的各个频点的虚部大 小)。 0086 303: 根据该人声的实部频谱图以及虚部频谱图得到该人声的相位信息, 根据该伴 奏的实部频谱图和虚部频谱图得到该伴奏的相位信息。 0087 根据实部频谱图中各个频点的实部大小以及虚部频谱图中各个频点的虚部大小, 得到各个频点的相位角, 即相位信息。 其中, 人声以及伴奏的实部频谱图和虚部频谱图中的 各个频点一一对应。 0088 其中, 相位角arctanb/a, 其中, a为各个频点的实部大小, 。
41、b为该个频点的虚部 大小。 0089 304: 根据该人声的实部频谱图、 虚部频谱图以及相位信息得到该人声, 根据该伴 奏的实部频谱图和虚部频谱图得到该伴奏。 0090 具体来说, 使用人声的各个频点的相位信息、 实部大小以及虚部大小, 对人声的各 个频点进行傅里叶反变换, 得到该人声。 同样, 使用伴奏的各个频点的相位信息、 实部大小 以及虚部大小进行傅里叶反变换, 得到伴奏。 0091 可以看出, 在本申请实施例中, 在对人声和伴奏进行分离时, 还可单独考虑人声的 相位信息以及伴奏的相位信息, 从而提高人声和伴奏的分离精度。 0092 参阅图4a, 图4a为本申请实施例提供的一种神经网络的。
42、网络结构, 该神经网络用 于实现本申请所涉及的人声和伴奏分离方法。 如图4a所示, 该神经网络包括: 预处理网络、 卷积网络、 门控循环(Gated Recurrent Unit, GRU)网络、 反卷积网络以及全连接层。 其中, 该神经网络可以有N个通道, 图3仅示出了一个通道上的网络结构。 0093 具体来说, 预测处理网络, 用于对第一频谱图进行处理, 得到第一处理结果, 其中, 该预处理网络由两个全连接层构成; 由于人声的谐波是清晰、 平行的, 通过全连接层的权值 可以放大人声的特征, 即增强第一频谱图中人声的谐波特性; 0094 卷积网络, 用于对该第一处理结果进行卷积处理(特征提取。
43、), 得到第二处理结果, 其中, 该卷积网络可以由5个卷积层构成, 每个卷积层包括相互连接的子卷积网络、 激活层 和池化层, 其中, 子卷积网络的卷积核尺寸可以为3*5, 该激活层可以为Relu层, 池化层的尺 寸可以为2*2; 0095 GRU网络, 用于对该第二处理结果进行处理, 得到第三处理结果, 由于GRU 网络中 重置门的输出结果用于控制前一时刻的状态信息被带入到当前状态中的程度, 重置门的输 出结果用于控制前一状态有多少信息被写入到当前记忆门的输出结果上, 重置门的输出结 果越小, 前一状态的信息被写入的越少, 通过重置门和更新门的控制, 合适的信息将会被写 入输出结果中, 并保存。
44、到GRU的隐层中, 并传递到下一个GRU单元, 这样就解决了就把时间上 的连续信息保留下来, 从而增强了人声连续性的特点; 0096 反卷积网络, 用于对该第三处理进行反卷积处理, 得到第四处理结果, 其中, 该反 卷积网络可以包括5个反卷积层, 每个反卷积层包括相互连接的子反卷积网络、 激活层和池 说明书 7/13 页 10 CN 111210850 A 10 化层, 其中, 子卷积网络的卷积核尺寸可以为3*5, 该激活层可以为Relu层, 池化层的尺寸可 以为2*2; 0097 激活层, 用于对第四处理结果进行激活, 得到输出结果; 0098 将该输入结果输入分类器, 以执行类分类处理, 。
45、得到各个频点的幅值中属于人声 的幅值的第一概率以及属于伴奏的幅值的第二概率; 然后, 将该第一概率作为人声的第一 比例, 将第二概率作为伴奏的第二比例; 0099 然后, 根据该第一比例对第一频谱图进行分离, 得到人声的第二频谱图, 根据该第 二比例对第一频谱图进行分离, 得到伴奏的第三频谱图。 0100 最后, 基于第二频谱图以及第一频谱图对应的相位信息对第二频谱图进行傅里叶 反变换, 得到人声; 基于第三频谱以及第一频谱图对应的相位信息对第三频谱图进行傅里 叶反变换, 得到伴奏。 0101 可以理解的是, 在考虑相位信息对声伴分离的影响时, 可使用图3所示的神经网络 进行多任务学习, 以实。
46、现对第一频谱图上各个频点的实部和虚部进行分别分离, 也就是预 测人声以及伴奏在实部上各自所占的比例, 预测人声以及伴奏在虚部上各自所占的比例, 根据各自所占的比例分别对实部和虚部进行分离, 如图4b所示, 得到人声的实部频谱图和 虚部频谱图, 以及伴奏的实部频谱图和虚部频谱图。 0102 然后, 根据人声的实部频谱图和虚部频谱图得到人声的相位信息, 基于该人声的 相位信息、 人声的实部频谱图和虚部频谱进行傅里叶反变换, 得到该人声; 同样, 根据伴奏 的实部频谱图和虚部频谱图得到伴奏的相位信息, 基于该伴奏的相位信息、 伴奏的实部频 谱图和虚部频谱图进行傅里叶反变换, 得到该伴奏。 0103 。
47、参阅图5, 图5为本申请实施例提供的另一种歌词对齐方法的流程示意图, 该方法 应用于歌词对齐装置。 该方法包括但不限于以下步骤: 0104 501: 歌词对齐装置对歌曲进行分离, 得到所述歌曲中的人声。 0105 502: 歌词对齐装置对所述人声的响度按照预设比例进行缩放, 得到缩放后的所述 人声。 0106 503: 歌词对齐装置对缩放后的所述人声进行降采样, 得到目标人声。 0107 504: 对所述目标人声进行傅里叶变换, 得到所述目标人声的频域信号。 0108 505: 歌词按照预设的时间窗口对所述频域信号进行分帧, 得到N个音频帧。 0109 506: 歌词对齐装置根据预设的偏移量对。
48、所述歌曲的歌词数据的时间戳进行 M次 调整, 得到M个歌词数据, 确定所述M个歌词数据和所述歌曲的歌词数据为所述多个歌词数 据。 0110 其中, 所述M个歌词数据中的部分歌词数据的时间戳中所记录的每个歌词的播放 时间早于所述歌曲的歌词数据的时间戳中所记录的播放时间, 所述M个歌词数据中的另一 部分歌词数据的时间戳中所记录的每个歌词的播放时间晚于所述歌曲的歌词数据的时间 戳中所记录的播放时间。 0111 507: 歌词对齐装置根据所述预设的时间窗口以及所述多个歌词数据中每个歌词 数据的时间戳对每个歌词数据进行标记, 得到每个歌词数据的标记序列。 0112 508: 歌词对齐装置根据所述N个音频。
49、帧以及每个歌词数据的标记序列确定所述多 个歌词数据中的目标歌词数据。 说明书 8/13 页 11 CN 111210850 A 11 0113 需要说明的是, 图5所示的方法的各个步骤的具体实现过程可参见上述图 1a所述 方法的具体实现过程, 在此不再叙述。 0114 可以看出, 在本申请实施例中, 首先对歌曲进行分离, 得到人声; 然后, 对人声信号 进行分帧, 得到N个音频帧, 并对每个歌词数据进行标记, 得到标记序列; 然后, 基于每个歌 词数据的标记序列以及该N个音频帧确定出该多个歌词数据中的目标歌词数据, 进而得到 了与该歌曲对齐的歌词数据, 实现自动对歌词数据进行对齐, 减少了人力。
50、的投入; 并且排除 了人工对齐时的主观因素, 提高了歌词的对齐精度。 0115 参阅图6, 图6为本申请实施例提供的一种歌词对齐装置的结构示意图。 如图6所 示, 歌词对齐装置600包括处理器、 存储器、 通信接口以及一个或多个程序, 且上述一个或多 个程序被存储在上述存储器中, 并且被配置由上述处理器执行, 上述程序包括用于执行以 下步骤的指令: 0116 对歌曲进行分离, 得到所述歌曲中的人声; 0117 根据预设的时间窗口对所述人声进行处理, 得到N个音频帧; 0118 根据所述预设的时间窗口以及多个歌词数据中每句歌词的时间戳对每个歌词数 据进行标记, 得到每个歌词数据的标记序列; 01。
- 内容关键字: 歌词 对齐 方法 相关 产品
焙烧台车储罐定位装置.pdf
具有松紧器的裤子.pdf
风电叶片铣削设备.pdf
用于高性能混凝土节水降耗装置.pdf
物流运输用包装箱.pdf
化工安全管理用防爆检查装置.pdf
支架产品的高效焊接工装.pdf
超导磁体组装定位结构.pdf
车用尿素溶液生产的液体浓缩装置.pdf
中频加热炉自动化出料装置.pdf
异形件钻孔固定装置.pdf
用于金属丝管的加工工装.pdf
肉苁蓉播种匀种施肥一体机装置.pdf
伸缩隐形折叠晾晒架.pdf
岩土破碎采样装置.pdf
高效混凝土搅拌装置.pdf
电池箱体组合结构.pdf
水利工程用河水取样设备.pdf
防堵塞的煤矿瓦斯抽采用气水渣分离装置.pdf
移动式储能电源的可靠性诊断系统.pdf
基于多模态特征融合的Web API推荐方法和系统.pdf
用于机械零部件生产的开孔装置.pdf
保温墙板多腔体模型成型装置及其使用方法.pdf
洗碗机水量检测方法、装置、洗碗机和存储介质.pdf
磷修饰氮化碳阻燃改性BOPET薄膜的制备方法.pdf
磁存储器及其制备方法、电子设备.pdf
具备预警保护功能的直线模组.pdf
面向遥感解译应用的训练推理一体机.pdf
促伤口愈合、减缓瘢痕形成的水凝胶及制备方法与应用.pdf
制备咪唑乙醇的方法.pdf
桥梁施工用桥墩围堰装置及使用方法.pdf
平板电脑的使用时间警示系统及方法.pdf
具有降脂减肥、抗氧化功能的药物组合物及其制备方法.pdf
一种电热保健鞋垫.pdf
挠性内窥镜缝合装置.pdf
可锁紧的接头.pdf
用于控制和抑制固有频率的假体组件的非对称结构.pdf
分层电极阵列和电缆.pdf
车辆用座椅.pdf
烯啶虫胺静电油剂及其制备方法.pdf
一种标准化定量含盐调味品的制造方法.pdf
基于生长因子和丝氨酸的新型化妆品.pdf
一种肾部保健带.pdf
海洋胶原肽在制备保护肾脏功能、延缓慢性肾衰进程药物、保健食品或食品中的用途.pdf
白金复合水溶液及其用途.pdf
稳定的复方青霉素固体药物组合物.pdf
纸巾架.pdf
一种健身病床.pdf
阿加曲班的无醇制剂.pdf
用于马桶座圈的铰链组件.pdf
弹性装置.pdf