《基于注意力机制的语音合成方法及装置.pdf》由会员分享,可在线阅读,更多相关《基于注意力机制的语音合成方法及装置.pdf(18页完整版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910149065.5 (22)申请日 2019.02.27 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平安金融中 心23楼 (72)发明人 房树明程宁王健宗 (74)专利代理机构 广州三环专利商标代理有限 公司 44202 代理人 郝传鑫熊永强 (51)Int.Cl. G10L 13/02(2013.01) G10L 19/008(2013.01) (54)发明名称 一种基于注意力机制的语音合成方。
2、法及装 置 (57)摘要 本申请实施例提供了一种基于注意力机制 的语音合成方法及装置, 其中, 一种基于注意力 机制的语音合成方法, 可包括: 根据目标文本确 定文本编码矩阵和音频编码矩阵; 根据文本编码 矩阵和音频编码矩阵, 通过函数L(A)确定音频解 码矩阵, 其中, 函数L(A)为根据Ant以及Wnt确定的 注意力机制损失函数; 根据音频解码矩阵确定梅 尔倒谱系数, 并根据梅尔倒谱系数确定目标音 频。 本申请可以在目标文本的对齐强度小于对齐 强度阈值时, 使Wnt呈线性变化, 不仅可以大大降 低原注意力机制中的算法难度, 而且可以在不需 要常需要大量的样本数据和训练时间的情况下, 保证将。
3、明显位置偏离的文本和语音信号进行强 制对齐。 权利要求书2页 说明书11页 附图4页 CN 109767752 A 2019.05.17 CN 109767752 A 1.一种基于注意力机制的语音合成方法, 其特征在于, 包括: 根据目标文本确定文本编码矩阵和音频编码矩阵; 根据所述文本编码矩阵和所述音频编码矩阵, 通过函数L(A)确定音频解码矩阵, 其中, 所述函数L(A)为根据Ant以及Wnt确定的注意力机制损失函数, 其中, Ant用于对所述文本编码 矩阵进行转换, 若所述目标文本的对齐强度小于对齐强度阈值, 则Wnt呈线性变化; 所述目标 文本的对齐强度由所述目标文本中第n个文字所处位。
4、置和所述目标文本中第n个文字发音 的时间点t确定; 根据所述音频解码矩阵确定梅尔倒谱系数, 并根据所述梅尔倒谱系数确定目标音频。 2.根据权利要求1所述方法, 其特征在于, 所述根据目标文本确定文本编码矩阵和音频 编码矩阵包括: 获取目标文本, 所述目标文本包括N个字符的文字; 获取偏移音频, 所述偏移音频包括所述目标文本的时长为T的音频; 根据所述目标文本确定所述文本编码矩阵; 根据所述偏移音频确定所述音频编码矩阵。 3.根据权利要求2所述方法, 其特征在于, 所述根据所述目标文本确定所述文本编码矩 阵, 根据所述偏移音频确定所述音频编码矩阵, 包括: 通过文本编码器, 根据输入的所述目标文。
5、本X(x1, x2, xn, xN-1, xN)确定所述文本编 码矩阵Pf(x1, x2, xn, xN-1, xN), 其中, xn为第n个文本, f(xn)为输入的第n个文本xn通过 第一编码变换确定的文本编码; 通过音频编码器, 根据输入的所述偏移音频Y(y1, y2, yt, yT-1, yT)确定所述音频编 码矩阵Qg(y1, y2, yt, yT-1, yT), 其中yt为第n个文字在输入所述偏移音频的时长为t时 的音频, g(yt)为输入所述偏移音频的时长为t时的音频yt通过第二编码变换确定的音频编 码; 所述音频解码矩阵包括: 所述音频解码矩阵S(s1, s2, sn, sN-。
6、1, sN), 其中snh(L (A), y1, y2, yt-1), 其中h为第一解码变换函数。 4.根据权利要求1所述方法, 其特征在于, 对齐强度阈值 为线性可调节, 用于表示第n 个文字所处位置与第n个文字发音的时间点t之间预设的对齐强度, 且 的取值范围为 (0,1)。 5.根据权利要求1所述方法, 其特征在于, 所述根据所述文本编码矩阵和所述音频编码 矩阵, 通过函数L(A)确定音频解码矩阵之前, 还包括: 根据样本文本和样本语音做所述函数L(A)模型训练, 确定所述函数L(A)的对齐强度阈 值 。 6.根据权利要求1-5任一项所述方法, 其特征在于, 所述其中,为所述目标文本的对。
7、齐强度, 为对齐 强度阈值, N是所述目标文本的N个文字的字符总字符数, n是在N个文字中第n个字的字符 数, T是所述目标文本的第N个文字发音时所在的时间点, t是第n个文字发音时所在的时间 权利要求书 1/2 页 2 CN 109767752 A 2 点。 7.根据权利要求5所述方法, 其特征在于, 所述根据样本文本和样本语音做所述函数L (A)模型训练, 确定所述函数L(A)的对齐强度阈值 包括: 按预设间隔设置 从0到1进行自动变化; 对每次变化后的 , 根据样本文本和样本语音做所述函数L(A)训练; 确定在所述样本文本和所述样本语音的对齐强度达到第一阈值的情况下, 所述语音合 成所费。
8、时间最短的 为对齐强度阈值 。 8.一种基于注意力机制的语音合成装置, 其特征在于, 包括: 第一确定单元, 用于根据目标文本确定文本编码矩阵和音频编码矩阵; 第二确定单元, 用于根据所述文本编码矩阵和所述音频编码矩阵, 通过函数L(A)确定 音频解码矩阵, 其中, 所述函数L(A)为根据Ant以及Wnt确定的注意力机制损失函数, 其中, Ant 用于对所述文本编码矩阵进行转换, 若所述目标文本的对齐强度小于对齐强度阈值, 则Wnt 呈线性变化; 所述目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标 文本中第n个文字发音的时间点t确定; 第三确定单元, 用于根据所述音频解码矩阵确。
9、定梅尔倒谱系数, 并根据所述梅尔倒谱 系数确定目标音频。 9.一种基于注意力机制的语音合成装置, 其特征在于, 包括处理组件、 存储组件和通信 模组件, 处理组件、 存储组件和通信组件相互连接, 其中, 存储组件用于存储数据处理代码, 通信组件用于与外部设备进行信息交互; 处理组件被配置用于调用程序代码, 执行如权利 要求1-7任一项所述的方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程 序, 所述计算机程序被处理器执行以实现权利要求1至7任意一项所述的方法。 权利要求书 2/2 页 3 CN 109767752 A 3 一种基于注意力机制的语音合成方。
10、法及装置 技术领域 0001 本申请涉及语音合成技术领域, 尤其涉及一种基于注意力机制的语音合成方法及 装置。 背景技术 0002 语音合成是通过机械的、 电子的方法产生人造语音的技术, 又叫文语转换技术 (Text to Speech, TTS), TTS技术隶属于语音合成, 它是将计算机自己产生的、 或外部输入 的文字信息转变为可以听得懂的、 流利的汉语口语输出的技术。 现有的基于注意力机制语 音合成技术中原来的算法能够使得注意力机制具有将明显位置偏离的文本和语音信号进 行强制对齐的性质, 但是复杂度太高, 通常需要大量的样本数据和训练时间才能达到预期 效果, 所以如何在保证将明显位置偏离。
11、的文本和语音信号进行强制对齐的性质的情况下降 低算法的难度, 是目前要解决的问题。 发明内容 0003 鉴于上述问题, 提出了本申请以便提供一种克服上述问题或者至少部分地解决上 述问题的一种基于注意力机制的语音合成方法及装置。 0004 第一方面, 本申请实施例提供了一种基于注意力机制的语音合成方法, 可包括: 根 据目标文本确定文本编码矩阵和音频编码矩阵; 0005 根据文本编码矩阵和音频编码矩阵, 通过函数L(A)确定音频解码矩阵, 其中, 函数 L(A)为根据Ant以及Wnt确定的注意力机制损失函数, 其中, Ant用于对所述文本编码矩阵进行 转换, 若目标文本的对齐强度小于对齐强度阈值。
12、, 则Wnt呈线性变化; 目标文本的对齐强度由 所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定, n大 于0且小于或等于目标文本字符数, t大于0且小于或等于目标文本总发音的时间点; 0006 根据音频解码矩阵确定梅尔倒谱系数, 并根据梅尔倒谱系数确定目标音频。 0007 通过第一方面提供的方法, 可以根据目标文本的文本编码矩阵和音频编码矩阵通 过函数L(A)确定音频解码矩阵后, 进一步的根据音频解码矩阵确定梅尔倒谱系数, 并根据 梅尔倒谱系数确定目标音频。 其中, 函数L(A)为根据Ant以及Wnt确定的注意力机制损失函 数, 其中, Ant用于对所述文本编码矩。
13、阵进行转换, 若目标文本的对齐强度小于对齐强度阈 值, 则Wnt呈线性变化; 进一步的目标文本的对齐强度由所述目标文本中第n个文字所处位置 和所述目标文本中第n个文字发音的时间点t确定。 若在目标文本的对齐强度小于对齐强度 阈值时, 使Wnt呈线性变化, 不仅可以大大降低原注意力机制中的算法难度, 而且可以在不需 要常需要大量的样本数据和训练时间的情况下, 保证将明显位置偏离的文本和语音信号进 行强制对齐, 有助于更快地使得注意力机制矩阵达到近似对齐的目的, 从而使得语音合成 更加有条理。 0008 在一种可能实现的方式中, 根据目标文本确定文本编码矩阵和音频编码矩阵包 括: 获取目标文本, 。
14、所述目标文本包括N个字符的文字; 获取偏移音频, 所述偏移音频包括所 说明书 1/11 页 4 CN 109767752 A 4 述目标文本的时长为T的音频; 根据所述目标文本确定所述文本编码矩阵; 根据所述偏移音 频确定所述音频编码矩阵。 0009 在一种可能实现的方式中, 根据所述目标文本确定所述文本编码矩阵, 根据所述 偏移音频确定所述音频编码矩阵, 包括: 通过文本编码器, 根据输入的所述目标文本X (x1, x2, xn, xN-1, xN)确定所述文本编码矩阵Pf(x1, x2, xn, xN-1, xN), 其中, xn为第n 个文本, f(xn)为输入的第n个文本xn通过第一编。
15、码变换确定的文本编码; 通过音频编码器, 根据输入的所述偏移音频Y(y1, y2, yt, yT-1, yT)确定所述音频编码矩阵Qg(y1, y2, yt, yT-1, yT), 其中yt为第n个文字在输入所述偏移音频的时长为t时的音频, g(yt)为输入 所述偏移音频的时长为t时的音频yt通过第二编码变换确定的音频编码; 所述音频解码矩 阵包括: 所述音频解码矩阵S(s1, s2, sn, sN-1, sN), 其中snh(L(A),y1, y2, yt-1), 其 中h为第一解码变换函数。 0010在一种可能实现的方式中,其中,为所述目 标文本的对齐强度, 为对齐强度阈值, N是所述目标。
16、文本的N个文字的字符总字符数, n是在 N个文字中第n个字的字符数, T是所述目标文本的第N个文字发音时所在的时间点, t是第n 个文字发音时所在的时间点。 0011 在一种可能实现的方式中, 对齐强度阈值 为线性可调节, 用于表示第n个文字所 处位置与第n个文字发音的时间点t之间预设的对齐强度, 且 的取值范围为 (0,1)。 0012 在一种可能实现的方式中, 根据所述文本编码矩阵和所述音频编码矩阵, 通过函 数L(A)确定音频解码矩阵之前, 还包括: 根据样本文本和样本语音做所述函数L(A)模型训 练, 确定所述函数L(A)的对齐强度阈值 。 0013 在一种可能实现的方式中, 根据样本。
17、文本和样本语音做所述函数L(A)模型训练, 确定所述函数L(A)的对齐强度阈值 包括: 按预设间隔设置 从0到1进行自动变化; 对每次 变化后的 , 根据样本文本和样本语音做所述函数L(A)训练; 确定在所述样本文本和所述样 本语音的对齐强度达到第一阈值的情况下, 所述语音合成所费时间最短的 为对齐强度阈 值 。 0014 第二方面, 本申请实施例提供了一种基于注意力机制的语音合成装置, 可包括: 第 一确定单元, 用于根据目标文本确定文本编码矩阵和音频编码矩阵; 0015 第二确定单元, 用于根据文本编码矩阵和音频编码矩阵, 通过函数L(A)确定音频 解码矩阵, 其中, 函数L(A)为根据A。
18、nt以及Wnt确定的注意力机制损失函数, 其中, Ant用于对所 述文本编码矩阵进行转换, 若目标文本的对齐强度小于对齐强度阈值, 则Wnt呈线性变化; 目 标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发 音的时间点t确定, n大于0且小于或等于目标文本字符数, t大于0且小于或等于目标文本总 发音的时间点; 0016 第三确定单元, 用于根据音频解码矩阵确定梅尔倒谱系数, 并根据梅尔倒谱系数 确定目标音频。 0017 在一种可能实现的方式中, 第一确定单元具体用于: 获取目标文本, 所述目标文本 包括N个字符的文字; 获取偏移音频, 所述偏移音频包括所述目标文。
19、本的时长为T的音频; 根 说明书 2/11 页 5 CN 109767752 A 5 据所述目标文本确定所述文本编码矩阵; 根据所述偏移音频确定所述音频编码矩阵。 0018 在一种可能实现的方式中, 第二确定单元具体用于: 通过文本编码器, 根据输入的 所述目标文本X(x1, x2, xn, xN-1, xN)确定所述文本编码矩阵Pf(x1, x2, xn, xN-1, xN), 其中, xn为第n个文本, f(xn)为输入的第n个文本xn通过第一编码变换确定的文本编码; 通过音频编码器, 根据输入的所述偏移音频Y(y1, y2, yt, yT-1, yT)确定所述音频编码 矩阵Qg(y1, 。
20、y2, yt, yT-1, yT), 其中yt为第n个文字在输入所述偏移音频的时长为t时的 音频, g(yt)为输入所述偏移音频的时长为t时的音频yt通过第二编码变换确定的音频编码; 所述音频解码矩阵包括: 所述音频解码矩阵S(s1, s2, sn, sN-1, sN), 其中snh(L(A), y1, y2, yt-1), 其中h为第一解码变换函数。 0019在一种可能实现的方式中,其中,为所述目 标文本的对齐强度, 为对齐强度阈值, N是所述目标文本的N个文字的字符总字符数, n是在 N个文字中第n个字的字符数, T是所述目标文本的第N个文字发音时所在的时间点, t是第n 个文字发音时所在。
21、的时间点。 0020 在一种可能实现的方式中, 为线性可调节的对齐强度阈值, 用于表示第n个文字 所处位置与第n个文字发音的时间点t之间预设的对齐强度, 且 的取值范围为 (0,1)。 0021 在一种可能实现的方式中, 所述装置还包括第四确定单元, 用于在根据所述文本 编码矩阵和所述音频编码矩阵, 通过函数L(A)确定音频解码矩阵之前, 根据样本文本和样 本语音做所述函数L(A)模型训练, 确定所述函数L(A)的对齐强度阈值 。 0022 在一种可能实现的方式中, 所述第四确定单元具体用于: 按预设间隔设置 从0到1 进行自动变化; 对每次变化后的 , 根据样本文本和样本语音做所述函数L(A。
22、)训练; 确定在 所述样本文本和所述样本语音的对齐强度达到第一阈值的情况下, 所述语音合成所费时间 最短的 为对齐强度阈值 。 0023 第三方面, 本申请实施例提供了一种计算机可读存储介质, 该计算机可读存储介 质存储有程序指令, 该程序指令当被处理器运行时, 该处理器执行上述第一方面的方法。 0024 第四方面, 本申请实施例提供了一种基于注意力机制的语音合成装置, 包括存储 组件, 处理组件和通信组件, 存储组件, 处理组件和通信组件相互连接, 其中, 存储组件用于 存储数据处理代码, 通信组件用于与外部设备进行信息交互; 处理组件被配置用于调用程 序代码, 执行第一方面所述的方法, 此。
23、处不再赘述。 附图说明 0025 为了更清楚地说明本申请实施例或背景技术中的技术方案, 下面将对本申请实施 例或背景技术中所需要使用的附图进行说明。 0026 图1是本申请实施例提供的一种基于注意力机制的语音合成系统架构的示意图; 0027 图2是本申请实施例提供的一种合成语音时的终端界面示意图; 0028 图3A是本申请实施例提供的一种基于注意力机制的语音合成方法流程的示意图; 0029 图3B是本申请实施例提供的基于一种改进的基于注意力机制的语音合成技术方 法框架示意图; 说明书 3/11 页 6 CN 109767752 A 6 0030 图4是本申请实施例提供的另一种基于注意力机制的语。
24、音合成方法流程的示意 图; 0031 图5是本申请实施例提供的一种基于注意力机制的语音合成装置的结构示意图; 0032 图6是本申请实施例提供的一种简化的基于注意力机制的语音合成装置的实体装 置结构示意图。 具体实施方式 0033 下面将结合本申请实施例中的附图, 对本申请实施例进行描述。 0034 本申请的说明书和权利要求书及所述附图中的术语 “第一” 、“第二” 、“第三” 和 “第 四” 等是用于区别不同对象, 而不是用于描述特定顺序。 此外,“包括” 和 “具有” 以及它们任 何变形, 意图在于覆盖不排他的包含。 例如包含了一系列步骤或单元的过程、 方法、 系统、 产 品或设备没有限定。
25、于已列出的步骤或单元, 而是可选地还包括没有列出的步骤或单元, 或 可选地还包括对于这些过程、 方法、 产品或设备固有的其它步骤或单元。 0035 在本文中提及 “实施例” 意味着, 结合实施例描述的特定特征、 结构或特性可以包 含在本申请的至少一个实施例中。 在说明书中的各个位置出现该短语并不一定均是指相同 的实施例, 也不是与其它实施例互斥的独立的或备选的实施例。 本领域技术人员显式地和 隐式地理解的是, 本文所描述的实施例可以与其它实施例相结合。 0036 在本申请中使用的术语 “服务器” 、“单元” 、“系统” 等用于表示计算机相关的实体、 硬件、 固件、 硬件和软件的组合、 软件、 。
26、或执行中的软件。 例如, 服务器可以是但不限于, 处理 器, 数据处理平台, 计算设备, 计算机, 两个或更多个计算机等。 0037 首先, 对本申请中的部分用语进行解释说明, 以便于本领域技术人员理解。 0038 (1)语音合成, 语音合成是将一段文字输入进去输出与文字对应的一段语音, 也是 通过机械的、 电子的方法产生人造语音的技术。 TTS技术(又称文语转换技术)隶属于语音合 成, 它是将计算机自己产生的、 或外部输入的文字信息转变为可以听得懂的、 流利的汉语口 语输出的技术。 0039 (2)注意力机制, 注意力机制(Attention Mechanism)源于对人类视觉的研究。 在 。
27、认知科学中, 由于信息处理的瓶颈, 人类会选择性地关注所有信息的一部分, 同时忽略其他 可见的信息。 上述机制通常被称为注意力机制。 人类视网膜不同的部位具有不同程度的信 息处理能力, 即敏锐度(Acuity), 只有视网膜中央凹部位具有最强的敏锐度。 为了合理利用 有限的视觉信息处理资源, 人类需要选择视觉区域中的特定部分, 然后集中关注它。 例如, 人们在阅读时, 通常只有少量要被读取的词会被关注和处理。 综上, 注意力机制主要有两个 方面: 决定需要关注输入的哪部分; 分配有限的信息处理资源给重要的部分。 0040 (3)短时距傅里叶变换, 短时距傅里叶变换是傅里叶变换的一种变形, 用于。
28、决定随 时间变化的信号局部部分的正弦频率和相位。 实际上, 计算短时傅里叶变换(STFT)的过程 是将长时间信号分成数个较短的等长信号, 然后再分别计算每个较短段的傅里叶变换。 通 常拿来描绘频域与时域上的变化, 为时频分析中其中一个重要的工具。 0041 其次, 对本申请实施例所基于的其中一种基于注意力机制的语音合成系统架构进 行描述。 请参考附图1, 图1是本申请实施例提供的一种基于注意力机制的语音合成系统架 构的示意图, 包括: 基于注意力机制的语音合成装置101和终端装置102。 说明书 4/11 页 7 CN 109767752 A 7 0042 基于注意力机制的语音合成装置101,。
29、 可以是服务器, 其中服务器可以是但不限 于, 处理器, 数据处理平台, 计算设备, 计算机, 两个或更多个计算机等。 例如当基于注意力 机制的语音合成装置101为服务器时, 服务器是一种通过获取、 处理、 分析和提取有价值的、 海量和多样化数据, 以交互数据为基础, 为第三方使用带来各种便利的服务设备。 基于注意 力机制的语音合成装置101可以根据目标文本确定文本编码矩阵和音频编码矩阵; 根据文 本编码矩阵和音频编码矩阵, 通过函数L(A)确定音频解码矩阵, 其中, 函数L(A)为根据Ant以 及Wnt确定的注意力机制损失函数, 其中, Ant用于对所述文本编码矩阵进行转换, 若目标文 本的。
30、对齐强度小于对齐强度阈值, 则Wnt呈线性变化; 目标文本的对齐强度由所述目标文本 中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定, n大于0且小于或 等于目标文本字符数, t大于0且小于或等于目标文本总发音的时间点; 根据音频解码矩阵 确定梅尔倒谱系数, 并根据梅尔倒谱系数确定目标音频。 0043 终端装置102可以是通信终端、 便携式终端、 移动设备、 用户终端、 移动终端、 无线 通信设备、 用户代理、 用户装置、 服务设备或用户设备(User Equipment, UE)等计算机网络 中处于网络最外围的设备, 主要用于数据的输入以及处理结果的输出或显示等, 也可以是 。
31、安装于或运行于上述任一一设备上的软件客户端、 应用程度等。 例如, 客户端可以是目标用 户或当前租赁用户所使用的智能手机、 电脑、 平板设备, 或安装于或运行于智能手机、 电脑、 平板设备上的软件客户端、 应用程度等。 请见附图2, 图2是本申请实施例提供的一种合成语 音时的终端界面示意图。 当终端装置102为电脑时, 可以用于向基于注意力机制的语音合成 装置101发送目标文本, 接收并播放基于注意力机制的语音合成装置101发送的目标音频。 0044 可以理解的是, 基于注意力机制的语音合成装置101可以同时接收多个不同终端 装置102发送的不同的目标文本。 0045 参考附图3A, 图3A是。
32、本申请实施例提供的一种基于注意力机制的语音合成方法流 程的示意图。 可应用于上述图1中的系统, 下面将结合图3A以执行主体是基于注意力机制的 语音合成装置101为例, 从基于注意力机制的语音合成装置101的单侧进行描述。 该方法可 以包括以下步骤S301-步骤S303。 0046 步骤S301: 根据目标文本确定文本编码矩阵和音频编码矩阵。 0047 具体地, 根据目标文本确定文本编码矩阵和音频编码矩阵可以包括通过文本编码 器Encoder, 根据输入的所述目标文本X(x1, x2, xn, xN-1, xN)确定所述文本编码矩阵P f(x1, x2, xn, xN-1, xN), 其中, x。
33、n为第n个文本, f(xn)为输入的第n个文本xn通过第一编 码变换确定的文本编码; 通过音频编码器Encoder, 根据输入的所述偏移音频Y(y1, y2, yt, yT-1, yT)确定所述音频编码矩阵Qg(y1, y2, yt, yT-1, yT), 其中yt为第n个文字在输 入所述偏移音频的时长为t时的音频, g(yt)为输入所述偏移音频的时长为t时的音频yt通过 第二编码变换确定的音频编码。 可以理解的: 文本编码是对输入目标文本X进行编码, 将输 入文本通过非线性变换转化为中间语义表示P, 此过程即为文本编码。 0048 可选的, 根据目标文本确定文本编码矩阵和音频编码矩阵之前可以。
34、获取目标文 本, 所述目标文本包括N个字符的文字; 获取偏移音频, 所述偏移音频包括所述目标文本的 时长为T的音频; 再根据所述目标文本确定所述文本编码矩阵; 根据所述偏移音频确定所述 音频编码矩阵。 举例来说: 获取目标文本可以为接收用户输入的样本文本 “平安科技技术有 限公司” , 对输入的文本进行字序标注, 每个句子中的字体位置表示为向量X(x1, x2, 说明书 5/11 页 8 CN 109767752 A 8 xn, xN-1, xN), N为源句子长度, 其中xn为文本中第n个字字符的文本。 获取偏移音频可以为 根据所述目标文本, 在语音库中匹配与所述目标文本相对应的音频, 确定。
35、所述偏移音频。 例 如: 样本文本 “平安科技技术有限公司” 可以在语音库中分别匹配 “平” 、“安” 、“科” 、“技” 、 “技” 、“术” 、“有” 、“限” 、“公” 、“司” 十个文字的对应音频, 并组成偏移音频。 其中, 所述语音 库可以包括文本与该文本发音音频的映射关系获取偏移音频还可以为接收输入的时长为T 5s的偏移音频 “平安科技技术有限公司” 的偏移音频。 其中, 可以为每个目标文本中的句 子的发音表示为向量Y(y1, y2, yt, yT-1, yT), T为目标字体的发音的时间长, 其中yt为句 子中第n个字的发音的时间帧t时的音频。 可以理解的是, 获取目标文本, 所。
36、述目标文本包括 N个字符的文字; 获取偏移音频, 所述偏移音频包括所述目标文本的时长为T的音频; 根据所 述目标文本确定所述文本编码矩阵; 根据所述偏移音频确定所述音频编码矩阵, 四个步骤 的先后顺序并不做具体限定。 举例来说: 可以首先获取目标文本, 根据所述目标文本确定所 述文本编码矩阵后, 再获取偏移音频, 最后根据所述偏移音频确定所述音频编码矩阵。 0049 步骤S302: 根据文本编码矩阵和音频编码矩阵, 通过函数L(A)确定音频解码矩阵。 0050 具体地, 对于音频解码矩阵来说可以利用解码器Decoder获得, 即对于解码器 Decoder来说, 其任务是根据文本编码矩阵获得的文。
37、本X的中间语义表示P和音频编码矩阵 获得的音频表示Qg(y1, y2, yt, yT-1, yT)来生成t时刻要生成的音频yt, 即所述音频解码 矩阵。 所述音频解码矩阵S(s1, s2, sn, sN-1, sN), 其中snh(L(A),y1, y2, yt-1), 其中h 为第一解码变换函数。 请参见图3, 图3B是本申请实施例提供的基于一种改进的基于注意力 机制的语音合成技术方法框架示意图, 包括: 文本编码模块、 音频编码模块、 注意力矩阵模 块、 音频解码模块和短时傅里叶频谱模块。 其中, 目标文本和偏移音频分别从文本编码模块 和音频编码模块输入, 获得对应的文本解码矩阵和音频解码。
38、矩阵, 将所述音频解码矩阵与 文本解码矩阵经注意力强制对齐后与所述文本解码矩阵输入音频解码模块中, 得到与所述 目标文本对应的目标音频。 可以理解的, Encoder-Decoder是个非常通用的计算框架, 至于 Encoder和Decoder具体使用什么模型函数即都不做限定, 举例来说: 卷积神经网络CNN/循 环神经网络RNN/双向长短时记忆循环神经网络BiRNN/门控循环单元GRU/长短期记忆网络 LSTM等等, 都可以做Encoder和Decoder的模型函数。 0051 可选的, 函数L(A)为根据Ant以及Wnt确定的注意力机制损失函数, 其中, Ant用于对 所述文本编码矩阵进行。
39、转换, 若目标文本的对齐强度小于对齐强度阈值, 则Wnt呈线性变化; 目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字 发音的时间点t确定, n大于0且小于或等于目标文本字符数, t大于0且小于或等于目标文本 总发音的时间点。 预设函数L(A)可以为举例来说: 函数L(A) 应用于图3B所述注意力机制模块中的注意力机制矩阵A, ARNT, 其意义为评估第n次字符 和T时间的对应关系, 即第n个字符第1和第t个时间帧S1:F ,t是相关的, 其中Ant可以为 意味着注意力机制模块在时间t处查看第n个字符, 它将在 随后的时间t+1处查看第n个字符或第n+1个字符或它。
40、们周围的字符, 其中d为与文本长度相 关的预设参数。 即L(A)可以通过注意力机制, 使用LSTM标准函数归一化指数函数(Softmax 函数)去获得在训练过程中第n个字符声音特征的权重, 然后进行求和后归一化, 。 说明书 6/11 页 9 CN 109767752 A 9 0052可选的,其中,为所述目标文本的对齐强度, 为对齐强度阈值, N是所述目标文本的N个文字的字符总字符数, n是在N个文字中第n个字 的字符数, T是所述目标文本的第N个文字发音时所在的时间点, t是第n个文字发音时所在 的时间点。 Wnt与所述目标文本对齐强度有关的分段函数, 若目标文本的对齐强度小于对齐 强度阈值。
41、, 则Wnt随目标文本的增大而减小。 0053 步骤S303: 根据音频解码矩阵确定梅尔倒谱系数, 并根据梅尔倒谱系数确定目标 音频。 0054 具体地, 根据音频解码矩阵确定梅尔倒谱系数, 并根据梅尔倒谱系数确定目标音 频具体为: 根据音频解码矩阵确定梅尔倒谱系数, 并将梅尔倒谱系数, 进行短时傅里叶变 换, 再根据短时傅里叶频谱, 确定目标音频。 在声音处理领域中, 梅尔频率倒谱(Mel- Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的 线性变换。 梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficie。
42、nts, MFCCs)就是组成 梅尔频率倒谱的系数。 它衍生自音讯片段的倒频谱(cepstrum)。 倒谱和梅尔频率倒谱的区 别在于, 梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的, 它比用于正常的对数倒频 谱中的线性间隔的频带更能近似人类的听觉系统。 这样的非线性表示, 可以在多个领域中 使声音信号有更好的表示。 举例来说, 所述确定对应的梅尔倒谱系数, 可以为先对音频解码 矩阵的语音进行预加重、 分帧和加窗; 对每一个短时分析窗, 可以通过离散傅氏变换的快速 算法(Fast Fourier Transformation, FFT)得到对应的频谱; 将上述频谱通过梅尔滤波器 组得到梅尔频谱。
43、(Mel频谱)。 其中, 公式表述可以为: log Xklog(Mel-Spectrum)。 因此 我们可以在log Xk上进行倒谱分析: 1)取对数: log Xklog Hk+log Ek; 2)进行 逆变换: xkhk+ek。 在Mel频谱上面获得的倒谱系数hk就称为梅尔频率倒谱系数 (Mel-Frequency Cepstral Coefficients, MFCCs)。 根据梅尔倒谱系数确定目标音频, 可以 包括将梅尔倒谱系数转换为短时傅里叶频谱, 可以得到一个随着时间变化的频谱图, 所述 频谱图这个就是描述语音信号的spectrogram声谱图, 声谱图中可以表示目标音频。 可以理。
44、 解的是, 本发明实施例对根据梅尔倒谱系数确定目标音频的方式不做具体限定。 0055 实施本申请实施例, 可以根据目标文本的文本编码矩阵和音频编码矩阵通过函数 L(A)确定音频解码矩阵后, 进一步的根据音频解码矩阵确定梅尔倒谱系数, 并根据梅尔倒 谱系数确定目标音频。 其中, 函数L(A)为根据Ant以及Wnt确定的注意力机制损失函数, 其中, Ant用于对所述文本编码矩阵进行转换, 若目标文本的对齐强度小于对齐强度阈值, 则Wnt呈 线性变化; 进一步的目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目 标文本中第n个文字发音的时间点t确定。 因此, 在目标文本的对齐强度小于对齐强。
45、度阈值 时, Wnt呈线性变化不仅可以大大降低原注意力机制中的算法难度, 而且可以保证将明显位 置偏离的文本和语音信号进行强制对齐, 有助于更快地使得注意力机制矩阵达到近似对齐 的目的, 从而使得语音合成更加有条理。 0056 参考附图4, 图4是本申请实施例提供的另一种基于注意力机制的语音合成方法流 程的示意图。 可应用于上述图1中的系统, 下面将结合图4从基于注意力机制的语音合成装 置101的单侧进行描述。 该方法可以包括以下步骤S401-步骤S403。 说明书 7/11 页 10 CN 109767752 A 10 0057 步骤S401: 根据样本文本和样本语音做函数L(A)模型训练,。
46、 确定函数L(A)的对齐 强度阈值 。 0058 具体地, 按预设间隔设置 从0到1进行自动变化; 对每次变化后的 , 根据样本文本 和样本语音做所述函数L(A)训练; 确定在所述样本文本和所述样本语音的对齐强度达到第 一阈值的情况下, 所述语音合成所费时间最短的 为对齐强度阈值 。 举例来说, 本申请实施 例可应用于基于导向性注意力机制的语音合成的场景中, 在语音合成建模过程中, 文字和 音频信号片段的位置有着大致的关联性。 因此, 当一个人说一句话的时候, 文字所处的位置 n与所在的时间点t有着近似的线性关系, 即nat, 其中, aN/T。 进一步的将这样一个先验 知识纳入到语音合成的注。
47、意力机制中。 还可以先确定 使字体位置和语音时间的对应强度 较强的阈值范围, 再按照预设间隔在其阈值范围进行自动变化, 对每次变化后的 , 根据样 本文本和样本语音做所述函数L(A)训练, 所获得的训练后的 可以更好地使字体位置和语 音时间的对应强度越强。 可以理解的是, 本申请实施例对确定函数L(A)的对齐强度阈值 的 方法, 不做具体限定。 可选的, 为线性可调节的对齐强度阈值, 用于表示第n个文字所处位 置与第n个文字发音的时间点t之间预设的对齐强度, 且 的取值范围为 (0,1)。 当当阈值 越接近零时, 说明其获得的字体位置和语音时间的对应强度越强, 及语音与文字的对应强 度越高。 。
48、0059 步骤S402: 根据目标文本确定文本编码矩阵和音频编码矩阵。 0060 步骤S403: 根据文本编码矩阵和音频编码矩阵, 通过函数L(A)确定音频解码矩阵。 0061 步骤S404: 根据音频解码矩阵确定梅尔倒谱系数, 并根据梅尔倒谱系数确定目标 音频。 0062 具体地, 上述对步骤S402-步骤S404的相关描述可以对应参照图3的步骤S301-步 骤S303的相关描述, 此处不再赘述。 0063 实施本申请实施例, 可以先对函数L(A)的模型做样本训练, 再根据目标文本的文 本编码矩阵和音频编码矩阵通过函数L(A)确定音频解码矩阵后, 进一步的根据音频解码矩 阵确定梅尔倒谱系数,。
49、 并根据梅尔倒谱系数确定目标音频。 其中, 函数L(A)为根据Ant以及 Wnt确定的注意力机制损失函数, 其中, Ant用于对所述文本编码矩阵进行转换, 若目标文本 的对齐强度小于对齐强度阈值, 则Wnt呈线性变化; 进一步的目标文本的对齐强度由所述目 标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定。 通过训练 阈值 的大小, 确定在当阈值 越接近零, 目标文本的对齐强度越接近于阈值 的时候, 证明 其字体位置和语音时间的对应强度越强, 及语音与文字的对应强度越高。 所以通过改进的 注意力机制模型的语音合成技术, 可以在保证将明显位置偏离的文本和语音信号进行强制 对齐。
50、的性质的同时, 降低算法的难度, 大大减少了语音合成的时间。 因此, 在目标文本的对 齐强度小于对齐强度阈值时, Wnt呈线性变化不仅可以大大降低原注意力机制中的算法难 度, 而且可以保证将明显位置偏离的文本和语音信号进行强制对齐, 有助于更快地使得注 意力机制矩阵达到近似对齐的目的, 从而使得语音合成更加有条理。 0064 总的来说, 本申请可以根据目标文本的文本编码矩阵和音频编码矩阵通过函数L (A)确定音频解码矩阵后, 进一步的根据音频解码矩阵确定梅尔倒谱系数, 并根据梅尔倒谱 系数确定目标音频。 而注意力机制损失函数L(A)随在目标文本的对齐强度的变化而变化, 当对齐强度阈值时, 因W。