使用机器学习模型确定与实时语音相对应的嘴部的运动.pdf
《使用机器学习模型确定与实时语音相对应的嘴部的运动.pdf》由会员分享,可在线阅读,更多相关《使用机器学习模型确定与实时语音相对应的嘴部的运动.pdf(24页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910179536.7 (22)申请日 2019.03.07 (30)优先权数据 16/016,418 2018.06.22 US (71)申请人 奥多比公司 地址 美国加利福尼亚州 (72)发明人 W李J波波维克D阿尼加 D西蒙斯 (74)专利代理机构 北京市金杜律师事务所 11256 代理人 酆迅彭梦晔 (51)Int.Cl. A63F 13/822(2014.01) G06K 9/00(2006.01) G06N 3/04(2006.01) G06N 3/08(200。
2、6.01) (54)发明名称 使用机器学习模型确定与实时语音相对应 的嘴部的运动 (57)摘要 所公开的系统和方法从音频序列预测视位。 视位生成应用访问第一训练数据集, 该第一训练 数据集包括表示由第一讲话者说出的句子的第 一音频序列和视位序列。 每个视位被映射到第一 音频序列的相应音频样本。 视位生成应用创建第 二训练数据集, 以调节由说出该句子的第二讲话 者说出的第二音频序列, 使得第二序列和第一序 列具有相同的长度, 并且至少一个音素出现在第 一序列和第二序列中的相同时间戳处。 视位生成 应用将视位序列映射到第二音频序列, 并且训练 视位预测模型以从音频序列预测视位序列。 权利要求书4页。
3、 说明书11页 附图8页 CN 110624247 A 2019.12.31 CN 110624247 A 1.一种从音频序列预测视位的方法, 所述方法包括: 访问第一训练数据集, 所述第一训练数据集包括: (i)表示由第一讲话者说出并且具有第一长度的句子的样本的第一音频序列, 其中所 述音频序列表示音素序列, 以及 (ii)视位序列, 其中每个视位被映射到所述第一音频序列的相应音频样本; 通过以下创建第二训练数据集: 访问表示由第二讲话者说出并且具有第二长度的相同句子的样本的第二音频序列, 其 中所述第二音频序列包括所述音素序列; 调节所述第二音频序列, 使得(i)第二序列长度等于所述第一长。
4、度, 并且(ii)至少一个 音素出现在所述第一音频序列和所述第二音频序列中的相同时间戳处; 将所述视位序列映射到所述第二音频序列; 以及 训练视位预测模型以从所述第一训练数据集和所述第二训练数据集预测视位序列。 2.根据权利要求1所述的方法, 其中训练所述视位预测模型包括: 确定针对每个训练数据集的相应音频序列的每个样本的特征向量; 向所述视位预测模型提供所述特征向量; 从所述视位预测模型接收预测视位; 通过计算所述预测视位与预期视位之间的差异来计算损失函数; 以及 调节所述视位预测模型的内部参数以最小化所述损失函数。 3.根据权利要求2所述的方法, 其中所述特征向量包括: 针对所述多个语音样。
5、本的一组梅尔频率倒谱系数, 所述多个语音样本的平均能量的对数, 以及 所述多个语音样本的第一时间导数。 4.根据权利要求1所述的方法, 还包括: 访问与一时间段相对应的多个语音样本, 其中所述语音样本的当前子集对应于当前时 间段, 并且所述语音样本的过去子集对应于过去时间段; 计算表示所述多个语音样本的特征向量; 通过将所述特征向量应用于被训练为从多个预定视位来预测视位的所述视位预测模 型, 来确定表示针对所述当前子集的语音的预测视位序列, 其中所述预测基于所述过去子 集和所述当前子集; 以及 提供与所述预测视位序列相对应的可视化, 其中提供所述可视化包括: 访问可视化列表, 将所述视位映射到。
6、列出的可视化, 以及 将显示设备配置为显示所述列出的可视化。 5.根据权利要求4所述的方法, 还包括: 将所述视位序列中的每个视位映射到帧速率; 确定所述视位序列中的特定视位与视频帧相对应; 以及 从所述视位序列中移除所述特定视位。 6.根据权利要求4所述的方法, 还包括: 将所述视位序列中的每个视位映射到帧速率; 权利要求书 1/4 页 2 CN 110624247 A 2 将所述预测视位序列的输出延迟预定数目的帧; 以及 响应于确定(i)当前帧包括特定视位并且(ii)后续帧和先前帧缺少所述特定视位, 将 所述先前帧的所述视位映射到所述当前帧。 7.根据权利要求4所述的方法, 还包括: 将所。
7、述视位序列中的每个视位映射到帧速率; 以及 根据所述帧速率在图形时间线上表示所述视位序列。 8.一种系统, 包括: 计算机可读介质, 存储用于在图像处理应用内应用图像效果的非暂态计算机可执行程 序指令; 以及 处理设备, 通信地耦合到所述计算机可读介质以用于执行所述非暂态计算机可执行程 序指令, 其中执行所述非暂态计算机可执行程序指令将所述处理设备配置为执行包括以下 的操作: 访问与一时间段相对应的多个语音样本, 其中所述语音样本的当前子集对应于当前时 间段, 并且所述语音样本的过去子集对应于过去时间段; 计算表示所述多个语音样本的特征向量; 通过将所述特征向量应用于使用第二训练数据集被训练的。
8、视位预测模型来确定表示 针对所述当前子集的语音的预测视位序列, 所述第二训练数据集包括由第二讲话者说出的 第二音频序列和视位序列, 其中所述第二训练数据集通过将所述第二音频序列映射到第一 音频序列被创建; 以及 提供与所述预测视位序列相对应的可视化, 其中提供所述可视化包括: 访问可视化列表, 将所述视位映射到列出的可视化, 以及 将显示设备配置为显示所述列出的可视化。 9.根据权利要求8所述的系统, 还包括: 增加所述多个语音样本中的每个语音样本的幅度; 从所述多个语音样本中确定具有大于阈值的幅度的语音样本; 以及 减小所述语音样本的所述幅度。 10.根据权利要求8所述的系统, 其中计算所述。
9、特征向量还包括: 计算针对所述多个语音样本的一组梅尔频率倒谱系数, 计算所述多个语音样本的平均能量的对数, 以及 计算所述多个语音样本的第一时间导数。 11.根据权利要求8所述的系统, 其中所述操作还包括: 将所述视位序列中的每个视位映射到帧速率; 将所述预测视位序列的输出延迟预定数目的帧; 以及 响应于确定(i)当前帧包括特定视位并且(ii)后续帧和先前帧缺少所述特定视位, 将 所述先前帧的所述视位映射到所述当前帧。 12.根据权利要求8所述的系统, 其中所述操作还包括: 将所述预测视位序列映射到帧速率; 以及 根据所述帧速率在图形时间线上表示所述预测视位序列。 权利要求书 2/4 页 3 。
10、CN 110624247 A 3 13.一种计算机可读存储介质, 其存储非暂态计算机可执行程序指令, 其中所述程序指 令在由处理设备执行时引起所述处理设备执行包括以下的操作: 访问第一训练数据集, 所述第一训练数据集包括: (i)表示由第一讲话者说出并且具有第一长度的句子的第一音频序列, 其中所述第一 音频序列表示音素序列并且具有第一长度, 以及 (ii)视位序列, 其中每个视位被映射到所述第一音频序列的相应音频样本; 通过以下创建第二训练数据集: 访问表示由第二讲话者说出并且具有第二长度的所述句子的第二音频序列, 其中所述 第二音频序列包括所述音素序列; 调节所述第一音频序列, 使得(i)所。
11、述第一长度等于所述第二长度, 并且(ii)至少一个 音素出现在所述第一音频序列和所述第二音频序列中的相同时间戳处; 将所述视位序列调节到调节后的所述第一音频序列; 以及 训练视位预测模型以从所述第一训练数据集和所述第二训练数据集预测视位序列。 14.根据权利要求13所述的计算机可读存储介质, 其中训练所述视位预测模型包括: 确定针对每个训练数据集的相应音频序列的每个样本的特征向量; 向所述视位预测模型提供所述特征向量; 从所述视位预测模型接收预测视位; 通过计算所述预测视位与预期视位之间的差异来计算损失函数; 以及 调节所述视位预测模型的内部参数以最小化所述损失函数。 15.根据权利要求14所。
12、述的计算机可读存储介质, 其中所述特征向量包括: 针对每个语音样本的一组梅尔频率倒谱系数, 每个语音样本的平均能量的对数, 以及 每个语音样本的第一时间导数。 16.根据权利要求13所述的计算机可读存储介质, 其中程序指令还引起所述处理设备 执行包括以下的操作: 访问与一时间段相对应的多个语音样本, 其中所述语音样本的当前子集对应于当前时 间段, 并且所述语音样本的过去子集对应于过去时间段; 计算表示所述多个语音样本的特征向量; 通过将所述特征向量应用于被训练为从多个预定视位来预测视位的所述视位预测模 型, 来确定表示针对所述当前子集的语音的预测视位序列, 其中所述预测基于所述过去子 集和所述。
13、当前子集; 以及 提供与所述预测视位序列相对应的可视化, 其中提供所述可视化包括: 访问可视化列表, 将所述视位映射到列出的可视化, 以及 将显示设备配置为显示所述列出的可视化。 17.根据权利要求16所述的计算机可读存储介质, 还包括: 将所述视位序列中的每个视位映射到帧速率; 确定所述视位序列中的特定视位与视频帧相对应; 以及 从所述视位序列中移除所述特定视位。 权利要求书 3/4 页 4 CN 110624247 A 4 18.根据权利要求16所述的计算机可读存储介质, 其中程序指令还引起所述处理设备 执行包括以下的操作: 将所述视位序列中的每个视位映射到帧速率; 将所述预测视位序列的输。
14、出延迟预定数目的帧; 以及 响应于确定(i)当前帧包括特定视位并且(ii)后续帧和先前帧缺少所述特定视位, 将 所述先前帧的所述视位映射到所述当前帧。 19.根据权利要求16所述的计算机可读存储介质, 其中程序指令还引起所述处理设备 执行包括以下的操作: 将所述预测视位序列映射到帧速率; 以及 根据所述帧速率在图形时间线上表示所述预测视位序列。 20.根据权利要求16所述的计算机可读存储介质, 还包括: 增加所述多个语音样本中的每个语音样本的幅度; 从所述多个语音样本中确定具有大于阈值的幅度的语音样本; 以及 减小所述语音样本的所述幅度。 权利要求书 4/4 页 5 CN 110624247 。
15、A 5 使用机器学习模型确定与实时语音相对应的嘴部的运动 技术领域 0001 本公开总体上涉及动画虚拟角色。 更具体地, 但不作为限制, 本公开涉及使用机器 学习模型以基于语音样本序列来确定动画嘴部的外观。 背景技术 0002 虚拟角色的动画是跨越很多领域的流行的叙事媒体。 但是用于这样做的传统工作 流程是劳动密集型的。 例如, 动画师通常手动绘制每一帧, 或手动指定角色在说出特定单词 时如何运动。 动画师指定角色的唇部如何根据角色的语音运动。 例如, 当一个角色说出音节 “a” 时, 角色的嘴部做出与人类的嘴部在说出该音节时所做出的相同形状。 0003 自动动画消除了手动动画每个嘴部运动的负。
16、担。 例如, 在实时或表演动画中, 计算 系统响应于动画师的输入或语音来控制卡通人物。 但是现有的解决方案或者不能实时操 作, 即, 执行实时动画, 或者不能提供真实和准确的动画。 例如, 现有的解决方案可能导致角 色的嘴部根本不运动或相对于预期的运动而运动太多。 0004 另外, 用于实时动画的解决方案通常基于从语音来预测动画序列的预测模型。 但 是这样的模型需要使用训练数据, 训练数据的生成是耗时的, 因为音频序列被手动映射到 视位(viseme)。 一分钟的语音可能需要五到七个小时的工作来手动动画。 0005 因此, 需要改进的解决方案以实现实时动画并且生成用于实时动画的预测模型的 训练。
17、数据。 发明内容 0006 本文中公开了用于从音频序列预测视位的系统和方法。 在一个示例中, 视位生成 应用访问第一训练数据集。 第一训练数据集包括第一音频序列和视位序列, 第一音频序列 表示由第一讲话者说出的句子, 具有第一长度, 并且表示音素序列。 每个视位被映射到第一 音频序列的相应音频样本。 视位生成应用通过访问表示由第二讲话者说出的句子的第二音 频序列来创建第二训练数据集, 该第二音频序列具有第二长度并且包括音素序列。 视位生 成应用调节第二音频序列, 使得第二序列长度等于第一长度并且至少一个音素出现在第一 序列和第二序列中的相同时间戳处。 视位生成应用将视位序列映射到第二音频序列。。
18、 视位 生成应用训练视位预测模型以从音频序列预测视位序列。 0007 提及这些说明性实施例不是为了限制或限定本公开, 而是提供示例以帮助理解本 公开。 在 “具体实施方式” 中讨论了另外的实施例, 并且在那里提供了进一步的描述。 附图说明 0008 当参考附图阅读以下 “具体实施方式” 时, 将能更好地理解本公开的特征、 实施例 和优点。 0009 图1是描绘根据本公开的某些实施例的视位生成系统的图; 0010 图2描绘了根据本公开的某些实施例的由视位生成系统使用的视位集的示例; 说明书 1/11 页 6 CN 110624247 A 6 0011 图3是描绘根据本公开的某些实施例的用于从音频。
19、序列生成视位序列的过程的示 例的流程图; 0012 图4描绘了根据本公开的某些实施例的由视位生成系统使用的特征向量的示例; 0013 图5描绘了根据本公开的某些实施例的由视位生成应用使用的LSTM神经网络的示 例; 0014 图6是描绘根据本公开的某些实施例的用于训练视位生成系统的过程的示例的流 程图; 0015 图7是描绘根据本公开的某些实施例的用于生成训练数据的过程的示例的流程 图; 0016 图8描绘了根据本公开的某些实施例的用于生成训练数据的时间扭曲的示例; 以 及 0017 图9描绘了用于实现本公开的某些实施例的计算系统的示例。 具体实施方式 0018 本文中描述的实施例使用时间扭曲。
20、技术来自动化用于训练在实时和表演动画系 统中使用的预测模型的健壮且多样化的训练数据集的生成, 并且在一些情况下, 应用这些 模型以基于音频序列来自动化动画。 如上所述, 为在动画系统中使用的预测模型生成训练 数据是麻烦且耗时的。 0019 在一个示例中, 视位生成应用访问第一训练数据集。 第一训练数据集包括第一音 频序列和可以用于将角色动画化的视位序列。 第一音频序列表示来自由第一讲话者说出的 句子的音素或声音序列。 视位序列中的每个视位对应于第一音频序列中的相应音频样本。 例如, 视位具有与第一讲话者发出与视位相对应的音素的时间相对应的时间戳。 0020 视位生成应用在第一训练数据集上使用时。
21、间扭曲技术以生成具有来自第二讲话 者的音频的第二训练数据集, 而不需要手动标记视位。 时间扭曲调节不同个体的语音差异, 诸如语调、 强调或速度, 使得第二序列中的发出的音素出现在与第一音频序列中的对应音 素相同的时间戳处。 0021 更具体地, 视位生成应用访问第二音频序列, 该第二音频序列对应于由说出与第 一讲话者相同的单词的第二讲话者生成的音素序列。 视位生成应用调节第二音频序列, 使 得第二音频序列的长度等于第一音频序列的长度, 并且使得第二讲话者发出的音素在与对 应音素在第一序列中出现的相同的时间戳处出现。 因此, 音素的定时被扭曲以适合第二音 频序列。 0022 随后, 视位生成应用。
22、将视位序列与第二音频序列进行匹配。 因为视位生成应用已 经将第二音频序列映射到第一音频序列, 所以视位序列对应于第二音频序列并且可以重复 使用。 因此, 不需要手动动画或手动映射视位。 0023 该过程可以针对不同的讲话者继续, 并且这样的训练数据可以被提供给预测模 型, 从而增加模型的稳健性。 然后, 视位生成应用训练视位预测模型以从第一训练集和第二 训练集预测视位序列。 可选地, 视位生成应用将音频序列表示为一个或多个特征向量, 将特 征向量提供给使用训练数据训练的预测模型, 并且获取针对与音频序列相对应的视位的预 测。 视位生成应用可以实时操作, 从而支持改进的实时动画系统。 说明书 2。
23、/11 页 7 CN 110624247 A 7 0024 图1是描绘根据本公开的某些实施例的视位生成系统的图。 视位生成系统100包括 视位生成应用102、 音频输入设备105、 模数(A/D)转换器110、 训练数据130a至130n、 输出视 位135和输出设备150中的一个或多个。 视位生成应用102包括特征向量115、 视位预测模型 120和视位140a至140n。 0025 在一个示例中, 视位生成应用102从音频输入设备105接收音频序列, 生成特征向 量115, 并且使用视位预测模型120来选择输出视位135。 输出视位135选自视位140a至140n, 每个视位140对应于不。
24、同的嘴部形状。 关于图2进一步讨论视位。 特征向量115可以包括音频 序列的各种表示, 并且将参考图4进一步讨论。 0026 音频输入设备105可以是麦克风或表示音频的模拟信号。 A/D转换器110通过采样 并且然后量化模拟信号来将模拟音频转换为数字样本。 音频输入设备105从动画师接收音 频并且将音频传递给A/D转换器110, A/D转换器110将音频转换为音频样本。 视位生成应用 102从A/D转换器110接收音频样本。 在一个实施例中, 从网络连接接收数字音频样本, 并且 将其直接传递到视位生成应用102。 例如, 数字音频样本可以经由语音合成应用来生成, 语 音合成应用基于文本或其他输。
25、入来输出表示卡通语音的样本。 0027 在一个实施例中, 视位生成应用102基于所确定的视位来将角色(例如, 计算机生 成的木偶)动画化, 并且将动画提供给输出设备150, 诸如显示器。 替代地, 视位生成应用102 可以将视位直接提供给另一应用, 诸如动画应用。 0028 在另一示例中, 视位生成应用102生成用于训练视位预测模型120的训练数据130a 至130n。 更具体地, 视位生成应用102使用诸如时间扭曲等技术来从训练数据130a生成附加 训练数据集130b至130n。 训练数据130a包括第一音频序列和对应的视位序列。 视位生成应 用102使用训练数据130a至130n训练视位预。
26、测模型120。 视位预测模型120可以是视位预测 模型, 诸如递归神经网络或长短期记忆(LSTM)模型。 0029 图2描绘了根据本公开的某些实施例的由视位生成系统使用的视位集的示例。 图2 描绘了包括视位201至212的视位集200。 视位201至201中的每个对应于独特的嘴部形状。 视 位201至212分别表示静默、“Ah” 声音的嘴部外观、“D” 声音的嘴部外观、“Ee” 声音的嘴部外 观、“F” 声音的嘴部外观、“L” 声音的嘴部外观、“M” 声音的嘴部外观、“Oh” 的嘴部外观、“R” 声 音的嘴部外观、“S” 声音的嘴部外观、“Uh” 声音的嘴部外观、 和 “W-Oo” 声音的嘴部。
27、外观。 0030 在一些实施例中, 独特的嘴部形状可能与人类说话时使用的嘴部形状不准确对 应。 例如, 由于动画中采用的强调, 视位可能与预期的人类嘴部形状略有不同, 这可能因动 画风格而变化。 0031 图3是描绘根据本公开的某些实施例的用于从音频序列生成视位序列的过程的示 例的流程图。 过程300关于如图1所描绘的视位生成应用102来描述, 但是可以由其他系统来 实现。 0032 在框301处, 过程300涉及访问与一时间段相对应的语音样本。 视位生成应用102可 以经由A/D转换器110接收由音频输入设备105实时生成的音频序列。 视位生成应用102按顺 序或时间窗口来分析语音样本。 0。
28、033 例如, 视位生成应用102可以使用具有特定步长(例如, 10毫秒)的滑动样本窗口 (例如, 25毫秒)。 在该示例中, 视位生成应用102缓冲从0到25毫秒的传入音频样本, 从输入 样本的缓冲来创建第一特征向量, 接收更多音频样本并且从10毫秒到35毫秒的音频样本创 说明书 3/11 页 8 CN 110624247 A 8 建第二特征向量, 等等。 给定音频序列可以包括来自相对于输出视位的当前、 过去时间段或 未来时间段的音频样本。 0034 在框302处, 过程300涉及计算表示语音样本的特征向量。 视位生成应用102从语音 样本计算特征向量115。 特征向量115以适合于视位预测。
29、模型的方式表示音频样本序列或窗 口。 特征向量115可以包括不同的特征, 例如, 音频样本本身、 从音频样本得到的统计数据、 梅尔频率倒谱系数(MFCC)系数、 时间导数、 能量计算等。 视位生成应用102可以使用不同方 法从音频样本得到这样的特征。 0035 图4描绘了由视位生成应用102生成的特征向量400的示例。 特征向量400包括MFCC 分量402、 能量分量403、 MFCC导数404和能级导数405。 在一个示例中, 特征向量115是28维特 征向量, 但其他大小的维度是可能的。 如图4所示, 特征向量400包括长度为13的MFCC分量 402、 长度为1的能量分量403、 长度。
30、为13的MFCC导数404、 以及长度为1的能量值导数405。 0036 MFCC是具有非线性间隔的频带的基于频率的表示, 这些频带大致匹配人类听觉系 统的响应。 特征向量115可以包括从音频序列得到的任何数目的MFCC。 0037 在一个实施例中, 在计算MFCC之前, 视位生成应用102可以过滤输入音频以增强信 号质量。 在一个示例中, 视位生成应用102通过使用硬限幅滤波器来压缩和增强输入音频电 平。 硬限幅滤波器可以衰减幅度大于预定义阈值的音频。 硬限幅滤波器通常与输入增强一 起应用, 这增加了整体音量, 同时避免了失真。 0038 特征向量115可以包括能量分量403。 能量分量40。
31、3表示窗口中的音频样本序列的 能量, 例如, 使用诸如样本的对数平均能量等函数。 0039 特征向量115可以包括MFCC导数404或能级导数405。 在特征向量115中包括时间导 数有益于视位预测模型120, 因为导数可以使音频的变化对于预测模型更明显。 例如, 音频 的改变可以引起MFCC的大的改变, 这导致导数改变, 导致视位预测模型120识别输出序列中 的视位之间的即将发生的转变。 0040 如果以与MFCC相同的频率计算, 则时间导数会引起噪声。 这样, 视位生成应用102 可以在比标准音频序列窗口更大的时间区域上对时间导数求平均, 从而平滑而消除大值。 0041 但是因为这样的时间。
32、平均, 多个时间窗口上的导数可能由于缓冲而导致等待时 间。 在一个实施例中, 视位预测模型120使用在当前MFCC窗口之前和之后的两个窗口计算的 MFCC之间的平均有限差值来计算时间导数。 0042 返回图3, 在框303处, 过程300涉及通过将特征向量应用于视位预测模型来确定表 示当前子集的语音的预测视位序列。 训练视位预测模型120以从预定视位预测视位。 更具体 地, 视位生成应用102向视位预测模型120提供特征向量115。 视位预测模型120接收预测输 出视位135。 0043 视位预测模型120可以使用不同类型的预测模型或机器学习模型来实现。 作为示 例, 视位预测模型120可以使。
33、用长短期记忆(LSTM)模型来实现。 0044 图5描绘了根据本公开的某些实施例的由视位生成应用使用的LSTM神经网络的示 例。 图5描绘了LSTM模型500, 其包括延迟501、 输入501a至501n、 状态509a至509n和输出视位 510a至510n。 视位预测模型120可以使用LSTM模型500来实现。 在该示例中, LSTM模型500被 配置为具有被线性地映射到12个输出视位类的200维隐藏状态的单向单层LSTM。 0045 LSTM模型500接收从流式音频序列得到的特征向量的输入序列a0, a1, a2, .an, 并 说明书 4/11 页 9 CN 110624247 A 9。
34、 且输出对应的视位序列v0, v1, v2, .vn。 特征向量a0, a1, a2, .an由输入501a至501n表示。 视 位v0, v1, v2, .vn由输出视位910a至910c表示。 LSTM模型500包括由内部状态505a至505n描 绘的内部状态L0, L1, L2, .Ln。 内部状态505a至505n表示从输入501a至501n得到的内部值。 任何数目的内部状态是可能的。 0046 LSTM模型500基于过去、 现在或未来的时间窗口的特征向量来预测视位。 LSTM模型 500可以通过延迟预测视位的输出直到接收和分析后续特征向量来考虑未来窗口的特征向 量。 由d表示的延迟5。
35、01表示前瞻时间窗口的数目。 对于当前音频特征向量at, LSTM模型500 预测在vt-d处在过去出现d个窗口的视位。 0047 如图所示, LSTM模型500配置有为2的延迟, 因为在生成输出视位v0之前处理两个 特征向量a0和a1。 在接收到特征向量a0、 a1和a2之后, LSTM模型500输出在时间上对应于特征 向量a0的第一预测视位v0。 如图所示, 特征向量a0、 a1和a2由LSTM模型500用来预测输出视位 v0。 0048 因此, LSTM模型500可以基于特定应用要求而配置有不同的延迟。 确定延迟501涉 及准确性和等待时间之间的折衷。 例如, 较长的延迟501向LSTM。
36、模型500提供用于预测输出 视位510a的附加数据, 从而提高输出视位序列的准确性。 例如, 当缩短未来音频信息的量 时, 输出视位可能会显示抖动(chatter)。 抖动是由改变太快的输出视位影响的嘴部外观的 过度改变。 抖动可能部分是由于某些动画经常在与预测视位相对应的语音之前略微改变视 位的这一事实。 在一个实施例中, d6提供足够的前瞻, 但是为模型增加了附加的60毫秒的 等待时间。 0049 但是如所讨论的, 为了真实, 由人类讲话者或直接收听讲话者的观众观看的动画 需要低于可察觉阈值的等待时间, 这排除了大量的缓冲和前瞻。 经由广播观看的实时动画 可以具有观众不会注意到的任意延迟,。
37、 只要音频和视频信号经历相同的延迟。 但是太长的 延迟可能会阻碍实时操作, 因为对于实时系统, LSTM模型500将可察觉的延迟保持在人类可 检测的阈值以下。 例如, 在实验结果中, 视位生成应用102可以将24帧/秒的音频序列转换成 等待时间小于200毫秒的视位序列。 这种等待时间在实时动画的公差范围内, 即, 通常不会 被观察动画的人类感知到。 0050 在另一实施例中, LSTM模型500可以输出特定视位是特征向量的匹配的概率。 例 如, LSTM模型500可以输出视位202的概率为72, 视位204的概率为28。 在这种情况下, 视 位生成应用102可以选择具有最高概率的视位, 例如视。
38、位202。 0051 在另一实施例中, 视位生成应用102以不同于用于动画的帧速率的帧速率来输出 视位序列。 例如, 视位生成应用102以100帧/秒输出视位, 而动画以24帧/秒生成。 视位生成 应用102可以使用各种技术来移除由帧速率转换(即, 将视位序列从输出帧速率转换为动画 帧速率)而产生的噪声或错误的视位伪像。 0052 例如, 如果视位被呈现小于阈值数目的帧, 则视位生成应用102可以将该视位分类 为噪声。 在一个示例中, 被显示一帧的视位被认为是帧速率转换噪声的结果, 因为动画师通 常不显示特定视位少于两帧。 为了移除这种噪声, 视位生成应用102将预测视位序列的输出 延迟预定数。
39、目的帧。 在一个示例中, 根据一些动画实践, 使用两帧的延迟。 通过延迟, 视位生 成应用102提供前瞻以在输出视位存在小于阈值帧的情况下调节输出视位序列。 例如, 视位 生成应用102确定当前帧包括特定视位, 并且后续帧和先前帧(例如, 被缓冲的帧)都不包括 说明书 5/11 页 10 CN 110624247 A 10 特定视位。 作为响应, 视位应用将先前帧的视位映射到当前帧。 因此, 输出视位序列没有视 位转变。 0053 在另一实施例中, 视位生成应用102可以从所得到的视位序列中移除噪声。 例如, 视位生成应用102通过将100帧/秒视位序列二次采样为24帧/秒序列来重新映射视位。。
40、 视位 生成应用102可以确定视位序列中的特定视位对应于一帧视频并且从视位序列中移除特定 视位, 用先前或后续视位替换所移除的视位。 0054 在又一实施例中, 与由LSTM模型500实现以便分析未来特征向量的延迟相反, 视位 生成应用102可以创建包括多个未来窗口的MFCC信息的特征向量115。 以这种方式, 来自未 来时间窗口的信息被构建到特定特征向量中, 而不是由LSTM模型500单独考虑。 0055 在用于表演动画或非实时使用的实施例中, LSTM模型500可以是双向LSTM。 这样的 配置可以在不考虑等待时间时使用。 例如, 在离线配置中, 视位生成应用102可以接收从与 整个语音相。
41、对应的音频得到的特征向量集, 并且同时对整个语音进行操作。 具有整个序列 的特征向量, 而不是一次一个特征向量, 或一次一个窗口, 可以增加预测视位的准确性。 0056 返回图3, 在框304处, 过程300涉及通过访问可视化列表, 将视位映射到列出的可 视化, 并且将显示设备配置为显示视位来提供与预测视位相对应的可视化。 例如, 视位生成 应用102访问可视化列表。 列表中的每个可视化对应于特定视位。 例如, 视位205可以以不同 于例如视位206的某种方式被动画化。 视位生成应用102将预测视位映射到对应的可视化, 例如, 通过进行表查找。 然后, 视位生成应用102可以将显示设备配置为显。
42、示视位。 0057 训练视位预测模型 0058 如所讨论的, 使用训练数据130a至130n训练视位预测模型120。 训练数据可以包括 一组特征向量和对应的预测视位。 视位生成应用102可以用于生成训练数据130a至130n。 0059 本文中描述的实施例使用机器学习来训练视位预测模型120。 如所讨论的, 各种类 型的机器学习模型可以实现视位预测模型120。 在典型的训练过程中, 视位预测模型120学 习将输入序列(通常是特征向量)映射到输出序列。 在示例训练过程中, 视位预测模型120学 习从来自不同讲话者的不同音频序列集来预测视位。 作为简化示例, 训练数据包括特定音 频序列或特定特征向。
43、量与对应的输出或视位之间的映射, 其中特征向量表示来自不同讲话 者的音频样本。 视位预测模型120学习哪些特征向量(以及由此哪些音频序列)对应于特定 视位, 并且从而学习考虑特征向量的不同参数的变化(即, 来自不同讲话者的讲话特征的变 化)。 因此, 利用包括映射到对应的视位的各种各样的音频数据的训练数据, 训练后的视位 预测模型120可以准确地将各种各样的讲话风格映射到特定视位可视化。 0060 在一个示例中, 训练数据130a至130n包括多个训练向量。 每个训练向量包括诸如 用于音频序列的特征向量等输入序列和诸如输出视位等对应的输出序列(例如, 用于声音 “Sh” 的特征向量和用于声音 。
44、“Sh” 的嘴部形状的视位)。 用于给定音频序列的对应输出视位 可以手动生成, 例如, 由动画师, 或通过自动化工具, 诸如关于图6描述的过程600。 0061 训练数据集130a至130n可以分为训练组和测试组。 数据的训练组被提供给机器学 习模型。 训练数据的测试组用于训练后的模型的后续测试。 以这种方式, 视位预测模型120 不使用训练其的相同数据来进行测试。 0062 图6是描绘根据本公开的某些实施例的用于训练视位生成系统的过程600的示例 的流程图。 训练可以是迭代过程。 例如, 在视位生成应用102已经完成框605之后, 过程600可 说明书 6/11 页 11 CN 110624。
45、247 A 11 以再次继续框601, 直到训练数据集130a至130n已经被提供给视位预测模型120, 或者视位 预测模型被充分训练。 0063 训练数据包括诸如训练向量等输入序列和诸如针对每个序列的预期视位等对应 输出序列。 例如, 如果特定音频序列是发出 “Ah” 声音的讲话者, 则预测视位对应于 “Ah” 声 音, 即, 讲话者在发出声音时所做出的嘴部形状。 0064 在框601处, 过程600涉及确定针对每个训练数据集的相应音频序列的每个样本的 特征向量。 例如, 训练数据130a包括音频样本。 在这种情况下, 对于音频样本的窗口, 视位生 成应用102以与关于过程300中的框302。
46、所描述的基本上类似的方式来确定特征向量115。 如 关于图3和4所讨论的, 特征向量115可以包括MFCC分量402、 能量分量403、 MFCC导数404和能 级导数405中的一个或多个。 0065 在框602处, 过程600涉及向视位预测模型提供特征向量。 视位生成应用102向视位 预测模型120提供表示对应音频序列的特征向量115。 0066 在框603处, 过程600涉及从视位预测模型接收预测视位。 视位生成应用102从视位 预测模型120接收预测视位。 预测视位对应于特征向量115, 并且对应于生成特征向量的对 应的输入音频序列。 0067 在框604处, 过程600涉及通过计算预测。
47、视位与预期视位之间的差异来计算损失函 数。 针对特征向量的预期视位被包括在训练数据中。 预期视位可以通过手动动画生成, 例 如, 使用动画师将生成特征向量的音频映射到来自视位集的视位。 损失函数由视位预测模 型120用来随时间最小化误差。 0068 在框605处, 过程600涉及调节视位预测模型的内部参数或权重以最小化损失函 数。 随着每次迭代, 视位生成应用102寻求最小化损失函数, 直到视位预测模型120被充分训 练。 视位生成应用102可以使用反向传播训练方法来优化LSTM模型500的内部参数。 反向传 播更新网络的内部参数以使得预测值更接近预期输出。 视位生成应用102可以使用交叉熵 。
48、损失来惩罚关于预期视位序列的分类错误。 地面实况视位序列可以以24帧/秒被动画化并 且被上采样以匹配模型的100帧/秒频率。 0069 视位生成应用102可以根据需要继续过程600的框601至605, 直到视位预测模型 120被充分训练。 在已经执行适当训练的时间点处, 视位生成应用102可以测试视位预测模 型。 对于每个测试向量, 应用向视位预测模型120提供对应的特征向量。 视位生成应用102从 视位预测模型120接收预测视位。 0070 可以以不同方式比较预测视位和预期视位。 例如, 可以使用自动化系统。 替代地, 训练数据生成系统可以提供向用户示出预测视位序列和预期视位序列的显示器。 。
49、用户可以 通过向训练数据生成系统提供反馈来指示哪些序列更加真实或准确。 0071 如果视位生成应用102确定视位预测模型120正在预测针对阈值数目的实例的不 正确视位, 则视位预测模型120可以向视位预测模型120提供附加训练数据130a至130n并且 因此重新测试。 0072 如所讨论的, 训练数据可以涉及使用人类动画师将音频序列映射到预测视位。 这 种过程虽然有用, 但是在时间和成本上可能是昂贵的。 因为需要阈值量的训练数据使得视 位预测模型120被充分训练, 所以手动生成训练数据可能使得这些模型的使用变得不切实 际。 说明书 7/11 页 12 CN 110624247 A 12 007。
50、3 本文中描述的实施例使用诸如时间扭曲技术等自动语音对准来从第一训练数据 集生成不同讲话者的附加训练数据集。 更具体地, 视位生成应用102可以自动地将由第一讲 话者说出的第一音频序列的手动动画视位传播给由第二讲话者说出的第二音频序列。 在这 样做时, 视位生成应用102移除了如对第一讲话者的讲话进行手动动画的那样对第二讲话 者的语音进行手动动画的需要。 实施例可以将可用训练数据的量增加四倍或更多, 并且可 以用少至十三到十九分钟的手动创作的唇部同步数据来产生可接受的结果。 0074 图7是描绘根据本公开的某些实施例的用于生成训练数据的过程的示例的流程 图。 结合图8示出了图7。 图8描绘了根。
- 内容关键字: 使用 机器 学习 模型 确定 实时 语音 相对 运动
高精度的低重频窄脉冲延迟控制电路.pdf
重金属污染土壤修复装置.pdf
微型扬声器音腔焊接装置.pdf
测试无人机避障功能的训练迷宫.pdf
半导体老化检测装置.pdf
车用尿素液的生产配比装置.pdf
管材转运稳定输送装置.pdf
灯光积木块.pdf
空压机滤芯.pdf
化工桶倒料机构.pdf
旋转式远端帽.pdf
细胞分类恒温箱.pdf
煤粉传输带用残余清洁机构.pdf
生物基可降解纤维面料生产用喂纱机构及针织大圆机.pdf
卷扬机调速机构.pdf
烧伤整形植皮辅助设备.pdf
快速充电电池组结构.pdf
高效率的废边吸附平台.pdf
变排量汽车空调压缩机后盖气动立式定心夹具.pdf
建筑保温板切割装置.pdf
高炉烟灰布袋除尘输灰系统.pdf
提高挤浆机的脱水装置.pdf
无人驾驶汽车辅助检修装置.pdf
类蛇毒肽的制备方法.pdf
中控系统探测方法、装置、设备及存储介质.pdf
有机电致发光材料及其制备方法与应用.pdf
涤纶线抗拉强度检测方法.pdf
与印度南瓜侧枝数量相关基因连锁的分子标记及应用.pdf
LED显示装置.pdf
云台摄像机及控制系统.pdf
高含有机质渣土低碳固化材料及其制备方法和应用.pdf
基于图像视觉处理的基坑位移监测系统.pdf
手推童车和座椅组合件.pdf
光连接器.pdf
一种对车内驾驶行为异常监控方法和系统.pdf
管理多分量载波时序校准功能的方法及相关通讯装置.pdf
公交车双横杆式三角拉手.pdf
一种具有波长选择功能的光路倒换装置.pdf
一种具有共享保护功能的波分复用无源光网络光线路终端.pdf
一种用于矿用自卸车的悬挂装置.pdf
一种时分双工射频拉远单元.pdf
一种线性光子晶体器件.pdf
一种环氧树脂的凝胶固化处理方法.pdf
大型十字头柴油发动机.pdf
一种自动剔除振动筛中筛网孔内卡料的装置和方法.pdf
液滴排出头的检查方法、检查装置及液滴排出装置.pdf
流体喷射装置的制造方法以及流体喷射装置.pdf
具有控制凸轮和控制滚子的凸轮传动装置.pdf
螺丝刀.pdf
摄像装置及摄像装置的控制方法.pdf
再现装置、再现方法.pdf