视频剪辑自动化方法和系统.pdf

上传人：二狗文档编号：14524584 上传时间：2024-05-19 格式：PDF 页数：13 大小：816.92KB

收藏版权申诉举报下载

第1页 / 共13页

第2页 / 共13页

第3页 / 共13页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《视频剪辑自动化方法和系统.pdf》由会员分享，可在线阅读，更多相关《视频剪辑自动化方法和系统.pdf（13页完成版）》请在专利查询网上搜索。

1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202410027805.9(22)申请日 2024.01.09(71)申请人杭州任性智能科技有限公司地址 310000 浙江省杭州市萧山区宁围街道传化科创大厦1幢311-13室(72)发明人吴晨辉周葭芜陈涛柴杰邓晓宇(74)专利代理机构杭州创智卓英知识产权代理事务所(普通合伙)33324专利代理师唐超文(51)Int.Cl.H04N 21/44(2011.01)H04N 21/466(2011.01)H04N 21/435(2011.01)(54)发明名称一种视频剪辑自动化方法和系统(5。

2、7)摘要本申请涉及一种视频剪辑自动化方法和系统，其中，该方法包括：将待剪辑视频进行分片处理，得到包含若干视频片段的视频片段集合；基于视频脚本文本的文本特征向量与视频片段的视频特征向量，计算得到视频脚本文本与视频片段之间的匹配相似度；基于匹配相似度，通过全局最优算法得出与视频脚本文本对应的目标视频片段；基于视频脚本文本对目标视频片段进行合成，得到目标视频，并将目标视频片段从视频片段集合中删除。通过本申请，解决了如何提高视频自动化剪辑的效果的问题，实现了基于对视频片段集合中已匹配的目标视频片段的删除，降低了后续生成的目标视频的画面重复度，且全局最优算法的使用，提高了视频片段的整体匹配准确度。权利要。

3、求书2页说明书8页附图2页CN 117544822 A2024.02.09CN 117544822 A1.一种视频剪辑自动化方法，其特征在于，所述方法包括：将待剪辑视频进行分片处理，得到包含若干视频片段的视频片段集合；计算得到所述视频片段的视频特征向量；基于视频脚本文本的文本特征向量与所述视频特征向量，计算得到所述视频脚本文本与所述视频片段之间的匹配相似度；基于所述匹配相似度，通过全局最优算法得出与所述视频脚本文本对应的目标视频片段；基于所述视频脚本文本对所述目标视频片段进行合成，得到目标视频，并将所述目标视频片段从所述视频片段集合中删除。2.根据权利要求1所述的方法，其特征在于，在基于所。

4、述视频脚本文本对所述目标视频片段进行合成，得到目标视频，并将所述目标视频片段从所述视频片段集合中删除之前，所述方法包括：基于所述视频特征向量对所述视频片段进行视频分类，得到视频分类集合。3.根据权利要求2所述的方法，其特征在于，基于所述视频脚本文本对所述目标视频片段进行合成，得到目标视频，并将所述目标视频片段从所述视频片段集合中删除包括：基于所述视频脚本文本对所述目标视频片段进行合成，得到目标视频，并将所述目标视频片段从所述视频分类集合中删除；当所述视频分类集合中的所有视频片段都被删除后，通过所述视频分类集合的召回机制将被删除的视频片段进行召回，重新存储到所述视频分类集合中。4.根据权利要求2。

5、所述的方法，其特征在于，基于所述视频特征向量对所述视频片段进行视频分类，得到视频分类集合包括：基于所述视频特征向量，通过视频分类模型计算所述视频片段之间的分类相似度，将所述分类相似度大于预设阈值的视频片段分到相同类别，得到视频分类集合，其中，所述分类相似度通过欧氏距离、曼哈顿距离或余弦距离进行衡量。5.根据权利要求1所述的方法，其特征在于，基于视频脚本文本的文本特征向量与所述视频特征向量，计算得到所述视频脚本文本与所述视频片段之间的匹配相似度包括：基于视频脚本文本的文本特征向量与所述视频特征向量，通过文本视频匹配模型计算得到每一个视频脚本文本与所有所述视频片段之间的匹配相似度，其中，所述匹配相。

6、似度通过欧氏距离、曼哈顿距离或余弦距离进行衡量。6.根据权利要求5所述的方法，其特征在于，基于所述匹配相似度，通过全局最优算法得出与所述视频脚本文本对应的目标视频片段包括：基于每个视频脚本文本与所有所述视频片段之间的匹配相似度，通过全局最优算法使得视频脚本文本与视频片段之间的全局相似度达到最大，得出与所述视频脚本文本对应的目标视频片段。7.根据权利要求1所述的方法，其特征在于，基于所述视频脚本文本对所述目标视频片段进行合成，得到目标视频包括：基于若干所述视频脚本文本的先后顺序，按照所述先后顺序对与所述视频脚本文本对应的目标视频片段进行拼接，得到目标视频。8.根据权利要求1所述的方法，其特征在于。

7、，基于所述视频脚本文本对所述目标视频片权利要求书1/2 页2CN 117544822 A2段进行合成，得到目标视频还包括：将所述视频脚本文本转换为目标音频，将所述目标音频与对应的目标视频片段进行编码融合，得到融合视频片段；基于若干所述视频脚本文本的先后顺序，按照所述先后顺序对所述融合视频片段进行拼接，得到目标视频。9.根据权利要求1所述的方法，其特征在于，在基于视频脚本文本的文本特征向量与所述视频特征向量，计算得到所述视频脚本文本与所述视频片段之间的匹配相似度之前，所述方法包括：通过词向量工具计算得到视频脚本文本的文本特征向量。10.一种视频剪辑自动化系统，其特征在于，所述系统用于执行上述权利。

8、要求1至9任一项所述的方法，所述系统包括视频处理模块、文本处理模块、匹配模块和合成模块；所述视频处理模块，用于将待剪辑视频进行分片处理，得到包含若干视频片段的视频片段集合；计算得到所述视频片段的视频特征向量；所述文本处理模块，用于通过词向量工具计算得到视频脚本文本的文本特征向量；所述匹配模块，用于根据视频脚本文本的文本特征向量与所述视频特征向量，计算得到所述视频脚本文本与所述视频片段之间的匹配相似度；根据所述匹配相似度，通过全局最优算法得出与所述视频脚本文本对应的目标视频片段；所述合成模块，用于根据所述视频脚本文本对所述目标视频片段进行合成，得到目标视频，并将所述目标视频片段从所述视频片段集合。

9、中删除。权利要求书2/2 页3CN 117544822 A3一种视频剪辑自动化方法和系统技术领域0001本申请涉及视频数据处理领域，特别是涉及一种视频剪辑自动化方法和系统。背景技术0002近年来，随着互联网技术的快速发展，视频成为信息传递的主要方式之一。在很多视频应用场景中，比如短视频平台，用户在分享日常生活或外出旅游过程中拍摄的视频时，往往需要将拍摄的视频进行剪辑后再发布，但是对于没有了解过学习相关技能或不常接触视频剪辑的用户来讲，要想熟练掌握视频剪辑往往有着一定的难度，因此，如何降低视频剪辑的入门门槛是当前视频分享交流场景中急需解决的问题之一。0003公开号为CN115967833A的专利。

10、公开了一种视频生成方法、装置、设备计存储介质。具体地，对解说文本进行特征提取，获得词特征向量；将待剪辑视频进行分片处理，获得多个视频片段；对所述多个视频片段分别进行多模态特征提取，获得各视频片段的多模态特征向量；将所述词特征向量和所述多个视频片段的多模态特征向量输入文本视频匹配模型中，确定出至少一个目标视频片段；根据所述解说文本和所述至少一个目标视频片段生成目标视频。由此可见，该专利固然能够实现自动地对影视视频的剪辑，但是当需要基于多个不同的解说文本来对相同的待剪辑素材进行自动化剪辑时，容易生成画面重复度较高的多个目标视频。0004目前针对相关技术中如何提高视频自动化剪辑的效果的问题，尚未提出。

11、有效的解决方案。发明内容0005本申请实施例提供了一种视频剪辑自动化方法和系统，以至少解决相关技术中如何提高视频自动化剪辑的效果的问题。0006第一方面，本申请实施例提供了一种视频剪辑自动化方法，所述方法包括：将待剪辑视频进行分片处理，得到包含若干视频片段的视频片段集合；计算得到所述视频片段的视频特征向量；基于视频脚本文本的文本特征向量与所述视频特征向量，计算得到所述视频脚本文本与所述视频片段之间的匹配相似度；基于所述匹配相似度，通过全局最优算法得出与所述视频脚本文本对应的目标视频片段；基于所述视频脚本文本对所述目标视频片段进行合成，得到目标视频，并将所述目标视频片段从所述视频片段集合中删除。。

12、0007在其中一些实施例中，在基于所述视频脚本文本对所述目标视频片段进行合成，得到目标视频，并将所述目标视频片段从所述视频片段集合中删除之前，所述方法包括：基于所述视频特征向量对所述视频片段进行视频分类，得到视频分类集合。0008在其中一些实施例中，基于所述视频脚本文本对所述目标视频片段进行合成，得说明书1/8 页4CN 117544822 A4到目标视频，并将所述目标视频片段从所述视频片段集合中删除包括：基于所述视频脚本文本对所述目标视频片段进行合成，得到目标视频，并将所述目标视频片段从所述视频分类集合中删除；当所述视频分类集合中的所有视频片段都被删除后，通过所述视频分类集合的召回机制将被删。

13、除的视频片段进行召回，重新存储到所述视频分类集合中。0009在其中一些实施例中，基于所述视频特征向量对所述视频片段进行视频分类，得到视频分类集合包括：基于所述视频特征向量，通过视频分类模型计算所述视频片段之间的分类相似度，将所述分类相似度大于预设阈值的视频片段分到相同类别，得到视频分类集合，其中，所述分类相似度通过欧氏距离、曼哈顿距离或余弦距离进行衡量。0010在其中一些实施例中，基于视频脚本文本的文本特征向量与所述视频特征向量，计算得到所述视频脚本文本与所述视频片段之间的匹配相似度包括：基于视频脚本文本的文本特征向量与所述视频特征向量，通过文本视频匹配模型计算得到每一个视频脚本文本与所有所述。

14、视频片段之间的匹配相似度，其中，所述匹配相似度通过欧氏距离、曼哈顿距离或余弦距离进行衡量。0011在其中一些实施例中，基于所述匹配相似度，通过全局最优算法得出与所述视频脚本文本对应的目标视频片段包括：基于每个视频脚本文本与所有所述视频片段之间的匹配相似度，通过全局最优算法使得视频脚本文本与视频片段之间的全局相似度达到最大，得出与所述视频脚本文本对应的目标视频片段。0012在其中一些实施例中，基于所述视频脚本文本对所述目标视频片段进行合成，得到目标视频包括：基于若干所述视频脚本文本的先后顺序，按照所述先后顺序对与所述视频脚本文本对应的目标视频片段进行拼接，得到目标视频。0013在其中一些实施例中。

15、，基于所述视频脚本文本对所述目标视频片段进行合成，得到目标视频还包括：将所述视频脚本文本转换为目标音频，将所述目标音频与对应的目标视频片段进行编码融合，得到融合视频片段；基于若干所述视频脚本文本的先后顺序，按照所述先后顺序对所述融合视频片段进行拼接，得到目标视频。0014在其中一些实施例中，在基于视频脚本文本的文本特征向量与所述视频特征向量，计算得到所述视频脚本文本与所述视频片段之间的匹配相似度之前，所述方法包括：通过词向量工具计算得到视频脚本文本的文本特征向量。0015第二方面，本申请实施例提供了一种视频剪辑自动化系统，所述系统用于执行上述第一方面所述的方法，所述系统包括视频处理模块、文本处。

16、理模块、匹配模块和合成模块；所述视频处理模块，用于将待剪辑视频进行分片处理，得到包含若干视频片段的视频片段集合；计算得到所述视频片段的视频特征向量；所述文本处理模块，用于通过词向量工具计算得到视频脚本文本的文本特征向说明书2/8 页5CN 117544822 A5量；所述匹配模块，用于根据视频脚本文本的文本特征向量与所述视频特征向量，计算得到所述视频脚本文本与所述视频片段之间的匹配相似度；根据所述匹配相似度，通过全局最优算法得出与所述视频脚本文本对应的目标视频片段；所述合成模块，用于根据所述视频脚本文本对所述目标视频片段进行合成，得到目标视频，并将所述目标视频片段从所述视频片段集合中删除。00。

17、16相比于相关技术，本申请实施例提供的一种视频剪辑自动化方法和系统，其中，该方法通过将待剪辑视频进行分片处理，得到包含若干视频片段的视频片段集合；计算得到视频片段的视频特征向量；基于视频脚本文本的文本特征向量与视频特征向量，计算得到视频脚本文本与视频片段之间的匹配相似度；基于匹配相似度，通过全局最优算法得出与视频脚本文本对应的目标视频片段；基于视频脚本文本对目标视频片段进行合成，得到目标视频，并将目标视频片段从视频片段集合中删除，解决了如何提高视频自动化剪辑的效果的问题，实现了基于对视频片段集合中已匹配的目标视频片段的删除，降低了后续生成的目标视频的画面重复度，且全局最优算法的使用，提高了视频。

18、片段的整体匹配准确度。附图说明0017此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：图1是根据本申请实施例的视频剪辑自动化方法的步骤流程图；图2是根据本申请实施例的视频剪辑自动化系统的结构框图；图3是根据本申请实施例的电子设备的内部结构示意图。0018附图标识：21、视频处理模块；22、文本处理模块；23、匹配模块；24、合成模块。具体实施方式0019为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请。

19、，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。0020显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。0021在本申请中提及“实施例”意味。

20、着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。说明书3/8 页6CN 117544822 A60022除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任。

21、何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块（单元）的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉。

22、及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。0023本申请实施例提供了一种视频剪辑自动化方法，图1是根据本申请实施例的视频剪辑自动化方法的步骤流程图，如图1所示，该方法包括以下步骤：步骤S102，将待剪辑视频进行分片处理，得到包含若干视频片段的视频片段集合；需要说明的是，待剪辑视频可以是用户自行拍摄的，可以是用户经授权后从网络上下载获得的。本实施例中，可以按照时长对待剪辑视频进行分片。按照时长对剪辑视频进行分片可以理解为：将待剪辑视频固定时长切分为一个视频片段。0024步骤S104，计算得到视频片段的视频特征向量；需要说明的是，计算得到单个视频片段的视。

23、频特征向量可以为多维数组，最终得到所有视频片段的视频特征向量集合WHOLE_VIDEO_EMB_SET。0025步骤S106，基于视频脚本文本的文本特征向量与视频特征向量，计算得到视频脚本文本与视频片段之间的匹配相似度；步骤S106具体地，获取用户输入的一个剪辑主题下的多个视频脚本文本，通过词向量工具（如bert）计算得到视频脚本文本的文本特征向量；基于视频脚本文本的文本特征向量与视频特征向量，通过文本视频匹配模型计算得到每一个视频脚本文本与所有视频片段之间的匹配相似度，其中，匹配相似度通过欧氏距离、曼哈顿距离或余弦距离进行衡量。0026步骤S108，基于匹配相似度，通过全局最优算法得出与视频。

24、脚本文本对应的目标视频片段；步骤S108具体地，基于每个视频脚本文本与所有视频片段之间的匹配相似度，通过全局最优算法使得视频脚本文本与视频片段之间的全局相似度达到最大，得出与视频脚本文本对应的目标视频片段。0027需要说明的是，公开号为CN115967833A的专利公开了一种视频生成方法、装置、设备计存储介质。具体地，在其说明书第00560066中公开了三种基于文本的词特征向量与视频的多模态特征向量来确认出目标视频片段的方式：将多个视频片段的多模态特征向量输入文本视频匹配模型中，将多个子词特征向量依次输入文本视频匹配模型，获得多个子词特征向量分别对应的候选视频片段；对于每个子词特征向量，将用户。

25、从候选视频片段选择的视频片段确定为目标视频片段。0028将词特征向量输入词特征嵌入模块，输出各模态特征分别对应的词表征向量；说明书4/8 页7CN 117544822 A7对于每个视频片段，将视频片段的多模态特征向量依次输入多模态特征向量处理模块，输出各模态特征分别对应的模态表征向量；将词表征向量和模态表征向量输入相似度确定模块，输出视频片段与解说文本的相似度。0029将词特征向量输入权重分配单元，输出各模态特征的权重；将词特征向量输入词特征嵌入模块，输出各模态特征分别对应的词表征向量；对于每个视频片段，将视频片段的多模态特征向量依次输入特征融合单元及多模态变换单元，输出各模态特征分别对应的模。

26、态表征向量；将模态表征向量和词表征向量输入相似度计算单元，获得各模态特征分别与解说文本的相似度；将各模态特征分别与解说文本的相似度和各模态特征的权重输入相似度加权单元，输出视频片段与解说文本的相似度。0030由此可见，上述三种方式皆是依次选出与各个视频脚本文本的匹配相似度最大的视频片段作为目标视频片段，这类匹配方式虽然能够为某些文本匹配出最佳视频片段，但是却容易陷入局部最优陷阱。即一部分文本能够匹配到最佳视频片段，另一部分文本却匹配到不相关视频片段，导致最后合成的目标视频效果不佳。0031而步骤S108中却并非是依次选出与各个视频脚本文本的匹配相似度最大的视频片段作为目标视频片段。而是基于每个。

27、视频脚本文本与所有视频片段之间的匹配相似度，通过全局最优算法使得视频脚本文本与视频片段之间的全局相似度达到最大，得出与视频脚本文本对应的目标视频片段。0032简单举例如下：视频脚本文本a1与视频片段v1的匹配相似度为90%；视频脚本文本a1与视频片段v2的匹配相似度为80%；视频脚本文本a1与视频片段v3的匹配相似度为70%；视频脚本文本a2与视频片段v1的匹配相似度为91%；视频脚本文本a2与视频片段v2的匹配相似度为55%；视频脚本文本a2与视频片段v3的匹配相似度为58%；视频脚本文本a3与视频片段v1的匹配相似度为70%；视频脚本文本a3与视频片段v2的匹配相似度为80%；视频脚本文本。

28、a3与视频片段v3的匹配相似度为90%。0033如果按照公开号为CN115967833A专利的匹配方法进行依次最优匹配，则会得到a1的目标视频片段为v1，a2的目标视频片段为v3，a3的目标视频片段为v2，可见a2匹配到的目标视频片段v3与a2的匹配相似度仅为58%，进而导致后续由匹配到的视频片段所合成的目标视频的效果不佳。而按照本实施例步骤S108通过全局最优算法使得视频脚本文本与视频片段之间的全局相似度达到最大（即80%+91%+90%），此时，a1的目标视频片段为v2，a2的目标视频片段为v1，a3的目标视频片段为v3，步骤S108，基于全局最优算法的使用，提高了视频片段的整体匹配准确度。

29、，提高了后续合成的目标视频的效果。0034步骤S110，基于视频脚本文本对目标视频片段进行合成，得到目标视频，并将目标视频片段从视频片段集合中删除。0035步骤S110具体地还包括以下步骤：步骤S1101，基于视频特征向量对视频片段进行视频分类，得到视频分类集合。0036步骤S1101具体地，基于视频特征向量，通过视频分类模型计算视频片段之间的分说明书5/8 页8CN 117544822 A8类相似度，将分类相似度大于预设阈值的视频片段分到相同类别，得到视频分类集合，其中，分类相似度通过欧氏距离、曼哈顿距离或余弦距离进行衡量。0037需要说明的是，由上述步骤S104可知，所有视频片段的视频特征。

30、向量集合为WHOLE_VIDEO_EMB_SET。随机在WHOLE_VIDEO_EMB_SET中选择一个视频片段向量作为基准视频向量，将基准视频向量和所有其他视频向量输入到视频分类模型中，得到与基准视频高度相似度的视频集合S，将该视频集合S视为同一类视频（比如，视为类别1）。接着，从WHOLE_VIDEO_EMB_SET中剔除已经被分类的视频S。再随机从WHOLE_VIDEO_EMB_SET中选择新的视频向量作为基准视频向量，重复以上过程。视频分类模型的作用是计算基准视频向量和其他视频向量的相似度。将相似度大于预设阈值的视频视为同一类视频集合，并返回该集合，最后得到视频分类集合WHOLE_CA。

31、TEGORY_SET，格式如下：类id1：视频片段1,视频片段2，类id2：视频片段3,视频片段4,视频片段5，类id3：视频片段6。0038步骤S1102，基于视频脚本文本对目标视频片段进行合成，得到目标视频，并将目标视频片段从视频分类集合中删除；步骤S1102可选地，基于若干视频脚本文本的先后顺序，按照先后顺序对与视频脚本文本对应的目标视频片段进行拼接，得到目标视频。0039步骤S1102可选地，将视频脚本文本转换为目标音频，将目标音频与对应的目标视频片段进行编码融合，得到融合视频片段；再基于若干视频脚本文本的先后顺序，按照先后顺序对融合视频片段进行拼接，得到目标视频。0040需要说明的是。

32、，从S1101得到的视频分类集合WHOLE_CATEGORY_SET中，剔除步骤S1102中用于合成的目标视频片段。例如，步骤S1101得到了视频分类集合为类id1：视频片段1,视频片段2，类id2：视频片段3,视频片段4,视频片段5，类id3：视频片段6。步骤S1102使用了视频片段1和视频片段3，那么从视频分类集合中剔除视频片段1和视频片段3，得到新的视频分类集合whole_set类id1：视频片段2，类id2：视频片段4,视频片段5，类id3：视频片段6。实现了基于对视频分类集合中已匹配的目标视频片段的删除，降低了后续生成的目标视频的画面重复度。0041步骤S1103，当视频分类集合中的。

33、所有视频片段都被删除后，通过视频分类集合的召回机制将被删除的视频片段进行召回，重新存储到视频分类集合中。0042需要说明的是，步骤S1103在视频分类集合中的所有视频片段都被删除后，通过视频分类集合的召回机制将被删除的视频片段进行召回并重新储存，可以提高待剪辑视频分片后得到的视频片段的复用率。0043通过本申请实施例中的上述步骤S102至步骤S110，解决了如何提高视频自动化剪辑的效果的问题，实现了基于对视频片段集合中已匹配的目标视频片段的删除，降低了后续生成的目标视频的画面重复度，且全局最优算法的使用，提高了视频片段的整体匹配准确度。0044需要说明的是，在上述流程中或者附图的流程图中示出的。

34、步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。0045本申请实施例提供了一种视频剪辑自动化系统，图2是根据本申请实施例的视频剪辑自动化系统的结构框图，如图2所示，该系统包括视频处理模块21、文本处理模块22、匹说明书6/8 页9CN 117544822 A9配模块23和合成模块24；视频处理模块21，用于将待剪辑视频进行分片处理，得到包含若干视频片段的视频片段集合；计算得到视频片段的视频特征向量；文本处理模块22，用于通过词向量工具计算得到视频脚本文本的文本特征向量；匹配模块23，用于根。

35、据视频脚本文本的文本特征向量与视频特征向量，计算得到视频脚本文本与视频片段之间的匹配相似度；根据匹配相似度，通过全局最优算法得出与视频脚本文本对应的目标视频片段；合成模块24，用于根据视频脚本文本对目标视频片段进行合成，得到目标视频，并将目标视频片段从视频片段集合中删除。0046通过本申请实施例中的上述视频处理模块21、文本处理模块22、匹配模块23和合成模块24，解决了如何提高视频自动化剪辑的效果的问题，实现了基于对视频片段集合中已匹配的目标视频片段的删除，降低了后续生成的目标视频的画面重复度，且全局最优算法的使用，提高了视频片段的整体匹配准确度。0047需要说明的是，上述各个模块可以是功能。

36、模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。0048本实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。0049可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。0050需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。0051另外。

37、，结合上述实施例中的视频剪辑自动化方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种视频剪辑自动化方法。0052在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。。

38、该计算机程序被处理器执行时以实现一种视频剪辑自动化方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。0053在一个实施例中，图3是根据本申请实施例的电子设备的内部结构示意图，如图3所示，提供了一种电子设备，该电子设备可以是服务器，其内部结构图可以如图3所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器，其中，该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力，说明书7/8 页10CN 1。

39、17544822 A10网络接口用于与外部的终端通过网络连接通信，内存储器用于为操作系统和计算机程序的运行提供环境，计算机程序被处理器执行时以实现一种视频剪辑自动化方法，数据库用于存储数据。0054本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。0055本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机。

40、程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）D。

41、RAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。0056本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。0057以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。说明书8/8 页11CN 117544822 A11图 1图 2说明书附图1/2 页12CN 117544822 A12图 3说明书附图2/2 页13CN 117544822 A13。

展开阅读全文

内容关键字: 视频剪辑自动化方法系统