字串翻译方法、装置、电子设备及存储介质.pdf

上传人:南*** 文档编号:10200797 上传时间:2021-06-10 格式:PDF 页数:18 大小:692.14KB
收藏 版权申诉 举报 下载
字串翻译方法、装置、电子设备及存储介质.pdf_第1页
第1页 / 共18页
字串翻译方法、装置、电子设备及存储介质.pdf_第2页
第2页 / 共18页
字串翻译方法、装置、电子设备及存储介质.pdf_第3页
第3页 / 共18页
文档描述:

《字串翻译方法、装置、电子设备及存储介质.pdf》由会员分享,可在线阅读,更多相关《字串翻译方法、装置、电子设备及存储介质.pdf(18页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010912678.2 (22)申请日 2020.09.02 (71)申请人 文思海辉智科科技有限公司 地址 102200 北京市昌平区未来科学城英 才北二街鞍钢未来钢铁研究院三号楼 426室 (72)发明人 郭云辉韩娜 (74)专利代理机构 北京超凡宏宇专利代理事务 所(特殊普通合伙) 11463 代理人 衡滔 (51)Int.Cl. G06F 40/126(2020.01) G06F 40/47(2020.01) G06F 40/55(2020.01) G06F 40/。

2、58(2020.01) (54)发明名称 一种字串翻译方法、 装置、 电子设备及存储 介质 (57)摘要 本申请提供一种字串翻译方法、 装置、 电子 设备及存储介质, 该方法包括: 获得待翻译的第 一文件; 将第一文件与具有译文的第二文件进行 比较, 获得共同字串集合; 根据共同字串集合和 第一文件确定待翻译字串集合; 获得翻译后字串 集合; 将翻译后字串集合与第二文件的译文进行 合并, 获得第一文件的译文。 在上述的实现过程 中, 通过第一文件与第二文件中的共同字串集合 和第一文件确定待翻译字串集合, 将翻译后的字 串集合进行合并, 使得计算机辅助翻译工具或系 统、 翻译人员或者翻译机器仅仅。

3、需要处理或翻译 待翻译字串集合即可, 不需要重复处理或翻译已 翻译的字串, 节省了大量重复处理或翻译的工作 量, 节省了系统资源, 有效地提高了翻译工作中 的翻译效率。 权利要求书2页 说明书11页 附图4页 CN 112052648 A 2020.12.08 CN 112052648 A 1.一种字串翻译方法, 其特征在于, 包括: 获得待翻译的第一文件; 将所述第一文件与具有译文的第二文件进行比较, 获得共同字串集合, 所述共同字串 集合包括所述第一文件和所述第二文件中均存在的共同字串; 根据所述共同字串集合和所述第一文件确定待翻译字串集合; 获得翻译后字串集合, 所述翻译后字串集合为对所。

4、述待翻译字串集合进行翻译得到 的; 将所述翻译后字串集合与所述第二文件的译文进行合并, 获得所述第一文件的译文。 2.根据权利要求1所述的方法, 其特征在于, 所述将所述第一文件与具有译文的第二文 件进行比较, 获得共同字串集合, 包括: 比较所述第一文件和所述第二文件中各字串的字串标识和字串内容, 并将字串标识相 同且字串内容相同的字串集合确定为所述共同字串集合。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述共同字串集合和所述第一文 件确定待翻译字串集合, 包括: 从所述第一文件中删除所述共同字串集合对应的字串, 以得到所述待翻译字串集合。 4.根据权利要求1所述的方法, 其特。

5、征在于, 所述将所述翻译后字串集合与所述第二文 件的译文进行合并, 包括: 确定所述第二文件的译文中与所述共同字串集合对应的共有译文, 并根据所述翻译后 字串集合和所述共有译文, 得到所述第一文件对应的译文。 5.根据权利要求4所述的方法, 其特征在于, 所述根据所述翻译后字串集合和所述共有 译文, 得到所述第一文件对应的译文, 包括: 分别获取所述翻译后字串集合中各字串的字串标识以及所述共有译文中各字串的字 串标识; 根据字串标识的顺序, 将所述翻译后字串集合与所述共有译文拼接成所述第一文件对 应的译文。 6.根据权利要求1所述的方法, 其特征在于, 还包括: 在翻译文件数据库中匹配出所述第。

6、一文件的标识相同的文件, 获得所述第二文件; 或 者 在翻译文件数据库中匹配出与所述第一文件的内容相似度最大的文件, 获得所述第二 文件。 7.根据权利要求1-6任一所述的方法, 其特征在于, 所述获得翻译后字串集合, 包括: 使用预先训练的深度神经网络模型或者基于语义规则算法对所述待翻译字串集合进 行翻译, 获得翻译后字串集合。 8.根据权利要求1-6任一所述的方法, 其特征在于, 所述获得翻译后字串集合, 包括: 向第一设备发送所述待翻译字串集合, 所述待翻译字串集合用于被所述第一设备翻译 并返回翻译后字串集合; 接收所述第一设备发送的所述翻译后字串集合。 9.根据权利要求1-6任一所述的。

7、方法, 其特征在于, 所述获得待翻译的第一文件, 包括: 接收第二设备发送的所述第一文件; 权利要求书 1/2 页 2 CN 112052648 A 2 在所述获得所述第一文件的译文之后, 还包括: 向所述第二设备发送所述第一文件的译文。 10.一种字串翻译装置, 其特征在于, 包括: 第一文件获得模块, 用于获得待翻译的第一文件; 共同字串获得模块, 用于将所述第一文件与具有译文的第二文件进行比较, 获得共同 字串集合, 所述共同字串集合包括所述第一文件和所述第二文件中均存在的共同字串; 待翻字串确定模块, 用于根据所述共同字串集合和所述第一文件确定待翻译字串集 合; 译后字串获得模块, 用。

8、于获得翻译后字串集合, 所述翻译后字串集合为对所述待翻译 字串集合进行翻译得到的; 字串译文合并模块, 用于将所述翻译后字串集合与所述第二文件的译文进行合并, 获 得所述第一文件的译文。 11.一种电子设备, 其特征在于, 包括: 处理器和存储器, 所述存储器存储有所述处理器 可执行的机器可读指令, 所述机器可读指令被所述处理器执行时执行如权利要求1至9任一 所述的方法。 12.一种存储介质, 其特征在于, 该存储介质上存储有计算机程序, 该计算机程序被处 理器运行时执行如权利要求1至9任一所述的方法。 权利要求书 2/2 页 3 CN 112052648 A 3 一种字串翻译方法、 装置、 。

9、电子设备及存储介质 技术领域 0001 本申请涉及计算机数据处理和翻译的技术领域, 具体而言, 涉及一种字串翻译方 法、 装置、 电子设备及存储介质。 背景技术 0002 在目前的翻译工作中, 大部分翻译工作都是通过人工翻译并校对的, 为了加速翻 译工作, 通过人工地查阅各种人工构造的翻译文件数据库; 在具体的实践过程中, 在翻译文 件增量更新的场景中, 需要人工地在翻译文件数据库中查找出与需要翻译的文件最相似的 翻译文件, 并对翻译文件进行适应性修改为需要翻译的文件。 虽然通过人工在翻译文件数 据库查询翻译文件, 在一定程度上能够加速翻译过程, 但相较于直接将需要翻译的文件从 头开始翻译的方。

10、式, 上述增量更新场景中的人工查找和适应性修改的方式中, 存在着大量 的对比工作和修改工作导致翻译效率相对低下。 发明内容 0003 本申请实施例的目的在于提供一种字串翻译方法、 装置、 电子设备及存储介质, 用 于改善在翻译过程中的翻译效率相对低下的问题。 0004 本申请实施例提供了一种字串翻译方法, 包括: 获得待翻译的第一文件; 将第一文 件与具有译文的第二文件进行比较, 获得共同字串集合, 共同字串集合包括第一文件和第 二文件中均存在的共同字串; 根据共同字串集合和第一文件确定待翻译字串集合; 获得翻 译后字串集合, 翻译后字串集合为对待翻译字串集合进行翻译得到的; 将翻译后字串集合。

11、 与第二文件的译文进行合并, 获得第一文件的译文。 在上述的实现过程中, 通过将需要翻译 的第一文件与具有译文的第二文件进行比较, 获得已翻译的共同字串集合, 再根据共同字 串集合和第一文件确定待翻译字串集合, 最后将翻译后的字串集合进行合并, 使得计算机 辅助翻译工具或系统、 翻译人员或者翻译机器仅仅需要处理或翻译待翻译字串集合即可, 不需要重复处理或翻译已翻译的字串, 不但节省了重复处理或翻译的工作量, 同时节省了 大量的对比工作量, 也节省了将共同字串集合与需要翻译的文件进行合并的工作量, 节省 了系统资源, 有效地提高了翻译工作中的翻译效率。 0005 可选地, 在本申请实施例中, 将。

12、第一文件与具有译文的第二文件进行比较, 获得共 同字串集合, 包括: 比较第一文件和第二文件中各字串的字串标识和字串内容, 并将字串标 识相同且字串内容相同的字串集合确定为共同字串集合。 在上述的实现过程中, 通过将字 串内容相同且字串内容相同的字符内容确定为相同字串, 有效地提高了确定出第一文件和 第二文件中的共同字串集合的准确率。 0006 可选地, 在本申请实施例中, 根据共同字串集合和第一文件确定待翻译字串集合, 包括: 从第一文件中删除共同字串集合对应的字串, 以得到待翻译字串集合。 0007 可选地, 在本申请实施例中, 将翻译后字串集合与第二文件的译文进行合并, 包 括: 确定第。

13、二文件的译文中与共同字串集合对应的共有译文, 并根据翻译后字串集合和共 说明书 1/11 页 4 CN 112052648 A 4 有译文, 得到第一文件对应的译文。 0008 可选地, 在本申请实施例中, 根据翻译后字串集合和共有译文, 得到第一文件对应 的译文, 包括: 分别获取翻译后字串集合中各字串的字串标识以及共有译文中各字串的字 串标识; 根据字串标识的顺序, 将翻译后字串集合与共有译文拼接成第一文件对应的译文。 在上述的实现过程中, 通过分别获取翻译后字串集合中各字串的字串标识以及共有译文中 各字串的字串标识; 根据字串标识的顺序将翻译后字串集合与共有译文拼接成第一文件对 应的译文。

14、; 从而避免了在合并过程中出现第一文件对应的译文与第一文件的原文顺序不一 致的情况, 有效地保证了翻译后的译文正确率。 0009 可选地, 在本申请实施例中, 字串翻译方法还包括: 在翻译文件数据库中匹配出第 一文件的标识相同的文件, 获得第二文件; 或者在翻译文件数据库中匹配出与第一文件的 内容相似度最大的文件, 获得第二文件。 在上述的实现过程中, 通过在翻译文件数据库中匹 配出与第一文件对应的第二文件; 从而减轻了译员翻译的工作负担, 有效地提高了译员翻 译的工作效率。 0010 可选地, 在本申请实施例中, 获得翻译后字串集合, 包括: 使用预先训练的深度神 经网络模型或者基于语义规则。

15、算法对待翻译字串集合进行翻译, 获得翻译后字串集合。 在 上述的实现过程中, 通过使用预先训练的深度神经网络模型或者基于语义规则算法对待翻 译字串集合进行翻译, 获得翻译后字串集合; 从而减轻了译员翻译的工作负担, 有效地提高 了译员翻译的工作效率。 0011 可选地, 在本申请实施例中, 获得翻译后字串集合, 包括: 向第一设备发送待翻译 字串集合, 待翻译字串集合用于被第一设备翻译并返回翻译后字串集合; 接收第一设备发 送的翻译后字串集合。 在上述的实现过程中, 通过向第一设备发送待翻译字串集合, 待翻译 字串集合用于被第一设备翻译并返回翻译后字串集合; 接收第一设备发送的翻译后字串集 合。

16、; 从而减轻了电子设备对待翻译字串集合进行翻译的计算量, 有效地节约了电子设备的 计算资源。 0012 可选地, 在本申请实施例中, 获得待翻译的第一文件, 包括: 接收第二设备发送的 第一文件; 在获得第一文件的译文之后, 还包括: 向第二设备发送第一文件的译文。 在上述 的实现过程中, 通过接收第二设备发送的第一文件; 在获得第一文件的译文之后, 向第二设 备发送第一文件的译文, 从而为第二设备提供了有效地翻译服务, 节约了第二设备的计算 资源。 0013 本申请实施例还提供了一种字串翻译装置, 包括: 第一文件获得模块, 用于获得待 翻译的第一文件; 共同字串获得模块, 用于将第一文件与。

17、具有译文的第二文件进行比较, 获 得共同字串集合, 共同字串集合包括第一文件和第二文件中均存在的共同字串; 待翻字串 确定模块, 用于根据共同字串集合和第一文件确定待翻译字串集合; 译后字串获得模块, 用 于获得翻译后字串集合, 翻译后字串集合为对待翻译字串集合进行翻译得到的; 字串译文 合并模块, 用于将翻译后字串集合与第二文件的译文进行合并, 获得第一文件的译文。 0014 可选地, 在本申请实施例中, 共同字串获得模块, 包括: 共同字串确定模块, 用于比 较第一文件和第二文件中各字串的字串标识和字串内容, 并将字串标识相同且字串内容相 同的字串集合确定为共同字串集合。 0015 可选地。

18、, 在本申请实施例中, 待翻字串确定模块, 包括: 共同字串删除模块, 用于从 说明书 2/11 页 5 CN 112052648 A 5 第一文件中删除共同字串集合对应的字串, 以得到待翻译字串集合。 0016 可选地, 在本申请实施例中, 字串译文合并模块, 包括: 字串译文获得模块, 用于确 定第二文件的译文中与共同字串集合对应的共有译文, 并根据翻译后字串集合和共有译 文, 得到第一文件对应的译文。 0017 可选地, 在本申请实施例中, 字串译文合并模块, 还包括: 字串标识获取模块, 用于 分别获取翻译后字串集合中各字串的字串标识以及共有译文中各字串的字串标识; 字串译 文拼接模块。

19、, 用于根据字串标识的顺序, 将翻译后字串集合与共有译文拼接成第一文件对 应的译文。 0018 可选地, 在本申请实施例中, 还包括: 第二文件获得模块, 用于在翻译文件数据库 中匹配出第一文件的标识相同的文件, 获得第二文件; 或者在翻译文件数据库中匹配出与 第一文件的内容相似度最大的文件, 获得第二文件。 0019 可选地, 在本申请实施例中, 译后字串获得模块, 包括: 模型算法翻译模块, 用于使 用预先训练的深度神经网络模型或者基于语义规则算法对待翻译字串集合进行翻译, 获得 翻译后字串集合。 0020 可选地, 在本申请实施例中, 译后字串获得模块, 包括: 待翻字串发送模块, 用于。

20、向 第一设备发送待翻译字串集合, 待翻译字串集合用于被第一设备翻译并返回翻译后字串集 合; 译后字串接收模块, 用于接收第一设备发送的翻译后字串集合。 0021 可选地, 在本申请实施例中, 还包括: 待翻文件接收模块, 用于接收第二设备发送 的第一文件; 译文文件发送模块, 用于向第二设备发送第一文件的译文。 0022 本申请实施例还提供了一种电子设备, 包括: 处理器和存储器, 存储器存储有处理 器可执行的机器可读指令, 机器可读指令被处理器执行时执行如上面描述的方法。 0023 本申请实施例还提供了一种存储介质, 该存储介质上存储有计算机程序, 该计算 机程序被处理器运行时执行如上面描述。

21、的方法。 附图说明 0024 为了更清楚地说明本申请实施例的技术方案, 下面将对本申请实施例中所需要使 用的附图作简单地介绍, 应当理解, 以下附图仅示出了本申请的某些实施例, 因此不应被看 作是对范围的限定, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以 根据这些附图获得其他相关的附图。 0025 图1示出的本申请实施例提供的字串翻译方法的流程示意图; 0026 图2示出的本申请实施例提供的其中一种翻译实施方式的流程示意图; 0027 图3示出的本申请实施例提供的为终端设备提供翻译服务的流程示意图; 0028 图4示出的本申请实施例提供的字串翻译装置的结构示意图; 00。

22、29 图5示出的本申请实施例提供的电子设备的结构示意图。 具体实施方式 0030 下面将结合本申请实施例中的附图, 对本申请实施例中的技术方案进行清楚、 完 整的描述。 0031 在介绍本申请实施例提供的字串翻译方法之前, 先介绍本申请实施例中涉及的一 说明书 3/11 页 6 CN 112052648 A 6 些概念: 0032 光学字符识别(Optical Character Recognition, OCR)是指利用相机、 扫描仪等 光学输入设备对票据、 订单号、 文本文件或其它载体上的字符进行拍摄或扫描, 然后对拍摄 或扫描后的图像文件进行数字化处理, 得到文字信息的过程。 0033 。

23、脚本对象简谱(JavaScript Object Notation, JSON)是一种轻量级的数据交换格 式; JSON基于ECMAScript的一个子集, 这里的ECMAScript是欧洲计算机协会制定的 JavaScript规范, JSON采用完全独立于编程语言的文本格式来存储和表示数据。 0034 需要说明的是, 本申请实施例提供的字串翻译方法可以被电子设备执行, 这里的 电子设备是指具有执行计算机程序功能的设备终端或者服务器, 设备终端例如: 智能手机、 个人电脑(personal computer, PC)、 平板电脑、 个人数字助理(personal digital assista。

24、nt, PDA)、 移动上网设备(mobile Internet device, MID)、 网络交换机或网络路由 器等。 0035 在介绍本申请实施例提供的字串翻译方法之前, 先介绍该字串翻译方法适用的应 用场景, 这里的应用场景包括但不限于: 将该字串翻译方法应用于对翻译行业中的专业翻 译软件、 计算机辅助翻译工具(Computer Aided Tool, CAT)或者在线翻译管理系统进行功 能完善, 并使用功能完善后的专业翻译软件或者在线翻译管理系统对需要翻译的电子文件 进行翻译; 其中, 电子文件包括但不限于: 用户帮助(User Assistance, UA)文档、 手册、 说明 书。

25、和专业文档等等。 当然, 也可以使用该字串翻译方法构建并完善翻译数据库、 翻译记忆 (Translation Memory)库或翻译版本库等应用系统。 0036 请参见图1示出的本申请实施例提供的字串翻译方法的流程示意图; 该字串翻译 方法的主要思路是, 通过将需要翻译的第一文件与具有译文的第二文件进行比较, 从而快 速地确定出待翻译字串集合, 然后将翻译后的字串集合与比较出的共同字串对应译文进行 合并, 使得计算机辅助翻译工具(CAT)或系统、 翻译人员或者翻译机器仅仅需要处理或翻译 待翻译字串集合即可, 不需要重复处理或翻译已翻译的字串, 不但节省了重复处理或翻译 的工作量, 同时节省了大。

26、量的对比工作量, 也节省了将共同字串集合与需要翻译的文件进 行合并的工作量, 节省了系统资源, 有效地提高了翻译工作中的翻译效率; 上述的字串翻译 方法可以包括: 0037 步骤S110: 获得待翻译的第一文件。 0038 第一文件是指可以被翻译的文件, 简称为可翻文件; 具体地, 第一文件可以是使用 CAT工具对原始文件(例如格式为doc、 docx、 ppt和xlsx等需要翻译的文件)进行处理后的文 件, 此处的CAT工具处理包括: 从原始文件中提取可翻译内容, 从而将获得的待翻译源文作 为第一文件。 当然, 若没有CAT工具, 也可以根据实际情况获取第一文件, 具体例如: 第一文 件是需。

27、要被翻译的文件, 该文件可以是电子文件, 此处的电子文件中包括待翻译的文字内 容, 也可以是由纸质文件扫描并采用光学字符识别(OCR)后获得的电子文件, 也可以是由人 工地将待翻译的文字内容输入获得电子文件。 0039 请参见图2示出的本申请实施例提供的其中一种翻译实施方式的流程示意图; 为 了便于理解和说明, 下面均以该图中的文件内容作为示例进行说明, 将待翻译的中文内容 翻译为英文内容, 其中, 待翻译的第一文件的具体内容例如: 字串标识为ID_0的字串内容为 “抱歉” , 字串标识为ID_2的字串内容为 “谢谢” , 字串标识为ID_3的字串内容为 “好的” ; 其 说明书 4/11 页。

28、 7 CN 112052648 A 7 中, 待翻译的第一文件使用JSON格式表示为tus1:ID:0,src:抱歉, trg:,ID:2,src:谢谢,trg:,ID:3,src:好的,trg:; 其中, tus表示翻译单元集合(translation units), tus1可以表示第一文件, 即可以将第一 文件理解为第一翻译单元集合, ID表示字串标识, src表示字串源文(source), trg表示字串 译文(target), 可以将字串标识、 字串源文和字串译文的组合理解为CAT中的翻译单元, 翻 译单元在没有被翻译之前可以称之为待译单元, 在被翻译之后可以称之为已译单元。 004。

29、0 在具体的实施过程中, 上述的待翻译的第一文件也可以根据具体情况表示为简单 的JSON格式, 以兼容老版本的软件系统, 待翻译的第一文件使用简单的单语种形式的JSON 格式表示为ID_0:抱歉,ID_2:谢谢,ID_3:好的; 同样的道理, 本申请实施例 中的所有的JSON格式可以体现出英语、 汉语和日语等等需要翻译的语言, 也可以使用单语 种形式、 双语形式或者三种语言形式的JSON格式, 也可以使用简单的JSON格式或者是别的 格式, 例如: 可扩展标记语言(eXtensible Markup Language, XML)等等格式; 因此, 本申请 实施例中的语言种类、 语言形式、 字串。

30、内容和字串格式均是示例性的, 不应当将语言种类、 语言形式、 字串内容和字串格式作为本申请实施例的限制。 0041 上述步骤S110中的第一文件有很多种获得方式, 包括但不限于这几种: 第一种获 得方式, 接收其它终端设备发送的第一文件, 将第一文件存储至文件系统、 数据库或移动存 储设备中; 第二种获得方式, 获取预先存储的第一文件, 具体例如: 从文件系统中获取第一 文件, 或者从数据库中获取第一文件, 或者从移动存储设备中获取第一文件; 第三种获得方 式, 使用浏览器等软件获取互联网上的第一文件, 或者使用其它应用程序访问互联网获得 第一文件。 0042 在步骤S110之后, 执行步骤S。

31、120: 将第一文件与具有译文的第二文件进行比较, 获 得共同字串集合。 0043 第二文件是指电子设备根据第一文件进行匹配获得的文件, 第二文件例如可以是 与第一文件的内容相似的文件或者有部分内容相同的文件, 第二文件的具体内容例如: 字 串标识为ID_1的字串内容为 “您好” , 字串标识为ID_2的字串内容为 “再见” , 字串标识为ID_ 3的字串内容为 “好的” 。 其中, 具有译文的第二文件使用JSON格式表示为tus2:ID: 1,src:您好,trg:,ID:2,src:再见,trg:,ID:3,src: 好的,trg:; 其中, tus2表示第二文件, 其它的字段含义请参见对。

32、第一文件tus1的 解释说明。 0044 可以理解的是, 在将第一文件与具有译文的第二文件进行比较之前, 还可以使用 计算机辅助翻译工具(CAT)将第一文件分割为多个待译句段, 此处的待译句段又被称为翻 译单元(Translation Unit, TU), 已经被翻译的待译句段(或翻译单元)可以存储在翻译文 件数据库中, 翻译文件数据库中存储的翻译单元可以包括句段源文和句段源文对应的译 文。 0045 上述的根据第一文件匹配出第二文件有很多种匹配方式, 包括: 0046 第一种匹配方式, 在翻译文件数据库中匹配出第一文件的标识相同的文件, 获得 第二文件, 文件标识可以采用文件的其中一个属性或。

33、者文件的多个属性作为联合标识, 此 处文件的属性包括但不限于: 文件编号、 文件实际存放路径、 文件虚拟相对路径和文件名称 加后缀等等, 具体例如: 假设采用文件名称加后缀作为文件标识, 若第一文件的文件标识为 说明书 5/11 页 8 CN 112052648 A 8 transfile.doc, 即可在翻译文件数据库中查找到文件标识为transfile.doc的第二文件。 0047 第二种匹配方式, 在翻译文件数据库中匹配出与第一文件的内容相似度最大的文 件, 获得第二文件, 可以推出匹配过程中至少存在三种情况: 第一种完全匹配的情况, 在翻 译文件数据库中找到与第一文件一模一样的第二文件。

34、, 第二种模糊匹配的情况, 在翻译文 件数据库中找到与第一文件相似度较高的第二文件, 第三种没有匹配的情况, 在翻译文件 数据库中没有找到与第一文件相似的第二文件; 其中, 内容相似度的具体算法可以采用将 第一文件和第二文件均划分为多个语句, 计算第一文件中的所有语句与第二文件中的所有 语句的相似度, 语句与语句的相似度可以采用的评价指标包括: 余弦距离、 余弦相似度、 汉 明距离或欧氏距离等等。 0048 在上述的实现过程中, 通过在翻译文件数据库中匹配出与第一文件对应的第二文 件; 从而减轻了译员翻译的工作负担, 有效地提高了译员翻译的工作效率。 0049 共同字串集合, 是指第一文件中的。

35、字串和第二文件中的字串相同的集合, 也就是 说, 共同字串集合包括第一文件和第二文件中均存在的共同字串, 其中, 这里的相同可以是 字串标识相同且字串内容均相同。 0050 上述步骤S120的实施方式包括: 比较第一文件和第二文件中各字串的字串标识和 字串内容, 在比较的过程中, 可以使用的算法包括但不限于: 最长公共字串(Longest Common Substring, LCS)算法, 然后将字串标识相同且字串内容相同的字串集合确定为共 同字串集合, 具体例如: 如图2显示的, 假设第一文件使用JSON格式表示为tus1: ID:0,src:抱歉,trg:,ID:2,src:谢谢,trg:。

36、,ID:3, src:好的,trg:, 且第二文件使用JSON格式表示为tus2:ID:1, src:您好,trg:,ID:2,src:再见,trg:,ID:3,src:好 的,trg:, 将第一文件和第二文件中各字串的字串标识和字串内容进行比较, 可以 得知, 第一文件和第二文件中字串标识且字串内容均相同的共同字串使用JSON格式表示为 ID:3,src:好的,trg:, 也就是说, 共同字串集合包括: 字串标识为ID_3的字 串内容是 “好的” ; 其中, 共同字串的字串标识ID_3的状态可以标记为same。 0051 在步骤S120之后, 执行步骤S130: 根据共同字串集合和第一文件确。

37、定待翻译字串 集合。 0052 上述步骤S130的实施方式包括: 从第一文件中删除共同字串集合对应的字串, 以 得到待翻译字串集合, 具体例如: 若第一文件使用JSON格式表示为tus1:ID:0, src:抱歉,trg:,ID:2,src:谢谢,trg:,ID:3,src:好 的,trg:, 且共同字串使用JSON格式表示为ID:3,src:好的,trg:, 那么从第一文件中删除标记为same的字串后, 获得的待翻译字串集合可以表示为ID: 0,src:抱歉,trg:,ID:2,src:谢谢,trg:。 0053 在步骤S130之后, 执行步骤S140: 获得翻译后字串集合, 翻译后字串集合。

38、为对待翻 译字串集合进行翻译得到的。 0054 上述步骤S140的实施方式有很多种, 包括但不限于如下几种: 0055 第一种实施方式, 使用基于机器翻译(Manchine Translation, MT)方法来对字串 进行翻译, 包括: 0056 步骤S141: 使用人工神经网络模型或者基于统计方法对字串进行翻译, 获得翻译 说明书 6/11 页 9 CN 112052648 A 9 后字串集合。 0057 上述步骤S141的实施方式例如: 人工神经网络模型可以采用预先训练的深度神经 网络模型, 基于统计方法包括: 基于语料库(Corpus-Based)算法或者基于语义规则(Rule- Ba。

39、sed)算法; 使用上述的人工神经网络模型或者基于统计方法对待翻译字串集合进行翻 译, 获得翻译后字串集合; 其中, 深度神经网络(Deep Neural Networks,DNN)模型是一种判 别模型, 可以使用反向传播算法进行训练; 可以使用的深度神经网络模型包括但不限于: VGG网络、 Resnet网络、 Wide Resnet网络和Inception网络等。 具体例子, 若待翻译字串集合 使用JSON格式表示为ID:0,src:抱歉,trg:,ID:2,src:谢谢, trg:, 那么翻译后字串集合可以表示为ID:0,src:抱歉,trg:sorry, ID:2,src:谢谢,trg:。

40、thanks。 在上述的实现过程中, 通过使用预先训练的 深度神经网络模型或者基于语义规则算法对待翻译字串集合进行翻译, 获得翻译后字串集 合; 从而减轻了译员翻译的工作负担, 有效地提高了译员翻译的工作效率。 0058 第二种实施方式, 让执行字串翻译方法的电子设备将待翻译字串集合发送给其他 设备, 让其它设备进行人工翻译处理或者机器翻译处理, 包括: 0059 步骤S142: 电子设备向第一设备发送待翻译字串集合, 待翻译字串集合用于被第 一设备翻译并返回翻译后字串集合。 0060 步骤S143: 电子设备接收第一设备发送的翻译后字串集合。 0061 上述步骤S142至步骤S143的实施方。

41、式例如: 电子设备通过传输控制协议 (Transmission Control Protocol, TCP)或者用户数据报协议(User Datagram Protocol, UDP)向第一设备发送待翻译字串集合, 第一设备将待翻译字串集合进行翻译, 第一设备翻 译的方式包括但不限于: 人工翻译处理或者机器翻译处理; 然后第一设备通过TCP协议或者 UDP协议向电子设备发送翻译后字串集合; 电子设备通过TCP协议或者UDP协议接收第一设 备发送的翻译后字串集合; 具体地, 若待翻译字串集合使用JSON格式表示为ID:0, src:抱歉,trg:,ID:2,src:谢谢,trg:, 那么翻译后字。

42、串集合使 用JSON格式可以表示为ID:0,src:抱歉,trg:sorry,ID:2,src: 谢谢,trg:thanks。 0062 第三种实施方式, 结合第一种实施方式和第二种实施方式, 先由机器翻译(MT)能 够完全匹配的部分字串, 此处的完全匹配的部分字串包括: 字串内容与机器中存储的已经 翻译的字串百分之百完全相同的字串, 然后再将不能够完全匹配的部分字串做机器后编辑 (POST Editing), 即将不能够完全匹配的部分字串交给翻译人员进行人工翻译、 编辑和校 对, 可以获得翻译后字串集合。 0063 在上述的实现过程中, 通过向第一设备发送待翻译字串集合, 待翻译字串集合用 。

43、于被第一设备翻译并返回翻译后字串集合; 接收第一设备发送的翻译后字串集合; 从而减 轻了电子设备对待翻译字串集合进行翻译的计算量, 有效地节约了电子设备的计算资源。 0064 在步骤S140之后, 执行步骤S150: 将翻译后字串集合与第二文件的译文进行合并, 获得第一文件的译文。 0065 第二文件的译文, 是指电子设备根据第一文件进行匹配获得的文件译文, 具体例 如: 若第二文件使用JSON格式表示为tus2:ID:1,src:您好,trg:, ID:2,src:再见,trg:,ID:3,src:好的,trg:, 那么第二文 说明书 7/11 页 10 CN 112052648 A 10 。

44、件的译文使用JSON格式可以表示为tus2:ID:1,src:您好,trg:hello, ID:2,src:再见,trg:bye,ID:3,src:好的,trg:good。 0066 上述步骤S150的实施方式有很多种, 其中一种实施方式例如: 0067 步骤S151: 确定第二文件的译文中与共同字串集合对应的共有译文。 0068 上述步骤S151的实施方式包括: 若共同字串集合使用JSON格式表示为ID: 3,src:好的,trg:, 则共同字串集合对应的共有译文使用JSON格式表示表示为 ID:3,src:好的,trg:good, 假设第二文件的译文使用JSON格式表示为 tus2:ID:。

45、1,src:您好,trg:hello,ID:2,src:再见,trg: bye,ID:3,src:好的,trg:good, 那么确定第二文件的译文中与共同字 串集合对应的共有译文为ID:3,src:好的,trg:good。 0069 步骤S152: 根据翻译后字串集合和共有译文, 得到第一文件对应的译文。 0070 上述步骤S152的实施方式包括: 若翻译后字串集合使用JSON格式表示为ID: 0,src:抱歉,trg:sorry,ID:2,src:谢谢,trg:thanks, 且共有 译文表示为ID:3,src:好的,trg:good, 将翻译后字串集合与共有译文拼接 成第一文件对应的译文使。

46、用JSON格式可以表示为tus1:ID:0,src:抱歉, trg:sorry,ID:2,src:谢谢,trg:thanks,ID:3,src:好的, trg:good。 在上述的实现过程中, 通过分别获取翻译后字串集合中各字串的字串标 识以及共有译文中各字串的字串标识; 根据字串标识的顺序将翻译后字串集合与共有译文 拼接成第一文件对应的译文; 从而避免了在合并过程中出现第一文件对应的译文与第一文 件的原文顺序不一致的情况, 有效地保证了翻译后的译文正确率。 0071 可以将上述字串翻译方法来增强计算机辅助翻译工具(CAT)的功能, 例如: 使用 CAT在翻译文件数据库自动查找待翻译的待译字串。

47、(即待译句段)是否存在相似度超过预设 阈值的已译字串, 其中, 待译句段是使用CAT将待翻译的第一文件进行分割获得的, 具体例 如: 判断在翻译文件数据库中是否存在与待译字串的相似度超过预设阈值的已译字串; 若 存在, 则将已译字串对应的译文作为待译字串的译文; 若不存在, 则返回提示信息。 通过上 述增强功能后的CAT可以有效地帮助翻译人员提高翻译效率, 并保持翻译形式的一致性, 此 处的翻译形式包括但不限于: 翻译用词、 翻译句式和翻译风格等等。 列举一个比较实际的例 子, 来说明功能增强后的CAT能够达到的效果例如: 对于一个增量更新的翻译项目, 假设该 翻译项目需要翻译的全部字数为一万。

48、字, 如果在翻译文件数据库自动查找到相似已译字串 字数达到八千字, 那么实际上只需要翻译的增量字数仅仅只有两千字, 从而有效地节省了 翻译人力资源。 通过预先比较翻译源文, 仅仅获取并处理需要翻译的增量字数(即翻译项目 中的所有字数与翻译文件数据库中的已存字数的差异部分), 有效地节省CAT系统的计算资 源和处理时间, 同时也节省了翻译人员的时间, 并提高了翻译人员的效率。 0072 在上述的实现过程中, 通过将需要翻译的第一文件与具有译文的第二文件进行比 较, 从而快速地确定出待翻译字串集合, 然后将翻译后的字串集合与比较出的共同字串对 应译文进行合并, 使得计算机辅助翻译工具或系统、 翻译。

49、人员或者翻译机器仅仅需要处理 或翻译待翻译字串集合即可, 不需要重复处理或翻译已翻译的字串, 不但节省了重复处理 或翻译的工作量, 同时节省了大量的对比工作量, 也节省了将共同字串集合与需要翻译的 文件进行合并的工作量, 节省了系统资源, 有效地提高了翻译工作中的翻译效率。 说明书 8/11 页 11 CN 112052648 A 11 0073 在具体的实践过程中, 针对一些没有字串标识的文件例如: 用户帮助(User Assistant)文档, 还可以将字符内容的相对顺序作为字串标识; 而针对有字串标识的文件 例如: 用户界面(User Interface)文档, 则可以直接使用用户界面文。

50、档中的字串标识; 如此 一来, 有字串标识的文档和没有字串标识的文档都可以通过上述的字串标识和字串内容判 断字串是否相同。 除了上述将共同字串的字串标识标记为same之外, 还可以根据不同的标 记结果对字串标识进行标记, 具体例如: 若第一文件中的字串标识不存在于第二文件中, 则 将该字串标识对应的字串称为新增字串, 并将新增字串的状态标记为new; 若第二文件中的 字串标识不存在于第一文件中, 则将该字串标识对应的字串称为删除字串, 并将删除字串 的状态标记为deleted; 若第一文件中的字串标识存在于第二文件中, 且该字串标识对应的 字串内容在第一文件和第二文件中并不相同, 则将该字串标。

展开阅读全文
内容关键字: 字串 翻译 方法 装置 电子设备 存储 介质
关于本文
本文标题:字串翻译方法、装置、电子设备及存储介质.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10200797.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1