文本处理方法和相关装置.pdf
《文本处理方法和相关装置.pdf》由会员分享,可在线阅读,更多相关《文本处理方法和相关装置.pdf(26页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202011231200.X (22)申请日 2020.11.06 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518064 广东省深圳市南山区高新区 科技中一路腾讯大厦35层 (72)发明人 方俊林炳怀 (74)专利代理机构 深圳市深佳知识产权代理事 务所(普通合伙) 44285 代理人 常忠良 (51)Int.Cl. G06F 40/166(2020.01) G06N 20/00(2019.01) (54)发明名称 一种文本处理方法和相关装置 (57)摘要 本申请实施。
2、例公开了一种文本处理方法和 相关装置, 至少涉及人工智能中的自然语言处理 和机器学习, 以及云计算技术中的数据并行计算 等, 针对待识别的第一文本, 对该第一文本进行 文本处理, 通过对第一文本的至少一处内容修 改, 将第一文本修改为第二文本。 其中, 任意一处 内容修改对应一个修改对。 为了能够确定内容修 改对应的语言表达错误类型和错误原因, 不仅依 据修改对提供的信息, 还引入第一文本和第二文 本来完善该内容修改在修改前后的完整语境信 息, 因此, 在修改对的基础上, 通过结合第一文本 和第二文本, 为确定修改对的语言表达错误类型 及其错误原因提供了较为完整的信息依据, 实现 了对于文本表。
3、达错误类型的准确识别以及具体 的错误成因。 权利要求书2页 说明书16页 附图7页 CN 112036135 A 2020.12.04 CN 112036135 A 1.一种文本处理方法, 其特征在于, 所述方法包括: 获取待识别的第一文本; 对所述第一文本进行文本处理, 得到第二文本; 根据所述第一文本和所述第二文本确定至少一个修改对, 其中, 一个修改对对应于所 述文本处理中的一处内容修改, 所述修改对包括所述第一文本中对应所述内容修改的内 容, 以及所述第二文本中对应所述内容修改的内容; 根据所述第一文本、 所述第二文本和所述修改对, 确定所述内容修改对应的语言表达 错误类型和错误原因。。
4、 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述第一文本、 所述第二文本和 所述修改对, 确定所述内容修改对应的语言表达错误类型和错误原因, 包括: 对所述第一文本和所述第二文本中的分词进行词性标注; 根据所述第一文本、 所述第二文本、 所述修改对和所标注的词性, 确定所述内容修改对 应的语言表达错误类型和错误原因。 3.根据权利要求2所述的方法, 其特征在于, 所述语言表达错误类型包括优化表达或至 少一个类型的语法错误。 4.根据权利要求1所述的方法, 其特征在于, 所述根据所述第一文本和所述第二文本间 确定至少一个修改对, 包括: 以第一比对粒度对所述第一文本和所述第二文本进行。
5、内容比对, 得到对应的第一比对 序列; 所述第一比对序列中包括第一内容对, 所述第一内容对用于标识所述第一文本和所 述第二文本间对应的一对文本字符串, 以及这对文本字符串对应的改动方式; 以第二比对粒度对所述第一比对序列中的第一内容对进行拆分得到第二比对序列; 所 述第二比对序列包括第二内容对, 所述第二内容对用于标识所述第一文本和所述第二文本 间对应的一对文本字符串, 以及这对文本字符串对应的改动方式, 所述第二比对粒度小于 所述第一比对粒度; 根据所述第二比对序列确定所述至少一个修改对。 5.根据权利要求4所述的方法, 其特征在于, 所述根据所述第二比对序列确定所述至少 一个修改对, 包括。
6、: 根据所述第二比对序列中第二内容对的改动方式, 确定改动方式标识为修改的目标内 容对; 将所述第二比对序列中符合预设规则的相邻目标内容对进行合并得到第三比对序列; 所述第三比对序列中包括通过对所述相邻目标内容对合并得到所述修改对, 通过合并得到 的所述修改对的改动方式是根据合并方式确定的。 6.根据权利要求5所述的方法, 其特征在于, 所述第二比对序列中第二内容对的改动方 式包括替换、 插入、 删除或相等中的任意一种; 所述第三比对序列中修改对的改动方式包括 交换。 7.根据权利要求4所述的方法, 其特征在于, 所述以第一比对粒度对所述第一文本和所 述第二文本进行内容比对, 得到对应的第一比。
7、对序列, 包括: 通过对齐算法以第一比对粒度对所述第一文本和所述第二文本进行内容比对, 得到对 应的第一比对序列。 权利要求书 1/2 页 2 CN 112036135 A 2 8.根据权利要求1-7任意一项所述的方法, 其特征在于, 所述方法还包括: 在所述第一文本和所述第二文本的基础上展示所述内容修改, 以及展示对应的判定结 果; 所述判定结果包括所述语言表达错误类型和所述错误原因。 9.一种文本处理装置, 其特征在于, 所述装置包括获取单元和确定单元: 所述获取单元, 用于获取待识别的第一文本; 所述确定单元, 用于对所述第一文本进行文本处理, 得到第二文本; 所述确定单元, 还用于根据。
8、所述第一文本和所述第二文本确定至少一个修改对, 其中, 一个修改对对应于所述文本处理中的一处内容修改, 所述修改对包括所述第一文本中对应 所述内容修改的内容, 以及所述第二文本中对应所述内容修改的内容; 所述确定单元, 还用于根据所述第一文本、 所述第二文本和所述修改对, 确定所述内容 修改对应的语言表达错误类型和错误原因。 10.根据权利要求9所述的装置, 其特征在于, 所述确定单元, 用于: 对所述第一文本和所述第二文本中的分词进行词性标注; 根据所述第一文本、 所述第二文本、 所述修改对和所标注的词性, 确定所述内容修改对 应的语言表达错误类型和错误原因。 11.根据权利要求10所述的装。
9、置, 其特征在于, 所述语言表达错误类型包括优化表达或 至少一个类型的语法错误。 12.根据权利要求9所述的装置, 其特征在于, 所述确定单元, 用于: 以第一比对粒度对所述第一文本和所述第二文本进行内容比对, 得到对应的第一比对 序列; 所述第一比对序列中包括第一内容对, 所述第一内容对用于标识所述第一文本和所 述第二文本间对应的一对文本字符串, 以及这对文本字符串对应的改动方式; 以第二比对粒度对所述第一比对序列中的第一内容对进行拆分得到第二比对序列; 所 述第二比对序列包括第二内容对, 所述第二内容词用于标识所述第一文本和所述第二文本 间对应的一对文本字符串, 以及这对文本字符串对应的改。
10、动方式, 所述第二比对粒度小于 所述第一比对粒度; 根据所述第二比对序列确定所述至少一个修改对。 13.根据权利要求12所述的装置, 其特征在于, 所述确定单元, 用于: 根据所述第二比对序列中第二内容对的改动方式, 确定改动方式标识为修改的目标内 容对; 将所述第二比对序列中符合预设规则的相邻目标内容对进行合并得到第三比对序列; 所述第三比对序列中包括通过对所述相邻目标内容对合并得到所述修改对, 通过合并得到 的所述修改对的改动方式是根据合并方式确定的。 14.一种用于文本处理的设备, 其特征在于, 所述设备包括处理器以及存储器: 所述存储器用于存储程序代码, 并将所述程序代码传输给所述处理。
11、器; 所述处理器用于根据所述程序代码中的指令执行权利要求1-8任意一项所述的方法。 15.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质用于存储计算机 程序, 所述计算机程序用于执行权利要求1-8任意一项所述的方法。 权利要求书 2/2 页 3 CN 112036135 A 3 一种文本处理方法和相关装置 技术领域 0001 本申请涉及数据处理领域, 特别是涉及一种文本处理方法和相关装置。 背景技术 0002 语言是人类进行沟通交流的表达方式, 语言具有对应的语法和词汇, 是由词汇按 一定的语法所构成的语音表义系统。 一般来说, 各个民族都有自己的语言, 例如汉语、 英语、 德。
12、语等, 用户可以通过语言进行书面的文本表达, 然而, 不论是使用自己的母语还是新学习的 语种, 都有可能出现语言表达错误, 例如语法使用不当、 表达不规范的问题。 可以通过语言 错误识别技术对用户所提供的文本进行错误识别, 例如, 在教育行业, 可以利用语言错误识 别技术帮助老师批改学生英语作文。 0003 相关技术中主要采用大量语料去学习语言规律, 从而对文本中的错误进行识别和 修改, 由于这种修改是基于统计得出来的, 不仅准确率不高, 而且无法给出错误原因。 从而 导致用户仅能知道文本表达有误, 但却难以了解错误的原因。 发明内容 0004 为了解决上述技术问题, 本申请提供了一种文本处理。
13、方法和相关装置, 实现了对 于文本表达错误类型的准确识别以及具体的错误成因。 0005 本申请实施例公开了如下技术方案: 一方面, 本申请实施例提供了一种文本处理方法, 所述方法包括: 获取待识别的第一文本; 对所述第一文本进行文本处理, 得到第二文本; 根据所述第一文本和所述第二文本确定至少一个修改对, 其中, 一个修改对对应于所 述文本处理中的一处内容修改, 所述修改对包括所述第一文本中对应所述内容修改的内 容, 以及所述第二文本中对应所述内容修改的内容; 根据所述第一文本、 所述第二文本和所述修改对, 确定所述内容修改对应的语言表达 错误类型和错误原因。 0006 另一方面, 本申请实施。
14、例提供了一种文本处理装置, 其特征在于, 所述装置包括获 取单元和确定单元: 所述获取单元, 用于获取待识别的第一文本; 所述确定单元, 用于对所述第一文本进行文本处理, 得到第二文本; 所述确定单元, 还用于根据所述第一文本和所述第二文本确定至少一个修改对, 其中, 一个修改对对应于所述文本处理中的一处内容修改, 所述修改对包括所述第一文本中对应 所述内容修改的内容, 以及所述第二文本中对应所述内容修改的内容; 所述确定单元, 还用于根据所述第一文本、 所述第二文本和所述修改对, 确定所述内容 修改对应的语言表达错误类型和错误原因。 说明书 1/16 页 4 CN 112036135 A 4。
15、 0007 另一方面, 本申请实施例提供了一种用于文本处理的设备, 所述设备包括处理器 以及存储器: 所述存储器用于存储程序代码, 并将所述程序代码传输给所述处理器; 所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。 0008 另一方面, 本申请实施例提供了一种计算机可读存储介质, 所述计算机可读存储 介质用于存储计算机程序, 所述计算机程序用于执行上述方面所述的方法。 0009 另一方面, 本申请实施例提供了一种计算机程序产品或计算机程序, 该计算机程 序产品或计算机程序包括计算机指令, 该计算机指令存储在计算机可读存储介质中。 计算 机设备的处理器从计算机可读存储介质读取该计。
16、算机指令, 处理器执行该计算机指令, 使 得该计算机设备执行上述方面所述的方法。 0010 由上述技术方案可以看出, 针对待识别的第一文本, 对该第一文本进行文本处理, 通过对第一文本的至少一处内容修改, 将第一文本修改为第二文本。 其中, 任意一处内容修 改对应一个修改对, 该修改对包括第一文本中对应该内容修改的内容和第二文本中对应该 内容修改的内容。 为了能够确定内容修改对应的语言表达错误类型和错误原因, 不仅依据 修改对提供的信息, 还引入第一文本和第二文本来完善该内容修改在修改前后的完整语境 信息, 因此, 在修改对的基础上, 通过结合第一文本和第二文本, 为确定修改对的语言表达 错误。
17、类型及其错误原因提供了较为完整的信息依据, 实现了对于文本表达错误类型的准确 识别以及具体的错误成因。 附图说明 0011 为了更清楚地说明本申请实施例或现有技术中的技术方案, 下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本 申请的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以 根据这些附图获得其他的附图。 0012 图1为本申请实施例提供的一种文本处理方法的应用场景示意图; 图2为本申请实施例提供的一种文本处理方法的流程示意图; 图3为本申请实施例提供的另一种文本处理方法的流程示意图; 图4为本申请实施。
18、例提供的一种对齐算法的流程示意图; 图5为本申请实施例提供的一种反馈错误类型的展示示意图; 图6为本申请实施例提供的另一种文本处理方法的应用场景示意图; 图7为本申请实施例提供的另一种文本处理方法的应用场景示意图; 图8为本申请实施例提供的一种文本处理装置的结构示意图; 图9为本申请实施例提供的服务器的结构示意图; 图10为本申请实施例提供的终端设备的结构示意图。 具体实施方式 0013 下面结合附图, 对本申请的实施例进行描述。 0014 鉴于相关技术中基于语料学习语言规律的方式无法给出错误原因, 本申请实施例 提供了一种文本处理方法和相关装置, 实现了对于文本错误原因的识别, 并提高了语言。
19、表 说明书 2/16 页 5 CN 112036135 A 5 达错误类型的识别精度。 0015 本申 请实施例提供的 文本处理方法是基于人工智能实现的 , 人工智能 (Artificial Intelligence, AI) 是利用数字计算机或者数字计算机控制的机器模拟、 延 伸和扩展人的智能, 感知环境、 获取知识并使用知识获得最佳结果的理论、 方法、 技术及应 用系统。 换句话说, 人工智能是计算机科学的一个综合技术, 它企图了解智能的实质, 并生 产出一种新的能以人类智能相似的方式做出反应的智能机器。 人工智能也就是研究各种智 能机器的设计原理与实现方法, 使机器具有感知、 推理与决策。
20、的功能。 0016 人工智能技术是一门综合学科, 涉及领域广泛, 既有硬件层面的技术也有软件层 面的技术。 人工智能基础技术一般包括如传感器、 专用人工智能芯片、 云计算、 分布式存储、 大数据处理技术、 操作/交互系统、 机电一体化等技术。 人工智能软件技术主要包括计算机 视觉技术、 语音处理技术、 自然语言处理技术以及机器学习/深度学习等几大方向。 0017 在本申请实施例中, 主要涉及的人工智能软件技术包括上述自然语言处理、 机器 学习/深度学习等方向。 例如, 可以涉及自然语言处理(Nature Language processing, NLP)中的文本预处理 (Text prepro。
21、cessing) 、 语义理解 (Semantic understanding) , 也可 以涉及机器学习 (Machine learning, ML) 中的深度学习 (Deep Learning) , 包括各类人工神 经网络 (Artificial Neural Network, ANN) 。 0018 本申请提供的文本处理方法可以应用于具有数据处理能力的文本处理设备, 如终 端设备、 服务器。 其中, 终端设备具体可以为智能手机、 台式计算机、 笔记本电脑、 平板电脑、 智能音箱、 智能手表等, 但并不局限于此等; 服务器可以是独立的物理服务器, 也可以是多 个物理服务器构成的服务器集群或。
22、者分布式系统, 还可以是提供云计算服务的云服务器。 终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接, 本申请在此不 做限制。 0019 该文本处理设备可以具备实施自然语言处理的能力, 自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。 它研 究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。 自然语言处理是一 门融语言学、 计算机科学、 数学于一体的科学。 因此, 这一领域的研究将涉及自然语言, 即人 们日常使用的语言, 所以它与语言学的研究有着密切的联系。 自然语言处理技术通常包括 文本。
23、处理、 语义理解、 机器翻译、 机器人问答、 知识图谱等技术。 在本申请实施例中, 文本处 理设备可以通过自然语言处理中的文本预处理、 语义理解等技术对文本进行处理。 0020 该文本处理设备可以具备机器学习能力。 机器学习是一门多领域交叉学科, 涉及 概率论、 统计学、 逼近论、 凸分析、 算法复杂度理论等多门学科。 专门研究计算机怎样模拟或 实现人类的学习行为, 以获取新的知识或技能, 重新组织已有的知识结构使之不断改善自 身的性能。 机器学习是人工智能的核心, 是使计算机具有智能的根本途径, 其应用遍及人工 智能的各个领域。 机器学习和深度学习通常包括人工神经网络等技术。 0021 在本。
24、申请实施例提供的文本处理方法中采用的人工智能模型主要涉及对神经网 络的应用, 通过神经网络实现对文本进行修改和分析。 0022 此外, 本申请实施例提供的文本处理设备还具备云计算能力。 云计算(cloud computing)指IT基础设施的交付和使用模式, 指通过网络以按需、 易扩展的方式获得所需 资源; 广义云计算指服务的交付和使用模式, 指通过网络以按需、 易扩展的方式获得所需服 说明书 3/16 页 6 CN 112036135 A 6 务。 这种服务可以是IT和软件、 互联网相关, 也可是其他服务。 云计算是网格计算 (Grid Computing )、 分布式计算 (Distrib。
25、uted Computing)、 并行计算 (Parallel Computing)、 效 用计算 (Utility Computing)、 网络存储 (Network Storage Technologies)、 虚拟化 (Virtualization)、 负载均衡 (Load Balance)等传统计算机和网络技术发展融合的产物。 0023 随着互联网、 实时数据流、 连接设备多样化的发展, 以及搜索服务、 社会网络、 移动 商务和开放协作等需求的推动, 云计算迅速发展起来。 不同于以往的并行分布式计算, 云计 算的产生从理念上将推动整个互联网模式、 企业管理模式发生革命性的变革。 002。
26、4 在本申请实施例中, 文本处理设备可以利用云计算技术, 对待识别的文本进行处 理, 以便根据处理得到的信息确定文本错误类型及其具体的错误成因。 0025 为了便于理解本申请的技术方案, 下面结合实际应用场景, 以终端设备作为文本 处理设备对本申请实施例提供的文本处理方法进行介绍。 0026 参见图1, 图1为本申请实施例提供的文本处理方法的应用场景示意图。 在图1所示 的应用场景中, 包括终端设备101, 用于对文本错误进行识别和修改, 并对语言表达错误类 型及错误原因进行解析。 0027 在实际应用中, 用户可以在终端设备101所提供的文本错误修改界面输入待识别 的第一文本S。 例如, 在。
27、图1所示的场景中, 用户输入第一文本S, 其组成包括A B C, 其中A、 B 和C分别用于表示组成文本的词。 例如第一文本S可以为: believe in you, 其中A代表 believe, B代表in, C代表you。 0028 然后, 对该第一文本S进行文本处理, 通过对第一文本S的至少一处内容修改, 将第 一文本S修改为第二文本T。 其中, 第一文本S可以是任意语种的文本, 例如, 英语、 法语、 俄语 等。 任意一处内容修改对应一个修改对, 该修改对包括第一文本S中对应该内容修改的内容 和第二文本T中对应该内容修改的内容。 0029 在图1所示的场景中, 若第一文本S为英语, 则。
28、按照英语表达规则, 对第一文本S中 至少一处存在错误的内容进行修改, 得到第二文本T, 为believe in yourself, 其中, 第二 文本T包括A B D, A代表believe, B代表in, D代表yourself。 基于此可知, 第一文本S中的C被 修改为了第二文本中的D, 因此, 可以确定出一个修改对E, 其组成为 (C ,D) , 即 (you , yourself) 。 0030 可以理解的是, 第一文本S具有修改前文本的完整语境信息, 第二文本T具有修改 后文本的完整语境信息, 可以作为对内容修改进行分析的信息依据。 故此, 可以在修改对的 基础上, 结合第一文本S和。
29、第二文本T, 确定出上述内容修改对应的语言表达错误类型和错 误原因。 0031 在图1所示的场景中, 根据第一文本S、 第二文本T和修改对E, 确定出第一文本S中 的C修改为第二文本中的D的语言表达错误类型及其错误原因。 其中, C(you)修改为D (yourself)的语言表达错误类型为语法错误, 其错误原因为代词使用错误。 0032 基于上述可知, 在修改对的基础上, 通过结合第一文本和第二文本, 为确定修改对 的语言表达错误类型及其错误原因提供了较为完整的信息依据, 实现了对于文本表达错误 类型的准确识别以及具体的错误成因。 0033 下面结合附图, 以终端设备作为文本处理设备, 对本。
30、申请实施例提供的一种文本 处理方法进行介绍。 说明书 4/16 页 7 CN 112036135 A 7 0034 参见图2, 图2为本申请实施例提供的一种文本处理方法的流程示意图。 如图2所 示, 该文本处理方法包括以下步骤: S201: 获取待识别的第一文本。 0035 在实际应用中, 用户可以在终端设备所提供的文本处理界面, 输入待识别的第一 文本S。 终端设备通过预先部署的序列到序列语法纠错模型 (记为Seq-decoder) 接收该第一 文本S, 并执行下续步骤。 0036 第一文本S是指由多个词组成的具有特定含义的文本, 其存在形式包括但不限于: 句子、 段落、 文章。 此外, 第。
31、一文本S可以是任意语种的语言, 例如, 汉语、 英语、 日语等, 在此 不做任何限定。 0037 S202: 对所述第一文本进行文本处理, 得到第二文本。 0038 如图3所示, 输入(301)为第一文本S(302), 序列到序列语法纠错模型(303)接收到 待识别的第一文本S后, 对第一文本S存在语言表达错误的地方进行修改, 得到第二文本T (304), 作为序列到序列语法纠错模型的输出, 并作为终端设备中预先部署的序列到序列对 齐模型 (记为Seq-align) (305)输入。 0039 序列到序列 (Sequence to Sequence, Seq2seq) 模型是指根据需求将一个序。
32、列转 换为另一个序列的深度学习模型。 上述序列到序列语法纠错模型就是一种用于语言表达纠 错的序列到序列模型, 是基于深度学习方法得到的, 其作用在于在不改变第一文本S的语意 的前提下, 对第一文本S进行修改, 使其从语法或表达习惯上变为更加规范合理的第二文本 T。 0040 在实际应用中, 可以将不同语种的第一文本S作为序列到序列语法纠错模型的输 入, 根据第一文本S的语种, 并按照该语种表达规范, 对第一文本S存在语言表达错误的地方 进行修改, 得到第二文本T。 其中, 第一文本S的语种可以是英语、 俄语、 法语等。 0041 需要说明的是, 在对第一文本进行修改过程中, 使用上述序列到序列。
33、语法纠错模 型可以实现, 也可以基于其他类型的模型实现同样的功能, 在此不作任何限定。 0042 S203: 根据所述第一文本和所述第二文本确定至少一个修改对。 0043 如图3所示, 对第一文本S进行修改得到第二文本T后, 将第一文本S和第二文本T作 为序列到序列对齐模型的输入, 然后将第一文本S和第二文本T中的内容进行内容对比, 确 定出至少一个修改对E(306)。 0044 一个修改对E对应于所述文本处理中的一处内容修改, 所述修改对包括所述第一 文本S中对应所述内容修改的内容, 以及所述第二文本T中对应所述内容修改的内容。 需要 说明的是, 上述一处内容修改是基于第一文本S中存在的一处。
34、语言表达错误所确定的, 包括 但不限于一个词、 多个词组成的词组或者一个句子等。 0045 例如, 第一文本S为This is less expensive sweater in store, 对应的第二文 本T为This is the least expensive sweater in the store。 对比第一文本S和第二文本 T可知, 第一文本S中的比较级使用错误, 应该为最高级, 即将 “less” 修改为 “the least” , 故 此, 可以确定出一个修改对E=(less, the least)。 0046 上述序列到序列对齐模型用于对修改前的第一文本S和修改后的第二文本。
35、T进行 对齐, 并获得修改对E。 一般的, 修改对E所对应内容修改的改动方式包括替换 (Replace, Re) 、 插入 (Insert, In) 、 删除 (Delete, De) 和相等 (Equal, Eq) 。 基于此, 上述例子中第一 说明书 5/16 页 8 CN 112036135 A 8 文本S中的 “less” 被替换成 “the least” , 则修改对可以记为E=(less, the least, Re)。 另 外, 在第一文本S “in store” 中插入了 “the” , 则还存在修改对E= (in store, in the store, In) 。 0047。
36、 针对上述确定修改对的过程, 在一种可能的实现方式中, 可以以第一比对粒度对 第一文本S和第二文本T进行内容比对, 得到对应的第一比对序列。 其中, 内容比对是指基于 第一文本S和第二文本T中的内容表达意思相同或相近的比对方式。 第一比对粒度是指进行 内容比对的最小单元, 如: 句子、 词组、 单个词等。 第一比对序列中包括第一内容对, 第一内 容对用于标识所述第一文本和所述第二文本间对应的一对文本字符串, 以及这对文本字符 串对应的改动方式。 0048 对上述例子而言, 若以词组作为第一比对粒度, 对上述第一文本S和第二文本T进 行内容比对, 可以得到多个文本字符串, 如: E= (in t。
37、he store, in the store, Eq) 。 0049 在一种可能的实现方式中, 可以通过对齐算法以第一比对粒度对所述第一文本和 所述第二文本进行内容比对, 得到对应的第一比对序列。 0050 其中, 对齐算法可以为莱文斯坦 (Levenshtein) 算法, 莱文斯坦算法是一种计算两 个序列的相识度的方法, 它可以给出从一个序列, 通过一系列变化, 转换为另一序列。 在实 际应用中, 也可以采用其他算法, 在此不作任何限定。 0051 需要说明的是, 第一内容对包括至少一对文本字符串, 且第一内容对所包括的一 对文本字符串具有相同的改动方式。 在一些情况下, 存在不同错误的两对。
38、文本字符串, 若这 两对具有相同改动方式的文本字符串相邻, 在基于上述内容比对的方式确定第一内容对 时, 会将这两对文本字符串确定为同一个第一内容对, 由此造成同一文本中的多个错误耦 合在一起的问题, 影响后续确定内容修改对应的语言表达错误类型和错误原因的准确性。 0052 例如, 第一文本S为: Nowadays, more and more the middle-aged people are suffering for insomenia, 第二文本T为: Nowadays, more and more middle-aged people are suffering from inso。
39、mnia。 对比第一文本S和第二文本T可知,“the” 被删除, “for” 被替换为 “from” , 而 “insomenia” 被替换为 “insomnia” 。 在基于内容对比方式确定第 一内容对时, 由于第一文本S中的 “for” 和 “insomenia” 相邻, 且改动方式都为替换, 故此可 以确定出一个第一内容对, 包括E= (the, , De) 、 E= (for insomenia, from insomnia, Re) 。 尽管E= (for insomenia, from insomnia, Re) 中的两对文本字符串的改动方式相同, 但是, “for” 被替换为 “。
40、from” 的原因是与 “suffer” 的搭配错误, 而 “insomenia” 被替换为 “insomnia” 的原因是拼写错误, 故此, 将这两对文本字符串作为一个整体进行语言表达错 误类型及错误原因的分析是不合适的。 0053 鉴于此, 可以以第二比对粒度, 对上述第一比对序列中的第一内容对进行拆分得 到第二比对序列。 其中, 所述第二比对序列包括第二内容对, 所述第二内容对用于标识所述 第一文本和所述第二文本对应的一对文本字符串, 以及这对文本字符串对应的改动方式。 其中, 第二比对粒度是指对第一内容对进行拆分的最小单元, 且第二比对粒度小于上述第 一比对粒度, 如: 若第一比对粒度。
41、为句子, 第二比对粒度可以为词组、 单个词; 若第一比对粒 度为词组, 则第二比对粒度可以为单个词。 改动方式包括替换、 插入、 删除或相等中的任意 一种。 继而, 可以根据所述第二比对序列确定出至少一个修改对。 0054 对于上述例子中改动方式为替换的内容对 (for insomenia, from insomnia, 说明书 6/16 页 9 CN 112036135 A 9 Re) , 以单个词为第二比对粒度进行拆分可以得到第二比对序列, 如: E= (Nowadays , Nowadays, Eq) 、 E= (for, from, Re) 、(insomenia, insomnia,。
42、 Re) 。 0055 上述在利用序列到序列模型的语法纠错能力基础上, 利用对齐算法对模型做出的 修改确定出内容对, 并做出进一步地拆分, 降低了第一比对序列中多错误耦合的情况, 为后 续反馈准确的语言表达错误类型及错误原因奠定了基础, 提高了对于内容修改对应的语言 表达错误类型和错误原因的识别精度。 0056 可以理解的是, 上述第二内容对是基于第二比对粒度的改动方式确定的, 这种方 式与本申请想要找出第一文本中存在语言表达错误的内涵并不等同。 具体来讲, 改动方式 是指对文本进行修改的方式, 关注点在于执行修改这一动作的方式, 包括替换、 删除、 插入 等。 而语言表达是指文本所属语种表达。
43、规则, 包括语法结构、 文本表达含义等。 基于此可知, 改动方式与语言表达是不完全等同的。 若仅依赖于第二内容对的改动方式确定内容修改对 应的语言表达错误类型和错误原因, 无法准确地从语言表达角度对修改对进行分析, 从而 影响内容修改对应的语言表达错误类型及错误原因的准确性。 0057 故此, 本申请提供了一种可能的实现方式, 即根据上述第二比对序列中第二内容 对的改动方式, 确定改动方式标识为修改的目标内容对, 然后将第二比对序列中符合预设 规则的相邻目标内容对进行合并得到第三比对序列。 0058 其中, 第二比对序列的改动方式包括: 替换 (Re) 、 插入 (In) 、 删除 (De) 。
44、或相等 (Eq) 中的任意一种。 第三比对序列中包括通过对相邻目标内容对合并得到所述修改对, 通过合 并得到的修改对的改动方式是根据合并方式确定的。 预设规则是指合并对对应的改动方式 所满足规则。 0059 例如, 第一文本S为: In no case you should give up, 第二文本T为: In no case should you give up。 首先, 以第一比对粒度 (即以句子为粒度对比) , 确定出一个第一内容 对:(you should, should you) , 然后, 以第二比对粒度 (即以单个词为粒度) , 确定出第二 内容对 (you, should, 。
45、Re) 和 (should, you, Re) 。 由于这两个第二内容对符合词与词位置 交换规则, 故此, 可以将这两个第二内容对合并, 即得到修改对E= (you should, should you) 。 0060 上述通过预设规则将第二内容对的改动方式与内容修改的语言表达错误类型建 立起关联, 对相邻内容对进行整合, 增加了更多维度的改动方式, 提高了判断内容修改对应 的语言表达错误类型和错误原因的精度, 优化了上述对齐算法, 达到了去噪的效果。 0061 对于上述通过合并确定出修改对可以发现, 第三比对序列中修改对的改动方式包 括: 交换 (Switch, Sw) 。 故此, 上述例子。
46、中确定出的修改对可以记为E= (you should , should you, Sw) 。 0062 由此可知, 可以基于预设规则对第二比对序列中的内容对进行合并, 对上述对齐 算法做出优化, 进一步地提高了后续利用修改对确定其对应的语言表达错误类型和错误原 因的准确度。 0063 在实际应用中, 序列到序列对齐模型可以将改动方式不为相等 (Eq) 的修改对进行 输出, 并作为终端设备中预先部署的错误详情处理模型 (记为Err-identify) (307)的输入, 对其语言表达错误类型和错误原因进行分析。 0064 S204: 根据所述第一文本、 所述第二文本和所述修改对, 确定所述内容修。
47、改对应的 说明书 7/16 页 10 CN 112036135 A 10 语言表达错误类型和错误原因。 0065 如图3所示, 错误详情处理模型将第一文本S、 第二文本T和修改对E作为输入, 分析 并反馈内容修改对应的语言表达错误类型和错误原因(308), 并作为输出(309)。 其中, 错误 详情处理模型用于对序列到序列对齐模型输出的修改对进行错误类型判断, 并对判断结果 进行分析, 返回分析结果, 其中, 分析结果包括语言表达错误类型和错误原因。 0066 可以理解的是, 语言是由不同的词组成的具有特定含义的句子, 单个词的意思及 其在句子中的位置具有重要的作用。 故此, 在确定内容修改对。
48、应的语言表达错误类型和错 误原因之前, 还可以对第一文本和第二文本中的分词进行词性标注, 并结合分词所标注的 词性, 共同确定内容修改对应的语言表达错误类型和错误原因。 0067 其中, 词性是指单个词在一定的词类系统中的类别归属。 一个词的词性是由一定 的词类系统和该词自身的语法特性两方面决定的。 在本实施例中, 词性包括但不限于, 词的 含义, 词所属类别 (动词、 名词、 形容词等) 以及词的语法结构 (主语、 谓语、 宾语等) 。 0068 例如, 对于第一文本S为: I like fish中的fish, 其对应的词性标注可以包括: fish的含义为鱼、 fish在第一文本S中的所属类。
49、别为名词、 fish在第一文本S中的语法结构 为宾语。 0069 因此利用错误详情模块确定内容修改对应的语言表达错误类型和错误原因时, 在 引入了第一文本和第二文本的基础上, 还引入了词性信息, 进一步地完善了确定内容修改 对应的语言表达错误类型和错误原因的信息依据, 从而在不需要构建大量规则的基础上, 提高了对于内容修改的语言表达错误类型和错误原因的准确性。 0070 基于上述, 在一种可能的实现方式中, 上述语言表达错误类型包括优化表达或者 至少一个类型的语法错误。 或者说, 错误详情处理模型的输出包括: 修改等级 (Grade) 、 修改 类型 (Type) 和错误原因 (Reason)。
50、 。 这里的修改等级是指优化表达和语法错误。 其中, 优化表 达是指第一文本S不存在语法错误, 但在语言表述方面可以进一步优化。 而语法错误是指第 一文本S不符合第一文本所属语种的语言规范。 而修改类型是指不同类型的语法错误, 错误 原因则是根据具体情况, 对修改产生的原因进行分析。 0071 在实际应用中, 可以基于预设规则, 利用第一文本S、 第二文本T、 修改对E以及词性 标注, 区分出内容修改对应的语言表达错误类型是优化表达还是不同类型的语法错误。 0072 例如, 第一文本S为: Your dog runs faster than Jims, 利用序列到序列语法纠 错模型对该第一文本。
- 内容关键字: 文本 处理 方法 相关 装置
显示装置.pdf
电子机芯生产用配件装配设备.pdf
玻璃制品生产原料除铁设备.pdf
电路板点焊设备.pdf
茶叶分选用过滤装置.pdf
用于茶叶的储存罐结构.pdf
基于压感自调张力的化纤面料圆筒针织机牵拉结构.pdf
多功能小车移动防护结构.pdf
可拆卸式的灌装装置.pdf
输配电线路无线通信型激光雷达.pdf
炼厂货用升降机轿厢制停测距装置.pdf
文档扫描仪的纸张对齐机构.pdf
测量斜绕螺线管磁场强度的实验装置.pdf
通电检测夹具.pdf
用于丁基胶灌装机的压盘结构.pdf
真空绝热外墙复合一体板.pdf
提高丰年虫孵化率的孵化装置.pdf
陶瓷加工用球磨机.pdf
快速调节间隙的悬挂端梁.pdf
洁净室恒温恒湿空气处理组合风柜.pdf
汽车管柱筒生产用下料设备.pdf
裤耳机的裤耳定位装置.pdf
建筑设施抗震性能的评估方法、装置、设备及存储介质.pdf
基于牵引振动落饵料的导料槽结构及灭蚁毒饵撒料机.pdf
高通量高分辨率静态傅里叶变换光谱测量方法.pdf
智能计量包装方法及装置.pdf
RNA疫苗递送制剂及其制备方法.pdf
基于点云与有限元分析的飞机蒙皮修配方法.pdf
检测番鸭查帕马病毒的引物和探针、病毒分离培养方法.pdf
长效保湿乳液及其制备方法.pdf
水泥碎渣废料清理装置.pdf
基于病患信息的全病程管理平台的应用方法及系统.pdf
一种升降式旋转室外消火栓.pdf
框架结构T型连接柱.pdf
防静电地板吸板器.pdf
一种建筑用箱体或井口预留孔洞活动模具.pdf
速成拉建房屋.pdf
预制桥面板精轧螺纹钢筋弧形连接构造.pdf
一种内固定式伸缩门滑行导轨及伸缩门.pdf
多用途封井器.pdf
一种新型圆弧建筑模板紧固件.pdf
一种超实木防水组合踢脚线.pdf
电气柜前门板门锁装置.pdf
双人正杆器.pdf
一种纳米铝塑复合板.pdf
强磁打捞器.pdf
一种基于无刷直流电机的环卫车电动扫盘系统.pdf
一种可调节型门铰链.pdf
一种用于基桩竖向抗压静载试验的船筏式试验装置.pdf
免贴墙砖.pdf
一种聚氨酯仿石材防火保温装饰复合板.pdf