文本处理方法和相关装置.pdf

上传人：Ameli****keyy 文档编号：10220714 上传时间：2021-06-11 格式：PDF 页数：26 大小：1.28MB

收藏版权申诉举报下载

第1页 / 共26页

第2页 / 共26页

第3页 / 共26页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《文本处理方法和相关装置.pdf》由会员分享，可在线阅读，更多相关《文本处理方法和相关装置.pdf（26页完成版）》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202011231200.X (22)申请日 2020.11.06 (71)申请人腾讯科技（深圳）有限公司地址 518064 广东省深圳市南山区高新区科技中一路腾讯大厦35层 (72)发明人方俊林炳怀 (74)专利代理机构深圳市深佳知识产权代理事务所(普通合伙) 44285 代理人常忠良 (51)Int.Cl. G06F 40/166(2020.01) G06N 20/00(2019.01) (54)发明名称一种文本处理方法和相关装置 (57)摘要本申请实施。

2、例公开了一种文本处理方法和相关装置，至少涉及人工智能中的自然语言处理和机器学习，以及云计算技术中的数据并行计算等，针对待识别的第一文本，对该第一文本进行文本处理，通过对第一文本的至少一处内容修改，将第一文本修改为第二文本。其中，任意一处内容修改对应一个修改对。为了能够确定内容修改对应的语言表达错误类型和错误原因，不仅依据修改对提供的信息，还引入第一文本和第二文本来完善该内容修改在修改前后的完整语境信息，因此，在修改对的基础上，通过结合第一文本和第二文本，为确定修改对的语言表达错误类型及其错误原因提供了较为完整的信息依据，实现了对于文本表。

3、达错误类型的准确识别以及具体的错误成因。权利要求书2页说明书16页附图7页 CN 112036135 A 2020.12.04 CN 112036135 A 1.一种文本处理方法，其特征在于，所述方法包括：获取待识别的第一文本；对所述第一文本进行文本处理，得到第二文本；根据所述第一文本和所述第二文本确定至少一个修改对，其中，一个修改对对应于所述文本处理中的一处内容修改，所述修改对包括所述第一文本中对应所述内容修改的内容，以及所述第二文本中对应所述内容修改的内容；根据所述第一文本、所述第二文本和所述修改对，确定所述内容修改对应的语言表达错误类型和错误原因。。

4、 2.根据权利要求1所述的方法，其特征在于，所述根据所述第一文本、所述第二文本和所述修改对，确定所述内容修改对应的语言表达错误类型和错误原因，包括：对所述第一文本和所述第二文本中的分词进行词性标注；根据所述第一文本、所述第二文本、所述修改对和所标注的词性，确定所述内容修改对应的语言表达错误类型和错误原因。 3.根据权利要求2所述的方法，其特征在于，所述语言表达错误类型包括优化表达或至少一个类型的语法错误。 4.根据权利要求1所述的方法，其特征在于，所述根据所述第一文本和所述第二文本间确定至少一个修改对，包括：以第一比对粒度对所述第一文本和所述第二文本进行。

5、内容比对，得到对应的第一比对序列；所述第一比对序列中包括第一内容对，所述第一内容对用于标识所述第一文本和所述第二文本间对应的一对文本字符串，以及这对文本字符串对应的改动方式；以第二比对粒度对所述第一比对序列中的第一内容对进行拆分得到第二比对序列；所述第二比对序列包括第二内容对，所述第二内容对用于标识所述第一文本和所述第二文本间对应的一对文本字符串，以及这对文本字符串对应的改动方式，所述第二比对粒度小于所述第一比对粒度；根据所述第二比对序列确定所述至少一个修改对。 5.根据权利要求4所述的方法，其特征在于，所述根据所述第二比对序列确定所述至少一个修改对，包括。

6、：根据所述第二比对序列中第二内容对的改动方式，确定改动方式标识为修改的目标内容对；将所述第二比对序列中符合预设规则的相邻目标内容对进行合并得到第三比对序列；所述第三比对序列中包括通过对所述相邻目标内容对合并得到所述修改对，通过合并得到的所述修改对的改动方式是根据合并方式确定的。 6.根据权利要求5所述的方法，其特征在于，所述第二比对序列中第二内容对的改动方式包括替换、插入、删除或相等中的任意一种；所述第三比对序列中修改对的改动方式包括交换。 7.根据权利要求4所述的方法，其特征在于，所述以第一比对粒度对所述第一文本和所述第二文本进行内容比对，得到对应的第一比。

7、对序列，包括：通过对齐算法以第一比对粒度对所述第一文本和所述第二文本进行内容比对，得到对应的第一比对序列。权利要求书 1/2 页 2 CN 112036135 A 2 8.根据权利要求1-7任意一项所述的方法，其特征在于，所述方法还包括：在所述第一文本和所述第二文本的基础上展示所述内容修改，以及展示对应的判定结果；所述判定结果包括所述语言表达错误类型和所述错误原因。 9.一种文本处理装置，其特征在于，所述装置包括获取单元和确定单元：所述获取单元，用于获取待识别的第一文本；所述确定单元，用于对所述第一文本进行文本处理，得到第二文本；所述确定单元，还用于根据。

8、所述第一文本和所述第二文本确定至少一个修改对，其中，一个修改对对应于所述文本处理中的一处内容修改，所述修改对包括所述第一文本中对应所述内容修改的内容，以及所述第二文本中对应所述内容修改的内容；所述确定单元，还用于根据所述第一文本、所述第二文本和所述修改对，确定所述内容修改对应的语言表达错误类型和错误原因。 10.根据权利要求9所述的装置，其特征在于，所述确定单元，用于：对所述第一文本和所述第二文本中的分词进行词性标注；根据所述第一文本、所述第二文本、所述修改对和所标注的词性，确定所述内容修改对应的语言表达错误类型和错误原因。 11.根据权利要求10所述的装。

9、置，其特征在于，所述语言表达错误类型包括优化表达或至少一个类型的语法错误。 12.根据权利要求9所述的装置，其特征在于，所述确定单元，用于：以第一比对粒度对所述第一文本和所述第二文本进行内容比对，得到对应的第一比对序列；所述第一比对序列中包括第一内容对，所述第一内容对用于标识所述第一文本和所述第二文本间对应的一对文本字符串，以及这对文本字符串对应的改动方式；以第二比对粒度对所述第一比对序列中的第一内容对进行拆分得到第二比对序列；所述第二比对序列包括第二内容对，所述第二内容词用于标识所述第一文本和所述第二文本间对应的一对文本字符串，以及这对文本字符串对应的改。

10、动方式，所述第二比对粒度小于所述第一比对粒度；根据所述第二比对序列确定所述至少一个修改对。 13.根据权利要求12所述的装置，其特征在于，所述确定单元，用于：根据所述第二比对序列中第二内容对的改动方式，确定改动方式标识为修改的目标内容对；将所述第二比对序列中符合预设规则的相邻目标内容对进行合并得到第三比对序列；所述第三比对序列中包括通过对所述相邻目标内容对合并得到所述修改对，通过合并得到的所述修改对的改动方式是根据合并方式确定的。 14.一种用于文本处理的设备，其特征在于，所述设备包括处理器以及存储器：所述存储器用于存储程序代码，并将所述程序代码传输给所述处理。

11、器；所述处理器用于根据所述程序代码中的指令执行权利要求1-8任意一项所述的方法。 15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-8任意一项所述的方法。权利要求书 2/2 页 3 CN 112036135 A 3 一种文本处理方法和相关装置技术领域 0001 本申请涉及数据处理领域，特别是涉及一种文本处理方法和相关装置。背景技术 0002 语言是人类进行沟通交流的表达方式，语言具有对应的语法和词汇，是由词汇按一定的语法所构成的语音表义系统。一般来说，各个民族都有自己的语言，例如汉语、英语、德。

12、语等，用户可以通过语言进行书面的文本表达，然而，不论是使用自己的母语还是新学习的语种，都有可能出现语言表达错误，例如语法使用不当、表达不规范的问题。可以通过语言错误识别技术对用户所提供的文本进行错误识别，例如，在教育行业，可以利用语言错误识别技术帮助老师批改学生英语作文。 0003 相关技术中主要采用大量语料去学习语言规律，从而对文本中的错误进行识别和修改，由于这种修改是基于统计得出来的，不仅准确率不高，而且无法给出错误原因。从而导致用户仅能知道文本表达有误，但却难以了解错误的原因。发明内容 0004 为了解决上述技术问题，本申请提供了一种文本处理。

13、方法和相关装置，实现了对于文本表达错误类型的准确识别以及具体的错误成因。 0005 本申请实施例公开了如下技术方案：一方面，本申请实施例提供了一种文本处理方法，所述方法包括：获取待识别的第一文本；对所述第一文本进行文本处理，得到第二文本；根据所述第一文本和所述第二文本确定至少一个修改对，其中，一个修改对对应于所述文本处理中的一处内容修改，所述修改对包括所述第一文本中对应所述内容修改的内容，以及所述第二文本中对应所述内容修改的内容；根据所述第一文本、所述第二文本和所述修改对，确定所述内容修改对应的语言表达错误类型和错误原因。 0006 另一方面，本申请实施。

14、例提供了一种文本处理装置，其特征在于，所述装置包括获取单元和确定单元：所述获取单元，用于获取待识别的第一文本；所述确定单元，用于对所述第一文本进行文本处理，得到第二文本；所述确定单元，还用于根据所述第一文本和所述第二文本确定至少一个修改对，其中，一个修改对对应于所述文本处理中的一处内容修改，所述修改对包括所述第一文本中对应所述内容修改的内容，以及所述第二文本中对应所述内容修改的内容；所述确定单元，还用于根据所述第一文本、所述第二文本和所述修改对，确定所述内容修改对应的语言表达错误类型和错误原因。说明书 1/16 页 4 CN 112036135 A 4。

15、 0007 另一方面，本申请实施例提供了一种用于文本处理的设备，所述设备包括处理器以及存储器：所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。 0008 另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的方法。 0009 另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计。

16、算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的方法。 0010 由上述技术方案可以看出，针对待识别的第一文本，对该第一文本进行文本处理，通过对第一文本的至少一处内容修改，将第一文本修改为第二文本。其中，任意一处内容修改对应一个修改对，该修改对包括第一文本中对应该内容修改的内容和第二文本中对应该内容修改的内容。为了能够确定内容修改对应的语言表达错误类型和错误原因，不仅依据修改对提供的信息，还引入第一文本和第二文本来完善该内容修改在修改前后的完整语境信息，因此，在修改对的基础上，通过结合第一文本和第二文本，为确定修改对的语言表达错误。

17、类型及其错误原因提供了较为完整的信息依据，实现了对于文本表达错误类型的准确识别以及具体的错误成因。附图说明 0011 为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。 0012 图1为本申请实施例提供的一种文本处理方法的应用场景示意图；图2为本申请实施例提供的一种文本处理方法的流程示意图；图3为本申请实施例提供的另一种文本处理方法的流程示意图；图4为本申请实施。

18、例提供的一种对齐算法的流程示意图；图5为本申请实施例提供的一种反馈错误类型的展示示意图；图6为本申请实施例提供的另一种文本处理方法的应用场景示意图；图7为本申请实施例提供的另一种文本处理方法的应用场景示意图；图8为本申请实施例提供的一种文本处理装置的结构示意图；图9为本申请实施例提供的服务器的结构示意图；图10为本申请实施例提供的终端设备的结构示意图。具体实施方式 0013 下面结合附图，对本申请的实施例进行描述。 0014 鉴于相关技术中基于语料学习语言规律的方式无法给出错误原因，本申请实施例提供了一种文本处理方法和相关装置，实现了对于文本错误原因的识别，并提高了语言。

19、表说明书 2/16 页 5 CN 112036135 A 5 达错误类型的识别精度。 0015 本申请实施例提供的文本处理方法是基于人工智能实现的，人工智能（Artificial Intelligence, AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策。

20、的功能。 0016 人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。 0017 在本申请实施例中，主要涉及的人工智能软件技术包括上述自然语言处理、机器学习/深度学习等方向。例如，可以涉及自然语言处理(Nature Language processing, NLP)中的文本预处理（Text prepro。

21、cessing）、语义理解（Semantic understanding），也可以涉及机器学习（Machine learning， ML）中的深度学习（Deep Learning），包括各类人工神经网络（Artificial Neural Network, ANN）。 0018 本申请提供的文本处理方法可以应用于具有数据处理能力的文本处理设备，如终端设备、服务器。其中，终端设备具体可以为智能手机、台式计算机、笔记本电脑、平板电脑、智能音箱、智能手表等，但并不局限于此等；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或。

22、者分布式系统，还可以是提供云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。 0019 该文本处理设备可以具备实施自然语言处理的能力，自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本。

23、处理、语义理解、机器翻译、机器人问答、知识图谱等技术。在本申请实施例中，文本处理设备可以通过自然语言处理中的文本预处理、语义理解等技术对文本进行处理。 0020 该文本处理设备可以具备机器学习能力。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。 0021 在本。

24、申请实施例提供的文本处理方法中采用的人工智能模型主要涉及对神经网络的应用，通过神经网络实现对文本进行修改和分析。 0022 此外，本申请实施例提供的文本处理设备还具备云计算能力。云计算(cloud computing)指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服说明书 3/16 页 6 CN 112036135 A 6 务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算（Grid Computing )、分布式计算（Distrib。

25、uted Computing)、并行计算（Parallel Computing)、效用计算（Utility Computing)、网络存储（Network Storage Technologies)、虚拟化（Virtualization)、负载均衡（Load Balance)等传统计算机和网络技术发展融合的产物。 0023 随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。 002。

26、4 在本申请实施例中，文本处理设备可以利用云计算技术，对待识别的文本进行处理，以便根据处理得到的信息确定文本错误类型及其具体的错误成因。 0025 为了便于理解本申请的技术方案，下面结合实际应用场景，以终端设备作为文本处理设备对本申请实施例提供的文本处理方法进行介绍。 0026 参见图1，图1为本申请实施例提供的文本处理方法的应用场景示意图。在图1所示的应用场景中，包括终端设备101，用于对文本错误进行识别和修改，并对语言表达错误类型及错误原因进行解析。 0027 在实际应用中，用户可以在终端设备101所提供的文本错误修改界面输入待识别的第一文本S。例如，在。

27、图1所示的场景中，用户输入第一文本S，其组成包括A B C，其中A、 B 和C分别用于表示组成文本的词。例如第一文本S可以为： believe in you，其中A代表 believe， B代表in， C代表you。 0028 然后，对该第一文本S进行文本处理，通过对第一文本S的至少一处内容修改，将第一文本S修改为第二文本T。其中，第一文本S可以是任意语种的文本，例如，英语、法语、俄语等。任意一处内容修改对应一个修改对，该修改对包括第一文本S中对应该内容修改的内容和第二文本T中对应该内容修改的内容。 0029 在图1所示的场景中，若第一文本S为英语，则。

28、按照英语表达规则，对第一文本S中至少一处存在错误的内容进行修改，得到第二文本T，为believe in yourself，其中，第二文本T包括A B D， A代表believe， B代表in， D代表yourself。基于此可知，第一文本S中的C被修改为了第二文本中的D，因此，可以确定出一个修改对E，其组成为（C ,D），即（you , yourself）。 0030 可以理解的是，第一文本S具有修改前文本的完整语境信息，第二文本T具有修改后文本的完整语境信息，可以作为对内容修改进行分析的信息依据。故此，可以在修改对的基础上，结合第一文本S和。

29、第二文本T，确定出上述内容修改对应的语言表达错误类型和错误原因。 0031 在图1所示的场景中，根据第一文本S、第二文本T和修改对E，确定出第一文本S中的C修改为第二文本中的D的语言表达错误类型及其错误原因。其中， C(you)修改为D (yourself)的语言表达错误类型为语法错误，其错误原因为代词使用错误。 0032 基于上述可知，在修改对的基础上，通过结合第一文本和第二文本，为确定修改对的语言表达错误类型及其错误原因提供了较为完整的信息依据，实现了对于文本表达错误类型的准确识别以及具体的错误成因。 0033 下面结合附图，以终端设备作为文本处理设备，对本。

30、申请实施例提供的一种文本处理方法进行介绍。说明书 4/16 页 7 CN 112036135 A 7 0034 参见图2，图2为本申请实施例提供的一种文本处理方法的流程示意图。如图2所示，该文本处理方法包括以下步骤： S201：获取待识别的第一文本。 0035 在实际应用中，用户可以在终端设备所提供的文本处理界面，输入待识别的第一文本S。终端设备通过预先部署的序列到序列语法纠错模型（记为Seq-decoder）接收该第一文本S，并执行下续步骤。 0036 第一文本S是指由多个词组成的具有特定含义的文本，其存在形式包括但不限于：句子、段落、文章。此外，第。

31、一文本S可以是任意语种的语言，例如，汉语、英语、日语等，在此不做任何限定。 0037 S202：对所述第一文本进行文本处理，得到第二文本。 0038 如图3所示，输入(301)为第一文本S(302)，序列到序列语法纠错模型(303)接收到待识别的第一文本S后，对第一文本S存在语言表达错误的地方进行修改，得到第二文本T (304)，作为序列到序列语法纠错模型的输出，并作为终端设备中预先部署的序列到序列对齐模型（记为Seq-align） (305)输入。 0039 序列到序列（Sequence to Sequence, Seq2seq）模型是指根据需求将一个序。

32、列转换为另一个序列的深度学习模型。上述序列到序列语法纠错模型就是一种用于语言表达纠错的序列到序列模型，是基于深度学习方法得到的，其作用在于在不改变第一文本S的语意的前提下，对第一文本S进行修改，使其从语法或表达习惯上变为更加规范合理的第二文本 T。 0040 在实际应用中，可以将不同语种的第一文本S作为序列到序列语法纠错模型的输入，根据第一文本S的语种，并按照该语种表达规范，对第一文本S存在语言表达错误的地方进行修改，得到第二文本T。其中，第一文本S的语种可以是英语、俄语、法语等。 0041 需要说明的是，在对第一文本进行修改过程中，使用上述序列到序列。

33、语法纠错模型可以实现，也可以基于其他类型的模型实现同样的功能，在此不作任何限定。 0042 S203：根据所述第一文本和所述第二文本确定至少一个修改对。 0043 如图3所示，对第一文本S进行修改得到第二文本T后，将第一文本S和第二文本T作为序列到序列对齐模型的输入，然后将第一文本S和第二文本T中的内容进行内容对比，确定出至少一个修改对E(306)。 0044 一个修改对E对应于所述文本处理中的一处内容修改，所述修改对包括所述第一文本S中对应所述内容修改的内容，以及所述第二文本T中对应所述内容修改的内容。需要说明的是，上述一处内容修改是基于第一文本S中存在的一处。

34、语言表达错误所确定的，包括但不限于一个词、多个词组成的词组或者一个句子等。 0045 例如，第一文本S为This is less expensive sweater in store，对应的第二文本T为This is the least expensive sweater in the store。对比第一文本S和第二文本 T可知，第一文本S中的比较级使用错误，应该为最高级，即将 “less” 修改为 “the least” ，故此，可以确定出一个修改对E=(less, the least)。 0046 上述序列到序列对齐模型用于对修改前的第一文本S和修改后的第二文本。

35、T进行对齐，并获得修改对E。一般的，修改对E所对应内容修改的改动方式包括替换（Replace, Re）、插入（Insert, In）、删除（Delete, De）和相等（Equal, Eq）。基于此，上述例子中第一说明书 5/16 页 8 CN 112036135 A 8 文本S中的 “less” 被替换成 “the least” ，则修改对可以记为E=(less, the least, Re)。另外，在第一文本S “in store” 中插入了 “the” ，则还存在修改对E= （in store, in the store, In）。 0047。

36、针对上述确定修改对的过程，在一种可能的实现方式中，可以以第一比对粒度对第一文本S和第二文本T进行内容比对，得到对应的第一比对序列。其中，内容比对是指基于第一文本S和第二文本T中的内容表达意思相同或相近的比对方式。第一比对粒度是指进行内容比对的最小单元，如：句子、词组、单个词等。第一比对序列中包括第一内容对，第一内容对用于标识所述第一文本和所述第二文本间对应的一对文本字符串，以及这对文本字符串对应的改动方式。 0048 对上述例子而言，若以词组作为第一比对粒度，对上述第一文本S和第二文本T进行内容比对，可以得到多个文本字符串，如： E= （in t。

37、he store, in the store, Eq）。 0049 在一种可能的实现方式中，可以通过对齐算法以第一比对粒度对所述第一文本和所述第二文本进行内容比对，得到对应的第一比对序列。 0050 其中，对齐算法可以为莱文斯坦（Levenshtein）算法，莱文斯坦算法是一种计算两个序列的相识度的方法，它可以给出从一个序列，通过一系列变化，转换为另一序列。在实际应用中，也可以采用其他算法，在此不作任何限定。 0051 需要说明的是，第一内容对包括至少一对文本字符串，且第一内容对所包括的一对文本字符串具有相同的改动方式。在一些情况下，存在不同错误的两对。

38、文本字符串，若这两对具有相同改动方式的文本字符串相邻，在基于上述内容比对的方式确定第一内容对时，会将这两对文本字符串确定为同一个第一内容对，由此造成同一文本中的多个错误耦合在一起的问题，影响后续确定内容修改对应的语言表达错误类型和错误原因的准确性。 0052 例如，第一文本S为： Nowadays, more and more the middle-aged people are suffering for insomenia, 第二文本T为： Nowadays, more and more middle-aged people are suffering from inso。

39、mnia。对比第一文本S和第二文本T可知，“the” 被删除， “for” 被替换为 “from” ，而 “insomenia” 被替换为 “insomnia” 。在基于内容对比方式确定第一内容对时，由于第一文本S中的 “for” 和 “insomenia” 相邻，且改动方式都为替换，故此可以确定出一个第一内容对，包括E= （the, , De）、 E= （for insomenia, from insomnia, Re）。尽管E= （for insomenia, from insomnia, Re）中的两对文本字符串的改动方式相同，但是, “for” 被替换为 “。

40、from” 的原因是与 “suffer” 的搭配错误，而 “insomenia” 被替换为 “insomnia” 的原因是拼写错误，故此，将这两对文本字符串作为一个整体进行语言表达错误类型及错误原因的分析是不合适的。 0053 鉴于此，可以以第二比对粒度，对上述第一比对序列中的第一内容对进行拆分得到第二比对序列。其中，所述第二比对序列包括第二内容对，所述第二内容对用于标识所述第一文本和所述第二文本对应的一对文本字符串，以及这对文本字符串对应的改动方式。其中，第二比对粒度是指对第一内容对进行拆分的最小单元，且第二比对粒度小于上述第一比对粒度，如：若第一比对粒度。

41、为句子，第二比对粒度可以为词组、单个词；若第一比对粒度为词组，则第二比对粒度可以为单个词。改动方式包括替换、插入、删除或相等中的任意一种。继而，可以根据所述第二比对序列确定出至少一个修改对。 0054 对于上述例子中改动方式为替换的内容对（for insomenia, from insomnia, 说明书 6/16 页 9 CN 112036135 A 9 Re），以单个词为第二比对粒度进行拆分可以得到第二比对序列，如： E= （Nowadays , Nowadays, Eq）、 E= （for, from, Re）、（insomenia, insomnia,。

42、 Re）。 0055 上述在利用序列到序列模型的语法纠错能力基础上，利用对齐算法对模型做出的修改确定出内容对，并做出进一步地拆分，降低了第一比对序列中多错误耦合的情况，为后续反馈准确的语言表达错误类型及错误原因奠定了基础，提高了对于内容修改对应的语言表达错误类型和错误原因的识别精度。 0056 可以理解的是，上述第二内容对是基于第二比对粒度的改动方式确定的，这种方式与本申请想要找出第一文本中存在语言表达错误的内涵并不等同。具体来讲，改动方式是指对文本进行修改的方式，关注点在于执行修改这一动作的方式，包括替换、删除、插入等。而语言表达是指文本所属语种表达。

43、规则，包括语法结构、文本表达含义等。基于此可知，改动方式与语言表达是不完全等同的。若仅依赖于第二内容对的改动方式确定内容修改对应的语言表达错误类型和错误原因，无法准确地从语言表达角度对修改对进行分析，从而影响内容修改对应的语言表达错误类型及错误原因的准确性。 0057 故此，本申请提供了一种可能的实现方式，即根据上述第二比对序列中第二内容对的改动方式，确定改动方式标识为修改的目标内容对，然后将第二比对序列中符合预设规则的相邻目标内容对进行合并得到第三比对序列。 0058 其中，第二比对序列的改动方式包括：替换（Re）、插入（In）、删除（De）。

44、或相等（Eq）中的任意一种。第三比对序列中包括通过对相邻目标内容对合并得到所述修改对，通过合并得到的修改对的改动方式是根据合并方式确定的。预设规则是指合并对对应的改动方式所满足规则。 0059 例如，第一文本S为： In no case you should give up，第二文本T为： In no case should you give up。首先，以第一比对粒度（即以句子为粒度对比），确定出一个第一内容对：（you should, should you），然后，以第二比对粒度（即以单个词为粒度），确定出第二内容对（you, should, 。

45、Re）和（should, you, Re）。由于这两个第二内容对符合词与词位置交换规则，故此，可以将这两个第二内容对合并，即得到修改对E= （you should, should you）。 0060 上述通过预设规则将第二内容对的改动方式与内容修改的语言表达错误类型建立起关联，对相邻内容对进行整合，增加了更多维度的改动方式，提高了判断内容修改对应的语言表达错误类型和错误原因的精度，优化了上述对齐算法，达到了去噪的效果。 0061 对于上述通过合并确定出修改对可以发现，第三比对序列中修改对的改动方式包括：交换（Switch, Sw）。故此，上述例子。

46、中确定出的修改对可以记为E= （you should , should you, Sw）。 0062 由此可知，可以基于预设规则对第二比对序列中的内容对进行合并，对上述对齐算法做出优化，进一步地提高了后续利用修改对确定其对应的语言表达错误类型和错误原因的准确度。 0063 在实际应用中，序列到序列对齐模型可以将改动方式不为相等（Eq）的修改对进行输出，并作为终端设备中预先部署的错误详情处理模型（记为Err-identify） (307)的输入，对其语言表达错误类型和错误原因进行分析。 0064 S204：根据所述第一文本、所述第二文本和所述修改对，确定所述内容修。

47、改对应的说明书 7/16 页 10 CN 112036135 A 10 语言表达错误类型和错误原因。 0065 如图3所示，错误详情处理模型将第一文本S、第二文本T和修改对E作为输入，分析并反馈内容修改对应的语言表达错误类型和错误原因(308)，并作为输出(309)。其中，错误详情处理模型用于对序列到序列对齐模型输出的修改对进行错误类型判断，并对判断结果进行分析，返回分析结果，其中，分析结果包括语言表达错误类型和错误原因。 0066 可以理解的是，语言是由不同的词组成的具有特定含义的句子，单个词的意思及其在句子中的位置具有重要的作用。故此，在确定内容修改对。

48、应的语言表达错误类型和错误原因之前，还可以对第一文本和第二文本中的分词进行词性标注，并结合分词所标注的词性，共同确定内容修改对应的语言表达错误类型和错误原因。 0067 其中，词性是指单个词在一定的词类系统中的类别归属。一个词的词性是由一定的词类系统和该词自身的语法特性两方面决定的。在本实施例中，词性包括但不限于，词的含义，词所属类别（动词、名词、形容词等）以及词的语法结构（主语、谓语、宾语等）。 0068 例如，对于第一文本S为： I like fish中的fish，其对应的词性标注可以包括： fish的含义为鱼、 fish在第一文本S中的所属类。

49、别为名词、 fish在第一文本S中的语法结构为宾语。 0069 因此利用错误详情模块确定内容修改对应的语言表达错误类型和错误原因时，在引入了第一文本和第二文本的基础上，还引入了词性信息，进一步地完善了确定内容修改对应的语言表达错误类型和错误原因的信息依据，从而在不需要构建大量规则的基础上，提高了对于内容修改的语言表达错误类型和错误原因的准确性。 0070 基于上述，在一种可能的实现方式中，上述语言表达错误类型包括优化表达或者至少一个类型的语法错误。或者说，错误详情处理模型的输出包括：修改等级（Grade）、修改类型（Type）和错误原因（Reason）。

50、。这里的修改等级是指优化表达和语法错误。其中，优化表达是指第一文本S不存在语法错误，但在语言表述方面可以进一步优化。而语法错误是指第一文本S不符合第一文本所属语种的语言规范。而修改类型是指不同类型的语法错误，错误原因则是根据具体情况，对修改产生的原因进行分析。 0071 在实际应用中，可以基于预设规则，利用第一文本S、第二文本T、修改对E以及词性标注，区分出内容修改对应的语言表达错误类型是优化表达还是不同类型的语法错误。 0072 例如，第一文本S为： Your dog runs faster than Jims，利用序列到序列语法纠错模型对该第一文本。

展开阅读全文

内容关键字: 文本处理方法相关装置