《一种自动生成网页的方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种自动生成网页的方法及装置.pdf(18页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102982030 A (43)申请公布日 2013.03.20 CN 102982030 A *CN102982030A* (21)申请号 201110259321.X (22)申请日 2011.09.02 G06F 17/30(2006.01) (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街 10 号 百度大厦 2 层 (72)发明人 蓝翔 沈文竹 吴甜 吴华 (74)专利代理机构 北京鸿德海业知识产权代理 事务所 ( 普通合伙 ) 11412 代理人 袁媛 (54) 发明名称 一种自动生成网页的方法及装置 (57) 摘要 本发。
2、明提供了一种自动生成网页的方法及装 置, 其中自动生成网页的方法包括 : 根据第一语 言页面生成第一语言检索词 ; 将所述第一语言检 索词翻译成第二语言检索词, 使用所述第二语言 检索词在第二语言页面集合中进行检索, 从各个 第二语言检索结果页面中提取第二语言候选页 面 ; 针对所述第一语言页面中的第一语言句子, 从所述第二语言候选页面中提取与该第一语言句 子匹配的第二语言句子, 并利用提取的第二语言 句子生成最终网页。 通过上述方式, 可根据源语言 网页自动生成流畅性高、 可读性强的目标语言网 页。 (51)Int.Cl. 权利要求书 4 页 说明书 10 页 附图 3 页 (19)中华人民。
3、共和国国家知识产权局 (12)发明专利申请 权利要求书 4 页 说明书 10 页 附图 3 页 1/4 页 2 1. 一种自动生成网页的方法, 其特征在于, 所述方法包括 : 根据第一语言页面生成第一语言检索词 ; 将所述第一语言检索词翻译成第二语言检索词, 使用所述第二语言检索词在第二语言 页面集合中进行检索, 从各个第二语言检索结果页面中提取第二语言候选页面 ; 针对所述第一语言页面中的第一语言句子, 从所述第二语言候选页面中提取与该第一 语言句子匹配的第二语言句子, 并利用提取的第二语言句子生成最终网页。 2. 根据权利要求 1 所述的方法, 其特征在于, 根据第一语言页面生成第一语言检。
4、索词 的步骤包括 : 将第一语言页面的标题与所述第一语言页面上各段落的标题名组合形成第一 语言检索词 ; 或者, 将第一语言页面的标题与所述第一语言页面上为半结构化数据设置的 数据标签名称组合形成第一语言检索词 ; 或者, 将第一语言页面中出现频率最高的 N 个词 或出现频率最低的N个词作为第一语言检索词 ; 或者, 将第一语言页面中词频-反文档频率 值最高的N个词或词频-反文档频率值最低的N个词作为第一语言检索词 ; 或者, 将第一语 言页面中的命名实体作为第一语言检索词, 其中 N 为正整数。 3. 根据权利要求 1 所述的方法, 其特征在于, 从各个第二语言检索结果页面中提取第 二语言候。
5、选页面的步骤包括 : 将所述第一语言页面的标题翻译为第二语言标题 ; 从各个第二语言检索结果页面中选择标题与所述第二语言标题匹配的第二语言检索 结果页面作为第二语言候选页面。 4. 根据权利要求 1 所述的方法, 其特征在于, 从各个第二语言检索结果页面中提取第 二语言候选页面的步骤包括 : 将所述第一语言页面的标题翻译为第二语言标题 ; 分别统计所述第二语言标题在各个第二语言检索结果页面中出现的次数, 将所述第二 语言标题出现次数从大到小排列在前 N 位的第二语言检索结果页面确定为第二语言候选 页面, 其中 N 为正整数。 5. 根据权利要求 1 所述的方法, 其特征在于, 从各个第二语言检。
6、索结果页面中提取第 二语言候选页面的步骤包括 : 将所述第一语言页面的标题翻译为第二语言标题 ; 将所述第二语言标题作为搜索词进行搜索, 得到搜索结果, 并确定各个第二语言检索 结果页面在所述搜索结果中的排名, 将排名位于前 N 位的第二语言检索结果页面确定为第 二语言候选页面, 其中 N 为正整数。 6. 根据权利要求 1 所述的方法, 其特征在于, 从各个第二语言检索结果页面中提取第 二语言候选页面的步骤包括 : 将所述第一语言页面翻译为第二语言对比页面 ; 分别统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的 数量, 并将包含的与所述第二语言对比页面相同的词语的数量从。
7、大到小排列在前 N 位的第 二语言检索结果页面确定为第二语言候选页面, 或者将包含的与所述第二语言对比页面相 同的词语的数量占自身页面所有词语的数量的比例从大到小排列在前 N 位的第二语言检 索结果页面确定为第二语言候选页面, 其中 N 为正整数。 7. 根据权利要求 6 所述的方法, 其特征在于, 在统计各个第二语言检索结果页面包含 权 利 要 求 书 CN 102982030 A 2 2/4 页 3 的与所述第二语言对比页面相同的词语的数量之前进一步包括对所述第二语言对比页面 和各个第二语言检索结果页面进行预处理, 所述预处理包括分词、 词形还原或去除停用词。 8. 根据权利要求 1 所述。
8、的方法, 其特征在于, 从各个第二语言检索结果页面中提取第 二语言候选页面的步骤包括 : 分别计算各个第二语言检索结果页面与所述第一语言页面的主题相似度, 将主题相似 度排名位于前 N 位的第二语言检索结果页面确定为第二语言候选页面, 其中 N 为正整数。 9. 根据权利要求 1 所述的方法, 其特征在于, 针对所述第一语言页面中的第一语言句 子, 从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子的步骤包括 : 针对所述第一语言页面中的每个第一语言句子, 分别计算该第一语言句子与所述第二 语言候选页面中的各个第二语言句子之间的相似度, 并判断该第一语言句子与各个第二语 言句子之间。
9、的相似度中的最大值是否大于设定阈值, 如果是, 则将该最大值对应的第二语 言句子确定为与该第一语言句子匹配的第二语言句子, 其中该第一语言句子与各个第二语 言句子之间的相似度由该第一语言句子中的各个可译词的权重之和决定, 所述可译词是在 对应的第二语言句子中存在相应翻译词的词语。 10. 根据权利要求 9 所述的方法, 其特征在于, 在计算包含表示命名实体、 时间或数量 的特定可译词的第一语言句子与各个第二语言句子之间的相似度时, 对所述特定可译词的 权重进行加权。 11. 根据权利要求 1 所述的方法, 其特征在于, 在利用提取的第二语言句子形成最终网 页的步骤中, 将提取的各个第二语言句子。
10、按照与该第二语言句子对应的第一语言句子在所 述第一语言页面中出现的顺序排列以形成最终网页。 12. 一种自动生成网页的装置, 其特征在于, 所述装置包括 : 检索词生成单元, 用于根据第一语言页面生成第一语言检索词 ; 检索单元, 用于将所述第一语言检索词翻译成第二语言检索词, 并使用所述第二语言 检索词在第二语言页面集合中进行检索 ; 候选页面抽取单元, 用于从各个第二语言检索结果页面中提取第二语言候选页面 ; 匹配句子抽取单元, 用于针对所述第一语言页面中的第一语言句子, 从所述第二语言 候选页面中提取与该第一语言句子匹配的第二语言句子 ; 网页生成单元, 用于利用提取的第二语言句子生成最。
11、终网页。 13. 根据权利要求 12 所述的装置, 其特征在于, 所述检索词生成单元将第一语言页面 的标题与所述第一语言页面上各段落的标题名组合形成第一语言检索词 ; 或者, 所述检索 词单元将第一语言页面的标题与所述第一语言页面上为半结构化数据设置的数据标签名 称组合形成第一语言检索词 ; 或者, 所述检索词生成单元将第一语言页面中出现频率最高 的N个词或出现频率最低的N个词作为第一语言检索词 ; 或者, 所述检索词生成单元将第一 语言页面中词频 - 反文档频率值最高的 N 个词或词频 - 反文档频率值最低的 N 个词作为第 一语言检索词 ; 或者, 所述检索词生成单元将第一语言页面中的命名。
12、实体作为第一语言检 索词, 其中 N 为正整数。 14. 根据权利要求 12 所述的装置, 其特征在于, 所述候选页面抽取单元包括 : 第一翻译子单元, 用于将所述第一语言页面的标题翻译为第二语言标题 ; 第一确定子单元, 用于从各个第二语言检索结果页面中选择标题与所述第二语言标题 权 利 要 求 书 CN 102982030 A 3 3/4 页 4 匹配的第二语言检索结果页面作为第二语言候选页面。 15. 根据权利要求 12 所述的装置, 其特征在于, 所述候选页面抽取单元包括 : 第二翻译子单元, 用于将所述第一语言页面的标题翻译为第二语言标题 ; 第二确定子单元, 用于分别统计所述第二语。
13、言标题在各个第二语言检索结果页面中出 现的次数, 将所述第二语言标题出现次数从大到小排列在前 N 位的第二语言检索结果页面 确定为第二语言候选页面, 其中 N 为正整数。 16. 根据权利要求 12 所述的装置, 其特征在于, 所述候选页面抽取单元包括 : 第三翻译子单元, 用于将所述第一语言页面的标题翻译为第二语言标题 ; 第三确定子单元, 用于将所述第二语言标题作为搜索词进行搜索, 得到搜索结果, 并确 定各个第二语言检索结果页面在所述搜索结果中的排名, 将排名位于前 N 位的第二语言检 索结果页面确定为第二语言候选页面, 其中 N 为正整数。 17. 根据权利要求 12 所述的装置, 其。
14、特征在于, 所述候选页面抽取单元包括 : 第四翻译子单元, 用于将所述第一语言页面翻译为第二语言对比页面 ; 第四确定子单元, 用于分别统计各个第二语言检索结果页面包含的与所述第二语言对 比页面相同的词语的数量, 并将包含的与所述第二语言对比页面相同的词语的数量从大到 小排列在前 N 位的第二语言检索结果页面确定为第二语言候选页面, 或者将包含的与所述 第二语言对比页面相同的词语的数量占自身页面所有词语的数量的比例从大到小排列在 前 N 位的第二语言检索结果页面确定为第二语言候选页面, 其中 N 为正整数。 18. 根据权利要求 17 所述的装置, 其特征在于, 所述候选页面抽取单元进一步包括。
15、预 处理单元, 用于在统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的 词语的数量之前对所述第二语言对比页面和各个第二语言检索结果页面进行预处理, 所述 预处理包括分词、 词形还原或去除停用词。 19. 根据权利要求 12 所述的装置, 其特征在于, 所述候选页面抽取单元包括 : 第一计算子单元, 用于分别计算各个第二语言检索结果页面与所述第一语言页面的主 题相似度 ; 第五确定子单元, 用于将主题相似度排名位于前 N 位的第二语言检索结果页面确定为 第二语言候选页面, 其中 N 为正整数。 20. 根据权利要求 12 所述的装置, 其特征在于, 所述匹配句子抽取单元包括 : 第。
16、二计算子单元, 用于针对所述第一语言页面上的每个第一语言句子, 分别计算该第 一语言句子与所述第二语言候选页面中的各个第二语言句子之间的相似度, 其中该第一语 言句子与各个第二语言句子之间的相似度由该第一语言句子中的各个可译词的权重之和 决定, 所述可译词是在对应的第二语言句子中存在相应翻译词的词语 ; 判断子单元, 用于判断该第一语言句子与各个第二语言句子之间的相似度中的最大值 是否大于设定阈值, 如果是, 则将该最大值对应的第二语言句子确定为与该第一语言句子 匹配的第二语言句子。 21. 根据权利要求 20 所述的装置, 其特征在于, 所述第二计算子单元在计算包含表示 命名实体、 时间或数。
17、量的特定可译词的第一语言句子与各个第二语言句子之间的相似度 时, 对所述特定可译词的权重进行加权。 22. 根据权利要求 12 所述的装置, 其特征在于, 网页生成单元将提取的各个第二语言 权 利 要 求 书 CN 102982030 A 4 4/4 页 5 句子按照与该第二语言句子对应的第一语言句子在所述第一语言页面中出现的顺序排列 以形成最终网页。 权 利 要 求 书 CN 102982030 A 5 1/10 页 6 一种自动生成网页的方法及装置 【技术领域】 0001 本发明涉及互联网数据处理技术, 特别涉及一种自动生成网页的方法及装置。 【背景技术】 0002 随着网络技术的发展, 。
18、互联网上的各种信息也越来越丰富, 尤其是百科全书类型 的网站, 给人们查找各类信息提供了极大的便利, 例如现有的百度百科、 维基百科、 互动百 科等网站, 都是人们获取各类知识的有力助手。 但是英文的百科网站上的网页内容, 通常很 难让只懂中文的人阅读。以往为了把这些目标用户不能阅读的信息提供给目标用户, 采用 的手段是使用机器翻译的方法, 将这些以目标用户难以识别的语言形式存在的网页内容翻 译为目标用户能够识别的语言形式, 但是由于现有的机器翻译技术的限制, 很难实现在将 源语言的网页翻译为目标语言的网页时, 保证目标语言网页的流畅度和可读性。很多通过 机器翻译得到的目标语言网页, 可读性都。
19、大打折扣, 从而极大地影响了用户对相关信息的 理解。 0003 实际上, 人们在获取百科类信息时, 并不要求信息的绝对完整性, 但是对网页内容 的流畅度和可读性的要求却较高。也就是说, 如果人们希望了解一个介绍歌星迈克尔杰克 逊的英文网页上的内容, 人们并不是要了解这个英文网页上每个字词和句子的含义, 而是 需要了解这个网页的主要信息。 【发明内容】 0004 本发明所要解决的技术问题是提供一种自动生成网页的方法及装置, 以解决现有 技术在利用源语言的网页得到目标语言的网页时存在的难以保证目标语言网页的流畅度 和可读性的缺陷。 0005 本发明为解决技术问题而采用的技术方案是提供一种自动生成网。
20、页的方法, 包 括 : 根据第一语言页面生成第一语言检索词 ; 将所述第一语言检索词翻译成第二语言检索 词, 使用所述第二语言检索词在第二语言页面集合中进行检索, 从各个第二语言检索结果 页面中提取第二语言候选页面 ; 针对所述第一语言页面中的第一语言句子, 从所述第二语 言候选页面中提取与该第一语言句子匹配的第二语言句子, 并利用提取的第二语言句子生 成最终网页。 0006 根据本发明之一优选实施例, 根据第一语言页面生成第一语言检索词的步骤包 括 : 将第一语言页面的标题与所述第一语言页面上各段落的标题名组合形成第一语言检索 词 ; 或者, 将第一语言页面的标题与所述第一语言页面上为半结构。
21、化数据设置的数据标签 名称组合形成第一语言检索词。 0007 根据本发明之一优选实施例, 根据第一语言页面生成第一语言检索词的步骤包 括 : 将第一语言页面中出现频率最高的 N 个词或出现频率最低的 N 个词作为第一语言检索 词 ; 或者, 将第一语言页面中词频-反文档频率值最高的N个词或词频-反文档频率值最低 的 N 个词作为第一语言检索词 ; 或者, 将第一语言页面中的命名实体作为第一语言检索词, 说 明 书 CN 102982030 A 6 2/10 页 7 其中 N 为正整数。 0008 根据本发明之一优选实施例, 从各个第二语言检索结果页面中提取第二语言候选 页面的步骤包括 : 将所。
22、述第一语言页面的标题翻译为第二语言标题 ; 从各个第二语言检索 结果页面中选择标题与所述第二语言标题匹配的第二语言检索结果页面作为第二语言候 选页面。 0009 根据本发明之一优选实施例, 从各个第二语言检索结果页面中提取第二语言候选 页面的步骤包括 : 将所述第一语言页面的标题翻译为第二语言标题 ; 分别统计所述第二语 言标题在各个第二语言检索结果页面中出现的次数, 将所述第二语言标题出现次数从大到 小排列在前 N 位的第二语言检索结果页面确定为第二语言候选页面, 其中 N 为正整数。 0010 根据本发明之一优选实施例, 从各个第二语言检索结果页面中提取第二语言候选 页面的步骤包括 : 将。
23、所述第一语言页面的标题翻译为第二语言标题 ; 将所述第二语言标题 作为搜索词进行搜索, 得到搜索结果, 并确定各个第二语言检索结果页面在所述搜索结果 中的排名, 将排名位于前N位的第二语言检索结果页面确定为第二语言候选页面, 其中N为 正整数。 0011 根据本发明之一优选实施例, 从各个第二语言检索结果页面中提取第二语言候选 页面的步骤包括 : 将所述第一语言页面翻译为第二语言对比页面 ; 分别统计各个第二语言 检索结果页面包含的与所述第二语言对比页面相同的词语的数量, 并将包含的与所述第二 语言对比页面相同的词语的数量从大到小排列在前 N 位的第二语言检索结果页面确定为 第二语言候选页面,。
24、 或者将包含的与所述第二语言对比页面相同的词语的数量占自身页面 所有词语的数量的比例从大到小排列在前 N 位的第二语言检索结果页面确定为第二语言 候选页面, 其中 N 为正整数。 0012 根据本发明之一优选实施例, 在统计各个第二语言检索结果页面包含的与所述第 二语言对比页面相同的词语的数量之前进一步包括对所述第二语言对比页面和各个第二 语言检索结果页面进行预处理, 所述预处理包括分词、 词形还原或去除停用词。 0013 根据本发明之一优选实施例, 从各个第二语言检索结果页面中提取第二语言候选 页面的步骤包括 : 分别计算各个第二语言检索结果页面与所述第一语言页面的主题相似 度, 将主题相似。
25、度排名位于前 N 位的第二语言检索结果页面确定为第二语言候选页面, 其 中 N 为正整数。 0014 根据本发明之一优选实施例, 针对所述第一语言页面中的第一语言句子, 从所述 第二语言候选页面中提取与该第一语言句子匹配的第二语言句子的步骤包括 : 针对所述第 一语言页面中的每个第一语言句子, 分别计算该第一语言句子与所述第二语言候选页面中 的各个第二语言句子之间的相似度, 并判断该第一语言句子与各个第二语言句子之间的相 似度中的最大值是否大于设定阈值, 如果是, 则将该最大值对应的第二语言句子确定为与 该第一语言句子匹配的第二语言句子, 其中该第一语言句子与各个第二语言句子之间的相 似度由该。
26、第一语言句子中的各个可译词的权重之和决定, 所述可译词是在对应的第二语言 句子中存在相应翻译词的词语。 0015 根据本发明之一优选实施例, 在计算包含表示命名实体、 时间或数量的特定可译 词的第一语言句子与各个第二语言句子之间的相似度时, 对所述特定可译词的权重进行加 权。 说 明 书 CN 102982030 A 7 3/10 页 8 0016 根据本发明之一优选实施例, 在利用提取的第二语言句子形成最终网页的步骤 中, 将提取的各个第二语言句子按照与该第二语言句子对应的第一语言句子在所述第一语 言页面中出现的顺序排列以形成最终网页。 0017 本发明还提供了一种自动生成网页的装置, 包括。
27、 : 检索词生成单元, 用于根据第一 语言页面生成第一语言检索词 ; 检索单元, 用于将所述第一语言检索词翻译成第二语言检 索词, 并使用所述第二语言检索词在第二语言页面集合中进行检索 ; 候选页面抽取单元, 用 于从各个第二语言检索结果页面中提取第二语言候选页面 ; 匹配句子抽取单元, 用于针对 所述第一语言页面中的第一语言句子, 从所述第二语言候选页面中提取与该第一语言句子 匹配的第二语言句子 ; 网页生成单元, 用于利用提取的第二语言句子生成最终网页。 0018 根据本发明之一优选实施例, 所述检索词生成单元将第一语言页面的标题与所述 第一语言页面上各段落的标题名组合形成第一语言检索词 。
28、; 或者, 所述检索词单元将第一 语言页面的标题与所述第一语言页面上为半结构化数据设置的数据标签名称组合形成第 一语言检索词。 0019 根据本发明之一优选实施例, 所述检索词生成单元将第一语言页面中出现频率最 高的N个词或出现频率最低的N个词作为第一语言检索词 ; 或者, 所述检索词生成单元将第 一语言页面中词频 - 反文档频率值最高的 N 个词或词频 - 反文档频率值最低的 N 个词作为 第一语言检索词 ; 或者, 所述检索词生成单元将第一语言页面中的命名实体作为第一语言 检索词, 其中 N 为正整数。 0020 根据本发明之一优选实施例, 所述候选页面抽取单元包括 : 第一翻译子单元, 。
29、用于 将所述第一语言页面的标题翻译为第二语言标题 ; 第一确定子单元, 用于从各个第二语言 检索结果页面中选择标题与所述第二语言标题匹配的第二语言检索结果页面作为第二语 言候选页面。 0021 根据本发明之一优选实施例, 所述候选页面抽取单元包括 : 第二翻译子单元, 用于 将所述第一语言页面的标题翻译为第二语言标题 ; 第二确定子单元, 用于分别统计所述第 二语言标题在各个第二语言检索结果页面中出现的次数, 将所述第二语言标题出现次数从 大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面, 其中N为正整数。 0022 根据本发明之一优选实施例, 所述候选页面抽取单元包括 : 第三。
30、翻译子单元, 用于 将所述第一语言页面的标题翻译为第二语言标题 ; 第三确定子单元, 用于将所述第二语言 标题作为搜索词进行搜索, 得到搜索结果, 并确定各个第二语言检索结果页面在所述搜索 结果中的排名, 将排名位于前 N 位的第二语言检索结果页面确定为第二语言候选页面, 其 中 N 为正整数。 0023 根据本发明之一优选实施例, 所述候选页面抽取单元包括 : 第四翻译子单元, 用于 将所述第一语言页面翻译为第二语言对比页面 ; 第四确定子单元, 用于分别统计各个第二 语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量, 并将包含的与所述 第二语言对比页面相同的词语的数量从大到小排。
31、列在前 N 位的第二语言检索结果页面确 定为第二语言候选页面, 或者将包含的与所述第二语言对比页面相同的词语的数量占自身 页面所有词语的数量的比例从大到小排列在前 N 位的第二语言检索结果页面确定为第二 语言候选页面, 其中 N 为正整数。 0024 根据本发明之一优选实施例, 所述候选页面抽取单元进一步包括预处理单元, 用 说 明 书 CN 102982030 A 8 4/10 页 9 于在统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量 之前对所述第二语言对比页面和各个第二语言检索结果页面进行预处理, 所述预处理包括 分词、 词形还原或去除停用词。 0025 根据本。
32、发明之一优选实施例, 所述候选页面抽取单元包括 : 第一计算子单元, 用 于分别计算各个第二语言检索结果页面与所述第一语言页面的主题相似度 ; 第五确定子 单元, 用于将主题相似度排名位于前 N 位的第二语言检索结果页面确定为第二语言候选页 面, 其中 N 为正整数。 0026 根据本发明之一优选实施例, 所述匹配句子抽取单元包括 : 第二计算子单元, 用于 针对所述第一语言页面上的每个第一语言句子, 分别计算该第一语言句子与所述第二语言 候选页面中的各个第二语言句子之间的相似度, 其中该第一语言句子与各个第二语言句子 之间的相似度由该第一语言句子中的各个可译词的权重之和决定, 所述可译词是在。
33、对应的 第二语言句子中存在相应翻译词的词语 ; 判断子单元, 用于判断该第一语言句子与各个第 二语言句子之间的相似度中的最大值是否大于设定阈值, 如果是, 则将该最大值对应的第 二语言句子确定为与该第一语言句子匹配的第二语言句子。 0027 根据本发明之一优选实施例, 所述第二计算子单元在计算包含表示命名实体、 时 间或数量的特定可译词的第一语言句子与各个第二语言句子之间的相似度时, 对所述特定 可译词的权重进行加权。 0028 根据本发明之一优选实施例, 网页生成单元将提取的各个第二语言句子按照与该 第二语言句子对应的第一语言句子在所述第一语言页面中出现的顺序排列以形成最终网 页。 0029。
34、 由以上技术方案可以看出, 通过本发明中从目标语言网站上提取与源语言网页主 题相关的目标语言网页, 并从目标语言网页中提取出与源语言网页中的句子含义一致的目 标语言句子, 可以在保留源语言网页的主要信息的基础上, 根据源语言网页自动生成流畅 性高、 可读性强的目标语言网页。 【附图说明】 0030 图 1 为本发明中自动生成网页的方法的流程示意图 ; 0031 图 2 为本发明中第一语言网页的示意图 ; 0032 图 3 为本发明中数据标签的示意图 ; 0033 图 4 为本发明中自动生成网页的装置的结构示意框图。 【具体实施方式】 0034 为了使本发明的目的、 技术方案和优点更加清楚, 下。
35、面结合附图和具体实施例对 本发明进行详细描述。 0035 请参考图 1, 图 1 为本发明中自动生成网页的方法的流程示意图。如图 1 所示, 所 述方法包括 : 0036 步骤 S101 : 根据第一语言页面生成第一语言检索词。 0037 步骤 S102 : 将第一语言检索词翻译成第二语言检索词, 使用第二语言检索词在第 二语言页面集合中进行检索, 从各个第二语言检索结果页面中提取第二语言候选页面。 说 明 书 CN 102982030 A 9 5/10 页 10 0038 步骤 S103 : 针对第一语言页面中的第一语言句子, 从第二语言候选页面中提取与 该第一语言句子匹配的第二语言句子, 。
36、并利用提取的第二语言句子生成最终网页。 0039 下面对上述步骤进行具体说明。 0040 在本发明的实施例中, 第一语言网页可以是百科类型的网页。百科类型的网页是 指来源于百科网站或类似于百科网站中的网页结构的网页。 本发明中的百科网站是指诸如 百度百科、 维基百科或互动百科一类的网站。请参考图 2, 图 2 为本发明中第一语言网页的 示意图。图 2 中,“阿尔金山脉” 是第一语言页面的标题, 该标题表明了网页的主题, 在本发 明的一个实施例中, 可以由第一语言页面的标题与各段落的标题名组合形成第一语言检索 词。例如图 2 中,“地理概述” 、“自然特征” 及 “主要资源” 就是各段落的标题名。
37、, 因此第一检 索词可以是 “阿尔金山脉 + 地理概述” 、“阿尔金山脉 + 自然特征” 或 “阿尔金山脉 + 主要资 源” 。此外, 在另一个实施例中, 第一语言检索词也可以是第一语言页面的标题与页面上为 半结构化数据设置的数据标签名称的组合。百科网站大多对词条数据进行了组织, 对一个 词条从各个不同角度进行介绍, 这种在一个主题下形成的各个不同维度的数据就是半结构 化的数据。通常百科页面上为这些半结构化的数据设置有数据标签, 数据标签名称是对半 结构化数据各个维度的介绍的概括。请参考图 3, 图 3 为本发明中数据标签的示意图。在图 3 中的右侧的词条目录就是数据标签,“制作方法” 、“分。
38、辨方法” 、“假钞危害” 等等, 是数据标 签名称, 因此将标题 “假钞” 与上述数据标签名称组合, 也可以得到本发明中的第一语言检 索词。 0041 此外, 第一语言检索词也可以是第一语言页面中出现频率最高的 N 个词或 出现频率最低的 N 个词, 或者是第一语言页面中词频 - 反文档频率 (TF-IDF, term frequency-inverse document frequency) 值最高的 N 个词或词频 - 反文档频率值最低的 N 个词, 或者是第一语言页面中的命名实体, 其中 N 为正整数。 0042 假设第一语言页面是一个以歌星 “Michael Jackson” 为标题的。
39、英文页面, 第一语 言检索词包括 :“Michael Jackson+Life and career” 、“Michael Jackson +Artistry” 或 “Michael Jackson+Honors and awards” 等, 那么如果第二语言是中文, 则第二语言检索词 包括 “迈克尔杰克逊 + 生平” 、“迈克尔杰克逊 + 艺术成就” 或 “迈克尔杰克逊 + 荣誉” 等。 利用上述的第二语言检索词在互联网上进行检索, 可以得到包含上述第二语言检索词的检 索结果页面。这些页面中, 有些页面的内容是与希望获取的歌星 “迈克尔杰克逊” 的经历相 关的, 但是有些页面虽然包含了 “迈。
40、克尔杰克逊” , 却很可能只是为了介绍一场音乐演出, 因 此, 本发明需要从这些检索结果页面中提取出与第一语言页面主题相关的页面作为第二语 言候选页面。 0043 在本发明的一些实施例中, 提取第二语言候选页面的方法首先包括 : 将第一语言 页面的标题翻译为第二语言标题, 例如将 “Michael Jackson” 翻译为 “迈克尔杰克逊” , 然后 在一个实施例中, 提取第二语言候选页面的方法进一步包括 : 从各个第二语言检索结果页 面中选择标题与第二语言标题匹配的第二语言检索结果页面作为第二语言候选页面。 例如 从上述包含 “迈克尔杰克逊” 的检索结果页面中选择那些标题为 “迈克尔杰克逊”。
41、 的页面为 第二语言候选页面。 0044 在本发明的另一个实施例中, 提取第二语言候选页面的方法还可以是 : 在将第一 语言页面的标题翻译为第二语言标题后, 分别统计第二语言标题在各个第二语言检索结果 说 明 书 CN 102982030 A 10 6/10 页 11 页面中出现的次数, 将第二语言标题出现次数从大到小排列在前 N 位的第二语言检索结果 页面确定为第二语言候选页面, 其中 N 为正整数。 0045 在本发明的另一个实施例中, 提取第二语言候选页面的方法还可以是 : 在将第一 语言页面的标题翻译为第二语言标题后, 将第二语言标题作为搜索词进行搜索, 得到搜索 结果, 并确定各个第。
42、二语言检索结果页面在该搜索结果中的排名, 将排名位于前 N 位的第 二语言检索结果页面确定为第二语言候选页面, 其中 N 为正整数。在该实施例中利用了搜 索工具的排序功能, 根据搜索工具返回的搜索结果的排序情况确定各个第二语言检索结果 页面与第一语言页面的主题的相关度。 0046 在本发明的另一个实施例中, 提取第二语言候选页面的方法还可以是 : 将第一语 言页面翻译为第二语言对比页面 ; 分别统计各个第二语言检索结果页面包含的与第二语言 对比页面相同的词语的数量, 包含与第二语言对比页面相同的词语的数量最高的 N 个第二 语言检索结果页面即为第二语言候选页面。此外, 也可以考虑将第二语言检索。
43、结果页面包 含的与第二语言对比页面相同的词语的数量占自身网页所有词语数量的比例作为选取第 二语言候选页面的依据, 因为这个比例越高, 说明这个第二语言检索结果页面与第一语言 页面越相关。 0047 在该实施例中, 在统计各个第二语言检索结果页面包含的与第二语言对比页面相 同的词语的数量之前还可以进一步对第二语言对比页面和各个第二语言检索结果页面进 行预处理, 包括分词、 词形还原或去除停用词等。 词形还原是指将一个语言中同一个词的各 个时态转变为它的原形, 而停用词指的是虚词一类的无意义词语, 例如 “啊” 、“呜呼” 等, 或 者一些常用词, 例如代词 “你” 、“我” 、“他” 等。 00。
44、48 在本发明的另一个实施例中, 提取第二语言候选页面的方法还可以是 : 利用概 率 潜 在 语 义 分 析 (PLSA, Probabilistic latent semantic analysis) 或 LDA(Latent Dirichlet Allocation) 的方法分别计算各个第二语言检索结果页面与第一语言页面的主 题相似度, 将主题相似度排名位于前 N 位的第二语言检索结果页面确定为第二语言候选页 面, 其中 N 为正整数。 0049 PLSA 和 LDA 是目前研究较多而且效果较好的两个主题模型 (topic model)。这些 模型旨在找出文档的主题 (topic)。以 P。
45、LSA 方法为例, 通过参考文献 : Duo Zhang, Qiaozhu Mei, ChengXiang Zhai.2010.Cross-Lingual Latent Topic Extraction, Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, pages 1128-1137, 2010( 下称参考文献 1) 介绍的方法从一个双语语料中找到 N 个跨语言的主题, 因此对每个文档, 可以用跨语言的主题表示为 : 0050 0051 其中, 表示第 i 种语言中。
46、的第 j 个文档,(1 i N) 表示属于主题 ti的概率。因此, 两个文档的相似度就可以表示为 : 0052 0053 其中, 函数 f() 可以表示为 cosine 函数、 Dice-coefficient 等。以 cosine 函 数为例, 任意两个文档之间的相似度为 : 说 明 书 CN 102982030 A 11 7/10 页 12 0054 0055 0056 在得到第二语言候选页面后, 在步骤 S103 中, 就可以利用第二语言候选页面和第 一语言页面, 生成一个新的第二语言页面。 0057 具体的做法是 : 针对第一语言页面中的每个第一语言句子, 分别计算该第一语言 句子与第。
47、二语言候选页面中的各个第二语言句子之间的相似度, 并判断该第一语言句子与 各个第二语言句子之间的相似度中的最大值是否大于设定阈值, 如果是, 则将该最大值对 应的第二语言句子确定为与该第一语言句子匹配的第二语言句子, 利用提取的第二语言句 子生成一个新的第二语言页面。 0058 第一语言句子与各个第二语言句子之间的相似度由第一语言句子中的各个可译 词的权重之和决定, 其中可译词是指在对应的第二语言句子中存在相应翻译词的词语。以 公式表示如下 : 0059 0060 其中S为相似度, n为第一语言句子包含的词语个数, weight(Wi)为第一语言句子 中第 i 个词的权重, f(Wi) 为 0。
48、-1 函数, 其当第一语言句子中的词语 Wi 在第二语言句子中 有相应翻译时取值为 1, 否则为 0。权重 weight(Wi) 可由 TF-IDF 的方法确定, 也可由经验 权值或其他方式确定。 0061 此外, 当一个第一语言句子包含表示命名实体、 时间或数量等特定可译词时, 在计 算该第一语言句子与第二语言句子之间的相似度时, 还可以对这些特定可译词的权重进行 加权处理。因为如果这些信息在第一语言句子和第二语言句子中能进行匹配, 说明这两个 句子表述的内容更加接近。 0062 在本实施例中, 由第一语言句子与第二语言句子之间的相似度来确定最终选取的 第二语言句子时, 如果一个第一语言句子。
49、与所有的第二语言句子的相似度都很低, 则将这 个第一语言句子的信息抛弃, 不提取与之相关的第二语言句子, 否则, 就为这个第一语言句 子提取一个与之相似度最高的第二语言句子作为匹配的第二语言句子。采用这种方法, 可 以在保留第一语言页面绝大多数信息的基础上, 将第一语言页面转化为一个第二语言页 面, 并保证这个第二语言页面的语言流畅度。 0063 在利用提取的第二语言句子生成一个新的第二语言页面时, 可以将提取的各个第 二语言句子按照与该第二语言句子对应的第一语言句子在第一语言页面中出现的顺序排 列, 当然, 也可以采用其他的策略对这些第二语言句子进行重新组织后形成新的第二语言 页面。 0064 请参考图 4, 图 4 为本发明中自动生成网页的装置的结构示意框图。如图 4 所示, 所述装置包括 : 检索词生成单元 201、 检索单元 202、 候选页面抽取单元 203、 匹配句子抽取 说 明 书 CN 102982030 A 12 8/10 页 13 单元 204 及网页生成单元 205。 0065 其中检索词生成单。