基于区块链的侵权检测方法、装置、设备及存储介质.pdf

上传人:七月 文档编号:9365282 上传时间:2021-05-14 格式:PDF 页数:23 大小:598.41KB
收藏 版权申诉 举报 下载
基于区块链的侵权检测方法、装置、设备及存储介质.pdf_第1页
第1页 / 共23页
基于区块链的侵权检测方法、装置、设备及存储介质.pdf_第2页
第2页 / 共23页
基于区块链的侵权检测方法、装置、设备及存储介质.pdf_第3页
第3页 / 共23页
文档描述:

《基于区块链的侵权检测方法、装置、设备及存储介质.pdf》由会员分享,可在线阅读,更多相关《基于区块链的侵权检测方法、装置、设备及存储介质.pdf(23页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010039286.X (22)申请日 2020.01.15 (71)申请人 支付宝 (杭州) 信息技术有限公司 地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-11 (72)发明人 黄凯明杨磊 (74)专利代理机构 北京博思佳知识产权代理有 限公司 11415 代理人 郭思晨 (51)Int.Cl. G06F 16/958(2019.01) G06F 16/35(2019.01) G06F 16/23(2019.01) G06F 16/27(2019。

2、.01) G06F 40/289(2020.01) G06K 9/62(2006.01) G06F 21/10(2013.01) G06Q 50/18(2012.01) (54)发明名称 基于区块链的侵权检测方法、 装置、 设备及 存储介质 (57)摘要 本说明书提出基于区块链的侵权检测方法、 装置、 设备及存储介质, 包括: 确定已登记的原创 作品的作品内容属性和作品内容类型; 在预设的 资源站点列表中, 查找与原创作品的作品内容类 型匹配的至少一个资源站点, 并监测至少一个资 源站点, 在监测到任意资源站点的网页中包含有 所述原创作品的作品内容属性时, 采集网页的网 页内容; 计算对网页内。

3、容进行分词处理得到的待 检测分词向量进行聚类处理得到的第一聚类结 果, 和对原创作品进行分词处理得到的原创分词 向量进行聚类处理得到的第二聚类结果的相似 度, 并基于相似度确定原创作品和网页内容的侵 权相似度; 根据侵权相似度对网页内容和原创作 品进行侵权检测, 并将侵权检测结果发布至区块 链进行存证。 权利要求书2页 说明书17页 附图3页 CN 110851761 A 2020.02.28 CN 110851761 A 1.一种基于区块链的侵权检测方法, 所述方法包括: 确定已登记的原创作品的作品信息; 其中, 所述作品信息包括所述原创作品的作品内 容属性和作品内容类型; 在预设的资源站点。

4、列表中, 查找与所述原创作品的作品内容类型匹配的至少一个资源 站点, 并监测所述至少一个资源站点, 在监测到任意资源站点的网页中包含有所述原创作 品的作品内容属性时, 采集所述网页的网页内容; 计算对所述网页内容进行分词处理得到的待检测分词向量进行聚类处理得到的第一 聚类结果, 和对所述原创作品进行分词处理得到的原创分词向量进行聚类处理得到的第二 聚类结果的相似度, 并基于所述相似度确定所述原创作品和所述网页内容的侵权相似度; 根据所述侵权相似度对所述网页内容和所述原创作品进行侵权检测, 并将侵权检测结 果发布至区块链进行存证。 2.根据权利要求1所述的方法, 所述方法还包括: 将所述网页的网。

5、页内容采集过程发布至所述区块链进行存证。 3.根据权利要求1所述的方法, 所述侵权检测结果包括: 侵权检测计算的计算结果、 和/ 或侵权检测计算的计算过程。 4.根据权利要求1所述的方法, 所述根据所述侵权相似度对所述网页内容和所述原创 作品进行侵权检测, 包括: 若所述侵权相似度超过预设的第一阈值, 则进一步检测所述原创作品和网页内容的文 本相似度是否超过预设的第二阈值; 若超过, 则确定所述网页内容为侵权作品; 若未超过, 则确定所述网页内容不是侵权作品; 若所述侵权相似度不超过预设的第一阈值, 则确定所述网页内容不是侵权作品。 5.根据权利要求1所述的方法, 所述资源站点包括Web站点。。

6、 6.一种基于区块链的侵权检测装置, 所述装置包括: 确定模块, 确定已登记的原创作品的作品信息; 其中, 所述作品信息包括所述原创作品 的作品内容属性和作品内容类型; 采集模块, 在预设的资源站点列表中, 查找与所述原创作品的作品内容类型匹配的至 少一个资源站点, 并监测所述至少一个资源站点, 在监测到任意资源站点的网页中包含有 所述原创作品的作品内容属性时, 采集所述网页的网页内容; 计算模块, 计算对所述网页内容进行分词处理得到的待检测分词向量进行聚类处理得 到的第一聚类结果, 和对所述原创作品进行分词处理得到的原创分词向量进行聚类处理得 到的第二聚类结果的相似度, 并基于所述相似度确定。

7、所述原创作品和所述网页内容的侵权 相似度; 检测模块, 根据所述侵权相似度对所述网页内容和所述原创作品进行侵权检测, 并将 侵权检测结果发布至区块链进行存证。 7.根据权利要求6所述的装置, 所述检测模块, 将所述网页的网页内容采集过程发布至 所述区块链进行存证。 8.根据权利要求6所述的装置, 所述侵权检测结果包括: 侵权检测计算的计算结果、 和/ 或侵权检测计算的计算过程。 9.根据权利要求6所述的装置, 所述检测模块, 若所述侵权相似度超过预设的第一阈 权利要求书 1/2 页 2 CN 110851761 A 2 值, 则进一步检测所述原创作品和网页内容的文本相似度是否超过预设的第二阈值。

8、; 若超 过, 则确定所述网页内容为侵权作品; 若未超过, 则确定所述网页内容不是侵权作品; 若所 述侵权相似度不超过预设的第一阈值, 则确定所述网页内容不是侵权作品。 10.根据权利要求6所述的装置, 所述资源站点包括Web站点。 11.一种电子设备, 包括: 处理器; 用于存储处理器可执行指令的存储器; 其中, 所述处理器通过运行所述可执行指令以实现如权利要求1-5中任一项所述的方 法。 12.一种计算机可读存储介质, 其上存储有计算机指令, 该指令被处理器执行时实现如 权利要求1-5中任一项所述方法的步骤。 权利要求书 2/2 页 3 CN 110851761 A 3 基于区块链的侵权检。

9、测方法、 装置、 设备及存储介质 技术领域 0001 本说明书一个或多个实施例涉及区块链技术领域, 尤其涉及基于区块链的侵权检 测方法、 装置、 设备及存储介质。 背景技术 0002 区块链技术, 也被称之为分布式账本技术, 是一种由若干台计算设备共同参与 “记 账” , 共同维护一份完整的分布式数据库的新兴技术。 由于区块链技术具有去中心化、 公开 透明、 每台计算设备可以参与数据库记录、 并且各计算设备之间可以快速的进行数据同步 的特性, 使得区块链技术已在众多的领域中广泛的进行应用。 发明内容 0003 根据本申请的第一方面, 提供一种基于区块链的侵权检测方法, 所述方法包括: 确定已登。

10、记的原创作品的作品信息; 其中, 所述作品信息包括所述原创作品的作品内 容属性和作品内容类型; 在预设的资源站点列表中, 查找与所述原创作品的作品内容类型匹配的至少一个资源 站点, 并监测所述至少一个资源站点, 在监测到任意资源站点的网页中包含有所述原创作 品的作品内容属性时, 采集所述网页的网页内容; 计算对所述网页内容进行分词处理得到的待检测分词向量进行聚类处理得到的第一 聚类结果, 和对所述原创作品进行分词处理得到的原创分词向量进行聚类处理得到的第二 聚类结果的相似度, 并基于所述相似度确定所述原创作品和所述网页内容的侵权相似度; 根据所述侵权相似度对所述网页内容和所述原创作品进行侵权检。

11、测, 并将侵权检测结 果发布至区块链进行存证。 0004 可选的, 所述方法还包括: 将所述网页的网页内容采集过程发布至所述区块链进行存证。 0005 可选的, 所述侵权检测结果包括: 侵权检测计算的计算结果、 和/或侵权检测计算 的计算过程。 0006 可选的, 所述根据所述侵权相似度对所述网页内容和所述原创作品进行侵权检 测, 包括: 若所述侵权相似度超过预设的第一阈值, 则进一步检测所述原创作品和网页内容的文 本相似度是否超过预设的第二阈值; 若超过, 则确定所述网页内容为侵权作品; 若未超过, 则确定所述网页内容不是侵权作品; 若所述侵权相似度不超过预设的第一阈值, 则确定所述网页内容。

12、不是侵权作品。 0007 可选的, 所述资源站点包括Web站点。 0008 根据本申请的第二方面, 提供一种基于区块链的侵权检测装置, 所述装置包括: 确定模块, 确定已登记的原创作品的作品信息; 其中, 所述作品信息包括所述原创作品 的作品内容属性和作品内容类型; 说明书 1/17 页 4 CN 110851761 A 4 采集模块, 在预设的资源站点列表中, 查找与所述原创作品的作品内容类型匹配的至 少一个资源站点, 并监测所述至少一个资源站点, 在监测到任意资源站点的网页中包含有 所述原创作品的作品内容属性时, 采集所述网页的网页内容; 计算模块, 计算对所述网页内容进行分词处理得到的待。

13、检测分词向量进行聚类处理得 到的第一聚类结果, 和对所述原创作品进行分词处理得到的原创分词向量进行聚类处理得 到的第二聚类结果的相似度, 并基于所述相似度确定所述原创作品和所述网页内容的侵权 相似度; 检测模块, 根据所述侵权相似度对所述网页内容和所述原创作品进行侵权检测, 并将 侵权检测结果发布至区块链进行存证。 0009 可选的, 所述检测模块, 将所述网页的网页内容采集过程发布至所述区块链进行 存证。 0010 可选的, 所述侵权检测结果包括: 侵权检测计算的计算结果、 和/或侵权检测计算 的计算过程。 0011 可选的, 所述检测模块, 若所述侵权相似度超过预设的第一阈值, 则进一步检。

14、测所 述原创作品和网页内容的文本相似度是否超过预设的第二阈值; 若超过, 则确定所述网页 内容为侵权作品; 若未超过, 则确定所述网页内容不是侵权作品; 若所述侵权相似度不超过 预设的第一阈值, 则确定所述网页内容不是侵权作品。 0012 可选的, 所述资源站点包括Web站点。 0013 根据本说明书的第三方面, 本说明书提供一种电子设备, 包括: 处理器; 用于存储处理器可执行指令的存储器; 其中, 所述处理器通过运行所述可执行指令以实现上述基于区块链的侵权检测方法。 0014 根据本说明书的第四方面, 本说明书提供一种计算机可读存储介质, 其上存储有 计算机指令, 该指令被处理器执行时实现。

15、基于区块链的侵权检测方法。 0015 由上述描述可知, 一方面, 由于电子设备可基于已登记的原创作品的作品内容属 性, 主动在全网搜索具有侵权嫌疑的网页内容, 所以可以提高获取侵权嫌疑作品的及时性, 进而提高确定侵权作品的及时性。 0016 另一方面, 由于区块链上存证的数据具有不可篡改的特性, 所以将侵权检测结果 发布至区块链进行存证, 可以防止侵权检测结果被篡改, 保证了侵权检测结果的安全性。 附图说明 0017 图1是本说明书一示例性实施例示出的一种创建智能合约的示意图; 图2是本说明书一示例性实施例示出的一种调用智能合约的示意图; 图3是本说明书一示例性实施例示出的一种创建智能合约和调。

16、用智能合约的示意图; 图4是本说明书一示例性实施例示出的一种基于区块链的侵权检测方法的流程图; 图5是本说明书一示例性实施例示出的一种电子设备的硬件结构图; 图6是本说明书一示例性实施例示出的一种基于区块链的侵权检测装置的框图。 说明书 2/17 页 5 CN 110851761 A 5 具体实施方式 0018 这里将详细地对示例性实施例进行说明, 其示例表示在附图中。 下面的描述涉及 附图时, 除非另有表示, 不同附图中的相同数字表示相同或相似的要素。 以下示例性实施例 中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。 相 反, 它们仅是与如所附权利要求书中所详述的。

17、、 本说明书一个或多个实施例的一些方面相 一致的装置和方法的例子。 0019 需要说明的是: 在其他实施例中并不一定按照本说明书示出和描述的顺序来执行 相应方法的步骤。 在一些其他实施例中, 其方法所包括的步骤可以比本说明书所描述的更 多或更少。 此外, 本说明书中所描述的单个步骤, 在其他实施例中可能被分解为多个步骤进 行描述; 而本说明书中所描述的多个步骤, 在其他实施例中也可能被合并为单个步骤进行 描述。 0020 本申请旨在提出一种基于区块链的侵权检测方法, 电子设备可基于已登记的原创 作品的作品内容属性, 在全网搜索具有侵权嫌疑的网页内容, 并对网页内容和原创作品进 行侵权检测, 并。

18、将检测结果上链。 0021 在实现时, 电子设备可在预设的资源站点列表中, 查找与所述原创作品匹配的至 少一个资源站点, 并监测查找到的至少一个站点, 并在监测到该至少一个站点中的任意站 点的网页中包含有所述原创作品的作品内容属性时, 采集所述网页的网页内容。 电子设备 对所述网页内容与所述原创作品进行侵权检测计算, 并将所述侵权检测结果发布至区块链 进行存证。 0022 一方面, 由于电子设备可基于已登记的原创作品的作品内容属性, 主动在全网搜 索具有侵权嫌疑的网页内容, 所以可以提高获取侵权嫌疑作品的及时性, 进而提高确定侵 权作品的及时性。 0023 另一方面, 由于区块链上存证的数据具。

19、有不可篡改的特性, 所以将侵权检测结果 发布至区块链进行存证, 可以防止侵权检测结果被篡改, 保证了侵权检测结果的安全性。 0024 此外, 在本申请中, 电子设备还可将页面采集过程上链, 从而不仅保证了侵权检测 结果的安全性和可靠性, 还保证了取证过程 (即页面采集过程) 的安全性和可靠性。 0025 在介绍本说明书提供的基于区块链的侵权检测方法之前, 先简单介绍下区块链技 术。 0026 区块链一般被划分为三种类型: 公有链 (Public Blockchain) , 私有链 (Private Blockchain) 和联盟链 (Consortium Blockchain) 。 此外, 还。

20、可以有上述多种类型的结合, 比 如私有链+联盟链、 联盟链+公有链等。 0027 其中, 去中心化程度最高的是公有链。 公有链以比特币、 以太坊为代表, 加入公有 链的参与者 (也可称为区块链中的节点) 可以读取链上的数据记录、 参与交易、 以及竞争新 区块的记账权等。 而且, 各节点可自由加入或者退出网络, 并进行相关操作。 0028 私有链则相反, 该网络的写入权限由某个组织或者机构控制, 数据读取权限受组 织规定。 简单来说, 私有链可以为一个弱中心化系统, 其对节点具有严格限制且节点数量较 少。 这种类型的区块链更适合于特定机构内部使用。 0029 联盟链则是介于公有链以及私有链之间的。

21、区块链, 可实现 “部分去中心化” 。 联盟 链中各个节点通常有与之相对应的实体机构或者组织; 节点通过授权加入网络并组成利益 说明书 3/17 页 6 CN 110851761 A 6 相关联盟, 共同维护区块链运行。 0030 基于区块链的基本特性, 区块链通常是由若干个区块构成。 在这些区块中分别记 录有与该区块的创建时刻对应的时间戳, 所有的区块严格按照区块中记录的时间戳, 构成 一条在时间上有序的数据链条。 0031 对于物理世界产生的真实数据, 可以将其构建成区块链所支持的标准的交易 (transaction) 格式, 然后发布至区块链, 由区块链中的节点设备对收到的交易进行共识处。

22、 理, 并在达成共识后, 由区块链中作为记账节点的节点设备, 将这笔交易打包进区块, 在区 块链中进行持久化存证。 0032 其中, 区块链中支持的共识算法可以包括: 第一类共识算法, 即节点设备需要争夺每一轮的记账周期的记账权的共识算法; 例如, 工作量证明 (Proof of Work, POW) 、 股权证明 (Proof of Stake, POS) 、 委任权益证明 (Delegated Proof of Stake, DPOS) 等共识算法; 第二类共识算法, 即预先为每一轮记账周期选举记账节点 (不需要争夺记账权) 的共识 算法; 例如, 实用拜占庭容错 (Practical B。

23、yzantine Fault Tolerance, PBFT) 等共识算法。 0033 在采用第一类共识算法的区块链网络中, 争夺记账权的节点设备, 都可以在接收 到交易后执行该笔交易。 争夺记账权的节点设备中可能有一个节点设备在本轮争夺记账权 的过程中胜出, 成为记账节点。 记账节点可以将收到的交易与其它交易一起打包以生成最 新区块, 并将生成的最新区块或者该最新区块的区块头发送至其它节点设备进行共识。 0034 在采用第二类共识算法的区块链网络中, 具有记账权的节点设备在本轮记账前已 经商定好。 因此, 节点设备在接收到交易后, 如果自身不是本轮的记账节点, 则可以将该交 易发送至记账节点。

24、。 对于本轮的记账节点, 在将该交易与其它交易一起打包以生成最新区 块的过程中或者之前, 可以执行该交易。 记账节点在生成最新区块后, 可以将该最新区块或 者该最新区块的区块头发送至其它节点设备进行共识。 0035 如上所述, 无论区块链采用以上示出的哪种共识算法, 本轮的记账节点都可以将 接收到的交易打包以生成最新区块, 并将生成的最新区块或者该最新区块的区块头发送至 其它节点设备进行共识验证。 如果其它节点设备接收到最新区块或者该最新区块的区块头 后, 经验证没有问题, 可以将该最新区块追加到原有的区块链末尾, 从而完成区块链的记账 过程。 其它节点验证记账节点发来的新的区块或区块头的过程。

25、中, 也可以执行该区块中的 包含的交易。 0036 在实际应用中, 不论是公有链、 私有链还是联盟链, 都可能提供智能合约 (Smart contract) 的功能。 区块链上的智能合约是在区块链上可以被交易触发执行的合约。 智能合 约可以通过代码的形式定义。 0037 以以太坊为例, 支持用户在以太坊网络中创建并调用一些复杂的逻辑。 以太坊作 为一个可编程区块链, 其核心是以太坊虚拟机 (EVM) , 每个以太坊节点都可以运行EVM。 EVM 是一个图灵完备的虚拟机, 通过它可以实现各种复杂的逻辑。 用户在以太坊中发布和调用 智能合约就是在EVM上运行的。 实际上, EVM直接运行的是虚拟机。

26、代码 (虚拟机字节码, 下简 称 “字节码” ) , 所以部署在区块链上的智能合约可以是字节码。 如图3所示, Bob将一笔包含 创建智能合约信息的交易 (Transaction) 发送到以太坊网络后, 各节点均可以在EVM中执行 这笔交易。 其中, 图1中交易的From字段用于记录发起创建智能合约的账户的地址, 交易的 说明书 4/17 页 7 CN 110851761 A 7 Data字段的字段值保存的合约代码可以是字节码, 交易的To字段的字段值为一个null (空) 的账户。 当节点间通过共识机制达成一致后, 这个智能合约成功创建, 后续用户可以调用这 个智能合约。 0038 智能合约。

27、创建后, 区块链上出现一个与该智能合约对应的合约账户, 并拥有一个 特定的地址; 比如, 图1中各节点中的 “0 x68e12cf284” 就代表了创建的这个合约账户的地 址; 合约代码 (Code) 和账户存储 (Storage) 将保存在该合约账户的账户存储中。 智能合约的 行为由合约代码控制, 而智能合约的账户存储则保存了合约的状态。 换句话说, 智能合约使 得区块链上产生包含合约代码和账户存储的虚拟账户。 0039 前述提到, 包含创建智能合约的交易的Data字段保存的可以是该智能合约的字节 码。 字节码由一连串的字节组成, 每一字节可以标识一个操作。 基于开发效率、 可读性等多 方面。

28、考虑, 开发者可以不直接书写字节码, 而是选择一门高级语言编写智能合约代码。 例 如, 高级语言可以采用诸如Solidity、 Serpent、 LLL语言等。 对于采用高级语言编写的智能 合约代码, 可以经过编译器编译, 生成可以部署到区块链上的字节码。 0040 以Solidity语言为例, 用其编写的合约代码与面向对象编程语言中的类 (Class) 很相似, 在一个合约中可以声明多种成员, 包括状态变量、 函数、 函数修改器、 事件等。 状态 变量是永久存储在智能合约的账户存储 (Storage) 字段中的值, 用于保存合约的状态。 0041 如图2所示, 仍以以太坊为例, Bob将一笔。

29、包含调用智能合约信息的交易发送到以 太坊网络后, 各节点均可以在EVM中执行这笔交易。 其中, 图2中交易的From字段用于记录发 起调用智能合约的账户的地址, To字段用于记录被调用的智能合约的地址, 交易的Data字 段用于记录调用智能合约的方法和参数。 调用智能合约后, 合约账户的账户状态可能改变。 后续, 某个客户端可以通过接入的区块链节点 (例如图2中的节点1) 查看合约账户的账户状 态。 0042 智能合约可以以规定的方式在区块链网络中每个节点独立的执行, 所有执行记录 和数据都保存在区块链上, 所以当这样的交易执行完毕后, 区块链上就保存了无法篡改、 不 会丢失的交易凭证。 00。

30、43 创建智能合约和调用智能合约的示意图如图3所示。 以太坊中要创建一个智能合 约, 需要经过编写智能合约、 变成字节码、 部署到区块链等过程。 以太坊中调用智能合约, 是 发起一笔指向智能合约地址的交易, 各个节点的EVM可以分别执行该交易, 将智能合约代码 分布式的运行在以太坊网络中每个节点的虚拟机中。 0044 在介绍完上述区块链技术, 下面介绍下本申请提供的基于区块链的侵权检测方 法。 0045 当原创作品和网页内容为文本作品时, 可采用图4所示的基于区块链的侵权检测 方法。 0046 参见图4, 图4是本说明书一示例性实施例示出的一种基于区块链的侵权检测方法 的流程图, 该方法可应用。

31、在电子设备上, 可包括如下所述步骤。 0047 步骤402: 电子设备确定已登记的原创作品的作品信息; 其中, 所述作品信息包括 所述原创作品的作品内容属性和作品内容类型; 步骤404: 电子设备在预设的资源站点列表中, 查找与所述原创作品的作品内容类型匹 配的至少一个资源站点, 并监测所述至少一个资源站点, 在监测到任意资源站点的网页中 说明书 5/17 页 8 CN 110851761 A 8 包含有所述原创作品的作品内容属性时, 采集所述网页的网页内容; 步骤406: 电子设备计算对所述网页内容进行分词处理得到的待检测分词向量进行聚 类处理得到的第一聚类结果, 和对所述原创作品进行分词处。

32、理得到的原创分词向量进行聚 类处理得到的第二聚类结果的相似度, 并基于所述相似度确定所述原创作品和所述网页内 容的侵权相似度。 0048 步骤408: 电子设备根据所述侵权相似度对所述网页内容和所述原创作品进行侵 权检测, 并将侵权检测结果发布至区块链进行存证。 0049 其中, 上述作品信息为与作品相关的信息, 该作品信息可包括: 作品内容属性和作 品内容类型。 当然, 该作品信息还可包括其他内容, 这里只是示例性地说明, 不对其进行具 体地限定。 0050 上述作品内容属性可包括原创作品的作者、 关键词、 作品摘要、 作品内容类型等 等。 这里只是对作品内容属性进行示例性地说明, 不对其进。

33、行具体地限定。 0051 上述作品内容类型, 用于表达作品内容的类别。 比如该作品内容类别为小说类、 散 文类、 新闻类、 时事评论类、 娱乐类等等。 这里只是对作品内容类型进行示例性地说明, 不对 其进行具体地限定。 0052 上述资源站点可包括: 网站, 应用软件, 网站或者应用软件提供的各种服务, 比如 小程序服务、 小应用服务, 公众号等。 这里只是对资源站点进行示例性地说明, 不对其进行 具体地限定。 例如, 上述资源站点可包括Web站点等。 这里只是对资源站点进行示例性地说 明, 不对其进行具体地限定。 0053 此外, 还需要说明的是, 电子设备可在接收到用户触发的侵权检测指令时。

34、, 执行上 述步骤402至步骤408的流程。 当然, 在实际应用中, 电子设备还可周期性地执行上述步骤 402至步骤408的流程。 这里只是对触发本申请提供的侵权检测方法的示例性说明, 不对其 进行具体地限定。 0054 下面对上述步骤402至步骤408中的各步骤进行详细地说明。 0055 步骤402: 电子设备确定已登记的原创作品的作品信息; 其中, 所述作品信息包括 所述原创作品的作品内容属性和作品内容类型。 0056 在实现时, 当作者完成原创作品的创作后, 通常会在登记平台登记原创作品。 当作 者完成原创作品的登记后, 登记平台可将该原创作品和该原创作品的作品信息上传至原创 作品数据库。

35、中。 0057 其中, 与该原创作品的作品信息可包括: 原创作品的作品内容属性、 原创作品的作 品内容类型等。 这里只是对原创作品的相关信息进行示例性地说明, 不对其进行具体地限 定。 0058 例如, 例如, 作者在登记平台上完成一部小说作品的登记后。 登记平台通常会将该 小说作品、 小说作品的作者、 摘要、 关键词等作为作品内容属性以及该小说作品的作品内容 类型 (比如历史类小说) 等信息上传至原创作品库中。 0059 在确定已登记的原创作品的作品信息时, 电子设备可确定原创作品的作品内容属 性和作品内容类型。 0060 1、 确定原创作品的作品属性 在确定原创作品的作品内容属性时, 电子。

36、设备可从原创作品库中查找该与该原创作品 说明书 6/17 页 9 CN 110851761 A 9 对应的作品内容属性。 0061 若该原创作品库中记录了与该原创作品对应的作品内容属性, 则读取该原创作品 库中记录的该原创作品对应的作品内容属性。 0062 若该原创作品库中未记录与该原创作品对应的作品内容属性, 则从原创作品中识 别出该原创作品的作品内容属性。 0063 例如, 电子设备步骤A1至步骤A2实现从原创作品中识别出作品内容属性: 步骤A1: 电子设备可采用预设的分词技术, 对原创作品进行分词处理, 得到多个分词。 0064 其中, 预设的分词技术可包括: 基于字典、 词库匹配的分词。

37、方法、 基于词频度统计 的分词方法和基于规则的分词方法等。 0065 其中, 上述基于字典、 词库匹配的分词方法是指: 按照预设策略将文本切分为多个 字符串, 将每个字符串与字典或者词库进行匹配, 若匹配成功, 则确定该字符串匹配到的字 典或者词库中的词作为识别出的一个分词。 基于字典、 词库匹配的分词方法可包括: MM (Maximum Matching Method, 最大正向匹配) , RMM (ReverseMaximum Matching Method, ) 、 最小切分法和双向匹配法等。 0066 上述基于词频度统计的分词方法不依赖字典或词库, 而是统计文本中任意两个字 同时出现的。

38、频率。 两个字同时出现的频率越高, 这两个字组成一个词的可能性越大。 具体 地, 可将文本进行全切分, 然后在全切分的基础上统计相邻的字同时出现频率, 基于频率对 文本进行分词。 实现该基于词频度统计的分词方法的模型可包括: N元文法模型 (N-gram) 、 隐马尔科夫模型等, 这里只是对该模型进行示例性地说明, 不对其进行具体地限定。 0067 上述基于规则的分词方法主要基于句法、 语法分析, 并结合语义分析, 通过对上下 文内容所提供信息的分析对词进行界定, 从而达到分词的目的。 0068 上述只是对分词方法进行示例性地说明, 在实际应用中, 电子设备还可采用其他 分词方法, 这里不对分。

39、词方法进行具体地限定。 0069 步骤A2: 电子设备可从得到的多个分词中筛选出表达原创作品特征的若干分词, 作为原创作品的作品内容属性。 0070 例如, 电子设备可以统计各个分词在原创作品中出现的次数, 选择出现次数高于 预设阈值的分词作为关键词, 作为表达原创作品特征的若干分词。 这里只是对 “从得到的多 个分词中筛选出表达原创作品特征的若干分词” 进行示例地说明, 不对其进行具体地限定。 0071 2、 确定原创作品的作品内容类型 在本说明书实施例中, 在获取原创作品的作品内容类型时, 电子设备可在原创作品数 据库中查找是否存在该原创作品的作品内容类型。 若存在, 则读取该原创作品的作。

40、品内容 类型。 若不存在, 则基于上述确定出的原创作品的作品内容属性, 确定原创作品的作品内容 类型。 0072 在基于上述确定出的原创作品的作品内容属性, 确定原创作品的作品内容类型 时, 电子设备可将原创作品的作品内容属性输入至已训练好的分类模型中, 以由分类模型 基于该原创作品的作品内容属性, 识别原创作品的作品内容类型。 0073 电子设备可接收所述分类模型输出的至少一个作品内容类型及其对应的概率值, 并选择概率值最大的作品内容类型作为该原创作品的作品内容类型。 当然, 电子设备也可 以选择概率值大于预设阈值的至少一个作品内容类型作为该原创作品的作品内容类型。 说明书 7/17 页 1。

41、0 CN 110851761 A 10 0074 该已训练的分类模型是由大量的样本标签对训练而成的。 每一个样本标签对中的 样本为作品的作品内容属性、 标签为该作品的作品内容类型。 0075 其中, 该已训练的分类模型可以由LightGBM (Light Gradient Boosting Machine , 轻量级梯度推进机) 搭建而成 , 当然该成交时间预测模型还可以是BP (BackPropagation, 反向传播) 网络的分类模型、 SVM (Support Vector Machine, 支持向量 机) 、 逻辑回归模型, 随机森林搭建而成, 这里不进行具体地限定。 0076 步骤。

42、404: 电子设备在预设的资源站点列表中, 查找与所述原创作品的作品内容类 型匹配的至少一个资源站点, 并监测所述至少一个资源站点, 在监测到任意资源站点的网 页中包含有所述原创作品的作品内容属性时, 采集所述网页的网页内容。 0077 在本申请实施例中, 电子设备上维护了资源站点列表。 该资源站点列表维护了资 源站点标识、 资源站点包含的作品的作品内容类型。 例如, 资源站点列表可如表1所示。 当然, 在实际应用中, 该资源站点列表还包括其他内容, 比如资源站点域名、 资源站点 优先级等, 这里只是对资源站点列表进行示例地说明, 不对其进行具体地限定。 其中, 资源 站点标识可以是资源站点的。

43、地址, URL等, 这里只是资源站点标识进行示例性地说明, 不对 其进行具体地限定。 0078 需要说明的是, 每个资源站点可以对应一种作品内容类型, 也可以对应多种作品 内容类型, 这里不进行具体地限定。 0079 在本说明书实施例中, 电子设备可以以原创作品的作品内容类型为关键字, 在表1 所述的资源站点列表中查找与该关键字对应的资源站点标识, 作为与该原创作品的作品内 容类型匹配的至少一个资源站点。 0080 当然, 在实际应用中, 电子设备还可基于原创作品的作品名称、 原创作品的关键字 等信息, 在预设的资源站点列表中, 查找与所述原创作品匹配的至少一个资源站点。 这里只 是对其进行示。

44、例性地说明, 不对其进行具体地限定。 0081 在本说明书实施例中, 电子设备可采用网络爬虫技术, 监测所述至少一个资源站 点, 并在监测到该至少一个资源站点中的任意资源站点的网页中包含有所述原创作品的作 品内容属性时, 采集所述网页的网页内容。 说明书 8/17 页 11 CN 110851761 A 11 0082 步骤406: 电子设备计算对所述网页内容进行分词处理得到的待检测分词向量进 行聚类处理得到的第一聚类结果, 和对所述原创作品进行分词处理得到的原创分词向量进 行聚类处理得到的第二聚类结果的相似度, 并基于所述相似度确定所述原创作品和所述网 页内容的侵权相似度; 步骤408: 电。

45、子设备根据所述侵权相似度对所述网页内容和所述原创作品进行侵权检 测, 并将侵权检测结果发布至区块链进行存证。 0083 当网页内容和原创作品均为文本作品时, 可采用如下几种侵权检测计算方式来对 网页内容和原创作品进行侵权检测计算。 0084 实现侵权检测计算的方式一: 电子设备可计算代表网页内容和原创作品的整体侵 权情况的侵权相似度和代表网页内容和原创作品的细节侵权情况的文本相似度, 并基于侵 权相似度和文本相似度对网页内容和原创作品进行侵权检测计算, 具体可参见步骤B1至 B5。 0085 步骤B1: 电子设备对原创作品和网页内容分别进行分词处理, 并对分词处理得到 的若干分词进行向量化处理。

46、, 得到与所述原创作品对应的若干原创分词向量; 以及, 与所述 网页内容对应的若干待检测分词向量。 0086 其中, 分词处理方法如上文步骤A1所示, 这里不再赘述。 0087 在本说明书实施例中, 在分别对原创作品和网页内容进行分词处理, 分别得到与 原创作品对应的若干分词、 得到与网页内容对应的若干分词后, 电子设备还可分别对原创 作品对应的若干分词、 网页内容对应的若干分词进行向量化处理, 得到与所述原创作品对 应的若干原创分词向量; 以及, 与所述网页内容对应的若干待检测分词向量。 0088 例如, 电子设备可采用Word2vec (Word to Vector, 词转换为向量, 是指。

47、用来产生 词向量的相关模型) 技术分别对原创作品对应的若干分词、 网页内容对应的若干分词进行 向量化处理, 得到与所述原创作品对应的若干原创分词向量; 以及, 与所述网页内容对应的 若干待检测分词向量。 0089 这里只是对 “对分词进行向量化处理” 所采用的技术进行示例性地说明, 当然, 在 实际应用中电子设备还可采用其他分词向量化技术来实现对分词的向量化处理, 这里不对 其进行具体地限定。 0090 步骤B2: 电子设备分别对所述若干原创分词向量和所述若干待检测分词向量进 行聚类处理, 得到与所述原创分词向量对应的第一聚类结果、 以及与所述待检测分词向量 对应的第二聚类结果。 0091 在。

48、实现时, 电子设备可采用K-Means (一种聚类算法) 方法分别对若干原创分词向 量、 以及若干待检测分词向量进行聚类处理。 0092 具体地, 以采用K-Means方法分别对若干原创分词向量进行聚类处理, 得到聚类处 理结果为例, 采用K-Means方法对若干待检测分词向量进行聚类处理例子相同, 这里不再赘 述。 0093 电子设备可预选择K个原创分词向量作为初始聚类中心。 然后基于各原创分词向 与聚类中心的距离, 将若干原创分词向量划分为多个簇。 然后, 电子设备可重新计算各个簇 的中心作为聚类中心, 循环 “基于各原创分词向与聚类中心的距离, 将若干原创分词向量划 分为多个簇” 的过程。

49、, 直至聚类中心不发生变化或者达到了预设的迭代次数。 说明书 9/17 页 12 CN 110851761 A 12 0094 电子设备对原创分词向量进行聚类得到的第一聚类结果可包括: 每个簇中的各个 原创分词向量的分布、 每个簇对应的聚类中心, 每个簇的半径等等。 0095 这里只是对聚类结果进行示例性地说明, 不对其进行具体地限定。 0096 同理, 电子设备对待检测分词向量进行聚类得到的第二聚类结果可包括: 每个簇 中的各待检测分词向量的分布、 每个簇对应的聚类中心、 每个簇的半径等等。 0097 当然, 电子设备还可采用其他聚类方法进行聚类, 比如DBSCAN (Density-Bas。

50、ed Spatial Clustering of Applications with Noise, 一种基于密度的聚类算法) 。 这里只 是对聚类算法进行示例性地说明, 不对其进行具体地限定。 0098 步骤B3: 电子设备可确定第一聚类结果和第二聚类结果的相似度。 0099 在实现时, 电子设备可将分别将第一聚类结果和第二聚类结果进行向量化处理, 得到与第一聚类结果对应的原创结果向量、 以及与第二聚类结果对应的待检测结果向量。 然后, 电子设备可计算原创结果向量与所述聚类结果向量的向量距离, 作为所述第一聚类 结果和所述第二聚类结果的相似度。 0100 其中, 原创结果向量可以表征出各个簇的。

展开阅读全文
内容关键字: 基于 区块 侵权 检测 方法 装置 设备 存储 介质
关于本文
本文标题:基于区块链的侵权检测方法、装置、设备及存储介质.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/9365282.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1