基于层次聚类的蛋白质相互作用网络全局比对方法.pdf
《基于层次聚类的蛋白质相互作用网络全局比对方法.pdf》由会员分享,可在线阅读,更多相关《基于层次聚类的蛋白质相互作用网络全局比对方法.pdf(14页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010838335.6 (22)申请日 2020.08.19 (71)申请人 江南大学 地址 214122 江苏省无锡市蠡湖大道1800 号 (72)发明人 陈璟田盼盼 (74)专利代理机构 苏州市中南伟业知识产权代 理事务所(普通合伙) 32257 代理人 许燕萍 (51)Int.Cl. G16B 20/00(2019.01) (54)发明名称 基于层次聚类的蛋白质相互作用网络全局 比对方法 (57)摘要 本发明公开了一种基于层次聚类的蛋白质 相互作用网络全局比对方法, 。
2、包括: 获取两个生 物网络的数据及序列相似性文件, 节点i、 节点j 分别属于两个网络, 考虑节点本身以及邻居节点 的拓扑特征计算节点对(i,j)间的拓扑相似性得 分T(i,j), 根据序列相似性文件计算序列相似性 得分B(i,j), 结合T(i,j)和B(i,j)计算节点相似 性得分S(i,j); 采用层次聚类算法和组合优化算 法筛选种子; 计算种子的邻居节点的结构相似性 得分score(i,j), 根据score(i,j)扩展种子得到 扩展集; 构建二分图比对剩余节点对, 合并得到 比对集。 本发明更全面地计算T(i,j), 筛选种子 并扩展、 合并, 提高比对结果的拓扑性能且覆盖 范围更。
3、广; 采用层次聚类算法和组合优化算法筛 选种子, 提升拓扑性能的同时保证生物性能, 提 高效率。 权利要求书3页 说明书9页 附图1页 CN 111916149 A 2020.11.10 CN 111916149 A 1.一种基于层次聚类的蛋白质相互作用网络全局比对方法, 其特征在于, 包括以下步 骤: 步骤1: 输入两个生物网络G1、 G2, 获取网络结构数据及其序列相似性文件, 将蛋白质看 做节点, 节点i、 节点j分别属于两个网络, 考虑节点本身以及邻居节点的拓扑特征计算节点 对(i,j)间的拓扑相似性得分T(i,j), 根据序列相似性文件计算节点对的序列相似性得分B (i,j), 结合。
4、拓扑相似性得分T(i,j)和序列相似性得分B(i,j)计算节点相似性得分S(i,j); 步骤2: 采用层次聚类算法提取功能模块, 采用组合优化算法比对功能模块, 筛选出节 点对作为种子; 步骤3: 计算种子的邻居节点的结构相似性得分score(i,j), 根据score(i,j)选择节点 对加入种子集合, 不断扩展种子直到覆盖所有可能的节点对, 得到扩展集; 步骤4: 构建二分图对剩余节点对比对, 将比对结果合并到扩展集中, 得到最终的比对 集, 即为最终找出的网络G1、 G2中节点间的一对一的映射关系的集合。 2.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法, 其特征 在。
5、于: 所述步骤1中结合拓扑相似性和序列相似性构成节点相似性的步骤为: 步骤1-1: 获取两个输入网络G1(V1,E1), G2(V2,E2),V1、 V2表示节点集合, 节点表示蛋 白质; E1、 E2表示边集合, 边表示蛋白质间的相互作用; N(i)、 N(j)为节点i和节点j的直接相 连的邻居节点的集合; 拓扑相似性得分考虑了节点本身和节点的邻居节点的拓扑相似性, 计算节点i、 j的拓扑相似性得分T(i,j)的过程如下: 首先, 初始化T0(i,j)1; 其次, 构建二分图Gb(Vb,Eb), 其中Vb由N(i)的节点和N(j)的 节点的两个不相交集合组成, Eb中的边(i,j)由N(i)。
6、、 N(j)中节点所有可能的连接组成, 其中iN(i), jN(j), 边的权重w(i,j)Tt(i,j); 接着, 找到Gb的匹配集合M; 最后, 计算该匹配M对应的Tt+1(i,j)值: 其中, d(i)、 d(j)表示节点i、 j的度, MaxD表示在G1、 G2所有节点中度的最大值, t是预设 的迭代次数, 是平衡邻居节点和节点本身拓扑相似性比重的参数, 0 1; 多次迭代后, Tt+1(i,j)的最终值T(i,j)即为节点的拓扑相似性得分; 步骤1-2: 根据序列相似性文件计算节点对的序列相似性得分B(i,j): 其中, blast(i,j)表示节点i、 j之间的BLAST bit-。
7、score得分, 即序列相似性文件中的 值; Minb表示G1、 G2网络中节点对的BLAST bit-score得分的最小值, Maxb表示网络中节点对 的BLASTbit-score得分的最大值; 步骤1-3: 结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j), 计算节点相似性得分 S(i,j): S(i,j) B(i,j)+(1- )T(i,j) 其中, 是平衡拓扑和序列权重的参数, 0 1。 3.根据权利要求2所述的基于层次聚类的蛋白质相互作用网络全局比对方法, 其特征 权利要求书 1/3 页 2 CN 111916149 A 2 在于: 所述步骤1-1中找到Gb的匹配集合M。
8、的方法为采用贪心算法, 具体过程为先选中权重 最大的边加入到匹配集合M中, 其中每一条边对应一组节点的映射关系, 再删除这条边连接 的两个节点及其相连的其他边, 接着重复上述步骤, 直到图中没有可选择的边, 则比对结 束, 得到最终的匹配集合M。 4.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法, 其特征 在于: 所述步骤2中采用的组合优化算法为匈牙利算法。 5.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法, 其特征 在于: 所述步骤2中筛选种子节点对的具体过程如下: 步骤2-1: 采用层次聚类方法从网络中提取功能模块, 将每个网络构成的图中连接密集 的。
9、且具有相似功能的子图划分为功能模块; 步骤2-2: 根据功能模块内的节点相似性得分S(i,j), 将功能模块中节点相似性得分S (i,j)之和的最大值组成两个网络中提取出的各个功能模块间的相似性得分, 即所有模块 间的相似性之和最大时的一种模块对应关系; 步骤2-3: 利用匈牙利算法对各个功能模块间的相似性得分进行处理, 得到最佳功能模 块匹配结果, 即各个功能模块间的相似性得分的排序集合, 并筛选出节点对作为种子。 6.根据权利要求5所述的基于层次聚类的蛋白质相互作用网络全局比对方法, 其特征 在于: 所述步骤2-1中采用的层次聚类算法为Jerarca算法, 具体为先计算节点间的加权距 离,。
10、 接着将距离矩阵转换成层次结构树, 最后根据模块内和模块间节点连接分布进行最优 层次划分得到功能模块, 以此将每个网络构成的图中连接密集的且具有相似功能的子图划 分为功能模块。 7.根据权利要求5所述的基于层次聚类的蛋白质相互作用网络全局比对方法, 其特征 在于: 所述步骤2-3中筛选出节点对作为种子, 其中筛选出的种子为最佳模块匹配结果中前 15的节点。 8.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法, 其特征 在于: 所述步骤3中不断扩展种子直到覆盖所有可能的节点, 具体过程为: 步骤3-1: 将与种子节点直接连接的且跨度为1的节点集合作为邻居节点, 计算种子中 各节。
11、点对的邻居节点的结构相似性得分score(i,j), 将种子节点作为匹配集, score(i,j) 为该节点对中其邻居节点对中属于种子的节点对数; 步骤3-2: 选择结构相似性得分score(i,j)最大的节点对添加到匹配集; 步骤3-3: 更新匹配集中各节点对的邻居节点的结构相似性得分score(i,j); 步骤3-4: 重复步骤3-2和步骤3-3, 直到覆盖所有可能的节点, 得到扩展集。 9.根据权利要求8所述的基于层次聚类的蛋白质相互作用网络全局比对方法, 其特征 在于: 所述步骤3-2中选择结构相似性得分score(i,j)最大的节点对添加到匹配集时, 若存 在多个节点对满足此条件, 。
12、则进一步计算这几个节点对的度差值, 选择度差值最小的节点 对加入; 若最小度差值也有多个节点对, 则从最小度差值的节点对中找节点相似性得分S (i,j)最高的节点对添加到匹配集。 10.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法, 其特征 在于: 所述步骤4中构建二分图对剩余节点比对的过程为: 步骤4-1: 查找出两个生物网络G1、 G2中不属于扩展集的节点, 构建二分图Gb, 图中所有 权利要求书 2/3 页 3 CN 111916149 A 3 边的权重为该节点对的节点相似性得分S(i,j); 步骤4-2: 选择二分图Gb中权重最大的边, 若此边对应的节点对均未在扩展。
13、集中出现 过, 则将该节点对添加到扩展集中, 同时删除该节点对在二分图Gb中的相应节点对和相关 的边, 剩余节点对和边保持不变; 步骤4-3: 重复步骤4-2, 直到二分图Gb中无可选择的节点对存在, 比对结束, 得到最终 的比对集。 权利要求书 3/3 页 4 CN 111916149 A 4 基于层次聚类的蛋白质相互作用网络全局比对方法 技术领域 0001 本发明涉及生物信息学中对蛋白质相互作用网络的分析领域, 具体涉及一种基于 层次聚类的蛋白质相互作用网络全局比对方法。 背景技术 0002 蛋白质相互作用(PPI, Protein-protein interaction)是指蛋白质分子之。
14、间的相 关性, 并从生物化学、 信号转导和遗传网络的角度研究这种相关性。 近年来, 随着高通量筛 选技术的发展, 通过实验方法检测到蛋白质相互作用的数量有了大幅度增加, 形成了越来 越多的蛋白质相互作用网络。 对蛋白质相互作用网络的分析能够增进对生物学过程的理 解, 不同物种间相互作用组的比对在蛋白质功能预测、 保守功能成分检测、 物种间知识转移 等方面有着重要意义。 因此, 将两个蛋白质相互作用网络进行一对一比对, 在两个网络中找 到节点间的最佳映射关系得到了越来越多的研究。 0003 常见的两个网络间的比对方法有二步算法和基于目标函数的搜索算法。 二步算法 分为两步进行, 第一步是计算输入。
15、网络间的节点相似性, 构建节点得分矩阵; 第二步是节点 相似性得分为权重, 构建二分图, 利用贪心或其他算法求解二分图的最大加权匹配问题, 从 而得到比对结果。 基于目标函数的搜索算法是先构建目标函数, 以目标函数为优化目标, 用 搜索算法不断调整比对结果以产生更优解。 目标函数一般由拓扑相似性和生物相似性构 成, 拓扑相似性计算节点在网络结构上的相似性, 现有的计算方法有计算度、 Importance 等; 生物相似性可以是序列相似性, 例如BLAST bit score、 BLAST E-value等, 也可以是功 能相似性, 利用蛋白质的GO(Gene ontology, 基因本体论)术。
16、语计算节点间的语义相似性以 此比较蛋白质的功能相似性。 SPINAL(见文献SPINAL:scalable protein interaction network alignment.J.Bioinformatics,2013)方法将比对过程被分为粗粒度阶段和细 粒度阶段, 在粗粒度阶段, 构建邻域二分图计算节点间的相似性; 在细粒度阶段, 先选择相 似性得分最高的节点对为种子, 先比对上种子节点, 以当前比对集合中的节点对构建邻域 二分图, 以节点相似性为权重, 寻找最大加权匹配, 对匹配结果做局部优化找到最佳匹配结 果并将比对结果添加到比对集合中, 得到最终比对。 但此方法对节点的拓扑信息。
17、研究不充 分, 导致比对结果中拓扑结果较差。 ModuleAlign(见文献Somaye H,Jianzhu M,Hammad N, et al .ModuleAlign:module-based global alignment of proteinprotein interaction networksJ.Bioinformatics(17):i658-i664)方法首先利用HAC-ML算法划 分网络模块, 基于模块计算节点间的同源得分, 将同源得分与节点对的拓扑得分 Importance结合构成节点的比对得分矩阵。 然后分两步开始比对: 第一步, 利用匈牙利算法 计算网络中节点间的最佳匹。
18、配, 以此比对拓扑和功能一致的蛋白质; 第二步, 通过更新比对 得分来最大化进化保守相互作用的数量, 重复此过程直至小网络中的节点都被比对上。 这 种方法利用模块化的思想来计算节点间的同源得分, 但模块化的选择不适合, 导致其生物 性能较差, 且运行时间较长、 效率低。 PROPER(见文献ROPER:global protein interactionnetwork alignment through percolationmatching,BMC bioinformatics, 说明书 1/9 页 5 CN 111916149 A 5 2016,17(1):527)方法首先根据序列相似性筛。
19、选部分得分较高的节点对为种子节点, 接着 根据种子计算其邻居节点的结构相似性, 选择得分最高的节点对扩展至比对集合, 再对新 添加的比对节点对计算其邻居节点的结构相似性, 重复上述过程直到没有可选择的节点 对。 这种方法在筛选种子时, 仅依靠序列信息, 但序列信息存在不完整性, 会导致比对错误; 并且扩展过程不能覆盖到小网络中的所有节点, 存在部分节点应该被比对上却未比对上的 问题, 拓扑性能不好。 发明内容 0004 本发明要解决的技术问题是提供一种对两个蛋白质相互作用网络进行比对, 在保 证生物性能的同时提升拓扑性能, 提高效率及扩大比对覆盖范围的基于层次聚类的蛋白质 相互作用网络全局比对。
20、方法。 0005 为解决上述技术问题, 本发明提供了一种基于层次聚类的蛋白质相互作用网络全 局比对方法, 包括以下步骤: 0006 步骤1: 输入两个生物网络G1、 G2, 获取网络结构数据及其序列相似性文件, 将蛋白 质看做节点, 节点i、 节点j分别属于两个网络, 考虑节点本身以及邻居节点的拓扑特征计算 节点对间的拓扑相似性得分T(i,j), 根据序列相似性文件计算节点对的序列相似性得分B (i,j), 结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j)计算节点相似性得分S(i,j); 0007 步骤2: 采用层次聚类算法提取功能模块, 采用组合优化算法比对功能模块, 筛选 出节点。
21、对作为种子; 0008 步骤3: 计算种子的邻居节点的结构相似性得分score(i,j), 根据score(i,j)选择 节点对加入种子集合, 不断扩展种子直到覆盖所有可能的节点对, 得到扩展集; 0009 步骤4: 构建二分图对剩余节点对比对, 将比对结果合并到扩展集中, 得到最终的 比对集, 即为最终找出的网络G1、 G2中节点间的一对一的映射关系的集合。 0010 进一步地, 所述步骤1中结合拓扑相似性和序列相似性构成节点相似性的步骤为: 0011 步骤1-1: 获取两个输入网络G1(V1,E1), G2(V2,E2),V1、 V2表示节点集合, 节点表 示蛋白质; E1、 E2表示边集。
22、合, 边表示蛋白质间的相互作用; N(i)、 N(j)为节点i和节点j的直 接相连的邻居节点的集合。 拓扑相似性得分考虑了节点本身和节点的邻居节点的拓扑相似 性, 计算节点i、 j的拓扑相似性得分T(i,j)的过程如下: 0012 首先, 初始化T0(i,j)1; 其次, 构建二分图Gb(Vb,Eb), 其中Vb由N(i)的节点和N (j)的节点的两个不相交集合组成, Eb中的边(i,j)由N(i)、 N(j)中节点所有可能的连接 组成, 其中iN(i), jN(j), 边的权重w(i,j)Tt(i,j); 接着, 找到Gb的匹配集合M; 最后, 计算该匹配M对应的Tt+1(i,j)值: 00。
23、13 0014 其中, d(i)、 d(j)表示节点i、 j的度, MaxD表示在G1、 G2所有节点中度的最大值, t是 预设的迭代次数, 是平衡邻居节点和节点本身拓扑相似性比重的参数, 0 1。 多次迭代 后, Tt+1(i,j)的最终值T(i,j)即为节点的拓扑相似性得分; 0015 步骤1-2: 根据序列相似性文件计算节点对的序列相似性得分B(i,j): 说明书 2/9 页 6 CN 111916149 A 6 0016 0017 其中, blast(i,j)表示节点i、 j之间的BLAST bit-score得分, 即序列相似性文件 中的值; Minb表示G1、 G2网络中节点对的B。
24、LAST bit-score得分的最小值, Maxb表示网络中节 点对的BLAST bit-score得分的最大值; 0018 步骤1-3: 结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j), 计算节点相似性 得分S(i,j): 0019 S(i,j) B(i,j)+(1- )T(i,j) 0020 其中, 是平衡拓扑和序列权重的参数, 0 1。 0021 进一步地, 所述步骤1-1中找到Gb的匹配集合M的方法为采用贪心算法, 具体过程 为先选中权重最大的边加入到匹配集合M中, 其中每一条边对应一组节点的映射关系, 再删 除这条边连接的两个节点及其相连的其他边, 接着重复上述步骤, 。
25、直到图中没有可选择的 边, 则比对结束, 得到最终的匹配集合M。 0022 进一步地, 所述步骤2中采用的组合优化算法为匈牙利算法。 0023 进一步地, 所述步骤2中筛选种子节点对的具体过程如下: 0024 步骤2-1: 采用层次聚类方法从网络中提取功能模块, 将每个网络构成的图中连接 密集的且具有相似功能的子图划分为功能模块; 0025 步骤2-2: 根据功能模块内的节点相似性得分S(i,j), 将功能模块中节点相似性得 分S(i,j)之和的最大值组成两个网络中提取出的各个功能模块间的相似性得分, 即所有模 块间的相似性之和最大时的一种模块对应关系; 0026 步骤2-3: 利用匈牙利算法。
26、对各个功能模块间的相似性得分进行处理, 得到最佳功 能模块匹配结果, 即各个功能模块间的相似性得分的排序集合, 并筛选出节点对作为种子。 0027 进一步地, 所述步骤2-1中采用的层次聚类算法为Jerarca算法, 具体为先计算节 点间的加权距离, 接着将距离矩阵转换成层次结构树, 最后根据模块内和模块间节点连接 分布进行最优层次划分得到功能模块, 以此将每个网络构成的图中连接密集的且具有相似 功能的子图划分为功能模块。 0028 进一步地, 所述步骤2-3中筛选出节点对作为种子, 其中筛选出的种子为最佳模块 匹配结果中前15的节点。 0029 进一步地, 所述步骤3中不断扩展种子直到覆盖所。
27、有可能的节点, 具体过程为: 0030 步骤3-1: 将与种子节点直接连接的且跨度为1的节点集合作为邻居节点, 计算种 子中各节点对的邻居节点的结构相似性得分score(i,j), 将种子节点作为匹配集, score (i,j)为该节点对中其邻居节点对中属于种子的节点对数; 0031 步骤3-2: 选择结构相似性得分score(i,j)最大的节点对添加到匹配集; 0032 步骤3-3: 更新匹配集中各节点对的邻居节点的结构相似性得分score(i,j); 0033 步骤3-4: 重复步骤3-2和步骤3-3, 直到覆盖所有可能的节点, 得到扩展集。 0034 进一步地, 所述步骤3-2中选择结构。
28、相似性得分score(i,j)最大的节点对添加到 匹配集时, 若存在多个节点对满足此条件, 则进一步计算这几个节点对的度差值, 选择度差 值最小的节点对加入; 若最小度差值也有多个节点对, 则从最小度差值的节点对中找节点 相似性得分S(i,j)最高的节点对添加到匹配集。 说明书 3/9 页 7 CN 111916149 A 7 0035 进一步地, 所述步骤4中构建二分图对剩余节点比对的过程为: 0036 步骤4-1: 查找出两个生物网络G1、 G2中不属于扩展集的节点, 构建二分图Gb, 图中 所有边的权重为该节点对的节点相似性得分S(i,j); 0037 步骤4-2: 选择二分图Gb中权重。
29、最大的边, 若此边对应的节点对均未在扩展集中 出现过, 则将该节点对添加到扩展集中, 同时删除该节点对在二分图Gb中的相应节点对和 相关的边, 剩余节点对和边保持不变; 0038 步骤4-3: 重复步骤4-2, 直到二分图Gb中无可选择的节点对存在, 比对结束, 得到 最终的比对集。 0039 本发明的有益效果: 0040 通过同时考虑节点本身以及邻居节点的拓扑特征, 更全面地计算节点对的拓扑相 似性得分; 通过结构相似性得分对种子进行扩展, 并在扩展后对剩余节点构建二分图, 进行 最大加权匹配并合并, 使得所有节点都有参加比对的机会, 提高比对的拓扑性能, 产生更多 的比对节点数、 覆盖范围。
30、更广。 0041 通过采用层次聚类算法提取功能模块, 采用组合优化算法比对功能模块, 从密集 模块中筛选种子, 减少了种子筛选错误的影响, 提升拓扑性能的同时保证了生物性能, 有效 提高了对比效率。 0042 上述说明仅是本发明技术方案的概述, 为了能够更清楚了解本发明的技术手段, 并可依照说明书的内容予以实施, 以下以本发明的较佳实施例并配合附图详细说明如后。 附图说明 0043 图1是本发明的流程图。 具体实施方式 0044 下面结合附图和具体实施例对本发明作进一步说明, 以使本领域的技术人员可以 更好地理解本发明并能予以实施, 但所举实施例不作为对本发明的限定。 0045 术语 “包括”。
31、 意图在于覆盖不排他的包含, 例如包含了一系列步骤或单元的过程、 方法、 系统、 产品或设备, 没有限定于已列出的步骤或单元而是可选地还包括没有列出的步 骤或单元, 或可选地还包括对于这些过程、 方法、 产品或设备固有的其他步骤或单元。 0046 参照图1本发明的流程图, 一种基于层次聚类的蛋白质相互作用网络全局比对方 法的实施例, 包括以下步骤: 0047 步骤1: 输入两个生物网络G1、 G2, 获取网络数据, 即网络中需要比对的两个物质的 结构信息及序列相似性文件, 序列相似性文件是从生物角度可以找到的蛋白质序列间的相 似性得分, 输入的是由节点间的BLAST bit-score得分构成。
32、的相似性文件, 将蛋白质看做节 点, 节点i、 节点j分别属于两个网络。 考虑节点本身以及邻居节点的拓扑特征计算节点对间 的拓扑相似性得分T(i,j), 根据序列相似性文件计算节点对的序列相似性得分B(i,j), 结 合拓扑相似性得分T(i,j)和序列相似性得分B(i,j)计算节点相似性得分S(i,j)。 0048 步骤1-1: 两个输入网络G1(V1,E1), G2(V2,E2),V1、 V2表示节点集合, 节点表示蛋 白质; E1、 E2表示边集合, 边表示蛋白质间的相互作用; N(i)、 N(j)为节点i和节点j的直接相 连的邻居节点的集合。 拓扑相似性得分考虑了节点本身和节点的邻居节点。
33、的拓扑相似性, 说明书 4/9 页 8 CN 111916149 A 8 计算节点i、 j的拓扑相似性得分T(i,j)的过程如下: 0049 首先, 初始化T0(i,j)1; 其次, 构建二分图Gb(Vb,Eb), 其中Vb由N(i)的节点和N (j)的节点的两个不相交集合组成, Eb中的边(i,j)由N(i)、 N(j)中节点所有可能的连接 组成, 其中iN(i), jN(j), 边的权重w(i,j)Tt(i,j); 接着, 用贪心算法找到Gb的 匹配集合M, 具体过程是先选中权重最大的边加入到匹配集合M中, 其中每一条边对应一组 节点的映射关系, 再删除这条边连接的两个节点及其相连的其他边。
34、, 接着重复上述步骤, 直 到图中没有可选择的边, 则比对结束, 得到最终的匹配集合M; 最后, 计算该匹配M对应的Tt+1 (i,j)值: 0050 0051 其中, d(i)、 d(j)表示节点i、 j的度, MaxD表示在G1、 G2所有节点中度的最大值, t是 迭代次数, 本实施例中, 设置的设迭代次数为2, 达到迭代次数, 计算结束, 是平衡邻居节点 和节点本身拓扑相似性比重的参数, 本实施例中, 设置的 值为0.5。 多次迭代后, Tt+1(i,j) 的最终值T(i,j)即为节点的拓扑相似性得分。 0052 步骤1-2: 根据序列相似性文件计算节点对的序列相似性得分B(i,j): 。
35、0053 0054 其中, blast(i,j)表示节点i、 j之间的BLAST bit-score得分, 即序列相似性文件 中的值; Minb表示G1、 G2网络中节点对的BLAST bit-score得分的最小值, Maxb表示网络中节 点对的BLAST bit-score得分的最大值。 0055 步骤1-3: 结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j), 计算节点相似性 得分S(i,j): 0056 S(i,j) B(i,j)+(1- )T(i,j) 0057 其中, 是平衡拓扑和序列权重的参数, 本实施例中, 设置的 值为0.4。 0058 步骤2: 利用层次聚类算法从。
36、网络中提取功能模块, 采用匈牙利算法比对功能模 块, 筛选出节点对作为种子。 0059 步骤2-1: 利用Jerarca(见文献ALDECOA R ,MARIN I .Jerarca:efficient analysis of complex networks using hierarchical clusteringJ.Plos One,2010,5 (7):e11585)层次聚类方法提取功能模块, 首先计算节点间的加权距离, 接着将距离矩阵转 换成层次结构树, 最后根据模块内和模块间节点连接分布进行最优层次划分得到功能模 块, 以此将每个网络构成的图中连接密集的且具有相似功能的子图划分为功。
37、能模块。 0060 步骤2-2: 根据功能模块内的节点相似性得分S(i,j), 将功能模块中节点相似性得 分S(i,j)之和的最大值组成两个网络中提取出的各个功能模块间的相似性得分, 即所有模 块间的相似性之和最大时的一种模块对应关系。 0061 步骤2-3: 利用匈牙利算法对各个功能模块间的相似性得分进行处理, 得到最佳功 能模块匹配结果, 即各个功能模块间的相似性得分的排序集合, 并从中筛选出前15的节 点对作为种子。 0062 步骤3: 计算种子的邻居节点的结构相似性得分score(i,j), 根据score(i,j)选择 说明书 5/9 页 9 CN 111916149 A 9 节点对。
38、加入种子集合, 不断扩展种子直到覆盖所有可能的节点对, 得到扩展集; 0063 步骤3-1: 将与种子节点直接连接的且跨度为1的节点集合作为邻居节点, 计算种 子中各节点对的邻居节点的结构相似性得分score(i,j), 将种子节点作为匹配集。 score (i,j)为该节点对中其邻居节点对中属于种子的节点对数, 本实施例中, 对于节点对(i,j), 当且仅当(i,i)E1, (j,j)E2, 则(i,j)V1V2是节点对(i,j)的邻居节点对。 0064 步骤3-2: 选择结构相似性得分score(i,j)最大的节点对添加到匹配集; 若存在多 个节点对满足此条件, 则进一步计算这几个节点对的。
39、度差值, 选择度差值最小的节点对加 入; 若最小度差值也有多个节点对, 则从最小度差值的节点对中找节点相似性得分S(i,j) 最高的节点对添加到匹配集。 0065 步骤3-3: 更新匹配集中各节点对的邻居节点的结构相似性得分score(i,j)。 0066 步骤3-4: 重复步骤3-2和步骤3-3, 直到所有score(i,j)1的节点对都比对上, 结 束比对, 得到扩展集。 0067 步骤4: 构建二分图对剩余节点对比对, 将比对结果合并到扩展集中, 得到最终的 比对集, 即为最终找出的网络G1、 G2中节点间的一对一的映射关系的集合。 0068 步骤4-1: 查找出两个生物网络G1、 G2。
40、中不属于扩展集的节点, 构建二分图Gb, 图中 所有边的权重为该节点对的节点相似性得分S(i,j)。 0069 步骤4-2: 选择二分图Gb中权重最大的边, 若此边对应的节点对均未在扩展集中 出现过, 则将该节点对添加到扩展集中, 同时删除该节点对在二分图Gb中的相应节点对和 相关的边, 剩余节点和边保持不变。 0070 步骤4-3: 重复步骤4-2, 直到二分图Gb中无可选择的节点对存在, 比对结束, 得到 最终的比对集。 使得网络中所有的节点对都有机会被比对上, 从而得到更好的比对结果。 0071 本发明的有益效果: 0072 通过同时考虑节点本身以及邻居节点的拓扑特征, 更全面地计算节点。
41、对的拓扑相 似性得分; 通过结构相似性得分对种子进行扩展, 并在扩展后对剩余节点构建二分图, 进行 最大加权匹配并合并, 使得所有节点都有参加比对的机会, 提高比对的拓扑性能, 产生更多 的比对节点数、 覆盖范围更广。 0073 通过采用层次聚类算法提取功能模块, 采用组合优化算法比对功能模块, 从密集 模块中筛选种子, 减少了种子筛选错误的影响, 提升拓扑性能的同时保证了生物性能, 有效 提高了对比效率。 0074 为了更好地说明本发明的技术效果, 实施例对本发明进行试验验证。 实施例在 Isobase数据库的真实网络上选择ce、 sc、 dm、 hs四个物种的网络数据, 不同物种的网络中节。
42、 点数和边数不同, 网络规模也不同, 设置四组的实验组比较本发明在不同物种对中的比对 效果, 表明本发明在大多数物种中的适用度。 同时在NAPAbench的合成网络CG(公用的提供 合成网络数据的数据库, CG是其中一组网络数据)上进行实验。 设置三种方法PROPER、 SPINAL、 ModuleAlign与本发明进行比较, 并通过拓扑指标EC(Edge correctness,边正确 性)、 ICS(induced con-served-structure score,诱导保守子结构得分)和S3(Symmetric sub-structure score,对称子结构得分), 生物指标FC(。
43、Functional Coherence,功能一致 性), 比对节点数和运行时间对结果进行分析, 其中EC、 ICS、 S3和FC的值越高, 表示对应性能 越好。 说明书 6/9 页 10 CN 111916149 A 10 0075 EC通过计算f映射下保守边在源网络中的比例来评估比对的质量, f表示一种映射 关系, 全局比对f:V1V2, 是将G1中的V1节点映射到G2的V2节点上, 形成一对一的映射关系, EC的计算公式:其中, f(E1)(f(u),f(u)E2|(u,v)E1, f(V1)f (v)V2|vV1。 |E1|表示G1网络的边数, |f(E1)|表示G1中以f映射方式覆盖。
44、G2中的边的边 数。 0076ICS的计算公式:其中,表示G2的诱导子网络的边 数, 诱导子网络指由G2中比对上的所有节点构成的子网络。 0077S3的计算公式:其中, 分母表示根据比对f将图 G1、 G2诱导子图重叠得到的复合图中唯一边的数目。 0078 FC利用GO术语计算, Isobase库中有网络对应的GO文件, 其中有蛋白质及其对应的 GO注释术语, FC的计算公式: 其中, GO(u)和GO(f(u)表示节点u和f(u)被注释的GO集合。 0079 表1为不同方法在NAPAbench的合成网络CG下的比较结果。 表2为不同方法在 Isobase数据库真实网络下的比较结果, 其中ce。
45、-sc表示ce和sc两个物种网络的比对结果, ce-dm表示ce和dm两个物种网络的比对结果, ce-hs表示ce和hs两个物种网络的比对结果, sc-hs表示sc和hs两个物种网络的比对结果, sc-dm表示sc和dm两个物种网络的比对结果, dm-hs表示dm和hs两个物种网络的比对结果。 表3为本发明与PROPER算法在比对上的节点数 上的比较结果。 0080 ECICSS3FC 本发明JAlign0.820.840.710.71 PROPER0.610.630.450.59 SPINAL0.810.820.690.73 ModuleAlign0.680.680.520.63 0081 。
46、表1不同算法在NAPAbench的合成网络CG下的比较结果 说明书 7/9 页 11 CN 111916149 A 11 0082 0083 0084 表2不同算法在Isobase数据库真实网络下的比较结果 0085 CGce-scce-dmce-hssc-hssc-dmdm-hs 本发明2117267926682766534950936827 PROPER1794264126082697504966275271 0086 表3本发明与PROPER算法在比对上的节点数上的比较结果 0087 从表1可以看出, 在拓扑指标上, 本发明的结果优于其他三种算法; 在生物指标FC 上, SPINAL、 。
47、本发明分别是0.73、 0.71, 差距很小, PROPER的结果最差。 总体而言, 本发明在合 成网络上的结果在几种算法表现最好。 0088 从表2的前三组实验ce-sc、 ce-dm、 ce-hs可以看出, ModuleAlign的EC结果最好, 本 发明仅次于ModuleAlign, PROPER结果最差; ICS和S3结果都是本发明最好。 在表2的后三组 实验sc-hs、 sc-dm、 dm-hs中, 除了在dm-hs中的EC结果略差于ModuleAlign, 其余所有拓扑性 能的指标都是结果最好的, PROPER次于本发明, 这表明本发明在拓扑性能上结果最好。 在生 物指标FC上, 。
48、PROPER表现最好, 本发明和效果第二的SPINAL差距很小。 结合拓扑性能效果第 说明书 8/9 页 12 CN 111916149 A 12 二的PROPER来看, 本发明在保证生物性能的基础上, 实现了最好的拓扑功能。 0089 在保证生物性能的同时实现最好拓扑性能的基础上, 如表3所示继续将本发明与 PROPER在比对上的节点数上进行比较, 除了在sc-dm中, 本发明找出的节点对数都比PROPER 多, 能产生更多的比对节点数, 本发明在覆盖范围上结果更广, 进一步证明了本发明相较于 PROPER带来的有益效果。 在运行时间上, 继续将本发明与SPINAL、 ModuleAlign。
49、进行比较, SPINAL、 ModuleAlign得到比对集分别需要121分50.840秒、 207分46.732秒, 而本发明只需 要52分28.320秒, 大大缩短了运行时间, 提高比对效率, 进一步证明了本发明相较于 SPINAL、 ModuleAlign带来的有益效果。 0090 总体来看, 本发明和PROPER相比在拓扑性能方面明显有很大改进, 在生物性能方 面略为下降, 但在覆盖范围上结果更好; 本发明和SPINAL、 ModuleAlign相比, 在拓扑性能和 生物性能上都得到了提高, 且运行时间大大缩短。 因此, 本发明在保证生物性能的基础上实 现了最好的拓扑功能, 且比对覆盖范围和效率都得到了提高。 0091 以上所述实施例仅是为充分说明本发明而所举的较佳的实施例, 本发明的保护范 围不限于此。 本技术领域的技术人员在本发明基础上所作的等同替代或变换, 均在本发明 的保护范围之内。 本发明的保护范围以权利要求书为准。 说明书 9/9 页 13 CN 111916149 A 13 图1 说明书附图 1/1 页 14 CN 111916149 A 14 。
- 内容关键字: 基于 层次 蛋白质 相互作用 网络 全局 方法
显示装置.pdf
电子机芯生产用配件装配设备.pdf
玻璃制品生产原料除铁设备.pdf
电路板点焊设备.pdf
茶叶分选用过滤装置.pdf
用于茶叶的储存罐结构.pdf
基于压感自调张力的化纤面料圆筒针织机牵拉结构.pdf
多功能小车移动防护结构.pdf
可拆卸式的灌装装置.pdf
输配电线路无线通信型激光雷达.pdf
炼厂货用升降机轿厢制停测距装置.pdf
文档扫描仪的纸张对齐机构.pdf
测量斜绕螺线管磁场强度的实验装置.pdf
通电检测夹具.pdf
用于丁基胶灌装机的压盘结构.pdf
真空绝热外墙复合一体板.pdf
提高丰年虫孵化率的孵化装置.pdf
陶瓷加工用球磨机.pdf
快速调节间隙的悬挂端梁.pdf
洁净室恒温恒湿空气处理组合风柜.pdf
汽车管柱筒生产用下料设备.pdf
裤耳机的裤耳定位装置.pdf
建筑设施抗震性能的评估方法、装置、设备及存储介质.pdf
基于牵引振动落饵料的导料槽结构及灭蚁毒饵撒料机.pdf
高通量高分辨率静态傅里叶变换光谱测量方法.pdf
智能计量包装方法及装置.pdf
RNA疫苗递送制剂及其制备方法.pdf
基于点云与有限元分析的飞机蒙皮修配方法.pdf
检测番鸭查帕马病毒的引物和探针、病毒分离培养方法.pdf
长效保湿乳液及其制备方法.pdf
水泥碎渣废料清理装置.pdf
基于病患信息的全病程管理平台的应用方法及系统.pdf
一种治疗皮疹的药物.pdf
使用左心室辅助装置的情况下使用和监测吸入一氧化氮.pdf
一种盥洗池.pdf
大树高成活率全冠移植包裹及运输体系.pdf
牛奶饮料加热搅拌机.pdf
穴位自动按摩仪.pdf
一种漂浮型水产养殖用饲料投放器.pdf
用于生长植物的系统和方法.pdf
一种蚯蚓养殖用的连续喂料及蚯蚓粪收集系统及方法.pdf
适合高杆作物农机作业牵引动力底盘的变翼装置.pdf
具有多媒体播放功能的腋拐.pdf
C型股动脉止血架.pdf
安全气压助产装置.pdf
一种深海发菜水煮速冻处理方法.pdf
一种实用草坪机.pdf
智能自动水炮.pdf
一种治疗乌龟肠胃炎的中草制剂及其制备方法.pdf
一种具有割草和施肥功能的装置.pdf
一种便于固定的种植盆.pdf