基于双向随机游走和多标签学习的miRNA-环境因子关系预测方法技术领域
本发明属于系统生物学领域,涉及一种基于双向随机游走和多标签学习的miRNA-
环境因子关系预测方法。
背景技术
众所周知,疾病和遗传因子和环境因子有着密切关系。一些疾病的产生可视为遗
传因子和环境因子之间的扰动造成的。因此,识别遗传因子和环境因子之间关系有助于我
们解析疾病复杂的机制,且进一步有助于疾病诊断,预防及其治疗。
MicroRNA(miRNA)是一类新发现的、重要的遗传因子。一般来说,miRNA可以通过和
信使RNA的3’端非编码区域的完全配对或者5’端非编码区域的不完全配对,抑制信使RNA的
表达,从而达到调控基因表达的目的。miRNA产生过程包括以下几个过程:1)通过核糖核酸
聚合酶II(RNA polymerase II)对基因的内含子特定位点的剪切,形成初始miRNA(primary
miRNA)。这种初始miRNA的长度一般为100-1000nt核苷酸。并且在5’端末尾有一个cap结构,
在3’端末尾包含ploy(A)特征。2)初始miRNA经过RNase III酶Drosha的剪切形成前体miRNA
(precursor miRNA)。前体miRNA的长度一般为70nt核苷酸长度,有发夹结构,且在3’端末尾
有2个突出的核苷酸。3)前体miRNA经过RNase III酶Dicer剪切最终形成成熟体miRNA。成熟
体miRNA的长度一般为19-22nt,且具有高度保守型。许多研究表明:miRNA在人类的很多重
要的生命过程中起着举足轻重的作用,包括细胞的生长、发育、增殖、分化、凋亡等。
近年来,研究发现:许多环境因子(EF)和miRNA的表达有着密切关系,环境因子能
够调控miRNA的表达。例如,在HepG2细胞系中,鞣花单宁(日本蛇菰属植物提炼出来的多酚
化合物)能够调节25个miRNA表达。其中,17个miRNA为上调,8个miRNA为下调。这些环境因子
和miRNA关系的扰动经常和疾病的产生有着密切关系。在前列腺癌细胞中,研究人员发现染
料木黄酮能够促进miR-34a的表达,进而影响基因HOTAIR的表达。而该基因和癌细胞的增殖
有着密切关系。因此,研究环境因子和miRNA之间的关系能够有助于人类了解疾病产生机
理,进而帮助人类设计有效的疾病治疗方案。
随着高通量技术不断发展,产生了大量的miRNA相关数据。一些miRNA相关的数据
库也建立来存储这些miRNA数据。miRbase数据库是目前最权威的miRNA序列数据库,该数据
主要存储miRNA的序列、前体结构及其miRNA对应的靶基因数据。为了保证数据的准确性,该
数据库只收集已经被验证过的miRNA相关的数据。miRecord数据库为动物的miRNA靶基因数
据库,包括生物实验验证的靶基因和计算方法预测的靶基因。DbDEMC是一个专门存储人类
癌症差异表达的miRNA数据,该数据收录14种癌症中607个差异表达的miRNA。
miREnvironment数据是专门收录miRNA和环境因子之间的关系的数据库。该数据库手动收
集了24个物种,1242个miRNA,394个环境因子,3857条关系。
目前,在生物学中,传统的预测miRNA和环境因子之间的关系的实验方法主要包括
PCR和微阵列方法。生物学家在特定组织细胞中,加入特定环境因子,进而观测miRNA表达的
差异。根据这些方法能够准确有效的发现miRNA和环境因子之间关系。但是,这些方法非常
费时且成本很高,尤其是在大量的生物数据面前,更显得捉襟见肘。大规模预测miRNA和环
境因子之间的关系的计算方法应运而生,利用计算方法能够有效降低经济花费,提高实验
效率。利用计算方法来预测miRNA和环境因子之间的关系可以简单分为以下几类:
1)基于机器学习的方法
由于miRNA和环境因子的数据种类越来越多,基于机器学习模型可以利用这些数
据,研究miRNA-EF关联预测方法。基于最小二乘法,Chen等提出一种新的miRNA和环境因子
之间的关系预测方法。在该方法中,采用两个分类器分别对miRNA和环境因子进行最优化。
最终,通过线性加权方法得到每对miRNA和环境因子的打分值。
2)基于网络的方法
网络的方法都是基于相同的假设:相似的miRNA往往和相似的环境因子有关系。
Chen等人基于随机游走方法提出一种新的miRNA和环境因子之间的关系预测方法;该方法
融合了miRNA功能相似性,miRNA拓扑相似性,EF结构相似性以及EF拓扑相似性。另外,Li等
提出一种基于网络推断方法来预测miRNA-环境因子的关联关系,该方法利用已知的miRNA
和环境因子之间的关系数据,构建miRNA-环境因子二分图。在构建的二分图上,采用网络推
断方法来预测新的miRNA和环境因子之间的关系。该方法所基于的假设为:如果两个miRNA
共享多个环境因子,那么和其中一个miRNA有关系的环境因子也很有可能和另外一个miRNA
有关系。
3)基于统计的方法
Qiu等人提出一种miRNA-环境因子关系预测方法。该方法融合miRNA组织差异表达
数据和miRNA-疾病关系数据。采用富集分析方法来识别潜在的miRNA-环境因子之间关系。
上述各类方法从不同的角度来预测潜在的miRNA-环境因子关联。虽然上述方法取
得不少成就,但是也存在一些缺陷。首先,计算miRNA和环境因子的相似性上,有的方法采用
网络的拓扑特征来计算miRNA和环境因子的相似性。忽略了miRNA和环境因子的生物属性。
其次,在融合不同miRNA和环境因子数据上,有的方法采用算术均值方法来融合不同的
miRNA和环境因子相似性。这可能会引入其他的噪声。另外,有的方法无法对一个新的miRNA
和环境因子之间的关系进行预测。因此,有必要设计一种新的预测miRNA-环境因子关系预
测方法。
发明内容
本发明所要解决的技术问题是,针对现有技术的不足,提供一种基于双向随机游
走和多标签学习的miRNA-环境因子关系预测方法(MEI-BRWMLL),该方法易于实施,预测准
确率高。
本发明为解决技术问题所采用的技术方案如下:
一种基于双向随机游走和多标签学习的miRNA-环境因子关系预测方法,包括以下
步骤:
1)首先基于已知的miRNA-环境因子关系,构建miRNA-环境因子矩阵ME;然后计算
miRNA相似性和环境因子相似性,构建miRNA相似性矩阵和环境因子相似性矩阵;
2)根据miRNA相似性矩阵和环境因子相似性矩阵分别构建miRNA相似性网络和环
境因子相似性网络;再基于miRNA相似性网络、环境因子相似性网络和miRNA-环境因子矩
阵,构建miRNA-环境因子关系网络;
3)采用双向随机游走(Bi-random walk,BiRW)和多标签学习方法(Multi-label
learning,MLL)来预测潜在的miRNA-环境因子关系:
a)对于miRNA和环境因子都是已知的情况,采用双向随机游走方法,分别在miRNA
相似性网络和环境因子相似网络上进行不同步数游走,得到miRNA-环境因子得分矩阵,分
值越大表明对应的miRNA和环境因子存在关系的可能性越大;
b)对于新的miRNA,基于miRNA的相似性网络和环境因子的相似性网络,采用多标
签学习方法,得到新的miRNA与环境因子之间存在关系的概率值,概率值越大,两者存在关
系的可能性越大;
c)对于新的环境因子,基于miRNA的相似性网络和环境因子的相似性网络,采用多
标签学习方法,得到新的环境因子与miRNA之间存在关系的概率值,概率值越大,两者存在
关系的可能性越大。
所述步骤1)中,构建miRNA-环境因子矩阵ME,miRNA-环境因子矩阵每一行对应一
个miRNA,每一列对应一个环境因子;若已知miRNA mi和环境因子ej存在关系,则ME(i,j)等
于1;否则,ME(i,j)等于0;其中i=1,2,…,m;j=1,2,…,e;m和e分别为已知的miRNA和环境
因子个数。
所述步骤1)中,构建miRNA相似性矩阵的方法为:
首先,基于miRNA序列信息和miRNA-环境因子矩阵ME,分别计算miRNA序列相似性
和miRNA交互谱相似性;
然后,基于miRNA序列相似性和miRNA交互谱相似性,构建两个的miRNA相似性矩
阵;
最后,采用相似性矩阵融合方法分别将不同的miRNA相似性矩阵融合为一个miRNA
相似性矩阵。
所述步骤1)中,构建环境因子相似性矩阵的方法为:
首先,基于环境因子的化学结构、化学分类系统信息和miRNA-环境因子矩阵ME,分
别计算环境因子化学结构相似性、化学分类系统相似性和环境因子交互谱相似性;
然后,基于环境因子化学结构相似性、化学分类系统相似性和环境因子交互谱相
似性构建三个环境因子相似性矩阵;
最后,采用相似性矩阵融合方法分别将不同的环境因子相似性矩阵融合为一个环
境因子相似性矩阵。
所述步骤2)包括以下步骤:
首先,基于步骤1)中融合得到的miRNA相似性矩阵和环境因子相似性矩阵,分别构
建miRNA相似性网络和环境因子相似性网络;在miRNA相似网络中,节点为miRNA,边的权值
为miRNA-miRNA相似性值;在环境因子相似性网络中,节点为环境因子,边的权值为环境因
子-环境因子相似性值;
然后,根据已知的miRNA-环境因子关系,构建miRNA-环境因子关联二分图;在
miRNA-环境因子关联二分图中,节点分别为miRNA和环境因子,若miRNA mi和环境因子ej存
在关系,则miRNA mi和环境因子ej之间存在一条边,否则没有边;
最后,融合miRNA相似性网络、环境因子相似性网络和miRNA-环境因子关联二分
图,构成miRNA-环境因子关系网络。
所述步骤a)具体为:
a1)对融合后的miRNA相似性矩阵和融合后的环境因子相似性矩阵进行标准化,公
式为:
RM=DM-1/2*FM*DM-1/2
RE=DE-1/2*FE*DE-1/2
其中,RM表示标准化的miRNA相似性矩阵,DM表示融合后的miRNA相似性矩阵的对
角矩阵,DM对角线的值为对应的FM中一行的值的和;
RE表示标准化的环境因子相似性矩阵,DE表示融合后的环境因子相似性矩阵的对
角矩阵,DE对角线的值为对应的FE中一行的值的和;
对miRNA-环境因子矩阵ME进行标准化,公式为:
A(i,j)=ME(i,j)/sum(ME)
其中,A(i,j)表示标准化的miRNA-环境因子矩阵A中第i行j列的元素;ME(i,j)代
表miRNA-环境因子矩阵ME中第i行j列的元素,sum(ME)为ME中所有元素之和;
a2)进行以下迭代:
在miRNA相似性网络游走:
RDL(t)=a×RM×RD(t-1)+(1-a)A
其中,a为固定参数【a的取值通过交叉验证确定,本发明实施例中,a的取值通过交
叉验证最终确定为0.8】,RD(t-1)为游走t-1步后预测的miRNA-环境因子得分矩阵,RDL(t)
为在miRNA相似性网络上游走t步后预测的miRNA-环境因子得分矩阵;RD(0)=A;
在环境因子相似性网络游走:
RDR(t)=a×RD(t-1)×RE+(1-a)A
其中,RDR(t)为在环境因子相似性网络上游走t步后预测的miRNA-环境因子的得
分矩阵;
最终输出游走t步后预测的miRNA-环境因子得分矩阵RD(t):
设定随机游走在miRNA相似性网络和环境因子相似性网络中的最大迭代步数分别
为l和r;【l和r的取值通过交叉验证确定,本发明实施例中,l和r的取值通过交叉验证最终
确定分别为4和2】当随机游走在两个网络中的步数超过最大迭代参数l或r时,迭代过程终
止;
a3)对于任意两个已知的miRNA和环境因子,根据RD(t)的值判断两者存在关系的
可能性。
所述步骤b)具体为:
b1)按如下方法计算新的miRNA mc与已知的环境因子ej存在关系的概率P(mc,ej):
其中,和表示两个先验概率;和表示两个后验概率;
其中,e(i)表示miRNA mc的K个最近邻居中,本身和ej有关系,且其对应的K个最近
邻居中,有i个miRNA和环境因子ej有关系的miRNA的个数;
e′(i)表示miRNA mc的K个最近邻居中,本身和ej有关系,且其对应的K个最近邻居
中,有i个miRNA和环境因子ej没有关系的miRNA的个数;
s的取值采用交叉验证得到;
b2)根据P(mc,ej)的值判断新的miRNA mc与已知的环境因子ej存在关系的可能性。
所述步骤c)具体为:
c1)按如下方法计算新的环境因子ec与已知的miRNA mi存在关系的概率P(ec,mi):
其中,和表示两个先验概率;和表示两个后验概率;
其中,m(j)表示环境因子ec的K个最近邻居中,本身和mi有关系,且其对应的K个最
近邻居中,有j个环境因子和miRNA mi有关系的环境因子的个数;
m′(j)表示环境因子ec的K个最近邻居中,本身和mj有关系,且其对应的K个最近邻
居中,有j个环境因子和miRNA mi没有关系的环境因子的个数;
r的取值采用交叉验证得到;
c2)根据P(ec,mi)的值判断新的环境因子ec与已知的miRNA mi存在关系的可能性。
所述s的取值为10,r的取值为5。
有益效果:
本发明通过集成双向随机游走和多标签学习算法,来预测环境因子潜在的miRNA。
首先,利用已知的不同生物数据信息,计算得到不同的miRNA相似性矩阵和环境因子相似性
矩阵。然后,基于计算得到不同的miRNA相似性和环境因子相似性,分别创建不同的miRNA相
似性矩阵和不同的环境因子相似性矩阵,再用相似性矩阵融合方法分别对不同的miRNA相
似性矩阵和不同的环境因子相似性矩阵进行融合,减低单个数据源的得到的相似性噪声,
提高最终miRNA和环境因子相似性的可靠性。最后对不同情况下miRNA和环境因子,分别采
用双向随机游走和多标签学习来预测潜在的miRNA-环境因子关系,该方法能有效地挖掘环
境因子潜在的miRNA。
附图说明
图1:本发明MEI-BRWMLL流程图;
图2:环境因子的度分布图;
图3:ClusterViz在已知数据集上识别出来的三个模块;
图4:在数据集上的十倍交叉验证。
具体实施方式
以下将结合附图和具体实施例对本发明做进一步详细说明:
如图1所示,本发明具体实现过程如下:
一.miRNA相似性计算和环境因子相似性计算
1.miRNA-环境因子矩阵构建
基于已知的miRNA-环境因子关系,本发明首先构建miRNA-环境因子矩阵ME。其中,
miRNA-环境因子矩阵每一行对应一个miRNA,每一列对应一个环境因子。若miRNA mi和环境
因子ej存在关联关系,ME(i,j)等于1;否则,ME(i,j)等于0。
2.miRNA相似性计算
本发明miRNA相似性计算包括两个部分:miRNA序列相似性计算和miRNA交互谱相
似性计算。本发明采用Emboss-Needle工具来计算两条成熟体miRNA序列的相似性。Emboss-
Needle参数则是按照指定的参数(Matrix=EDNAfull,Gap open=10,Gap extend=0.5)。
miRNA交互谱相似性计算是基于假设:相似miRNA一般都会有相似的交互模式,本
发明定义两个miRNA mi和mj之间的交互谱相似性为:
miR_Gip(mi,mj)=exp(-γm||IP(mi)-IP(mj)||2)
其中,mi和mj分别代表第i个miRNA和第j个miRNA;i,j=1,2,…,m;m表示已知的
miRNA的总个数;IP(mi)代表miRNA-环境因子矩阵中的第i行。
3.环境因子相似性计算
环境因子可以分为两种:化学分子环境因子和非化学分子环境因子。对于化学分
子环境因子,本发明采用化学结构相似性、化学分类系统信息相似性和交互谱相似性来计
算其相似性。对于非化学分子环境因子,只采用交互谱相似性来计算相似性。化学结构相似
性计算是利用SIMCOMP工具来实现的,该工具是通过比对两个化学分子的共同子结构大小
来比较两个化学分子的化学结构相似性,即共同的子结构越大,两个化学分子的化学结构
相似性越高。化学分类系统信息(ATC:anatomical therapeutic chemical)是基于其在各
个组织中化学,药理及其作用等属性,其提供为非结构信息。本发明采用Lin相似性计算方
法来计算两个化学分子之间的化学分类系统信息相似性,该方法基于节点的层次结构,化
学分子的注释信息重叠越多,相似性越高。
对于所有的环境因子(包括化学分子环境因子和非化学分子环境因子),本发明采
用以下公式计算两个环境因子ei和ej之间的交互谱相似性:
EF_Gip(ei,ej)=exp(-γe||IP(ei)-IP(ej)||2)
其中,ei和ej分别代表第i个环境因子和第j个环境因子;i,j=1,2,…,e;e表示已
知的环境因子的总个数,IP(ei)代表miRNA-环境因子矩阵中的第i列。
二.相似性矩阵融合
从上面部分可知,本发明已经计算得到2种miRNA的相似性数据和3种环境因子相
似性数据。以miRNA为例子,首先,本发明对miRNA的两种相似性矩阵按照下面方式分别进行
标准化:
其中,W表示miRNA相似性矩阵,W(i,j)为其第i行第j列的元素;NMv0(i,j)表示经过
标准化后的miRNA相似性矩阵NMv0第i行第j列的元素。
为了度量相似性矩阵的局部一致性,本发明基于前面计算得到的miRNA相似性,对
每个miRNA选择相似性最大的前K个miRNA作为其最近邻居集合,从而构建局部相似性矩阵:
其中,Ni表示第i个miRNA的最近邻居集合。
对于miRNA每种数据类型,相似性矩阵融合过程是通过迭代更新相似性矩阵:
其中,SMv表示数据类型为v的miRNA的局部相似性网络;本发明中v=1,2分别表示
miRNA序列局部相似性矩阵和miRNA交互谱局部相似性矩阵;n代表是数据类型的总的个数,
在这里,n为2;NMvu表示第u(u=1,2,3…)次迭代更新的相似性矩阵;本发明中k=1,2分别指
代miRNA序列相似性矩阵和miRNA交互谱相似性矩阵;迭代计算NMvu,直到两次迭代之间的差
值NMvu-NMvu-1<ε,结束迭代。本发明设定ε=10e-6。
对于每一种数据类型的miRNA相似性矩阵,都可以得到一个融合后的相似性矩阵。
本发明通过算术平均值计算所有数据类型融合后的miRNA相似性矩阵FM,其定义如下:
对于环境因子的三种相似性矩阵,利用相同的相似性矩阵融合方法也可以得到一
个融合后的环境因子相似性矩阵FE。
三.基于双向随机游走和多标签学习方法预测miRNA-环境因子相互关系
本发明采用两种方法来预测miRNA-环境因子之间关联关系:双向随机游走来预测
已知的miRNA和环境因子之间潜在的关联关系和多标签学习方法来预测新的miRNA(环境因
子)和环境因子(miRNA)之间的关联关系。本发明采用这两种方法的理由包括以下几点:首
先,以前的研究表明双向随机游走在预测已知的样本之间相互作用关系中取得很好的效
果。但是其对于新的样本之间关联关系效果不是特别突出。然而,多标签学习方法在新的样
本之间关系预测上优势很大。因此,本发明通过融合两种方法优势来提高miRNA-环境因子
之间关系。
(1)基于双向随机游走方法预测已知的miRNA-环境因子之间潜在相互关系
本发明预测miRNA-环境因子之间相互关联关系基于的假设为:相似的miRNA一般
都会和相似的环境因子之间有关系。其具体的实施步骤如下:
首先,本发明采用拉普拉斯标准化方法分别对上部分计算得到的融合后的miRNA
相似性矩阵和融合后的环境因子相似性矩阵进行标准化。以miRNA为例,其标准化的定义如
下:
RM=DM-1/2*FM*DM-1/2
其中,DM表示融合后的miRNA相似性矩阵的对角矩阵。DM对角线的值为对应的FM中
一行的值的和。通过类似的过程也可以得到标准化的环境因子相似性矩阵。
对于miRNA-环境因子矩阵ME,其标准化矩阵A定义为:
A(i,j)=ME(i,j)/sum(ME)
其中,ME(i,j)代表miRNA-环境因子矩阵ME中第i行j列的元素,sum(ME)为ME中所
有元素之和。
至此,本发明得到标准化的miRNA相似性矩阵(RM),环境因子相似性矩阵(RE)和
miRNA-环境因子关联矩阵(A)。然后,本次采用双向随机游走方法来预测已知的miRNA和环
境因子之间潜在的关联关系。基于miRNA相似性矩阵和环境因子相似性矩阵,构建miRNA相
似性网络和环境因子相似性网络。其中,两个网络中,节点分别为miRNA和环境因子,边的权
重分别为miRNA-miRNA相似性值和环境因子-环境因子相似性值。考虑到miRNA相似性矩阵
和环境因子相似性矩阵可能有不同的结构和拓扑特征,随机游走在两个网络中的最优的迭
代步数可能不一致。因此,本发明设定两个参数l和r分别来表示随机游走在miRNA相似性网
络和EF相似性网络中最大迭代步数;l和r的取值通过交叉验证确定,本发明实施例中,l和r
的取值通过交叉验证最终确定分别为4和2。其迭代过程可表示为:
在miRNA相似性网络游走:
RDL(t)=a×RM×RD(t-1)+(1-a)A
其中,a为固定参数【a的取值通过交叉验证确定,本发明实施例中,a的取值通过交
叉验证最终确定为0.8】,RD(t-1)为游走t-1步后预测的miRNA-环境因子得分矩阵,RDL(t)
为在miRNA相似性网络上游走t步后预测的miRNA-环境因子得分矩阵;RD(0)=A;
在环境因子相似性网络游走:
RDR(t)=a×RD(t-1)×RE+(1-a)A
其中,RDR(t)为在环境因子相似性网络上游走t步后预测的miRNA-环境因子的得
分矩阵;
最终的输出游走t步后预测的miRNA-环境因子得分矩阵RD(t):
当随机游走在两个网络中的步数超过最大迭代参数l或r时,迭代过程终止。
对于任意两个已知的miRNA和环境因子,RD(t)的值代表两者存在关系的可能性,
表示已知的miRNA和环境因子之间潜在的关联关系。
(2)基于多标签学习方法预测新的miRNA-环境因子之间潜在相互关系
本发明将miRNA-环境因子之间关系预测问题转化为概率事件。假设需要预测
miRNA mi和环境因子ej之间关系。若在已知的miRNA中,与某个miRNA最相似的K个miRNA中有
10个miRNA和环境因子ej有关系,则认定这个miRNA有70%概率和环境因子ej存在关联关系。
并且,在与miRNA mi最相似的K个miRNA中有10个miRNA和环境因子ej存在关联关系,那么
miRNA mi也有70%概率和环境因子ej有关系。
假定有m个已知的miRNA和e个环境因子,则miRNA-环境因子矩阵ME的维度为m行和
e列。miRNA mi和环境因子ej之间存在关系的概率定义为Pij,代表miRNA mi和环境因子ej之
间存在关系的可信程度。当已知miRNA mi和环境因子ej之间存在关系时,Pij=ME(i,j)=1;
否则,当已知miRNA mi和环境因子ej之间不存在关系时,Pij=ME(i,j)=0。给定一个新的
miRNA mc,其与环境因子ej存在关系的概率记为P(mc,ej)。基于miRNA相似性,选取与miRNA
mc相似性最大的K个miRNA,即选择miRNA mc的K个最近邻居,Nc表示miRNA mc的K个最近邻
居。根据训练样本的统计信息,应用条件概率和贝叶斯决策理论来预测测试样本。本发明按
如下方法计算P(mc,ej):
其先验概率可利用已知的m个miRNA来估计:
表示和环境因子ej有关的miRNA的先验概率,m表示已知的miRNA的个数;
后验概率可以按照以下方法计算:
其中,s的取值通过交叉验证得到,本实施例最后s取值为10;e(i)表示miRNA mc的
K个最近邻居中,本身和ej有关系,且其对应的K个最近邻居中,有i个miRNA和环境因子ej有
关系的miRNA的个数;
e′(i)表示miRNA mc的K个最近邻居中,本身和ej有关系,且其对应的K个最近邻居
中,有i个miRNA和环境因子ej没有关系的miRNA的个数。
四、实验验证
1.网络分析
miRNA-环境因子网络包含224个miRNA,124个环境因子和729条miRNA-环境因子关
系。图2表示miRNA-环境因子关系中环境因子的度的分布。行坐标代表度,纵坐标代表miRNA
的个数。从图2中可以发现大多数的环境因子的度都为1。也就是只有1个miRNA和这些环境
因子有关系。其中,吉西他滨的度最高,有56个miRNA与其有关系。
本发明利用Cytoscape的ClusterViz插件对miRNA-环境因子关系网络进行聚类分
析。图3表示利用ClusterViz聚类得到的3个模块。三角形表示环境因子,矩形表示miRNA。从
这些模块可以发现:环境因子可以调控功能相似的miRNA。例如,模块3中4个环境因子(DDT,
E2,BPA和电离辐射)和let-7家族都有关系。
2.评价指标
为了验证本发明的有效性,本发明采用十倍交叉验证来测试MEI-BRWMLL的预测性
能。将已知的miRNA-环境因子已知的关系随机分为十份,随机选取一份作为测试集,剩下额
九份作为训练集。在每次交叉验证实验中,将测试集里的关系数据集中关系删除,利用剩下
的九份训练集中的已知信息来预测测试集中关系。若删除后,某个环境因子没有一个miRNA
与其关联,则采用多标签学习方法来进行预测;否则,采用双向随机游走方法进行预测。从
而,可以获得删除的miRNA-环境因子得分/存在关系的概率。
针对测试集中每对被删除关系的miRNA-环境因子【即实际存在关系的miRNA-环境
因子】,对预测得到的miRNA-环境因子得分/存在关系的概率设定阈值,如果得分/概率大于
这个阈值,则被认为是一个true positive(TP,表示miRNA-环境因子实际存在关系,预测也
存在关系);否则为false negative(FN,表示miRNA-环境因子实际存在关系,而预测不存在
关系)。另外,对于已知没有关系的miRNA-环境因子【即实际不存在关系的miRNA-环境因
子】,若得分/概率大于这个阈值,被认为是一个false positive(FP,表示miRNA-环境因子
实际不存在关系,而预测存在关系);否则为true negative(TN,表示miRNA-环境因子实际
不存在关系,而预测也不存在关系)。从而进一步计算出True-positive rate(TPR)和
False-positive rate(FPR)。TPR和FPR的计算公式如下:
通过改变阈值,可以计算得到不同的TPR和FPR,进而画出ROC曲线,并且计算该曲
线下方的面积可以得到AUC值,AUC值被用来表示全局预测性能。本发明将MEI-BRWMLL和另
外两个miRNA-环境因子关系预测方法(miREFScan和miREFRWR)比较。图4表示三种方法在
miRNA-环境因子关系预测性能。从图4可以发现,MEI-BRWMLL的AUC值为0.8208。另外两种方
法miREFScan和miREFRWR的AUC值分别为0.7963和0.7905。实验结果表明:本发明要优于现
在的两种方法。
3.案例分析
3,3-二吲哚基甲烷(DIM)来源于吲哚-3-甲醇消化产物,是一种存在于十字花科植
物如西兰花,抱子甘蓝,卷心菜和甘蓝菜的化合物。越来越多的研究表明:3,3-二吲哚基甲
烷和许多癌症有着密切关系。例如,3,3-二吲哚基甲烷能够抑制结肠癌细胞中基因HDAC1,
HDAC2和HDAC3的表达。表1为MEI-BRWMLL预测的和3,3-二吲哚基甲烷有关系的前15个预测
的miRNA。在这预测的15个miRNA中,9个miRNA在最近的文献被验证和3,3-二吲哚基甲烷有
关系。排名第1的为hsa-mir-146a,根据文献表明3,3-二吲哚基甲烷能够诱导hsa-mir-164a
表达,且hsa-mir-164a能够抑制基因MTA-2,IRAK-1和NFKB的表达,进而减少胰腺癌细胞转
移。排名第2的为hsa-mir-16。有文献表明在脑CD4+T细胞中,3,3-二吲哚基甲烷促进hsa-
mir-16的表达,从而抑制靶基因EAE的表达。最近的研究表明3,3-二吲哚基甲烷和排名6,8,
12的hsa-mir-181a,hsa-mir-125b,hsa-mir-34a有关系。3,3-二吲哚基甲烷抑制这些miRNA
表达,从而可以诱导肝脏中caspase-2基因表达。排名第9的为hsa-mir-200b。研究表明3,3-
二吲哚基甲烷可以上调乳腺癌的SKBR3细胞系中的hsa-mir-200b。排名第11为hsa-mir-
221,研究表明在胰腺癌总,3,3-二吲哚基甲烷可以改变hsa-mir-221的表达,从而改变
PTEN,p27,p57和PUMA基因表达。最近研究发现,在前列腺癌中,3,3-二吲哚基甲烷可以上调
hsa-let-7e的表达,从而抑制基因EZH2的表达。根据文献表明在乳腺癌中,3,3-二吲哚基甲
烷和赫赛汀共同作用来促进hsa-mir-200c的表达,从而抑制其靶基因的表达。另外,本发明
也发现了一些新的miRNA,如hsa-mir-24,hsa-mir-155,hsa-mir-233,hsa-mir-181b,hsa-
mir-126和hsa-mir-222。虽然这些miRNA分子机制仍然未知,这可以留给生物学家通过生物
实验方法来验证期生物功能。
表1预测的miRNA