基于核典型相关分析的固有不规则蛋白质结构预测方法技术领域
本发明涉及的是一种用信息学科常用的核典型相关分析方法处理生物问题的方法。具体
地说是一种用信息学科常用的核典型相关分析方法进行固有不规则蛋白质结构预测的方法。
背景技术
长期认为,蛋白质的特定规则结构是蛋白质具有功能的基础,缺失特定规则结构的蛋白
质是不具有活性的。而固有不规则结构蛋白质的发现打破了这一观点。固有不规则结构蛋白
质不仅不是毫无用处的,恰恰在细胞中执行着重要功能。许多癌症都与不规则蛋白质有关。
由于固有不规则蛋白质发现比较困难,研究固有不规则蛋白质结构预测方法可有效引导这类
蛋白质的发现,并为生物制药的研制提供基础。
由于关于固有不规则蛋白质结构预测的研究不到十年,相应的预测方法不是很多。整体
来看,融合多特征的预测器效果要好于基于单特征的预测器。融合多特征包括决策级融合和
特征级融合两种方式。目前,可见报道的预测方法均采用决策级融合的方式(CDF it all:
Consensus prediction of intrinsically disordered proteins based on various cumulative distribution
functions,Bin Xue;Christopher J.Oldfield;A.Keith Dunker;Vladimir N.Uversky,FEBS Letters
2009;583(9):1469-1474.)。然而,相比于决策级融合,特征级融合由于利用了更多的可识别信
息,因此,有着更好的识别性能。
发明内容
本发明的目的在于提供一种能有效提高固有不规则蛋白质结构的预测精度的基于核典型
相关分析的固有不规则蛋白质结构预测方法。
本发明的基于核典型相关分析的固有不规则蛋白质结构预测的方法,包括下列步骤:
(1)提取待预测蛋白质的结构特征和生化特征作为识别特征,所述结构特征指采用窗口
法得到的蛋白质预测位点周围氨基酸的组合频率,所述生化特征指蛋白质预测位点氨基酸的
Russell/Linding值、疏水性、极性和带电性;
(2)采用核典型相关分析法对所提取的特征数据进行映射和融合,获取更有利于蛋白质
结构识别的特征数据,核典型相关分析法的核函数采用径向基函数;
(3)基于更有利于蛋白质结构识别的特征数据,进行蛋白质结构识别和预测。
本发明即采用特征级融合的方式对固有不规则蛋白质的结构进行预测,具体为基于核典
型相关分析的方式对固有不规则结构蛋白质的结构进行预测,能取得比现有方法更好的预测
效果。本发明的有益效果在于:
本发明利用核典型相关分析对固有不规则蛋白质结构进行预测,在充分利用不同特征
间离散度的同时,也利用不同特征的相关性进行多特征融合,使得预测精度得到有效提
高。本发明有助于为固有不规则蛋白质的发现和确认提供前期依据,并为生物制药的研制提
供基础。
附图说明
图1基于核典型相关分析的固有不规则蛋白质结构预测方法流程图。
具体实施方式
下面举例对本发明做更详细的描述:
1.蛋白质结构特征提取
1.1氨基酸的组合频率特征
当对蛋白质的结构进行研究时,蛋白质的一级结构,即组成蛋白质的氨基酸序列是基础
研究内容。本发明首先采用窗口法获取蛋白质氨基酸序列的组合频率特征。
定义氨基酸集 A ~ = { A , C , D , E , F , G , H , I , K , L , M , N , P , Q , S , T , V , W , Y } . ]]>集合中的20个字
母分别对应着20种不同的氨基酸,其中文名称见表1。以待进行蛋白质结构预测的氨基酸位
点为中心,取一长度为l的窗口,对窗口内的每个氨基酸出现的频率进行统计,以反映该氨
基酸位点周围的氨基酸对其结构倾向性的影响。为了保证前后对称,l一般取为奇数。设蛋白
质序列x的长度为M,那么氨基酸的组合频率特征可以描述为:
p i ( a ) 1 l Σ j = i - ( l - 1 ) / 2 i + ( l + 1 ) / 2 δ ja - - - ( 1 ) ]]>
pi(a)表示蛋白质序列第i个位点的窗口内氨基酸a出现的频率。其中δja定义
如下:
δ ja = 1 if x ( j ) = a 0 otherwise - - - ( 2 ) ]]>
这样,每个蛋白质结构预测位点周围的氨基酸组合频率可构成一个20个元素组成的特征
向量。
1.2氨基酸的生化特征
除了周围氨基酸的影响,蛋白质结构预测位点氨基酸的自身结构倾向性也应重点考虑。
这里提取了多种氨基酸的生化特性构成了相应的特征向量。
(1)Russell/Lindin值
Russell和Lindin发现,组成蛋白质的氨基酸自身也具有生理结构倾向性。该倾向性可以
由公式P=RC-SS表示,其中P是给定氨基酸的生理倾向性,RC代表“无规则卷曲”的生理倾
向性,SS表示规则二级结构的生理倾向性。他们从SCOP数据库中每个超家族中选出一个非
冗余的蛋白质作为代表,组成了一个非冗余蛋白质数据集。并且在这个数据集中统计每个氨
基酸的RS,SS生理倾向性。其统计结果如表1所示。表1中,Russell/Lindin值越大,该氨
基酸越倾向于不规则结构。
(2)氨基酸的疏水性
疏水性是指蛋白质序列中氨基酸所带侧链的疏水性质。这种特性可以使得疏水氨基酸保
持一定的刚性,有助于结构上的稳定。而缺少疏水性的氨基酸则可能产生缺乏刚性的结构,
即不规则结构。表1为Kyte-Doolittle法(K-D)得到的不同氨基酸的疏水值。
(3)氨基酸的极性
氨基酸极性是指其侧链的极性且与氨基酸的疏水、亲水作用关系紧密。氨基酸的侧链非
极性越大,由其组成的肽链越难溶于水。表1列出了氨基酸的极性情况。
表1 氨基酸生化值
(4)氨基酸的带电性
带电性是指氨基酸有多种可解离为带有正电荷或负电荷的侧链基团,解离后的带电侧链
间在静电作用下会迫使它们的结构发生改变,进而倾向于形成不规则结构。表2列出了氨基
酸残基对应的带电性。
表2 氨基酸带电性
这样,每个蛋白质结构预测位点氨基酸的生化特性可构成一个4个元素组成的特征向量。
2.核典型相关分析
核典型相关分析(Kernel Cannoieal Correlation Analysis,KCCA)是传统典型相关分析
(Cannoieal CorrelationAnalysis,CCA)的非线性推广。首先应用核的方法将原低维空间中的
特征数据投影到一个高维特征空间,然后在高维特征空间中进行CCA处理,进而在融合多特
征基础上得到可分性更好的特征数据。本发明将核典型相关分析法应用于固有不规则蛋白质
的特征数据处理。
具体来说,与典型相关分析相似,核典型相关分析旨在得到两个优化的投影向量a1∈Hx
和b1∈Hy,使得u1=<a1,φx(x)>与v1=<b1,φy(y)>之间的相关系数ρ最大。从而获取更能体现
蛋白质结构本质的特征数据,以提高识别精度。
在固有不规则蛋白质的结构预测中,其进行核典型相关分析的主要目的是使得输入特征
包含尽可能多的结构预测信息。径向基函数采用一元函数来拟合高维函数,能够最大程度地
突出输入特征特征分量的差异度,从而提高了预测精度。因此本发明采用径向基函数作为核
典型相关分析的核函数,其公式如下式。
K ( x , x i ) = exp ( - 1 2 σ 2 | | x - x i | | 2 ) - - - ( 3 ) ]]>
3.固有不规则结构蛋白质识别和预测
通过核典型相关分析获取更能突出蛋白质结构本质的特征数据后,即可设计分类器判断
蛋白质的结构。由于是二类问题,因此,本发明采用支持向量机实现蛋白质不规则结构识别
和固有不规则结构蛋白质的预测。
4.实验测试
4.1数据提取
实验中,在国际大型公共蛋白质信息数据库PDB中提取规则结构蛋白质数据。选择序列
类型为X-Ray Resolution,即通过X晶体衍射方法得到的数据。其中,清晰度的选择为最小
值最大值然后,去除序列同一性高于30%的冗余序列。在国际专业不规则结构
蛋白质数据库Disprot中提取不规则结构蛋白质数据。这两组数据自然的分成两个部分,即规
则数据集和不规则数据集。由于蛋白质不规则序列的长度对蛋白质结构的预测影响较大,本
发明将不规则数据集划分为两个部分,即长序列集(长度大于30)和短序集(长度小于等于
30)。
4.2特征提取
分别提取蛋白质预测位点周围氨基酸组合频率等结构特征和Russell/Linding值、疏水性、
极性和带电性等预测位点氨基酸生化特征。
4.3核典型相关分析
采用径向基函数对提取特征数据进行升维映射。并利用核典型相关分析获取更能反映蛋
白质结构本质的特征数据。
4.4蛋白质结构识别和预测
将不规则蛋白质数据集按序列长度分为长序列和短序列。然后,利用5倍交叉验证法对
支持向量机分类器进行训练,并获取分类模型。最后,利用分类模型对固有不规则蛋白质进
行识别和预测。
4.5实验结果与分析
表3为针对上述规则和不规则数据集,利用本发明所设计方法得到的预测结果。表中所用
的评价指标分别为总体预测精度(ACC),灵敏性(TPR)和特异性(TNR)它们分别定义
为:
ACC = TP + TN TP + FN + FP + TN = TP + TN N - - - ( 4 ) ]]>
TPR = TP TP + FN - - - ( 5 ) ]]>
TNR = TN TN + FP = 1 - FPR - - - ( 6 ) ]]>
其中,N表示输入样本的总数,TP表示正确地识别为不规则结构的样本个数,TN表示
正确地识别为规则结构的样本个数,FP表示错误地识别为不规则结构的样本个数,FN表示
错误地识别为规则结构的样本个数。
表3 不规则结构蛋白质预测结果
鉴于已有固有不规则蛋白质结构预测方法的预测精度一般为长序列80%短序列70%左
右,从实验结果可以看出,无论是短序列还是长序列,利用本发明所设计方法得到的实验结
果,总体精度均好于目前已有不规则结构蛋白质预测方法。