书签分享收藏举报版权申诉 / 8

立即下载加入VIP,免费下载

当前位置：首页 > 物理 > 计算；推算；计数 > 基于核典型相关分析的固有不规则蛋白质结构预测方法.pdf

基于核典型相关分析的固有不规则蛋白质结构预测方法.pdf

上传人：e1

文档编号：4219008

上传时间：2018-09-07

格式：PDF

页数：8

大小：3.51MB

《基于核典型相关分析的固有不规则蛋白质结构预测方法.pdf》由会员分享，可在线阅读，更多相关《基于核典型相关分析的固有不规则蛋白质结构预测方法.pdf（8页完整版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 102779240 A (43)申请公布日 2012.11.14 C N 1 0 2 7 7 9 2 4 0 A *CN102779240A* (21)申请号 201210205886.4 (22)申请日 2012.06.21 G06F 19/16(2011.01) (71)申请人哈尔滨工程大学地址 150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室 (72)发明人贺波陈若雷冯伟兴董彦生王科俊 (54) 发明名称基于核典型相关分析的固有不规则蛋白质结构预测方法 (57) 摘要本发明提供的是一种基于核典型相关分析的。

2、固有不规则蛋白质结构预测方法。（1）提取待预测蛋白质的结构特征和生化特征作为识别特征，所述结构特征指采用窗口法得到的蛋白质预测位点周围氨基酸的组合频率，所述生化特征指蛋白质预测位点氨基酸的Russell/Linding值、疏水性、极性和带电性；（2）采用核典型相关分析法对所提取的特征数据进行映射和融合，获取更有利于蛋白质结构识别的特征数据，核典型相关分析法的核函数采用径向基函数；（3）基于更有利于蛋白质结构识别的特征数据，进行蛋白质结构识别和预测。本发明的预测精度得到有效提高，有助于为固有不规则蛋白质的发现和确认提供前期依据，并为生物制药的研制提供基础。 (51)In。

3、t.Cl. 权利要求书1页说明书5页附图1页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书 1 页说明书 5 页附图 1 页 1/1页 2 1.一种基于核典型相关分析的固有不规则蛋白质结构预测方法，其特征是：（1）提取待预测蛋白质的结构特征和生化特征作为识别特征，所述结构特征指采用窗口法得到的蛋白质预测位点周围氨基酸的组合频率，所述生化特征指蛋白质预测位点氨基酸的Russell/Linding值、疏水性、极性和带电性；（2）采用核典型相关分析法对所提取的特征数据进行映射和融合，获取更有利于蛋白质结构识别的特征数据，核典型相关分析法的核函数采用径向基函。

4、数；（3）基于更有利于蛋白质结构识别的特征数据，进行蛋白质结构识别和预测。 2.根据权利要求1所述的基于核典型相关分析的固有不规则蛋白质结构预测方法，其特征是所述采用窗口法得到的蛋白质预测位点周围氨基酸的组合频率的提取方法为：定义氨基酸集集合中的20个字母分别对应着20种不同的氨基酸，以待进行蛋白质结构预测的氨基酸位点为中心，取一长度为l的窗口，对窗口内的每个氨基酸出现的频率进行统计，以反映该氨基酸位点周围的氨基酸对其结构倾向性的影响；l取为奇数，设蛋白质序列x的长度为M，那么氨基酸的组合频率特征描述为： p i (a)表示蛋白质序列第i个位点的窗口内氨基酸a出现的频率，其中 j。

5、a 定义如下：这样，每个蛋白质结构预测位点周围的氨基酸组合频率构成一个20个元素组成的特征向量。权利要求书CN 102779240 A 1/5页 3 基于核典型相关分析的固有不规则蛋白质结构预测方法技术领域 0001 本发明涉及的是一种用信息学科常用的核典型相关分析方法处理生物问题的方法。具体地说是一种用信息学科常用的核典型相关分析方法进行固有不规则蛋白质结构预测的方法。背景技术 0002 长期认为，蛋白质的特定规则结构是蛋白质具有功能的基础，缺失特定规则结构的蛋白质是不具有活性的。而固有不规则结构蛋白质的发现打破了这一观点。固有不规则结构蛋白质不仅不是毫无用处的，。

6、恰恰在细胞中执行着重要功能。许多癌症都与不规则蛋白质有关。由于固有不规则蛋白质发现比较困难，研究固有不规则蛋白质结构预测方法可有效引导这类蛋白质的发现，并为生物制药的研制提供基础。 0003 由于关于固有不规则蛋白质结构预测的研究不到十年，相应的预测方法不是很多。整体来看，融合多特征的预测器效果要好于基于单特征的预测器。融合多特征包括决策级融合和特征级融合两种方式。目前，可见报道的预测方法均采用决策级融合的方式（CDF it all:Consensus prediction of intrinsically disordered proteins based on various c。

7、umulative distribution functions,Bin Xue;Christopher J.Oldfield;A. Keith Dunker;Vladimir N.Uversky，FEBS Letters 2009;583(9):1469-1474.）。然而，相比于决策级融合，特征级融合由于利用了更多的可识别信息，因此，有着更好的识别性能。发明内容 0004 本发明的目的在于提供一种能有效提高固有不规则蛋白质结构的预测精度的基于核典型相关分析的固有不规则蛋白质结构预测方法。 0005 本发明的基于核典型相关分析的固有不规则蛋白质结构预测的方法，包括下列步骤： 0006。

8、（1）提取待预测蛋白质的结构特征和生化特征作为识别特征，所述结构特征指采用窗口法得到的蛋白质预测位点周围氨基酸的组合频率，所述生化特征指蛋白质预测位点氨基酸的Russell/Linding值、疏水性、极性和带电性； 0007 （2）采用核典型相关分析法对所提取的特征数据进行映射和融合，获取更有利于蛋白质结构识别的特征数据，核典型相关分析法的核函数采用径向基函数； 0008 （3）基于更有利于蛋白质结构识别的特征数据，进行蛋白质结构识别和预测。 0009 本发明即采用特征级融合的方式对固有不规则蛋白质的结构进行预测，具体为基于核典型相关分析的方式对固有不规则结构蛋白质的结构进行预测，能。

9、取得比现有方法更好的预测效果。本发明的有益效果在于： 0010 本发明利用核典型相关分析对固有不规则蛋白质结构进行预测，在充分利用不同特征间离散度的同时，也利用不同特征的相关性进行多特征融合，使得预测精度得到有效提高。本发明有助于为固有不规则蛋白质的发现和确认提供前期依据，并为生物制药的研说明书CN 102779240 A 2/5页 4 制提供基础。附图说明 0011 图1基于核典型相关分析的固有不规则蛋白质结构预测方法流程图。具体实施方式 0012 下面举例对本发明做更详细的描述： 0013 1.蛋白质结构特征提取 0014 1.1氨基酸的组合频率特征 0015 当对蛋白质的。

10、结构进行研究时，蛋白质的一级结构，即组成蛋白质的氨基酸序列是基础研究内容。本发明首先采用窗口法获取蛋白质氨基酸序列的组合频率特征。定义氨基酸集集合中的20个字母分别对应着20种不同的氨基酸，其中文名称见表1。以待进行蛋白质结构预测的氨基酸位点为中心，取一长度为l的窗口，对窗口内的每个氨基酸出现的频率进行统计，以反映该氨基酸位点周围的氨基酸对其结构倾向性的影响。为了保证前后对称，l一般取为奇数。设蛋白质序列x的长度为M，那么氨基酸的组合频率特征可以描述为： 0016 0017 p i (a)表示蛋白质序列第i个位点的窗口内氨基酸a出现的频率。其中 ja 定义如下： 0018 0019。

11、这样，每个蛋白质结构预测位点周围的氨基酸组合频率可构成一个20个元素组成的特征向量。 0020 1.2氨基酸的生化特征 0021 除了周围氨基酸的影响，蛋白质结构预测位点氨基酸的自身结构倾向性也应重点考虑。这里提取了多种氨基酸的生化特性构成了相应的特征向量。 0022 （1）Russell/Lindin值 0023 Russell和Lindin发现，组成蛋白质的氨基酸自身也具有生理结构倾向性。该倾向性可以由公式P=RC-SS表示，其中P是给定氨基酸的生理倾向性，RC代表“无规则卷曲” 的生理倾向性，SS表示规则二级结构的生理倾向性。他们从SCOP数据库中每个超家族中选出一个非冗余的蛋。

12、白质作为代表，组成了一个非冗余蛋白质数据集。并且在这个数据集中统计每个氨基酸的RS，SS生理倾向性。其统计结果如表1所示。表1中，Russell/Lindin 值越大，该氨基酸越倾向于不规则结构。 0024 （2）氨基酸的疏水性 0025 疏水性是指蛋白质序列中氨基酸所带侧链的疏水性质。这种特性可以使得疏水氨基酸保持一定的刚性，有助于结构上的稳定。而缺少疏水性的氨基酸则可能产生缺乏刚性的结构，即不规则结构。表1为Kyte-Doolittle法（K-D）得到的不同氨基酸的疏水值。说明书CN 102779240 A 3/5页 5 0026 （3）氨基酸的极性 0027 氨基酸极性是指其。

13、侧链的极性且与氨基酸的疏水、亲水作用关系紧密。氨基酸的侧链非极性越大，由其组成的肽链越难溶于水。表1列出了氨基酸的极性情况。 0028 表1 氨基酸生化值 0029 0030 0031 （4）氨基酸的带电性 0032 带电性是指氨基酸有多种可解离为带有正电荷或负电荷的侧链基团，解离后的带电侧链间在静电作用下会迫使它们的结构发生改变，进而倾向于形成不规则结构。表2列出了氨基酸残基对应的带电性。说明书CN 102779240 A 4/5页 6 0033 表2 氨基酸带电性 0034 0035 这样，每个蛋白质结构预测位点氨基酸的生化特性可构成一个4个元素组成的特征向量。 0036 2。

14、.核典型相关分析 0037 核典型相关分析（Kernel Cannoieal Correlation Analysis，KCCA）是传统典型相关分析（Cannoieal CorrelationAnalysis，CCA）的非线性推广。首先应用核的方法将原低维空间中的特征数据投影到一个高维特征空间，然后在高维特征空间中进行CCA处理，进而在融合多特征基础上得到可分性更好的特征数据。本发明将核典型相关分析法应用于固有不规则蛋白质的特征数据处理。 0038 具体来说，与典型相关分析相似，核典型相关分析旨在得到两个优化的投影向量 a 1 H x 和b 1 H y ，使得u 1 与v 1 之间的相。

15、关系数最大。从而获取更能体现蛋白质结构本质的特征数据，以提高识别精度。 0039 在固有不规则蛋白质的结构预测中，其进行核典型相关分析的主要目的是使得输入特征包含尽可能多的结构预测信息。径向基函数采用一元函数来拟合高维函数，能够最大程度地突出输入特征特征分量的差异度，从而提高了预测精度。因此本发明采用径向基函数作为核典型相关分析的核函数，其公式如下式。 0040 0041 3.固有不规则结构蛋白质识别和预测 0042 通过核典型相关分析获取更能突出蛋白质结构本质的特征数据后，即可设计分类器判断蛋白质的结构。由于是二类问题，因此，本发明采用支持向量机实现蛋白质不规则结构识别和固有不规。

16、则结构蛋白质的预测。 0043 4.实验测试 0044 4.1数据提取 0045 实验中，在国际大型公共蛋白质信息数据库PDB中提取规则结构蛋白质数据。选择序列类型为X-Ray Resolution，即通过X晶体衍射方法得到的数据。其中，清晰度的选择为最小值最大值然后，去除序列同一性高于30%的冗余序列。在国际专业不规则结构蛋白质数据库Disprot中提取不规则结构蛋白质数据。这两组数据自然的分成两个部分，即规则数据集和不规则数据集。由于蛋白质不规则序列的长度对蛋白质结构的预测影响较大，本发明将不规则数据集划分为两个部分，即长序列集（长度大于30）和短序集（长度小于等于30）。 0。

17、046 4.2特征提取 0047 分别提取蛋白质预测位点周围氨基酸组合频率等结构特征和Russell/Linding 说明书CN 102779240 A 5/5页 7 值、疏水性、极性和带电性等预测位点氨基酸生化特征。 0048 4.3核典型相关分析 0049 采用径向基函数对提取特征数据进行升维映射。并利用核典型相关分析获取更能反映蛋白质结构本质的特征数据。 0050 4.4蛋白质结构识别和预测 0051 将不规则蛋白质数据集按序列长度分为长序列和短序列。然后，利用5倍交叉验证法对支持向量机分类器进行训练，并获取分类模型。最后，利用分类模型对固有不规则蛋白质进行识别和预测。 005。

18、2 4.5实验结果与分析 0053 表3为针对上述规则和不规则数据集，利用本发明所设计方法得到的预测结果。表中所用的评价指标分别为总体预测精度（ACC），灵敏性（TPR）和特异性（TNR）它们分别定义为： 0054 0055 0056 0057 其中，N表示输入样本的总数，TP表示正确地识别为不规则结构的样本个数，TN表示正确地识别为规则结构的样本个数，FP表示错误地识别为不规则结构的样本个数，FN表示错误地识别为规则结构的样本个数。 0058 表3 不规则结构蛋白质预测结果 0059 0060 鉴于已有固有不规则蛋白质结构预测方法的预测精度一般为长序列80%短序列 70%左右，从实验结果可以看出，无论是短序列还是长序列，利用本发明所设计方法得到的实验结果，总体精度均好于目前已有不规则结构蛋白质预测方法。说明书CN 102779240 A 1/1页 8 图1 说明书附图CN 102779240 A 。

摘要
申请专利号：	CN201210205886.4	申请日：	2012.06.21
公开号：	CN102779240A	公开日：	2012.11.14
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 19/16申请日:20120621\|\|\|公开
IPC分类号：	G06F19/16(2011.01)I	主分类号：	G06F19/16
申请人：	哈尔滨工程大学
发明人：	贺波; 陈若雷; 冯伟兴; 董彦生; 王科俊
地址：	150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室
优先权：
专利代理机构：		代理人：
PDF完整版下载：	PDF下载

内容摘要

本发明提供的是一种基于核典型相关分析的固有不规则蛋白质结构预测方法。（1）提取待预测蛋白质的结构特征和生化特征作为识别特征，所述结构特征指采用窗口法得到的蛋白质预测位点周围氨基酸的组合频率，所述生化特征指蛋白质预测位点氨基酸的Russell/Linding值、疏水性、极性和带电性；（2）采用核典型相关分析法对所提取的特征数据进行映射和融合，获取更有利于蛋白质结构识别的特征数据，核典型相关分析法的核函数采用径向基函数；（3）基于更有利于蛋白质结构识别的特征数据，进行蛋白质结构识别和预测。本发明的预测精度得到有效提高，有助于为固有不规则蛋白质的发现和确认提供前期依据，并为生物制药的研制提供基础。

权利要求书

1.一种基于核典型相关分析的固有不规则蛋白质结构预测方法，其特征是：
（1）提取待预测蛋白质的结构特征和生化特征作为识别特征，所述结构特征指采用窗口
法得到的蛋白质预测位点周围氨基酸的组合频率，所述生化特征指蛋白质预测位点氨基酸的
Russell/Linding值、疏水性、极性和带电性；
（2）采用核典型相关分析法对所提取的特征数据进行映射和融合，获取更有利于蛋白质
结构识别的特征数据，核典型相关分析法的核函数采用径向基函数；
（3）基于更有利于蛋白质结构识别的特征数据，进行蛋白质结构识别和预测。
2.根据权利要求1所述的基于核典型相关分析的固有不规则蛋白质结构预测方法，其特
征是所述采用窗口法得到的蛋白质预测位点周围氨基酸的组合频率的提取方法为：
定义氨基酸集 A ~ = { A , C , D , E , F , G , H , I , K , L , M , N , P , Q , S , T , V , W , Y } , ]]>集合中的20个字
母分别对应着20种不同的氨基酸，以待进行蛋白质结构预测的氨基酸位点为中心，取一长度
为l的窗口，对窗口内的每个氨基酸出现的频率进行统计，以反映该氨基酸位点周围的氨基
酸对其结构倾向性的影响；l取为奇数，设蛋白质序列x的长度为M，那么氨基酸的组合频
率特征描述为：
p i ( a ) 1 l Σ j = i - ( l - 1 ) / 2 i + ( l + 1 ) / 2 δ ja ]]>
pi(a)表示蛋白质序列第i个位点的窗口内氨基酸a出现的频率，其中δja定义
如下：
δ ja = 1 if x ( j ) = a 0 otherwise ]]>
这样，每个蛋白质结构预测位点周围的氨基酸组合频率构成一个20个元素组成的特征向
量。

说明书

基于核典型相关分析的固有不规则蛋白质结构预测方法

技术领域

本发明涉及的是一种用信息学科常用的核典型相关分析方法处理生物问题的方法。具体
地说是一种用信息学科常用的核典型相关分析方法进行固有不规则蛋白质结构预测的方法。

背景技术

长期认为，蛋白质的特定规则结构是蛋白质具有功能的基础，缺失特定规则结构的蛋白
质是不具有活性的。而固有不规则结构蛋白质的发现打破了这一观点。固有不规则结构蛋白
质不仅不是毫无用处的，恰恰在细胞中执行着重要功能。许多癌症都与不规则蛋白质有关。
由于固有不规则蛋白质发现比较困难，研究固有不规则蛋白质结构预测方法可有效引导这类
蛋白质的发现，并为生物制药的研制提供基础。

由于关于固有不规则蛋白质结构预测的研究不到十年，相应的预测方法不是很多。整体
来看，融合多特征的预测器效果要好于基于单特征的预测器。融合多特征包括决策级融合和
特征级融合两种方式。目前，可见报道的预测方法均采用决策级融合的方式（CDF it all:
Consensus prediction of intrinsically disordered proteins based on various cumulative distribution
functions,Bin Xue;Christopher J.Oldfield;A.Keith Dunker;Vladimir N.Uversky，FEBS Letters
2009;583(9):1469-1474.）。然而，相比于决策级融合，特征级融合由于利用了更多的可识别信
息，因此，有着更好的识别性能。

发明内容

本发明的目的在于提供一种能有效提高固有不规则蛋白质结构的预测精度的基于核典型
相关分析的固有不规则蛋白质结构预测方法。

本发明的基于核典型相关分析的固有不规则蛋白质结构预测的方法，包括下列步骤：

（1）提取待预测蛋白质的结构特征和生化特征作为识别特征，所述结构特征指采用窗口
法得到的蛋白质预测位点周围氨基酸的组合频率，所述生化特征指蛋白质预测位点氨基酸的
Russell/Linding值、疏水性、极性和带电性；

（2）采用核典型相关分析法对所提取的特征数据进行映射和融合，获取更有利于蛋白质
结构识别的特征数据，核典型相关分析法的核函数采用径向基函数；

（3）基于更有利于蛋白质结构识别的特征数据，进行蛋白质结构识别和预测。

本发明即采用特征级融合的方式对固有不规则蛋白质的结构进行预测，具体为基于核典
型相关分析的方式对固有不规则结构蛋白质的结构进行预测，能取得比现有方法更好的预测
效果。本发明的有益效果在于：

本发明利用核典型相关分析对固有不规则蛋白质结构进行预测，在充分利用不同特征
间离散度的同时，也利用不同特征的相关性进行多特征融合，使得预测精度得到有效提
高。本发明有助于为固有不规则蛋白质的发现和确认提供前期依据，并为生物制药的研制提
供基础。

附图说明

图1基于核典型相关分析的固有不规则蛋白质结构预测方法流程图。

具体实施方式

下面举例对本发明做更详细的描述：

1.蛋白质结构特征提取

1.1氨基酸的组合频率特征

当对蛋白质的结构进行研究时，蛋白质的一级结构，即组成蛋白质的氨基酸序列是基础
研究内容。本发明首先采用窗口法获取蛋白质氨基酸序列的组合频率特征。
定义氨基酸集 A ~ = { A , C , D , E , F , G , H , I , K , L , M , N , P , Q , S , T , V , W , Y } . ]]>集合中的20个字
母分别对应着20种不同的氨基酸，其中文名称见表1。以待进行蛋白质结构预测的氨基酸位
点为中心，取一长度为l的窗口，对窗口内的每个氨基酸出现的频率进行统计，以反映该氨
基酸位点周围的氨基酸对其结构倾向性的影响。为了保证前后对称，l一般取为奇数。设蛋白
质序列x的长度为M，那么氨基酸的组合频率特征可以描述为：

p i ( a ) 1 l Σ j = i - ( l - 1 ) / 2 i + ( l + 1 ) / 2 δ ja - - - ( 1 ) ]]>

pi(a)表示蛋白质序列第i个位点的窗口内氨基酸a出现的频率。其中δja定义
如下：

δ ja = 1 if x ( j ) = a 0 otherwise - - - ( 2 ) ]]>

这样，每个蛋白质结构预测位点周围的氨基酸组合频率可构成一个20个元素组成的特征
向量。

1.2氨基酸的生化特征

除了周围氨基酸的影响，蛋白质结构预测位点氨基酸的自身结构倾向性也应重点考虑。
这里提取了多种氨基酸的生化特性构成了相应的特征向量。

（1）Russell/Lindin值

Russell和Lindin发现，组成蛋白质的氨基酸自身也具有生理结构倾向性。该倾向性可以
由公式P=RC-SS表示，其中P是给定氨基酸的生理倾向性，RC代表“无规则卷曲”的生理倾
向性，SS表示规则二级结构的生理倾向性。他们从SCOP数据库中每个超家族中选出一个非
冗余的蛋白质作为代表，组成了一个非冗余蛋白质数据集。并且在这个数据集中统计每个氨
基酸的RS，SS生理倾向性。其统计结果如表1所示。表1中，Russell/Lindin值越大，该氨
基酸越倾向于不规则结构。

（2）氨基酸的疏水性

疏水性是指蛋白质序列中氨基酸所带侧链的疏水性质。这种特性可以使得疏水氨基酸保
持一定的刚性，有助于结构上的稳定。而缺少疏水性的氨基酸则可能产生缺乏刚性的结构，
即不规则结构。表1为Kyte-Doolittle法（K-D）得到的不同氨基酸的疏水值。

（3）氨基酸的极性

氨基酸极性是指其侧链的极性且与氨基酸的疏水、亲水作用关系紧密。氨基酸的侧链非
极性越大，由其组成的肽链越难溶于水。表1列出了氨基酸的极性情况。

表1 氨基酸生化值

（4）氨基酸的带电性

带电性是指氨基酸有多种可解离为带有正电荷或负电荷的侧链基团，解离后的带电侧链
间在静电作用下会迫使它们的结构发生改变，进而倾向于形成不规则结构。表2列出了氨基
酸残基对应的带电性。

表2 氨基酸带电性

这样，每个蛋白质结构预测位点氨基酸的生化特性可构成一个4个元素组成的特征向量。

2.核典型相关分析

核典型相关分析（Kernel Cannoieal Correlation Analysis，KCCA）是传统典型相关分析
（Cannoieal CorrelationAnalysis，CCA）的非线性推广。首先应用核的方法将原低维空间中的
特征数据投影到一个高维特征空间，然后在高维特征空间中进行CCA处理，进而在融合多特
征基础上得到可分性更好的特征数据。本发明将核典型相关分析法应用于固有不规则蛋白质
的特征数据处理。

具体来说，与典型相关分析相似，核典型相关分析旨在得到两个优化的投影向量a1∈Hx
和b1∈Hy，使得u1＝<a1,φx(x)>与v1＝<b1,φy(y)>之间的相关系数ρ最大。从而获取更能体现
蛋白质结构本质的特征数据，以提高识别精度。

在固有不规则蛋白质的结构预测中，其进行核典型相关分析的主要目的是使得输入特征
包含尽可能多的结构预测信息。径向基函数采用一元函数来拟合高维函数，能够最大程度地
突出输入特征特征分量的差异度，从而提高了预测精度。因此本发明采用径向基函数作为核
典型相关分析的核函数，其公式如下式。

K ( x , x i ) = exp ( - 1 2 σ 2 | | x - x i | | 2 ) - - - ( 3 ) ]]>

3.固有不规则结构蛋白质识别和预测

通过核典型相关分析获取更能突出蛋白质结构本质的特征数据后，即可设计分类器判断
蛋白质的结构。由于是二类问题，因此，本发明采用支持向量机实现蛋白质不规则结构识别
和固有不规则结构蛋白质的预测。

4.实验测试

4.1数据提取

实验中，在国际大型公共蛋白质信息数据库PDB中提取规则结构蛋白质数据。选择序列
类型为X-Ray Resolution，即通过X晶体衍射方法得到的数据。其中，清晰度的选择为最小
值最大值然后，去除序列同一性高于30%的冗余序列。在国际专业不规则结构
蛋白质数据库Disprot中提取不规则结构蛋白质数据。这两组数据自然的分成两个部分，即规
则数据集和不规则数据集。由于蛋白质不规则序列的长度对蛋白质结构的预测影响较大，本
发明将不规则数据集划分为两个部分，即长序列集（长度大于30）和短序集（长度小于等于
30）。

4.2特征提取

分别提取蛋白质预测位点周围氨基酸组合频率等结构特征和Russell/Linding值、疏水性、
极性和带电性等预测位点氨基酸生化特征。

4.3核典型相关分析

采用径向基函数对提取特征数据进行升维映射。并利用核典型相关分析获取更能反映蛋
白质结构本质的特征数据。

4.4蛋白质结构识别和预测

将不规则蛋白质数据集按序列长度分为长序列和短序列。然后，利用5倍交叉验证法对
支持向量机分类器进行训练，并获取分类模型。最后，利用分类模型对固有不规则蛋白质进
行识别和预测。

4.5实验结果与分析

表3为针对上述规则和不规则数据集，利用本发明所设计方法得到的预测结果。表中所用
的评价指标分别为总体预测精度（ACC），灵敏性（TPR）和特异性（TNR）它们分别定义
为：

ACC = TP + TN TP + FN + FP + TN = TP + TN N - - - ( 4 ) ]]>