基于动态规划和量子退火的RNA结构预测方法及系统.pdf

上传人:00062****4422 文档编号:14526544 上传时间:2024-05-19 格式:PDF 页数:20 大小:1.20MB
收藏 版权申诉 举报 下载
基于动态规划和量子退火的RNA结构预测方法及系统.pdf_第1页
第1页 / 共20页
基于动态规划和量子退火的RNA结构预测方法及系统.pdf_第2页
第2页 / 共20页
基于动态规划和量子退火的RNA结构预测方法及系统.pdf_第3页
第3页 / 共20页
文档描述:

《基于动态规划和量子退火的RNA结构预测方法及系统.pdf》由会员分享,可在线阅读,更多相关《基于动态规划和量子退火的RNA结构预测方法及系统.pdf(20页完成版)》请在专利查询网上搜索。

1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202410002322.3(22)申请日 2024.01.02(71)申请人 合肥微观纪元数字科技有限公司地址 230000 安徽省合肥市高新区望江西路5089号中国科学技术大学先进技术研究院嵌入式研发楼220室(72)发明人 吕川李世博左芬张晓星耿威郑跃强(51)Int.Cl.G16C 20/50(2019.01)G06F 17/11(2006.01)G06F 30/27(2020.01)G16B 15/00(2019.01)G06F 111/04(2020.01)G06F 119/08(20。

2、20.01)G06F 111/06(2020.01)(54)发明名称基于动态规划和量子退火的RNA结构预测方法及系统(57)摘要本公开涉及一种基于动态规划和量子退火的RNA结构预测方法及系统,该方法包括:获取目标氨基酸序列的单字母表示序列;将单字母表示序列输入隐马尔可夫模块,得到目标密码子组合;将目标密码子组合输入动态规划模块,选取密码子组合片段;密码子组合片段不包含终止密码子时,计算出密码子组合初选片段,调用优化器对密码子子结构进行打分,保存具有最高打分的密码子子结构的密码子组合片段;包含终止密码子时,输出最优RNA二级结构的完整密码子组合为第一候选密码子组合;将目标密码子组合的哈密顿量输入。

3、量子退火模块得到第二候选密码子组合;从第一候选密码子组合及第二候选密码子组合选出最优RNA二级结构的密码子组合。权利要求书3页 说明书14页 附图2页CN 117497092 A2024.02.02CN 117497092 A1.一种基于动态规划和量子退火的RNA结构预测方法,其特征在于,应用于基于动态规划和量子退火的RNA结构预测系统,所述系统包括隐马尔可夫模块、动态规划模块、量子退火模块和优化器,所述方法包括:获取目标氨基酸序列的单字母表示序列;将所述单字母表示序列输入隐马尔可夫模块,得到对应于所述单字母表示序列的目标密码子组合;设置初始为空的密码子组合集合,将所述目标密码子组合输入动态规。

4、划模块,以从所述目标密码子组合中选取密码子组合片段,并判断所述密码子组合片段是否包含终止密码子;在从所述目标密码子组合中选取的所述密码子组合片段不包含终止密码子时,基于当前的密码子组合集合计算出具有最优RNA二级结构的密码子组合初选片段,调用所述优化器对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分,保存具有最高打 分的密码子子结构的密码子组合片段至所述密码子组合集合,选取包含上一次被选的密码子组合片段的密码子组合片段,并返回执行所述判断所述密码子组合片段是否包含终止密码子的步骤;在从所述目标密码子组合中选取的所述密码子组合片段包含终止密码子时,从最后得到的密码子组合集合。

5、中输出具有最优RNA二级结构的完整密码子组合作为第一候选密码子组合;确定所述目标密码子组合的哈密顿量,并将所述哈密顿量输入量子退火模块,基于所述量子退火模块的输出确定具有最优RNA二级结构的第二候选密码子组合;从所述第一候选密码子组合以及所述第二候选密码子组合中选出具有最优RNA二级结构的密码子组合。2.如权利要求1所述的方法,其特征在于,所述优化器包括JTVAE优化约束条件模块、热力学优化约束条件模块、CAI值和MFE值优化约束条件模块,所述调用所述优化器对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分,保存具有最高打分的密码子子结构的密码子组合片段至所述密码子组合集合。

6、,包括:调用所述优化器的JTVAE优化约束条件模块对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分;调用所述优化器的热力学优化约束条件模块对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分;调用所述优化器的CAI值和MFE值优化约束条件模块对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分;针对所述密码子组合初选片段中具有同一预定义RNA子结构的密码子子结构,计算所述JTVAE优化约束条件模块、所述热力学优化约束条件模块、所述CAI值和MFE值优化约束条件模块打分分数的均值,保存具有最高所述均值的密码子子结构的密码子组合片段至所述密。

7、码子组合集合。3.如权利要求2所述的方法,其特征在于,所述预定义RNA子结构包括发卡环、内环、多分支环以及碱基对。4.如权利要求2所述的方法,其特征在于,所述调用所述优化器的JTVAE优化约束条件权利要求书1/3 页2CN 117497092 A2模块对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分,包括:调用所述优化器的JTVAE优化约束条件模块以对所述密码子组合初选片段进行分割,得到多个具有预定义RNA子结构的密码子子结构;将多个所述密码子子结构输入图神经网络,得到所述密码子子结构的树形结构表示数据;将所述树形结构表示数据输入编码器,得到所述树形结构表示数据对应的潜在。

8、表示向量;基于重参数化技巧将潜在表示向量与预设噪声结合,得到最终的潜在表示向量;将所述最终的潜在表示向量输入解码器,得到所述密码子子结构的打分分数。5.如权利要求2所述的方法,其特征在于,所述调用所述优化器的CAI值和MFE值优化约束条件模块对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分,包括:计算所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构的CAI值和MFE值;基于所述CAI值和MFE值计算所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构的打分分数。6.如权利要求1所述的方法,其特征在于,所述确定所述目标密码子组合的哈密顿量,包括:基于如下。

9、公式确定所述目标密码子组合的哈密顿量:;其中,H为所述目标密码子组合的哈密顿量,a、b、和均为可调参数,是第i个茎的碱基对长度,u是最长茎的长度,为对应第i个茎的发卡环惩罚项,和分别是对应于第i个茎和第j个茎的二进制变量,是对假结的惩罚函数,e是核苷酸的线性维度,是假结中单股核苷酸的数量,是长度为n的第k个内嵌茎的惩罚常数,是第i个茎和第j个茎的交叉惩罚函数。7.一种基于动态规划和量子退火的RNA结构预测系统,其特征在于,所述系统包括隐马尔可夫模块、动态规划模块、量子退火模块和优化器,其中:所述隐马尔可夫模块用于对输入的目标氨基酸的单字母表示序列进行计算,得到对应于所述单字母表示序列的目标密码。

10、子组合;所述动态规划模块用于在设置初始为空的密码子组合集合后,从所述目标密码子组合中选取密码子组合片段,并判断所述密码子组合片段是否包含终止密码子;在从所述目标权利要求书2/3 页3CN 117497092 A3密码子组合中选取的所述密码子组合片段不包含终止密码子时,基于当前的密码子组合集合计算出具有最优RNA二级结构的密码子组合初选片段,调用所述优化器对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分,保存具有最高打分的密码子子结构的密码子组合片段至密码子组合集合,选取包含上一次被选的密码子组合片段的密码子组合片段,并返回执行所述判断所述密码子组合片段是否包含终止密码子的。

11、步骤;在从所述目标密码子组合中选取的所述密码子组合片段包含终止密码子时,从最后得到的密码子组合集合中输出具有最优RNA二级结构的完整密码子组合作为第一候选密码子组合;所述量子退火模块用于在确定所述目标密码子组合的哈密顿量后,对输入的所述哈密顿量进行计算,基于所述量子退火模块的输出确定具有最优RNA二级结构的第二候选密码子组合;以使得所述系统从所述第一候选密码子组合以及所述第二候选密码子组合中选出具有最优RNA二级结构的密码子组合。8.如权利要求7所述的系统,其特征在于,所述优化器包括JTVAE优化约束条件模块、热力学优化约束条件模块、CAI值和MFE值优化约束条件模块,其中:所述优化器的JTV。

12、AE优化约束条件模块用于对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分;所述优化器的热力学优化约束条件模块用于对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分;所述优化器的CAI值和MFE值优化约束条件模块用于对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分;所述优化器还用于针对所述密码子组合初选片段中具有同一预定义RNA子结构的密码子子结构,计算所述JTVAE优化约束条件模块、所述热力学优化约束条件模块、所述CAI值和MFE值优化约束条件模块打分分数的均值,保存具有最高所述均值的密码子子结构的密码子组合片段至所述密码子组合集。

13、合。9.如权利要求8所述的系统,其特征在于,所述预定义RNA子结构包括发卡环、内环、多分支环以及碱基对。10.如权利要求8所述的系统,其特征在于,所述JTVAE优化约束条件模块还用于:对所述密码子组合初选片段进行分割,得到多个具有预定义RNA子结构的密码子子结构;将多个所述密码子子结构输入图神经网络,得到所述密码子子结构的树形结构表示数据;将所述树形结构表示数据输入编码器,得到所述树形结构表示数据对应的潜在表示向量;基于重参数化技巧将潜在表示向量与预设噪声结合,得到最终的潜在表示向量;将所述最终的潜在表示向量输入解码器,得到所述密码子子结构的打分分数。权利要求书3/3 页4CN 1174970。

14、92 A4基于动态规划和量子退火的RNA结构预测方法及系统技术领域0001本公开涉及生物计算技术领域,具体地,涉及一种基于动态规划和量子退火的RNA结构预测方法及系统。背景技术0002mRNA序列设计在医学、生物技术及药物开发领域拥有着巨大的潜在价值。密码子的选择在mRNA序列中起到至关重要的作用,它直接决定了mRNA的翻译效率。常见的现象是,使用高丰度的常见密码子替代低丰度的稀有密码子可以显著增强mRNA的稳定性和蛋白表达效率。再者,由于mRNA药物是单链的核酸分子,它们容易受到核酸酶的降解影响,从而失去活性。因此,高效和准确的mRNA设计方法是实现其在生物技术和医学应用的关键。0003包括。

15、mRNA在内的RNA分子的三维折叠在很大程度上是由分子内碱基间氢键的模式决定的。从序列中预测碱基配对网络,也称为RNA二级结构预测或RNA折叠,是一个不确定性多项式时间(NP)完全计算问题。0004RNA分子折叠成复杂的二级结构,这决定了它们的分子性质,如热稳定性和致密性。此外,RNA折叠还影响RNA在蛋白质翻译、转录调控和其他重要细胞过程中的功能。因此,RNA二级结构的测定方法对于基础研究、应用生物技术和合理的药物发现具有重要的意义。为此目的开发的实验方法非常耗时和昂贵,因此在实践中的使用受到限制。0005为了降低使用实验测定RNA二级结构的高昂成本,科学家利用计算机算法来对RNA二级结构进。

16、行预测。但是在相关技术中,对RNA二级结构预测的预测结果的准确性欠佳,基于此,提出一种基于动态规划和量子退火的RNA结构预测方法及系统。发明内容0006本公开的目的是提供一种基于动态规划和量子退火的RNA结构预测方法及系统,以通过结合动态规划和量子退火的优势,提高对于RNA二级结构预测的准确性。0007为了实现上述目的,本公开实施例第一方面提供一种基于动态规划和量子退火的RNA结构预测方法,应用于基于动态规划和量子退火的RNA结构预测系统,所述系统包括隐马尔可夫模块、动态规划模块、量子退火模块和优化器,所述方法包括:获取目标氨基酸序列的单字母表示序列;将所述单字母表示序列输入隐马尔可夫模块,得。

17、到对应于所述单字母表示序列的目标密码子组合;设置初始为空的密码子组合集合,将所述目标密码子组合输入动态规划模块,以从所述目标密码子组合中选取密码子组合片段,并判断所述密码子组合片段是否包含终止密码子;在从所述目标密码子组合中选取的所述密码子组合片段不包含终止密码子时,基于当前的密码子组合集合计算出具有最优RNA二级结构的密码子组合初选片段,调用所述优化器对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分,保说明书1/14 页5CN 117497092 A5存具有最高打分的密码子子结构的密码子组合片段至所述密码子组合集合,选取包含上一次被选的密码子组合片段的密码子组合片段,并。

18、返回执行所述判断所述密码子组合片段是否包含终止密码子的步骤;在从所述目标密码子组合中选取的所述密码子组合片段包含终止密码子时,从最后得到的密码子组合集合中输出具有最优RNA二级结构的完整密码子组合作为第一候选密码子组合;确定所述目标密码子组合的哈密顿量,并将所述哈密顿量输入量子退火模块,基于所述量子退火模块的输出确定具有最优RNA二级结构的第二候选密码子组合;从所述第一候选密码子组合以及所述第二候选密码子组合中选出具有最优RNA二级结构的密码子组合。0008可选地,所述优化器包括JTVAE优化约束条件模块、热力学优化约束条件模块、CAI值和MFE值优化约束条件模块,所述调用所述优化器对所述密码。

19、子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分,保存具有最高打分的密码子子结构的密码子组合片段至所述密码子组合集合,包括:调用所述优化器的JTVAE优化约束条件模块对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分;调用所述优化器的热力学优化约束条件模块对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分;调用所述优化器的CAI值和MFE值优化约束条件模块对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分;针对所述密码子组合初选片段中具有同一预定义RNA子结构的密码子子结构,计算所述JTVAE优化约束条件模块、所述热力学优。

20、化约束条件模块、所述CAI值和MFE值优化约束条件模块打分分数的均值,保存具有最高所述均值的密码子子结构的密码子组合片段至所述密码子组合集合。0009可选地,所述预定义RNA子结构包括发卡环、内环、多分支环以及碱基对。0010可选地,所述调用所述优化器的JTVAE优化约束条件模块对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分,包括:调用所述优化器的JTVAE优化约束条件模块以对所述密码子组合初选片段进行分割,得到多个具有预定义RNA子结构的密码子子结构;将多个所述密码子子结构输入图神经网络,得到所述密码子子结构的树形结构表示数据;将所述树形结构表示数据输入编码器,得到所。

21、述树形结构表示数据对应的潜在表示向量;基于重参数化技巧将潜在表示向量与预设噪声结合,得到最终的潜在表示向量;将所述最终的潜在表示向量输入解码器,得到所述密码子子结构的打分分数。0011可选地,所述调用所述优化器的CAI值和MFE值优化约束条件模块对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分,包括:计算所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构的CAI值和MFE值;说明书2/14 页6CN 117497092 A6基于所述CAI值和MFE值计算所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构的打分分数。0012可选地,所述确定所述目标密码子。

22、组合的哈密顿量,包括:基于如下公式确定所述目标密码子组合的哈密顿量:;其中,H为所述目标密码子组合的哈密顿量,a、b、和均为可调参数,是第i个茎的碱基对长度,u是最长茎的长度,为对应第i个茎的发卡环惩罚项,和分别是对应于第i个茎和第j个茎的二进制变量,是对假结的惩罚函数,e是核苷酸的线性维度,是假结中单股核苷酸的数量,是长度为n的第k个内嵌茎的惩罚常数,是第i个茎和第j个茎的交叉惩罚函数。0013本公开实施例第二方面,提供一种基于动态规划和量子退火的RNA结构预测系统,所述系统包括隐马尔可夫模块、动态规划模块、量子退火模块和优化器,其中:所述隐马尔可夫模块用于对输入的目标氨基酸的单字母表示序列。

23、进行计算,得到对应于所述单字母表示序列的目标密码子组合;所述动态规划模块用于在设置初始为空的密码子组合集合后,从所述目标密码子组合中选取密码子组合片段,并判断所述密码子组合片段是否包含终止密码子;在从所述目标密码子组合中选取的所述密码子组合片段不包含终止密码子时,基于当前的密码子组合集合计算出具有最优RNA二级结构的密码子组合初选片段,调用所述优化器对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分,保存具有最高打分的密码子子结构的密码子组合片段至密码子组合集合,选取包含上一次被选的密码子组合片段的密码子组合片段,并返回执行所述判断所述密码子组合片段是否包含终止密码子的步骤。

24、;在从所述目标密码子组合中选取的所述密码子组合片段包含终止密码子时,从最后得到的密码子组合集合中输出具有最优RNA二级结构的完整密码子组合作为第一候选密码子组合;所述量子退火模块用于在确定所述目标密码子组合的哈密顿量后,对输入的所述哈密顿量进行计算,基于所述量子退火模块的输出确定具有最优RNA二级结构的第二候选密码子组合;以使得所述系统从所述第一候选密码子组合以及所述第二候选密码子组合中选出具有最优RNA二级结构的密码子组合。0014可选地,所述优化器包括JTVAE优化约束条件模块、热力学优化约束条件模块、CAI值和MFE值优化约束条件模块,其中:所述优化器的JTVAE优化约束条件模块用于对所。

25、述密码子组合初选片段中具有预说明书3/14 页7CN 117497092 A7定义RNA子结构的密码子子结构进行打分;所述优化器的热力学优化约束条件模块用于对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分;所述优化器的CAI值和MFE值优化约束条件模块用于对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分;所述优化器还用于针对所述密码子组合初选片段中具有同一预定义RNA子结构的密码子子结构,计算所述JTVAE优化约束条件模块、所述热力学优化约束条件模块、所述CAI值和MFE值优化约束条件模块打分分数的均值,保存具有最高所述均值的密码子子结构的密码子组合。

26、片段至所述密码子组合集合。0015可选地,所述预定义RNA子结构包括发卡环、内环、多分支环以及碱基对。0016可选地,所述JTVAE优化约束条件模块还用于:对所述密码子组合初选片段进行分割,得到多个具有预定义RNA子结构的密码子子结构;将多个所述密码子子结构输入图神经网络,得到所述密码子子结构的树形结构表示数据;将所述树形结构表示数据输入编码器,得到所述树形结构表示数据对应的潜在表示向量;基于重参数化技巧将潜在表示向量与预设噪声结合,得到最终的潜在表示向量;将所述最终的潜在表示向量输入解码器,得到所述密码子子结构的打分分数。0017通过上述技术方案,利用包含隐马尔可夫模型的隐马尔可夫模块将目标。

27、氨基酸序列的单字母表示序列转化为对应的目标密码子组合,以得到目标氨基酸序列最可能的RNA一级结构。然后分别利用动态规划和量子退火计算目标密码子组合的二级结构,一方面利用动态规划避免重复计算,基于递归提高计算效率和准确性,另一方面利用量子退火克服解非全局最优的问题,将两者的优点结合,以找到具有最优RNA二级结构的密码子组合,提高计算的准确性。0018本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明0019附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:0020图1是根据一示例性实施例示出。

28、的一种基于动态规划和量子退火的RNA结构预测系统的框图。0021图2是根据一示例性实施例示出的一种基于动态规划和量子退火的RNA结构预测方法的流程图。具体实施方式0022以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。以下首先对一些基本概念进行解释:说明书4/14 页8CN 117497092 A80023RNA(Ribonucleic Acid,核糖核酸),即缩合核糖核苷酸经磷脂键,由此形成的长链状分子。在动植物、微生物、一些病毒以及噬箘体内都有RNA分子。一个核糖核苷酸分子由磷酸,核糖和碱基构成,它是一种以磷。

29、酸二酯键连接几十种核糖核苷酸的形式存在的核酸,而以核苷酸作为其基本构成单元。RNA之中,主要包含的碱基为四种,即A(Adenine,腺嘌呤)、G(Guanine,鸟嘌呤)、C(Cytosine,胞嘧啶)以及U(Uracil,尿嘧啶)。0024RNA一级结构是指核苷酸序列单链,它由核酸的四个基本组成单位通过磷酸二酯键连接而成,形成一条线性的多聚体。0025RNA二级结构,即处于自然条件之下,RNA分子开展的回折,处于各种碱基互补对茎区之间,运用最顶部单链、环区形式,由此交替产生的茎环结构。0026茎区结构,可明确两方面构成了部分双螺旋区域,其中之一为依托于碱基互补对形式实现;其二,即在双螺旋区域。

30、外隔离,不存在碱基对的单链,由此构成了环结构。0027假结,往往两大形式被包括于RNA分子结构内。其一,即为平面假结,即处于中环结构上、环结构外部的碱基配对,可运用平面图形予以体现的一种假结形式;与之相反的,即为非平面假结。0028RNA分子的三维折叠在很大程度上是由分子内碱基间氢键的模式决定的。从序列中预测碱基配对网络,也称为RNA二级结构预测或RNA折叠,是一个不确定性多项式时间(NP)完全计算问题。0029RNA分子折叠成复杂的二级结构,这决定了它们的分子性质,如热稳定性和致密性。此外,RNA折叠还影响RNA在蛋白质翻译、转录调控和其他重要细胞过程中的功能。因此,RNA二级结构的测定方法。

31、对于基础研究、应用生物技术和合理的药物发现具有重要的意义。为此目的开发的实验方法非常耗时和昂贵,因此在实践中的使用受到限制。0030图1是根据一示例性实施例示出的一种基于动态规划和量子退火的RNA结构预测系统的框图,如图1所示,所述系统包括隐马尔可夫模块、动态规划模块、量子退火模块和优化器,其中:所述隐马尔可夫模块用于对输入的目标氨基酸的单字母表示序列进行计算,得到对应于所述单字母表示序列的目标密码子组合;所述动态规划模块用于在设置初始为空的密码子组合集合后,从所述目标密码子组合中选取密码子组合片段,并判断所述密码子组合片段是否包含终止密码子;在从所述目标密码子组合中选取的所述密码子组合片段不。

32、包含终止密码子时,基于当前的密码子组合集合计算出具有最优RNA二级结构的密码子组合初选片段,调用所述优化器对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分,保存具有最高打分的密码子子结构的密码子组合片段至密码子组合集合;在从所述目标密码子组合中选取的所述密码子组合片段包含终止密码子时,从最后得到的密码子组合集合中输出具有最优RNA二级结构的完整密码子组合作为第一候选密码子组合;所述量子退火模块用于在确定所述目标密码子组合的哈密顿量后,对输入的所述哈密顿量进行计算,基于所述量子退火模块的输出确定具有最优RNA二级结构的第二候选密码子组合;以使得所述系统从所述第一候选密码子组。

33、合以及所述第二候选密码子组合中选出具有最优RNA二级结构的密码子组合。0031可选地,所述优化器包括JTVAE优化约束条件模块、热力学优化约束条件模块、CAI说明书5/14 页9CN 117497092 A9值和MFE值优化约束条件模块,其中:所述优化器的JTVAE优化约束条件模块用于对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分;所述优化器的热力学优化约束条件模块用于对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分;所述优化器的CAI值和MFE值优化约束条件模块用于对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分;所述优化器。

34、还用于针对所述密码子组合初选片段中具有同一预定义RNA子结构的密码子子结构,计算所述JTVAE优化约束条件模块、所述热力学优化约束条件模块、所述CAI值和MFE值优化约束条件模块打分分数的均值,保存具有最高所述均值的密码子子结构的密码子组合片段至所述密码子组合集合。0032可选地,所述预定义RNA子结构包括发卡环、内环、多分支环以及碱基对。0033可选地,所述JTVAE优化约束条件模块还用于:对所述密码子组合初选片段进行分割,得到多个具有预定义RNA子结构的密码子子结构;将多个所述密码子子结构输入图神经网络,得到所述密码子子结构的树形结构表示数据;将所述树形结构表示数据输入编码器,得到所述树形。

35、结构表示数据对应的潜在表示向量;基于重参数化技巧将潜在表示向量与预设噪声结合,得到最终的潜在表示向量;将所述最终的潜在表示向量输入解码器,得到所述密码子子结构的打分分数。0034可选地,所述CAI值和MFE值优化约束条件模块还用于:计算所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构的CAI值和MFE值;基于所述CAI值和MFE值计算所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构的打分分数。0035可选地,所述目标密码子组合的哈密顿量为:;其中,H为所述目标密码子组合的哈密顿量,a、b、和均为可调参数,是第i个茎的碱基对长度,u是最长茎的长度,为对应第i个茎的发卡环惩。

36、罚项,和分别是对应于第i个茎和第j个茎的二进制变量,是对假结的惩罚函数,e是核苷酸的线性维度,说明书6/14 页10CN 117497092 A10是假结中单股核苷酸的数量,是长度为n的第k个内嵌茎的惩罚常数,是第i个茎和第j个茎的交叉惩罚函数。0036关于上述实施例中的系统,其中各个模块执行操作的具体方式通过下述基于动态规划和量子退火的RNA结构预测方法进行详细描述。0037图2是根据一示例性实施例示出的一种基于动态规划和量子退火的RNA结构预测方法的流程图,该方法可以应用于如图1所示的基于动态规划和量子退火的RNA结构预测系统,参见图2,该基于动态规划和量子退火的RNA结构预测方法包括:0。

37、038S201,获取目标氨基酸序列的单字母表示序列。0039S202,将所述单字母表示序列输入隐马尔可夫模块,得到对应于所述单字母表示序列的目标密码子组合。0040S203,设置初始为空的密码子组合集合,将所述目标密码子组合输入动态规划模块,以从所述目标密码子组合中选取密码子组合片段,并判断所述密码子组合片段是否包含终止密码子;在从所述目标密码子组合中选取的所述密码子组合片段不包含终止密码子时,基于当前的密码子组合集合计算出具有最优RNA二级结构的密码子组合初选片段,调用所述优化器对所述密码子组合初选片段中具有预定义RNA子结构的密码子子结构进行打分,保存具有最高打分的密码子子结构的密码子组合。

38、片段至所述密码子组合集合,选取包含上一次被选的密码子组合片段的密码子组合片段,并返回执行所述判断所述密码子组合片段是否包含终止密码子的步骤;在从所述目标密码子组合中选取的所述密码子组合片段包含终止密码子时,从最后得到的密码子组合集合中输出具有最优RNA二级结构的完整密码子组合作为第一候选密码子组合。0041S204,确定所述目标密码子组合的哈密顿量,并将所述哈密顿量输入量子退火模块,基于所述量子退火模块的输出确定具有最优RNA二级结构的第二候选密码子组合。0042S205,从所述第一候选密码子组合以及所述第二候选密码子组合中选出具有最优RNA二级结构的密码子组合。0043具体来讲,在步骤S20。

39、1中,目标氨基酸序列可以是目标蛋白质的氨基酸序列,氨基酸可以通过单字母进行表示,例如甘氨酸用字母G表示,丙氨酸用字母A表示,进而目标氨基酸序列可以用对应的单字母表示序列进行表示,如以下为一示例性氨基酸序列的单字母表示序列:“MGVAARPPALRHWFSHSIPLAIFALLLLYLSVRSLGARSGCGPRAQPCVPGETAPFQVRQESGTLEAPERKQPPCLGPRGMLGRMMRRFHASLKPEGDVGLSPYLAGWRALVEFLTPLGSVFAFATREAFTKVTDLEARVHGPDAEHYWSLVAMAAWERRAGLLEQPGAAPRDPTRSSGSRTLLLLHR。

40、ALRWSQLCLHRVATGALGGPDAGVQCSDAYRAALGPHHPWLVRQTARLAFLAFPGRRRLLELACPGATEAEARAALVRAAGTLEDVYNRTQSLLAERGLLQLA”具体来讲,可以通过有线或无线通信输入的方式来获取目标氨基酸序列的单字母表示序列。获取单字母表示序列后,可以进入执行步骤S202。0044在步骤S202中,隐马尔可夫模块采用隐马尔可夫模型,是一个能够通过可观测数据很好地捕捉真实空间统计性质的随机模型,通过事先建立的隐马尔可夫模型,将单字母表示序列输入隐马尔可夫模块后,可以利用其中的隐马尔可夫模型将单字母表示序列转化说明书7/14 页11CN。

41、 117497092 A11为对应的目标密码子组合。0045密码子是生物细胞用来将遗传物质中的信息翻译成蛋白质的一套规则,每个密码子由3个相邻的碱基组成,每个氨基酸可能有多个对应的密码子,例如甘氨酸对应的密码子有GGU、GGC、GGA以及GGG。密码子组合则是多个密码子排成的序列组合。由于单个氨基酸可能有多个对应的密码子,因此采用隐马尔可夫模型,根据可观测的单字母表示序列来预测目标氨基酸对应RNA的密码子组合,以提高密码子组合一级结构预测的准确性,进而为准确预测RNA二级结构奠定基础。0046隐马尔可夫模型通常包括:0047状态集合S=s1,s2,sNS=s1,s2,sN:这是模型中所有可能的。

42、隐藏状态。0048观测集合O=o1,o2,oMO=o1,o2,oM:这是所有可能的观测结果。0049状态转移概率矩阵A=aijA=aij,其中aij=P(qt+1=sj qt=si)aij=P(qt+1=sj qt=si)表示在时间t处于状态sisi的情况下,在时间(t+1)转移到状态 sjsj的概率。0050观测概率矩阵 B=bj(k)B=bj(k),其中bj(k)=P(ok at time t qt=sj)bj(k)=P(ok at time t qt=sj)表示在时间 t 处于状态 sjsj的情况下,观测到okok的概率。0051初始状态概率分布=i=i,其中i=P(q1=si)i=P(。

43、q1=si)表示模型在时间t=1处于状态sisi的概率。0052在隐马尔可夫模型中,通常有三个基本问题:0053评估问题(ForwardBackward Algorithm):给定模型参数和观测序列,计算观测序列的概率。这通常通过前向算法(Forward Algorithm)来计算。0054解码问题(Viterbi Algorithm):给定模型参数和观测序列,找到最有可能产生这些观测的隐藏状态序列。这通常通过维特比算法(Viterbi Algorithm)来解决。0055学习问题(BaumWelch Algorithm):调整模型参数以最大化给定观测序列的概率。这通常通过BaumWelch算。

44、法(一种特殊的EM算法)来实现。0056举例来讲,可以先确定模型参数如通过密码子偏好型确定转移概率,确定模型参数后,将单字母表示序列作为观测序列,通过上述维特比算法求解隐藏状态序列以得到对应的目标密码子组合。并在计算出目标密码子组合后,进入执行步骤S203和步骤S204。0057在步骤S203中,预先设置一个空的集合作为密码子组合集合,用于存储动态规划计算过程产生的具有最高打分的密码子组合片段。将目标密码子组合输入动态规划模块,动态规划模块利用动态规划的思想来对目标密码子组合进行计算,通过先定出一小段密码子组合片段的最优二级结构,再用相同的方法将密码子组合片段扩展,找到相应的最好二级结构,这种。

45、方法不断迭代进行,直至全长序列。密码子组合片段为密码子组合中的部分连续碱基构成的片段。0058具体来讲,每次迭代计算前,首先从目标密码子组合中选取密码子组合片段,例如初始可以选择包含4个碱基的密码子组合片段,并根据密码子组合片段判断是否满足迭代停止条件。0059若选取的密码子组合片段中不包含终止密码子,说明对目标密码子组合的计算没有完成,进而对选取的密码子组合片段进行计算,计算过程利用动态规划算法的状态转移说明书8/14 页12CN 117497092 A12方程,例如可以利用基于动态规划的碱基最大配对方法或极小自由能方法,在一种可能的实施方式中,状态转移方程如下:OPT(i,j)=max(O。

46、PT(i,j1),max(1+OPT(i,t1)+OPT(t+1,j1)其中,i+1tj2,OPT(i,j)表示表示碱基i和碱基j对应的密码子组合片段上的二级结构中碱基对的最大数目。通过遍历t来对OPT(i,j)进行计算。0060计算过程可以使用之前已计算出的密码子组合片段的结果,进而在后续计算时直接通过查表获取相应结果,以计算出具有最优RNA二级结构的密码子组合初选片段,其最优可以通过如最大碱基配对数量或最小自由能进行评价。0061在计算出密码子组合初选片段后,调用优化器基于相应的优化约束条件对密码子组合初选片段进行优化。具体可以先选出密码子组合初选片段中具有预定义RNA子结构的密码子子结构。

47、,然后对其分别进行打分,将包含最高打分的密码子子结构的密码子组合片段保存到密码子组合集合用于下一次迭代计算。保存后,重新选取新的密码子组合片段,新选取的密码子组合片段比上一次的密码子组合片段更长,且包含上一次选取的密码子组合片段,以便于利用动态规划进行计算。0062若选取的密码子组合片段中包含终止密码子,说明对目标密码子组合的计算完成,此时从最后得到的密码子组合集合中找到包含所有密码子的完整密码子组合,该完整密码子组合包含了通过动态规划计算得到的最优RNA二级结构,进而将该密码子组合作为第一候选密码子组合。0063传统的算法可能会在复杂度或准确性上遇到困难,尤其是在面对大型mRNA序列时。动态。

48、规划,作为一种强大的优化工具,可以有效地捕捉到目标氨基酸序列的对应密码子组合的最优性。引入束剪枝技术进一步加强了动态规划算法的效率,允许算法在广泛的搜索空间中找到前K最优的解。0064在步骤S204中,首先确定目标密码子组合的哈密顿量,然后将该哈密顿量输入量子退火模块,以利用量子退火算法找到对应哈密顿量的基态,基态包含表征最优RNA二级结构的数据,进而根据该数据得到具有最优RNA二级结构的第二候选密码子组合。其中量子退火算法可以采用在量子计算机上实现的量子退火算法,也可以采用在经典计算机上实现的量子模拟退火算法。0065可选地,步骤S204中,确定所述目标密码子组合的哈密顿量,包括:基于如下公。

49、式确定所述目标密码子组合的哈密顿量:;其中,H为所述目标密码子组合的哈密顿量,a、b、和均为可调参数,是第i个茎的碱基对长度,u是最长茎的长度,为对应第i个茎的发卡环惩罚项,和分别是对应说明书9/14 页13CN 117497092 A13于第i个茎和第j个茎的二进制变量,是对假结的惩罚函数,e是核苷酸的线性维度,是假结中单股核苷酸的数量,是长度为n的第k个内嵌茎的惩罚常数,是第i个茎和第j个茎的交叉惩罚函数。0066具体来讲,可以根据密码子组合进行预先计算确定该哈密顿量中的参数,或者通过类似于机器学习的训练方式来调整该哈密顿量的参数。通过训练来调整哈密顿量的参数的步骤可以包括:获取用于训练的。

50、密码子组合样本及对应的RNA二级结构数据标签;基于预设的初始参数以及对应哈密顿量H的公式确定所述密码子组合样本的初始哈密顿量;利用量子退火算法对所述初始哈密顿量进行求解,基于求解结果得到RNA二阶结构数据结果;计算输出的RNA二阶结构数据结果与RNA二级结构数据标签的马修斯相关系数评分;基于同步扰动随机逼近算法和所述马修斯相关系数评分对所述哈密顿量的参数进行更新,得到更新后的哈密顿量;若马修斯相关系数评分不满足预设要求且对哈密顿量参数的迭代更新次数小于预设次数,则利用量子退火算法对更新后的哈密顿量进行求解,得到输出的更新后的哈密顿量的RNA二阶结构数据结果,并返回执行所述计算输出的RNA二阶结。

展开阅读全文
内容关键字: 基于 动态 规划 量子 退火 RNA 结构 预测 方法 系统
关于本文
本文标题:基于动态规划和量子退火的RNA结构预测方法及系统.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/14526544.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1