书签 分享 收藏 举报 版权申诉 / 77

基因标记的获取方法.pdf

  • 上传人:GAME****980
  • 文档编号:8990863
  • 上传时间:2021-01-25
  • 格式:PDF
  • 页数:77
  • 大小:3.58MB
  • 摘要
    申请专利号:

    CN200480041239.8

    申请日:

    20040604

    公开号:

    CN1914318A

    公开日:

    20070214

    当前法律状态:

    有效性:

    失效

    法律详情:

    IPC分类号:

    C12N15/09,C12N15/12,C12Q1/68,C07K14/47,C07K16/18,C12P21/02,C12N1/15,C12N1/19,C12N1/21,C12N5/10

    主分类号:

    C12N15/09,C12N15/12,C12Q1/68,C07K14/47,C07K16/18,C12P21/02,C12N1/15,C12N1/19,C12N1/21,C12N5/10

    申请人:

    株式会社后基因组研究所

    发明人:

    桥本真一,松岛纲治,菅野纯夫

    地址:

    日本东京

    优先权:

    402306/2003,006630/2004

    专利代理机构:

    永新专利商标代理有限公司

    代理人:

    陈建全

    PDF完整版下载: PDF下载
    内容摘要

    本发明提供一种用于将mRNA的5’末端碱基序列作为标记生成的方法。本发明的方法包括以将含有IIs型限制性酶识别序列的IIs接头连接在CAP结构上的mRNA作为模板合成cDNA的工序。通过使IIs型限制性酶作用于该cDNA,生成由mRNA的5’末端碱基序列构成的标记。本方法能够不依赖于碱基序列而从所有mRNA中生成标记。根据本发明的标记的碱基序列信息,提供转录起始点的鉴定方法和全长cDNA合成用引物。

    权利要求书

    1.一种真核细胞的基因标记的制造方法,其含有以下工序:(1)在RNA的CAP部位连接含有IIs型限制性酶的识别序列的RNA接头的工序、(2)以(1)的RNA为模板合成cDNA的工序、(3)使识别RNA接头中所含有的识别序列的IIs型限制性酶作用于(2)的cDNA,从而生成基因标记的工序。 2.如权利要求1所述的方法,其中工序(2)含有通过以下工序合成cDNA的工序:(i)通过对RNA的任意区域退火的引物来合成cDNA的第1链的工序、和(ii)通过对以第1链的RNA接头为模板合成的区域退火的引物合成cDNA的第2链,从而制成双链cDNA的工序。 3.如权利要求2所述的方法,其中,对以第1链的RNA接头为模板合成的区域退火的引物具有能够结合于固相的标识、或者被固定在固相上,另外,所述方法还进一步含有通过回收所述固相来回收双链cDNA的工序。 4.如权利要求3所述的方法,其中在使IIs型限制性酶作用之前或之后回收固相。 5.如权利要求1所述的方法,其中RNA接头进一步含有II型限制性酶的识别序列。 6.如权利要求1所述的方法,该方法进一步含有使基因标记的IIs型限制性酶的切割部位与其它基因标记的IIs型限制性酶的切割部位连接,从而生成双标记的工序。 7.如权利要求6所述的方法,该方法进一步含有通过对RNA接头退火的引物来扩增双标记的工序。 8.如权利要求1所述的方法,该方法进一步含有在基因标记的IIs型限制性酶的切割部位上连接具有任意碱基序列的连接物,通过对RNA接头和所述连接物退火的引物来扩增基因标记的工序。 9.一种基因标记的连环体的制造方法,该方法含有将多个通过权利要求1所述的方法生成的基因标记进行连接的工序。 10.一种基因标记的连环体的制造方法,该方法含有将多个通过权利要求6所述的方法生成的基因标记进行连接的工序。 11.一种基因标记的碱基序列的确定方法,该方法含有确定通过权利要求9或权利要求10所述的方法制造的连环体的碱基序列的工序。 12.一种基因标记的制造用试剂盒,该试剂盒含有以下要素:(a)由含有IIs型限制性酶的识别序列的寡核苷酸构成的RNA接头、(b)用于将RNA接头与RNA的CAP部位连接的试剂、(c)由对以RNA接头为模板合成的cDNA退火的寡核苷酸构成的cDNA第2链合成用的引物、(d)cDNA第1链合成用引物。 13.如权利要求12所述的试剂盒,其中cDNA第1链合成用引物是选自以下i)~iii)中的任一个,i)随机引物、ii)寡dT引物、和iii)含有与特定mRNA互补的碱基序列的引物。 14.一种真核细胞中基因表达谱的获取方法,该方法含有以下工序:(1)通过权利要求1所述的方法制造基因标记的工序、(2)确定(1)的基因标记的碱基序列的工序、和(3)通过对应所确定的碱基序列及其出现频率而得到表达谱的工序。 15.一种基因表达谱的数据库,其中积累了通过权利要求14所述的方法所获得的基因表达谱信息。 16.一种基因表达谱的分析方法,该方法含有下述工序:通过权利要求14所述的方法获得不同种类细胞的基因表达谱,比较基因表达谱并选择在细胞间表达频率不同的基因标记。 17.一种基因的转录起始点的确定方法,该方法含有以下工序:(1)通过权利要求1所述的方法制造基因标记的工序、(2)确定(1)的基因标记的碱基序列的工序、和(3)将所确定的碱基序列定位于基因组的碱基序列上,并将碱基序列一致的区域作为该基因的转录起始点来鉴定的工序。 18.如权利要求17所述的方法,其特征在于,其中用于合成cDNA第1链的引物是由从特定基因的碱基序列中选择的碱基序列构成的,另外,所述方法包含确定该基因的转录起始点。 19.一种cDNA合成用引物组,其包含用于合成含有通过以下工序确定的碱基序列或其互补序列的cDNA的5’端引物、以及对cDNA的任意部位退火的3’端引物,(1)通过权利要求1所述的方法制造基因标记的工序、和(2)确定(1)的基因标记的碱基序列的工序。 20.如权利要求19所述的引物组,其中3’端引物是选自下述引物中的任一个,i)寡dT引物、ii)cDNA的片断序列信息、和iii)由与cDNA的II型限制性酶识别邻接的基因标记的碱基序列或其互补序列构成的引物。 21.一种全长cDNA的合成方法,该方法含有以下工序:a)使用用于合成含有通过以下(1)~(2)工序确定的碱基序列或其互补序列的cDNA的5’端引物、和由寡dT引物构成的3’端引物,以RNA或cDNA为模板进行互补链合成反应的工序,(1)通过权利要求1所述的方法制造基因标记的工序、和(2)确定(1)的基因标记的碱基序列的工序;b)将合成的DNA作为全长cDNA回收的工序。 22.一种可通过权利要求21所述的方法得到的全长cDNA。 23.一种含有由权利要求22所述的全长cDNA编码的氨基酸序列的多肽。 24.一种识别权利要求23所述的多肽的抗体。 25.一种将权利要求22所述的全长cDNA的编码区域以可表达的方式保持的载体。 26.一种将权利要求25所述的载体以可表达的方式保持的转化体。 27.一种权利要求23所述的多肽的制造方法,该方法含有培养权利要求26所述的转化体、并回收表达产物的工序。 28.一种权利要求23所述的多肽的制造方法,该方法含有以下工序:i)将含有功能性地连接于启动子的权利要求22所述的全长cDNA的编码区域的DNA构成物与支持生物体外翻译的要素相接触的工序、和ii)回收表达产物的工序。 29.含有mRNA的5’末端碱基序列的cDNA的合成方法,该方法含有以下工序:a)使用用于合成含有通过以下工序(1)~(2)所确定的碱基序列或其互补序列的cDNA的5’端引物、和由与目标mRNA的任意区域互补的碱基序列构成的3’侧引物,以RNA或cDNA为模板进行互补链合成反应的工序,(1)通过权利要求1所述的方法制造基因标记的工序、和(2)确定(1)的基因标记的碱基序列的工序;b)将合成的DNA作为含有mRNA的5’末端碱基序列的cDNA回收的工序。 30.一种确定mRNA的5’侧碱基序列的方法,该方法含有确定通过权利要求29所述的方法回收的cDNA的碱基序列的工序。

    说明书

    

    技术领域

    本发明涉及基因标记的获取方法以及基因标记的分析方法。

    背景技术

    通过比较各种细胞的基因表达状态可以赋予细胞特征。即,能够得 到通过基因的表达模式表现细胞状态的细胞目录。利用该目录,能够从 基因的表达状态特定细胞。相反,如果在细胞间比较基因的表达模式则 还能够找出各细胞中的特征基因。例如,如果在正常细胞和施加了人为 处理的细胞之间比较基因的表达状态,则可以发现施加了人为处理时表 达水平发生变化的基因。该基因是作为人为处理结果的表达水平发生了 变化的基因。同样,通过在患者的细胞和健康者的细胞之间比较基因的 表达状态,则也能够发现与疾病相关的基因。

    把这样通过比较基因的表达状态,网罗式地分析在处于某种状态的 细胞中表达的基因,并在细胞间比较其种类和表达水平的过程称为基因 的表达分析(expression analysis)。用于基因表达分析的方法可以使用各 种方法。

    例如,以下所示的方法是为了分离在cDNA文库间表达水平有所变 化的基因而开发的方法。

    差异显示法(differencial display)

    消减文库法(subtraction library)

    这些方法是很早以前就已经实用化的方法。任何一个都是用来在来 源不同的cDNA文库间发现表达水平有所不同的基因的分析方法。在膨 大的基因碱基序列信息得到积累的这几年,利用了该碱基序列信息的更 有效的基因表达分析得以实现。即DNA阵列法。在DNA阵列中高密 度地配置有多达数万个的基因探针。通过使用1个DNA阵列,通过一 次的实验操作即可了解数万个基因的表达状态。人的基因种类推测有3 万~4万,因此DNA阵列作为强力推进人的基因表达分析的工具正在广 泛普及。并且,DNA阵列被评价为在治疗目标的探索、药剂候选化合 物的开发中是有用的(Nature Genetics volume 32 supplement pp 547-552, 2002)。

    但是,通常构成DNA阵列的探针是根据已知的碱基序列信息设计 的。因此,是不适于获取未知基因的工具。并且,目前商业上所提供的 DNA阵列限于基因序列信息充分积累的生物物种。例如,Affymetrics 公司提供下述生物物种的DNA阵列。

    拟南芥(Arabidopsis ATH1 Genome Array)

    线虫(C.elegans Genome Array)

    果蝇(Drosophila Genome Array)

    大肠杆菌(E.coli Antisense Genome Array)

    人(Human Genome Focus Array、其它)

    小鼠(Mouse Expression Set 430、其它)

    绿脓杆菌(P.aeruginosa Genome Array)

    大鼠(Rat Expression Set 230、其它)

    酵母(Yeast Genome S98 Array)

    为了利用DNA阵列进行其它生物物种的基因表达分析,使用者必 须利用测位仪等制作DNA阵列。或者必须利用定做阵列的制作服务。 然而,对于基因序列表的积累不充分的生物物种,准备以基因序列信息 为基础的DNA阵列还是困难的。

    作为能够获得未知的基因、而且能够进行高度有效的基因表达分析 的方法,提出了SAGE(基因表达的连续分析,Serial analysis of gene expression)(SCIENCE,Vol.270,484-487,Oct.20,1995)。SAGE是获取 基因中固有的标记并网罗式地分析标记的碱基序列的方法。所谓的基因 标记是指可作为该基因的名片使用的基因的片断。通常,10~20个碱基 左右的连续碱基序列在不同基因之间完全一致的可能性不是那么高。例 如由9个碱基构成的片断,理论上可以识别262144种类(49)的基因。 因此,该程度长度的片断作为基因标记是有用的。

    在人基因组序列中,由18~21个碱基构成的标记序列的出现频率和 该标记序列为基因中固有碱基序列的可能性如下计算。

    18每268,435,456个碱基出现1次,89.43%

    19每1,073,741,824个碱基出现1次,97.24%

    20每4,294,967,296个碱基出现1次,99.3%

    21每17,179,869,184个碱基出现1次,99.83%

    即,理论上可以认为18个碱基的标记序列中以约90%或以上、20 个碱基的标记序列中以约99%或以上的概率是基因中固有的碱基序列。 某基因中固有的碱基序列被称为基因中独特的碱基序列。另外,在基因 组中其出现频率被认为是1的碱基序列被称为基因组中的独特的碱基序 列。

    在SAGE中,利用IIs型限制性酶(IIs型核酸内切酶)的作用,生 成基因标记。在SAGE中生成标记的IIs型限制性酶被称为标记酶。II 型的限制性酶切割DNA识别序列的中部,与此相对,IIs型限制性酶切 割远离识别序列的位置。识别序列和切割位置之间的距离根据酶不同, 基本是一定的。例如,Bsm FI或FokI在距离识别序列9~10个碱基的位 置处切割DNA,残留粘性末端(sticky end)。作为其它也具有同样作用 的IIs型限制性酶,已知有如下的酶(Szybalski,Gene 40:169,1985)。

    BbvI,BbvII,BinI,FokI,HgaI,HphI

    MboII,MnlI,SfaNI,TaqII,TthlllII

    另外,被称为Mme I的IIs型限制性酶将距离识别序列 (5’-TCCRAC-3’)20个碱基的位置切割(Tucholski et al,Gene Vol.157, pp.87-92,1995)。将Mme I作为标记酶进行利用,能够得到20个碱基 长的标记的表达分析方法也是公知的(美国专利6498013)。利用Mme I 的SAGE特别也被称为long SAGE。以下简单地归纳一般的SAGE的原 理。

    首先使用II型限制性酶切割cDNA并回收其片断。II型限制性酶的 识别序列为4个碱基时,理论上被切割成256个碱基(44)的片断。例 如,Nla III的识别序列为4个碱基。将cDNA的5’末端或者3’末端先捕 获在固相中,就能够容易地分别回收被切割的cDNA的5’端或者3’端 的片断。回收的cDNA分为2个反应体系,对各反应体系分别进行以下 的操作。

    在回收的cDNA切割位置上,连接物(adapter)被连接。连接物的 末端配置有PCR扩增用的引物碱基序列、中间配置有锚定酶的识别序 列、在与cDNA连接的末端配置有IIs型限制性酶(标记酶)的识别序 列。在分为2个不同库的cDNA中,含有不同碱基序列的引物的碱基序 列的连接物分别与其连接。连接物连接后使IIs型的限制性酶发挥作用, IIs型限制性酶识别cDNA的末端,并切割远离此处的位置。这样就生 成了从被II型限制性酶切割的部分到被IIs型限制性酶切割的部分的片 断所构成的标记。所生成的标记具有被连接的连接物。

    通过IIs型限制性酶的切割而形成的标记的粘性末端(sticky end) 通过T4DNA聚合酶变成平滑末端。其后,分为上述2个反应体系的标 记分别在平滑末端被连接。其结果是将不同引物序列配置在末端,2个 标记相向连接。2个标记被连接的产物称为双标记。双标记通过PCR被 扩增,被锚定酶切割。其结果是从PCR的扩增产物中除去其两端的引 物序列。另外,除去了引物序列的双标记成为相互连接的双标记的连环 体(concatemer)。如此得到的连环体被插入在测序载体中。

    如果分析连环体的碱基序列,则能够同时了解来自于多个基因的基 因标记的碱基序列。如果积累从某个cDNA文库中得到的连环体的碱基 序列信息,则在理论上就可得到构成该文库的cDNA的全部基因的标记 信息。将如此得到的标记信息在细胞间进行比较,能够容易地进行表达 分析。

    在利用DNA阵列进行的表达分析中,碱基序列信息的积累是不可 缺少的。因此,目前商业上可获得的DNA阵列限定于人、小鼠或酵母 等一部分生物物种。即,对于其它多数生物物种而言,为了进行使用 DNA阵列的基因表达分析,必须重新制作DNA阵列。另外,DNA阵 列将根据已知碱基序列信息合成的探针或者克隆的cDNA作为探针使 用。其结果是通常来说发现未知的基因是困难的。与此相对,SAGE方 法中,基因的碱基序列信息的积累不充分并不会成为分析的障碍。并且, 可以说不需要探针的SAGE是对于未知基因的分离有用的技术。

    但是,在目前实用化的SAGE规程中,利用限制性酶切割cDNA, 在所得切割位置连接含有IIs型限制性酶识别序列的接头。因此,在用 于SAGE的限制性酶中,要求识别序列短。在识别序列长的限制性酶 (rare cutter)中,未切割的cDNA变多。就已知的SAGE而言,不能 被限制性酶切割的cDNA不生成标记。

    例如,作为识别4个碱基的限制性酶的NlaIII等限制性酶优选用于 SAGE中。理论上,如果cDNA具有44(=256)或以上的长度,则可以 说其含有至少一个NlaIII的识别序列。确切地说,256个碱基或以下的 转录产物存在的可能性可能很低。但是,并非构成文库的所有cDNA通 常都含有NlaIII的识别序列。即,即便是具有256个碱基或以上长度的 cDNA,也有不生成标记的可能性。实际上,在将线虫的基因作为模型 的SAGE评价中,报告有由于不带有NlaIII识别序列,因此存在不生成 标记的基因(Genome Res.2003 Jun.13/6A:1203-15)。

    另外,经过该工序可获得的标记是与构成cDNA的碱基序列中的限 制性酶识别部位邻接的碱基序列。就未知的基因而言,无法提前预测 cDNA中哪里存在限制性酶识别序列。即。通过公知的SAGE所获得的 标记序列信息并不能预测来自于cDNA的何处。

    美国专利6498013中公开了通过捕获cDNA的5’端或3’端,可分 别得到5’端或3’端的标记。但是通过该工序生成的标记由邻接于位于 cDNA的5’端或3’端的限制性酶(NlaIII)的碱基序列构成。换而言之, 该标记在cDNA中所含有的限制性酶识别位点中,是与位于cDNA的5’ 端或3’端的限制性酶(NlaIII)邻接的碱基序列。也就是说,还不了解 是占据cDNA的碱基序列何处的碱基序列。

    就基因表达分析而言,构成标记的碱基序列来自于cDNA中的何处 并不是大问题。但是,如果能够明确标记的碱基序列是构成cDNA哪个 部分的碱基序列,则标记的有用性会进一步提高。

    非专利文献1:Nature Genetics volume 32 supplement pp 547-552, 2002

    非专利文献2:SCIENCE,Vol.270,484-487,Oct.20,1995

    非专利文献3:Szybalski,Gene 40:169,1985

    非专利文献4:Tucholski et al,Gene Vol.157,pp.87-92,1995

    非专利文献5:Genome Res.2003 Jun.13/6A:1203-15

    专利文献1:美国专利6498013

    发明内容

    本发明的目的在于提供以新型原理为基础的基因标记的获取方法 以及基因标记的分析方法。

    如前所述,就目前实用化的SAGE而言,邻接于限制性酶的识别序 列的碱基序列作为标记而生成。这使得难以理解标记的碱基序列和 cDNA全长序列的关系。另外,关于不含限制性酶识别序列的cDNA还 留有不生成标记的问题。

    本发明人等认为如果能够不依赖于限制性酶的识别序列而生成标 记的话,则能够解决这些问题。例如,如果利用mRNA的5’末端生成 标记,则标记的碱基序列应该能够期待各种有用性。因此,着眼于作为 cDNA合成方法所利用的CAP结构,尝试将其用于基因标记的获取中。 结果发现,可将mRNA的5’末端碱基序列信息作为标记获得,从而完 成了本发明。即,本发明涉及以下的标记获取方法以及利用该方法获得 的标记的用途。

    [1]一种真核细胞的基因标记的制造方法,其含有以下工序:

    (1)在RNA的CAP部位上连接含有IIs型限制性酶的识别序列的 RNA接头的工序、

    (2)将(1)的RNA作为模板合成cDNA的工序、

    (3)使识别RNA接头中所含识别序列的IIs型限制性酶作用于(2) 的cDNA,从而生成基因标记的工序。

    [2][1]中记载的方法,其中通过以下工序合成cDNA,

    i)通过对RNA的任意区域退火的引物合成cDNA的第1链的工序、 和

    ii)通过对以第1链的RNA接头作为模板合成的区域退火的引物, 合成cDNA的第2链,从而制成双链cDNA的工序。

    [3][2]中记载的方法,其中,对以第1链的RNA接头作为模板合成 的区域退火的引物具有可结合于固相的标识、或者被固定在固相上,另 外,所述方法含有通过回收所述固相来回收双链cDNA的工序。

    [4][3]中记载的方法,其中在使IIs型限制性酶作用之前或之后将固 相回收。

    [5][1]中记载的方法,其中RNA接头含有II型限制性酶的识别序 列。

    [6][1]中记载的方法,该方法包括使基因标记的IIs型限制性酶的切 割部位与其它基因标记的IIs型限制性酶的切割部位连接,从而生成双 标记的工序。

    [7][6]中记载的方法,该方法包括通过对RNA接头退火的引物来扩 增双标记的工序。

    [8][1]中记载的方法,该方法包括在基因标记的IIs型限制性酶的切 割部位上连接具有任意碱基序列的连接物,通过对RNA接头和所述连 接物退火的引物来扩增基因标记的工序。

    [9]一种基因标记的连环体的制造方法,该方法包括连接多个通过 [1]所记载的方法生成的基因标记的工序。

    [10]一种基因标记的连环体的制造方法,该方法包括连接多个通过 [6]所记载的方法生成的双标记的工序。

    [11]一种基因标记的碱基序列的确定方法,该方法含有确定通过[9] 或[10]中所述的连环体的碱基序列的工序。

    [12]一种基因标记的制造用试剂盒,该试剂盒含有以下要素:

    (a)由含有IIs型限制性酶的识别序列的寡核苷酸构成的RNA接 头、

    (b)用于将RNA接头连接于RNA的CAP部位的试剂、

    (c)由对以RNA接头为模板合成的cDNA退火的寡核苷酸构成的 cDNA第2链合成用的引物、

    (d)cDNA第1链合成用引物。

    [13][12]中记载的试剂盒,其中cDNA第1链合成用引物是选自以 下i)~iii)中的任一个引物,

    i)随机引物、

    ii)寡dT引物、和

    iii)含有与特定mRNA互补的碱基序列的引物。

    [14]一种真核细胞中基因表达谱的获取方法,该方法含有以下工 序:

    (1)通过[1]所记载的方法制造基因标记的工序、

    (2)确定(1)的基因标记的碱基序列的工序、和

    (3)通过对应所确定的碱基序列及其出现频率来得到表达谱的工 序。

    [15]一种基因表达谱的数据库,其中积累了通过[14]所述的方法获 得的基因表达谱信息。

    [16]一种基因表达谱的分析方法,该方法含有通过[14]所述方法获 得不同种类细胞的基因表达谱、比较基因表达谱、并选择在细胞间表达 频率不同的基因标记的工序。

    [17]一种基因的转录起始点的确定方法,该方法含有以下工序:

    (1)通过[1]所述的方法制造基因标记的工序、

    (2)确定(1)的基因标记的碱基序列的工序、和

    (3)将所确定的碱基序列定位于基因组的碱基序列上,并将碱基 序列一致的区域作为该基因的转录起始点来鉴定的工序。

    [18][17]所记载的方法,其特征在于,用于合成cDNA第一链的引 物是由从特定基因的碱基序列中选择的碱基序列构成的,并确定该基因 的转录起始点。

    [19]一种cDNA合成用引物组,该引物组包含用于合成含有通过 以下工序确定的碱基序列或其互补序列的cDNA的5’端引物、和对 cDNA的任意部位退火的3’端引物,

    (1)通过[1]所述的方法制造基因标记的工序、

    (2)确定(1)的基因标记的碱基序列的工序。

    [20][19]所记载的引物组,其中3’端引物是选自下述引物中的任一 个,

    i)寡dT引物、

    ii)cDNA的片断序列信息、和

    iii)由与cDNA的II型限制性酶识别邻接的基因标记的碱基序列或 其互补序列构成的引物。

    [21]一种全长cDNA的合成方法,该方法含有以下工序:

    a)使用用于合成含有通过以下(1)~(2)的工序确定的碱基序列 或其互补序列的cDNA的5’端引物、和由寡dT引物构成的3’端引物, 以RNA或cDNA为模板进行互补链合成反应的工序、

    (1)通过[1]所述的方法制造基因标记的工序、

    (2)确定(1)的基因标记的碱基序列的工序;

    b)将合成的DNA作为全长cDNA回收的工序。

    [22]一种通过[21]所述的方法能够得到的全长cDNA。

    [23]一种含有由[22]所述的全长cDNA编码的氨基酸序列的多肽。

    [24]一种识别[23]所述的多肽的抗体。

    [25]一种将[22]所述的全长cDNA的编码区域以可表达的方式保持 的载体。

    [26]一种将[25]所述的载体以可表达的方式保持的转化体。

    [27]一种[23]所述的多肽的制造方法,该方法含有培养[26]所述的 转化体,并回收表达产物的工序。

    [28]一种[23]所述的多肽的制造方法,该方法含有以下工序:

    i)将含有功能性地连接于启动子的[22]所述的全长cDNA的编码区 域的DNA构成物与支持生物体外翻译的要素相接触的工序、和

    ii)回收表达产物的工序。

    [29]一种含有mRNA的5’末端碱基序列的cDNA的合成方法,该 方法含有以下工序:

    a)使用用于合成含有通过以下工序(1)~(2)确定的碱基序列或 其互补序列的cDNA的5’端引物、和由与目标mRNA任意区域互补的 碱基序列构成的3’端引物,以RNA或cDNA为模板进行互补链合成反 应的工序、

    (1)通过[1]所述的方法制造基因标记的工序、和

    (2)确定(1)的基因标记的碱基序列的工序;

    b)将合成的DNA作为含有mRNA的5’末端碱基序列的cDNA回 收的工序。

    [30]一种确定mRNA的5’端碱基序列的方法,该方法含有确定通 过[29]所述的方法回收的cDNA的碱基序列的工序。

    本发明提供将mRNA的5’末端碱基序列作为基因标记获取的方法。 mRNA的5’末端是所有真核细胞的mRNA所具有的结构。因此,无论 是什么mRNA的碱基序列,在原理上可从所有的基因中获得标记。另 一方面,以公知的原理为基础的SAGE将与限制性酶识别位点邻接的区 域作为标记生成。其结果是如果构成mRNA的碱基序列中不含限制性 酶识别位点,则不能获得该基因的标记。因此,在提供能够获取所有基 因的标记的原理方面,本发明的意义重大。

    另外,根据本发明的标记的方法,有可能也可以从mRNA的片段 中获得基因的标记。生物试样中含有的RNA由于各种原因常常有分解 的危险。因此,cDNA的获得、或者以所得cDNA为基础的各种分析结 果很大程度上被mRNA的保存条件所左右。SAGE法在不能完整维持 mRNA的结构时,也有不能获得基因标记或者标记重现性消失的可能 性。

    但是根据本发明的方法,通过将mRNA的5’末端作为标记获得, 即便mRNA被片断化,只要维持了5’末端的结构,就能正确地获得标 记。因此,很难受到mRNA的保存状态的影响。该特征提高了基因表 达分析的可靠性。

    另外,通过本发明可以得到的标记的碱基序列由mRNA的5’末端 的碱基序列构成。其结果是通过本发明得到的标记的碱基序列信息可应 用于各种领域。例如,以下的用途是通过本发明的标记首次实现的用途:

    基因组中转录起始点的鉴定、

    全长cDNA的合成用引物的提供、

    cDNA文库的全长率评价。

    通过以已知原理为基础的SAGE得到的标记是mRNA的何处的碱 基序列还不清楚。因此,不能用于这种用途。

    本发明涉及含有以下工序的真核细胞的基因标记的制造方法,

    (1)在RNA的CAP部位连接含有IIs型限制性酶的识别序列的 RNA接头的工序、

    (2)将(1)的RNA作为模板合成cDNA的工序、

    (3)使识别RNA接头中所含识别序列的IIs型限制性酶作用于(2) 的cDNA,从而生成由RNA的5’末端序列构成的基因标记的工序。

    CAP结构是存在于真核细胞或感染真核细胞的病毒的mRNA的5’ 末端的结构。具体地说,7-甲基鸟苷介由5’-5’-3磷酸交联而结合于 mRNA的5’末端的核苷酸上,构成CAP结构。mRNA由CAP结构保护, 避免被5’-3’核酸外切酶的活性所分解。在细胞内,完成作用的mRNA 的CAP结构由脱帽酶(decapping enzyme)除去。其结果是失去CAP 结构的mRNA被5’-3’核酸外切酶所分解(LaGradeur et al.,EMBO J, 17:1487-1496,1998)。CAP结构在通过RNA聚合酶II进行的转录反应 的初期阶段加成在RNA的5’末端上。

    本发明的方法包括在该RNA的CAP结构上连接RNA接头的工序。 本发明中,RNA可以使用来自于真核细胞的所有RNA。更具体地说, 可以使用polyA(+)RNA或全部RNA。详细言之,可以利用来自于动物、 植物、酵母或粘菌等所有在mRNA中具有CAP结构的生物物种的细胞。

    另外,来自于感染这些真核细胞的病毒的RNA也具有CAP结构。 因此,本发明中来自于真核细胞、感染真核细胞或转录了被导入的基因 信息的RNA也包含在来自于真核细胞的RNA中。所谓感染真核细胞的 基因的信息包括例如病毒、类病毒或者支原体之类的细胞内寄生物的基 因信息。这些基因信息可以是天然的,也可以是人工合成的。另一方面, 导入在真核细胞中的基因的信息是指通过载体等人为导入的基因信息。 例如,即便是原本不带有CAP结构的原核细胞的基因,通过以能够转 录的形式导入至真核细胞中,也能获得CAP结构。这样转录的RNA也 包含在本发明的来自于真核细胞的RNA中。

    从这些细胞中提取RNA用于本发明的方法中。RNA的提取方法众 所周知。利用市售的RNA提取用试剂盒则很便利。例如,利用RNAeasy (QIAGEN)等市售试剂盒,能够容易地获得高纯度的RNA。提取RNA 时,在必须破坏细胞时可以通过公知的方法进行破坏。

    本发明中,连接于CAP结构的RNA接头由至少含有IIs型限制性 酶识别序列的寡核苷酸构成。作为RNA接头使用的寡核苷酸可以是 DNA也可以是RNA。优选的RNA接头为RNA。构成RNA接头的碱 基序列可以是含有IIs型限制性酶识别序列的任意碱基序列。但优选IIs 型限制性酶的识别序列配置在RNA接头的3’末端。

    IIs型限制性酶将其识别序列作为基准,将仅距离一定碱基数的位 置切割。本发明的目的在于将mRNA的5’末端作为标记获得。因此, 优选在尽量接近于mRNA的5’末端的位置上配置识别序列。构成RNA 接头的IIs型限制性酶的识别序列可以按照分析用的IIs型限制性酶进行 设计。例如,已经叙述过MmeI的识别序列为5’-TCCRAC-3’(R=G或 A)。因此,RNA接头优选在其3’末端上配置该碱基序列。另外,IIs型 限制性酶的识别序列按照IIs型限制性酶将其3’端切割的方式进行配置。

    作为本发明的RNA接头有用的碱基序列如下所示。该碱基序列除 了具有配置于3’末端的IIs型限制性酶(MmeI)的识别序列(TCCRAC; 大写),还含有作为II型限制性酶的XhoI的识别序列(cucgag;下划线)。

    5’-oligo 1(序列号:1):

    5’-uuuggauuugcuggugcaguacaacuaggcuuaaua cucgagUCCGAC-3’

    5’-oligo 2(序列号:2)

    5’-uuucugcucgaauucaagcuucuaacgauguacg cucgagUCCGAC-3’

    所加成的XhoI位点可以用于标记的连接以及向载体中的插入。并 且,构成RNA接头的碱基序列也可作为用于标记扩增的引物进行退火 的区域使用。为了引物退火,用于退火的区域优选至少由15个碱基、 通常由20~50个碱基、例如由20~30个碱基构成。另外,该构成碱基可 以按照引物的熔解温度(Tm)通常为60~80℃、例如为65~75℃左右的 方式进行设计。用于引物退火的碱基序列是任意的。因此,例如可以使 用能够赋予上述Tm的任意碱基序列。

    用于引物退火的碱基序列是任意的。而且,构成各种限制性酶识别 序列的区域以及用于使引物退火的区域也可在RNA接头中重复。然而, 当使相对于2种RNA接头不同的引物退火时,通过按照不重复的方式 进行设计,则可期待退火的特异性提高。

    就本发明而言,RNA接头连接于RNA的CAP结构上。用于将寡 核苷酸连接在CAP结构的方法是任意的。例如寡核苷酸帽法是本发明 中用于RNA接头结合的优选方法。寡核苷酸帽法是为了合成保持了 mRNA的5’端碱基序列的cDNA而开发的方法(Maruyama,K and Sugano,S.:Gene 138:171-174,1994)。寡核苷酸帽法中,利用mRNA的 3’末端poly(A)序列和连接于5’末端CAP结构的RNA接头的碱基序列, 实现了全长cDNA的获得。由于5’端的碱基序列不完整的mRNA不保 持CAP结构,因此RNA接头不被连接。所以,就寡核苷酸帽法而言, 能够特异性地获得全长cDNA。

    以下,对于寡核苷酸帽法的反应原理进行简单说明。首先,利用细 菌碱性磷酸酯酶(BAP)处理mRNA,水解不带CAP结构的RNA的5’ 末端的磷酸基。在此过程中,不带CAP结构的RNA失去了5’末端的磷 酸基。即,片断化的RNA或来自于线粒体的RNA等的5’末端上突出 的磷酸基被除去。接着,使烟酸性焦磷酸酶(TAP)作用。TAP将CAP 结构的三磷酸键水解。结果是能够对具有CAP结构特异性地赋予RNA5’ 末端的磷酸基。

    在BAP和TAP处理过的RNA上连接RNA接头。RNA接头的结 合如可利用T4RNA连接酶。利用T4RNA连接酶进行的连接需要5’末 端的磷酸基。因此,相对于通过TAP获得了5’末端磷酸基的RNA,RNA 接头被特异性地连接。这样,能够将RNA接头特异性地结合在CAP结 构上。另外,就处理RNA的反应而言,优选所有工序在排除了RNase 的环境下进行。

    在寡核苷酸帽法中报告了几个变异。例如已知有利用CAP结合蛋 白质柱来精制具有CAP结构的RNA的方法(Edery,L.et al.,Mol.Cell Biol.15:3363-3371,1995)。如果利用该方法,则能够将具有CAP结构 的RNA捕获在固相上。如果洗涤固相将不具有CAP结构的RNA除去 后用TAP处理,则能够回收具有CAP结构的RNA。这样回收的RNA 由于在5’末端具有磷酸基,因此可以直接连接RNA接头。即、利用CAP 结合蛋白质的方法不需要BAP处理。

    接着,将连接了RNA接头的RNA作为模板合成cDNA。用于合成 cDNA的方法是任意的。以下记载了用于合成cDNA的代表性方法。

    通常,cDNA的合成由第1链的合成和第2链的合成2个步骤构成。 第1链的合成是将RNA作为模板进行利用的逆转录反应。与此相对, 第2链是通过将之前合成的第1链DNA作为模板的互补链合成反应而 合成。分别已知有通过引发反应的引物而带有特征的几个反应。

    本发明中,cDNA的第1链可以通过对RNA任意区域退火的引物 合成。将RNA作为模板、利用逆转录酶活性来合成DNA的方法是公 知的。具体地说,利用来自于MMLV的逆转录酶(Reversetranscriptase; RT)或其变变体等、通过引物的延长反应合成第1链的方法是公知的。 作为逆转录酶的变变体,市场上售有失去逆转录酶所具有的RNaseH活 性的变变体(Superscript II,Gibco BRL)等。另外,如Tth DNA聚合酶 那样,在作为DNA合成酶的同时,还作为催化以RNA为模板的互补 链合成反应的酶也被人们所了解。如果利用这种酶,也能够用单一的酶 合成第1链(RNA模板)的第2链(DNA模板)。接着,对于用于合 成cDNA的引物进行说明。

    在之前叙述的寡核苷酸帽法中,通常在第1链的合成中利用寡dT 引物。由于为了合成cDNA的全长,必须从第1链的3’末端开始合成, 因此利用具有与占据mRNA的3’末端的poly(A)互补的碱基序列的寡 dT引物。本发明中也同样,通过利用寡dT引物,能够将全长cDNA的 5’末端作为标记序列获得。

    与此相对,就本发明而言,并非必需RNA的全长。本发明中,标 记可以从含有RNA的5’末端的微小区域中获得。因此,如果含有RNA 的5’末端的区域能够作为cDNA合成的话,则能够获得本发明所必需的 cDNA。因此,例如可以利用能够从RNA任意部分开始互补链的随机引 物合成第1链。通过随机引物的利用,即便是3’端的碱基序列是不完整 的片断,只要是具有CAP结构的RNA,就可获得标记。从可由更广范 围的RNA中获得标记的方面看,随机引物是在基因表达分析中特别有 用的引物。

    而且,在第1链的合成中,通过利用具有与特定基因碱基序列互补 的碱基序列的引物,还能够选择性地获得特定基因的标记。例如,对于 仅清楚部分碱基序列、而5’端的碱基序列不清楚的基因,也能够利用本 发明获得5’末端的标记序列。为此,在第1链的合成中,从明确的碱基 序列中选择制成引物的碱基序列。该引物将从mRNA的明确区域至5’ 末端的区域作为cDNA的第1链生成。由于引物是从特定基因的碱基序 列中选择的,因此不能从目标基因以外的RNA生成第1链。其结果也 不生成标记。

    将特定的基因作为对象、通过本发明的方法获得的基因标记,可期 待具有例如下述的有用性。首先,能够以获得的基因标记的碱基序列信 息为基础,清楚该基因的转录起始点。转录起始点是全长cDNA的获得 或启动子的研究中重要的信息。例如,对于5’端碱基序列不清楚的 cDNA,利用本发明的方法,能够获得5’端的cDNA。或者,即便是翻 译起始点已被鉴定的基因,也可通过基因标记的信息来评价其5’端非翻 译区域(5’UTR)是否完整。

    而且,在编码同一氨基酸序列的同时,明确了赋予转录起始点不同 的多个转录产物的基因。将某种基因作为对象、对于各种mRNA来源, 只要获得本发明的基因标记,则能够容易地收集该基因所有转录产物的 转录起始点的信息。如果获得多种基因标记,则在该基因中有存在转录 起始点不同的多个转录产物的可能性。即,本发明提供含有以下工序的 转录起始点不同的多个转录产物的检测方法,

    (1)以本发明为基础获得基因标记的工序,其中使用对要分析的 基因特异的引物作为cDNA的第1链合成用引物、

    (2)比较(1)中所得基因标记的碱基序列的工序、和

    (3)多种基因标记被检测出时,检测转录起始点不同的多个转录 产物的工序。

    利用本发明中检测出的多种基因标记和所述基因特异的引物信息, 能够确定各转录产物的转录起始点的碱基序列。并且,以本发明为基础, 还可以比较各转录产物的表达水平。即,本发明提供含有以下工序的比 较转录起始点不同的多个转录产物的表达水平的方法,

    (1)以本发明为基础获得基因标记的工序,其中使用对要分析的 基因特异的引物作为cDNA的第1链合成用引物、

    (2)比较(1)中所得基因标记的碱基序列的工序、和

    (3)以各基因标记的出现频率为基础,作为转录起始点不同的多 个转录产物的表达水平获得的工序。

    除此之外,也可以有意地将具有共同碱基序列的RNA作为cDNA 合成。例如,对于构成保存性高的蛋白质的功能域的氨基酸序列,将其 进行编码,则能够以预测的碱基序列为基础设计第1链合成用的引物。 使用该引物合成的cDNA是编码特定功能域的基因的cDNA的可能性很 高。其结果是能够有意地收集含有特定功能域的基因标记。通过比较如 此得到的基因标记的表达水平,能够比较具有特定功能的基因组的表达 水平。

    无论怎样,本发明中所合成的cDNA的第1链在其3’末端具有与 RNA接头互补的碱基序列。因此,如果利用能够对该区域退火的寡核 苷酸,则能够容易地合成cDNA的第2链。在合成第2链之前,可以通 过碱水解将作为第1链模板的RNA除去。本发明中,第2链至少应该 按照含有RNA接头中所含的IIs型限制性酶的识别序列的方式进行合 成。为此,例如可以利用能够在比与配置于RNA接头3’末端的IIs型限 制性酶识别序列相当的区域更靠近3’端处开始互补链合成的引物。或 者,还可以利用含有IIs型限制性酶识别序列的引物。

    将DNA作为模板,通过引物延长反应合成互补链的方法是公知的。 即,已知有利用模板依赖性的DNA聚合酶合成互补链的方法。作为DNA 聚合酶,可以使用T4DNA聚合酶或者Taq聚合酶等。

    用于cDNA合成的引物可以含有任意的碱基序列。例如可以利用在 其5’末端侧加成有限制性酶识别序列的引物。目前普遍进行的是在引物 的5’末端上加成用于赋予克隆位点的碱基序列。

    本发明中,cDNA的第2链可以通过具有可结合于固相的标识、或 者被固定在固相上的引物来合成。通过将引物结合在固相上,能够将 cDNA的第2链捕获在固相上。捕获于固相上的cDNA可以容易地回收。

    用于将作为引物使用的寡核苷酸结合在固相上的方法是任意的。例 如,使用交联剂使寡核苷酸的5’末端与探针共价结合的方法等是公知的 (美国专利5656462)。或者,可以在构成寡核苷酸的碱基中导入生物素 之类的具有结合亲和性的分子。通过使生物素结合于固相化了的抗生物 素蛋白,寡核苷酸被间接地捕获于固相上。寡核苷酸中结合亲和性分子 的导入位置没有限制。

    通过第2链的合成而成为双链的cDNA经过IIs型限制性酶处理, 生成本发明的基因标记。该阶段中,基因标记可以在与作为RNA接头 而加成的碱基序列连接的状态下进行回收。为了基因标记的回收,利用 第2链合成用的引物所结合的固相。即,将基因标记作为结合了的固相 回收。固相可在使IIs型限制性酶作用之后、或者之前进行回收。

    并且,通过确定本发明中基因标记的碱基序列,能够获得RNA的 5’末端的碱基序列信息。确定基因标记的碱基序列的方法是任意的。但 是,为了有效地确定大量基因标记的碱基序列,SAGE的原理是有用的。 即,使多个基因标记连接,制成连环体,将连环体克隆,能够一次性地 确定多个标记的碱基序列。

    可以发现,通过标记生成中使用的IIs型限制性酶的作用,各基因 标记的长度是一定的。因此,认为连环体是通过一定长度的基因标记的 碱基序列的重复所构成的。因此,可以从连环体的碱基序列中获得各标 记的碱基序列信息。

    作为用于连接标记而获得连环体的方法可以举出几个变异。以下阐 述其例子。首先对应用了普遍已知的SAGE原理的方法进行说明。在此 方法中,首先将2个基因标记相向连接获得双标记(di-tag)。此时,如 果IIs型限制性酶导致的切割部分为粘性末端(sticky end)时,则预先 使其平滑化。为了形成平滑末端,可以使T4 DNA聚合酶发挥作用。

    接着,连接多个双标记生成连环体。为了得到双标记,将同一cDNA 文库分为2库,对每组实施相同操作,由此生成基因标记。然后,将来 自于2库的基因标记之间相互连接,制成双标记。此时,基因标记在被 IIs型限制性酶切割的切割部分处连接。基因标记可通过T4 DNA连接 酶等进行酶连接。

    在此得到的双标记具有以下结构。

             PCR→

    (固相)-[RNA接头]-[标记]-[标记]-[RNA接头]-(固相)

                                       ←PCR

    该阶段中,双标记可以通过PCR等扩增方法进行扩增。如果使得2 库间RNA接头的碱基序列不同,则在不同库的标记间连接的双标记被 特异性地扩增,因此能够防止标记间的多个失衡。本发明中双标记的扩 增是任意的。

    接着连接多个双标记得到连环体。为此,例如可预先在RNA接头 内配置限制性酶的识别序列。利用限制性酶将双标记消化后,如果将限 制性酶的切割部位连接,则能够连接多个双标记。这样得到的连环体的 结构可如下所示。

    ..../[Tag][Tag]/[Tag][Tag]/[Tag][Tag]/[Tag][Tag]/....

    即,其是将连接2个标记的双标记“[Tag][Tag]”作为1个单位、且 中间夹有限制性酶(锚定酶)导致的切割部位“/”的双标记连续的结 构。

    并且,可以在与克隆用载体相同的限制性酶位点上插入连环体。这 样能够得到将连环体作为嵌入段而包含的克隆载体。通过确定克隆载体 的嵌入段的碱基序列,能够明确其中所含标记的碱基序列。另外,连环 体的长度优选为能够以1次的序列反应确定碱基序列的长度。例如可以 举出小于等于500bp、例如20~400bp、通常50~300bp范围的连环体。

    另外,还可以得到不是通过双标记、而是通过标记单元连接的连环 体。例如,在使IIs型限制性酶作用后,可在其切割部位上结合连接物。 此时,标记具有以下结构。

             PCR→

    (固相)-[RNA接头]-[标记]-[连接物]

                             ←PCR

    如果在连接物上配置限制性酶识别序列,则与消化双标记的RNA 接头同样,可以利用限制性酶将标记的两端切割。而且,在扩增标记时, 也可利用RNA接头和连接物的碱基序列通过PCR进行扩增。无论如何 都可以连接经限制性酶处理过的标记而制成连环体。连环体进一步插入 在克隆载体中,能够明确其碱基序列。

    通过IIs型限制性酶切割出的标记长度基本一定。但是,如果万一 其长度有所偏差,则在构成双标记时,往往不能鉴定正确的标记碱基序 列。如果不经过双标记构成连环体的话,则即便万一标记的长度不均一, 也能够正确地确定标记的碱基序列。

    本发明的基因标记的获取方法、以及所获标记的碱基序列的确定方 法中所必需的各种试剂类,可以预先组合作为试剂盒来提供。

    即,本发明涉及含有以下要素的基因标记的制造用试剂盒,

    (a)由含有IIs型限制性酶的识别序列的寡核苷酸构成的RNA接 头、

    (b)用于将RNA接头连接于RNA的CAP部位的试剂、

    (c)由对以RNA接头作为模板合成的cDNA退火的寡核苷酸所构 成的cDNA第2链合成用引物、

    (d)cDNA第1链合成用引物。

    本发明的试剂盒可以附加地含有双标记或连环体制备所必需的试 剂类。另外,这些构成要素的具体构成如上所述。

    本发明的试剂盒中,作为(d)cDNA第1链合成用引物,可以使 用例如以下i)~iii)任一个所记载的引物,

    i)随机引物、

    ii)寡dT引物、和

    iii)含有与特定mRNA互补的碱基序列的引物。

    将试样中所含的全部mRNA作为对象制造基因标记时,利用随机 引物或寡dT引物。随机引物是本发明中特别优选的引物。随机引物是 指由具有数十个碱基长度的不特定的碱基序列构成的寡核苷酸的集合 体。例如利用5~20、通常8~15个碱基左右长度的寡核苷酸。通过将4 种碱基混合物依次连接成必要的长度进行合成。理论上来说,可以认为 随机引物含有对所有碱基序列互补的碱基序列。

    或者,通过含有与特定mRNA互补的碱基序列的引物,也能够构 成本发明的试剂盒。通过利用对特定的mRNA特异的引物,能够特异 地制造某个基因的5’标记。比较这样得到的标记的碱基序列信息,如果 在该碱基序列中检测出变异时,则说明在该基因的转录产物中存在有5’ 末端长度不同的多个变体(variant)。因此,通过含有与特定mRNA互 补的碱基序列的引物所构成的本发明的试剂盒,作为用于检测特定基因 的转录产物的变体的试剂盒是有用的。

    例如,通过以下所述要素,能够构成用于实施本发明的方法的试剂 盒。在各要素中还可添加对使用了各要素的反应所优选的缓冲液。并且, 在本发明的试剂盒中还可组合用于分析基因标记的碱基序列的软件。

    用于连接RNA接头的要素:

    ·BAP

    ·TAP

    ·T4RNA连接酶

    ·RNA接头

    用于cDNA合成和分离的要素:

    ·逆转录酶

    ·DNA聚合酶

    ·dXTP

    ·cDNA第1链合成用随机引物

    ·cDNA第2链合成用5’生物素化cDNA合成用引物

    ·抗生物素蛋白结合磁珠

    用于生成基因标记的要素:

    ·IIs型限制性酶

    用于双标记的生成和分析的要素

    ·T4DNA连接酶

    ·基因标记扩增用引物

    ·DNA聚合酶

    ·II型限制性酶

    ·测序用载体

    ·用于转化载体的宿主

    ·用于培养宿主的培养基

    在分析通过本发明生成的连环体的碱基序列信息中,利用计算机软 件是有利的。例如可以将能够实施以下步骤的软件用于连环体的碱基序 列信息的分析中,

    读取测序仪的分析数据的步骤、

    识别读取的碱基序列数据的标记以外的碱基序列信息的步骤、

    积累标记的碱基序列信息的步骤。

    这里,作为标记以外的碱基序列信息,可以举出在标记形成过程中 连接的RNA接头、连接物等的碱基序列信息。或者,有时也有可能可 以读取来自于克隆载体的碱基序列。无论怎样,这些碱基序列信息是预 先明确的信息。并且,这些附加的碱基序列信息和标记的碱基序列信息 规则地配置在连环体上。因此,能够机械地识别这些碱基序列和标记的 碱基序列。

    接着,积累标记的碱基序列和所识别的碱基序列信息。形成双标记 时,由于有时也读取了反义链的碱基序列,因此也能合并记录互补序列 的信息。使用连接物不经过双标记制作连环体时,如果按照使连接物和 RNA接头的克隆位点成为不同序列的方式进行设计的话,则能够在单 一方向上克隆。此时,不需要互补序列的积累。

    在该程序中还可带有附加的功能。例如可以实施比较所得标记的碱 基序列、将相同碱基序列归纳为1个、并记录其出现频率的步骤。另外, 还可以实施比较不同RNA来源的标记信息、将出现频率不同的标记提 取的步骤。

    作为标记信息的比较对象,还可以利用预先积累的数据库的信息。 例如,对于标准的组织或细胞株,根据本发明的方法预先积累基因标记 的信息。该信息可以在计算机互联网上共用。或者,也可以添加于上述 试剂盒中,在商业上游通。还可以比较这样得到的基因标记信息和自己 实验获得的基因标记信息。

    通过本发明,能够获得作为转录产物的mRNA的5’末端碱基序列 信息。5’末端碱基序列信息在基因分析中具有特别重要的意义。例如, 可以将通过本发明能够获得的5’末端碱基序列信息用于下述用途中。

    首先,本发明可以用于基因表达谱的获得中。即,本发明涉及含有 以下工序的、获取真核细胞中基因表达谱的方法,

    (1)以本发明为基础制造基因标记的工序、

    (2)确定(1)的基因标记的碱基序列的工序、和

    (3)通过对应所确定的碱基序列及其出现频率,获得表达谱的工 序。

    本发明中(1)制造基因标记的工序可以含有以下工序。没有特别 声明的情况下,以下的记载也同样,所述的“以本发明为基础制造基因 标记的工序”含有以下工序:

    (A)在RNA的CAP部位连接含有IIs型限制性酶的识别序列的 RNA接头的工序、

    (B)将(A)的RNA作为模板合成eDNA的工序、

    (C)使识别RNA接头中所含识别序列的IIs型限制性酶作用于(B) 的eDNA,从而生成基因标记的工序。

    一般来说,表达谱是指伴随表达信息的基因信息的列表。表达信息 是指显示表达水平的量化参数。基因信息通常是指用于特定基因的信 息。具体地说,基因的碱基序列、基因的名称、基因的ID号等构成基 因信息。构成列表的基因数是任意的。并且其对象也没有限定。根据分 析的目的,积累必要基因的信息构成表达谱。

    根据本发明,能够从具有CAP结构的RNA中将其5’末端的碱基序 列信息作为标记信息获得。并且,通过对照其碱基序列信息,计算相同 碱基序列的数量,能够使碱基序列信息及其出现频率对应。这样能够得 到表达谱。

    作为RNA,如果将所有RNA作为对象的话,能够获得将全部基因 作为对象的表达谱。本发明中,将特定基因或者结构上具有共性的一组 基因作为对象,也能够生成基因标记。这种情况下,生成了特定基因或 者一组基因的表达谱。

    如果假定具有CAP结构的mRNA是指细胞中所表达的全部 mRNA,则可以说通过本发明可得到的表达谱更加正确地反映着细胞内 的基因表达状态。本发明中,计算碱基序列的出现频率时,优选积累占 据成为分析对象的碱基序列信息总数的某序列出现频率的相对数。特别 是在通过PCR等扩增后的出现频率信息的定量意义小。如果作为相对 于总数的比进行比较的话,可以期待更加客观的评价。

    通过本发明得到的表达谱能够制成数据库。数据库是指将构成表达 谱的信息作为机械可读式的数据而积累的电子数据。本发明的数据库至 少含有标记的碱基序列信息和与其相关的出现频率信息。并且,本发明 的数据库可以合并记录各碱基序列信息的ID号、得到碱基序列信息的 RNA来源。而且,还可附加与已知基因的碱基序列信息的关系、对基 因组上的定位结果等信息。

    本发明的表达谱的数据库可以保存在电子媒介中。作为电子媒介, 可以举出各种光盘装置、磁带媒介或者闪存器等。这些电子媒介可在因 互联网上共用。例如,可以在互联网上共有本发明的数据库。并且,还 可以介由互联网,在用于分析上述标记序列的软件中追加用于参照本发 明数据库信息的功能。或者,相反地也可以介由互联网将根据本发明生 成的新型表达谱信息追加在数据库中。

    利用本发明的表达谱可以实施表达谱分析。即,本发明涉及一种基 因表达谱的分析方法,该方法含有以本发明为基础获得不同种类细胞的 基因表达谱、比较基因表达谱、并选择细胞间表达频率有所不同的基因 标记的工序。获得不同细胞间表达水平有所不同的基因的分析方法被称 为表达谱分析。通过这种分析,例如可以获得数量众多的与疾病等相关 的基因。本发明的表达谱也可利用在这种表达谱分析中。

    本发明的表达谱分析中,成为分析对象的不同细胞是指其来源不同 的所有细胞。即便是来自于同一组织的细胞,在有无疾病、人种、年龄、 性别等一些条件有所不同时,也是来源不同的细胞。如果根据分析目的 要考虑的条件有所不同的话,则是来源不同的细胞。另一方面,当仅发 现相对于分析目的可忽略的条件有所不同时,视为同一细胞。例如,通 过比较不同器官、不同组织、或来源和培养条件等有所不同的细胞间的 表达谱,能够选择器官、组织或细胞间表达水平高(或者低)的基因。 能够应用本发明的分析对象的组合示例如下。

    不同组织

    成人的组织和胎儿的组织

    患者的组织和健康人的组织

    男性的组织和女性的组织

    人种不同的人的组织

    生长环境不同的同一生物物种的组织

    不同细胞

    同一细胞、培养条件不同的细胞

    同样培养条件、培养时间不同的细胞

    施加了特定处理的细胞和未施加特定处理的细胞

    更具体地说,通过在癌组织和正常组织之间比较表达谱,能够获得 对癌特征性的基因标记。或者,特别是通过比较恶性度高的癌和恶性度 低的癌,能够特定与恶性度相关的基因标记。

    通过本发明得到的基因标记包括mRNA的5’末端的碱基序列信息。 因此,能够将作为编码相同蛋白质的基因、且5’UTR结构不同的变体 作为不同转录产物反应在表达谱中。与通过公知的SAGE能够得到的标 记相比较,该特征是本发明的标记所具有的一大优点。另外,本发明的 基因标记的碱基序列信息本身作为全长cDNA的5’端引物的碱基序列 信息是有用的。因此,如果利用以通过表达谱分析所选出的标记的碱基 序列信息为基础设计的引物和寡dT引物,则能够直接合成全长cDNA。 或者,如果组合具有与mRNA任意区域互补的碱基序列的引物,则能 够得到含有mRNA的5’端碱基序列的cDNA。这也是本发明的一大特 征。

    通过本发明能够获得的基因标记含有作为转录产物的mRNA的5’ 末端碱基序列。因此,通过将该碱基序列定位在基因组的碱基序列上, 能够鉴定基因的转录起始点。即,本发明涉及含有以下工序的基因转录 起始点的确定方法,

    (1)以本发明的方法为基础制造基因标记的工序、

    (2)确定(1)的基因标记的碱基序列的工序、和

    (3)将所确定的基因序列定位在基因组的碱基序列上,并将碱基 序列一致的区域作为该基因的转录起始点来鉴定的工序。

    2003年4月,国际人类基因组序列协会公布了人类基因组的破译完 成。其结果是能够得到以99.99%的精确度覆盖全基因组99%(28亿3000 万碱基对)的人类基因组精密序列。另一方面,本发明将在细胞内转录 的所有mRNA的5’末端作为标记产生。因此,从原理上,可以将在某 细胞中转录的基因的几乎所有的转录起始点定位于基因组上。被定位在 基因组上的转录起始点在转录调节区域的获得中是重要的信息。

    例如,可以克隆转录起始点的上游1~2kb的范围,并用于转录调节 因子的筛选。或者通过分析该区域的碱基序列,还能够预测转录调节区 域。更具体地说,通过研究已知转录因子的识别序列所被保存的区域, 能够预测转录因子的结合区域。

    另外,转录起始点的定位无非是基因本身的定位。也就是说,以本 发明标记的碱基序列信息的定位结果为基础,能够把握基因在基因组上 的物理位置关系。目前,基因的转录起始点如果不依赖于质量高的全长 cDNA的碱基序列信息,则不能定位。然而如果利用通过本发明能够得 到的标记信息,则能够容易地定位转录起始点。这样,可以说通过本发 明能够得到的标记信息具有与全长cDNA的成果相匹敌的价值。

    而且,通过本发明能够得到的基因标记的碱基序列信息可以利用在 cDNA的全长率评价中。与基因组的碱基序列被搞清楚相对,为了在蛋 白质水平上明确细胞的作用,继续了各种尝试。作为其方法之一,有全 长cDNA的网络式分析。在全长cDNA的网络式分析中,网罗地获得在 某细胞中表达的基因的全长,确定其结构。此时,所得cDNA的全长性 高成为了重要的条件。

    首先,第1为了至少特定ORF,必须明确mRNA的5’端碱基序列。 另外,为了鉴定转录起始点,获取直至5’末端的碱基序列是重要的。为 了确认满足这些条件,常常评价得到的cDNA的全长性。cDNA的全长 性是表示含有mRNA的5’末端碱基序列的cDNA占所得cDNA整体的 何种程度的参数。

    本发明的基因标记提供mRNA的5’末端的碱基序列信息。因此, 通过对照网罗式获得的cDNA的碱基序列和从同一文库中获得的本发 明的基因标记的碱基序列,能够明确各cDNA的5’末端是否含有mRNA 的5’末端的碱基序列。如果基因标记的碱基序列多数能在cDNA的碱基 序列上定位时,所获cDNA的多数为全长的可能性较高。相反,与基因 标记一致的碱基序列在所得cDNA中看不到时,推测cDNA的全长性较 低。

    本发明中基因标记的碱基序列信息可以利用于含有mRNA的5’末 端碱基序列的cDNA的获得中。即,本发明涉及cDNA合成用引物组, 其包含用于合成含有通过以下工序确定的碱基序列或其互补序列的 cDNA的5’端引物、和对cDNA的任意部位退火的3’端引物、

    (1)以本发明为基础制造基因标记的工序、和

    (2)确定(1)的基因标记的碱基序列的工序。

    构成本发明的引物组的5’端引物的碱基序列含有作为标记获得的 碱基序列或其互补序列。标记作为mRNA的有义序列或反义序列而得 到。因此,其互补序列或者标记的碱基序列本身作为cDNA合成用的5’ 端引物的碱基序列被使用。由于5’端引物在5’末端开始互补链合成,因 此通过本发明的引物组合成的cDNA通常含有5’末端的碱基序列。另 外,标记序列由于是从DNA中获得的,因此含有碱基t。与此相对, RNA的5’末端序列与t相当的碱基当然是u。

    另一方面,在构成本发明的引物组的3’端引物中,可以利用对cDNA 可退火的任意引物。通过选择3’端引物,能够合成各种cDNA。作为能 够利用于本发明引物组的3’端引物,例如可以举出以下所示的引物,

    i)寡dT引物、

    ii)cDNA的片段序列信息、和

    iii)由与cDNA的II型限制性酶识别邻接的基因标记的碱基序列或 其互补序列构成的引物。

    首先,与寡dT引物的组合在全长cDNA的合成中是有用的。然后, 以cDNA的片段序列信息为基础设计的3’端引物作为用于获得该cDNA 的5’端区域的引物被利用。为了这种目的,可以尽量以该cDNA的5’ 端碱基序列为基础设计3’端引物。在cDNA的片段信息中含有EST。另 外,通过各种基因分析,能够获得cDNA的片段信息。而且尝试了常常 以片段信息为基础确定全长的碱基序列。例如,当必须获得作为DNA 阵列的探针使用的EST的5’端碱基序列时,利用本发明的引物组,能 够合成目标区域。或者,有时尝试从通过PCR克隆等获得的cDNA片 断中获得其全长。本发明中,cDNA的片段序列信息可以定义为含有与 特定mRNA互补的碱基序列的引物。

    并且,还可以将由与cDNA的II型限制性酶识别邻接的基因标记 的碱基序列或其互补序列所构成的引物作为3’端引物利用。目前实用的 SAGE(SCIENCE,Vol.270,484-487,Oct.20,1995)将与cDNA中所含 特定限制性酶位点邻接的区域作为基因标记生成。以该标记的碱基序列 信息为基础,能够分析基因表达谱。对于同一分析对象,如果将根据已 知分析方法选择的基因标记的碱基序列信息作为3’端的引物使用,则有 可能可以合成含有相当一部分目标基因的cDNA。

    这些引物组中,特别优选与寡dT引物的组合作为用于合成全长 cDNA的引物组。全长cDNA在转录起始点的定位中有用。另外,为了 鉴定5’UTR结构不同的转录产物,必须确定至少含有5’末端区域的碱 基序列。而且,全长cDNA通常是难以获得的。由该背景出发,利用根 据本发明得到的基因标记信息来合成全长cDNA的有用性特别大。即, 本发明涉及含有以下工序的全长cDNA的合成方法,

    (a)使用用于合成含有通过以下工序确定的碱基序列或其互补序 列的cDNA的5’端引物、和由寡dT引物构成的3’端引物,以RNA或 cDNA为模板进行互补链合成反应的工序、

    (1)根据本发明的方法制造基因标记的工序、

    (2)确定(1)的基因标记的碱基序列的工序;

    (b)将合成的DNA作为全长cDNA回收的工序。

    将从含有目标mRNA可能性高的细胞中获得的RNA作为模板,使 用上述本发明的引物组合成cDNA。或者也可将从该细胞中获得的 cDNA文库作为模板进行利用。本领域技术人员可以根据所提供的引物 的碱基序列信息合成cDNA。具体地说,利用RT-PCR等公知的方法, 能够由RNA合成目标cDNA。RNA优选使用mRNA。或者使用cDNA 文库作为模板时,能够通过PCR合成目标cDNA。cDNA文库也可以使 用市售的文库。

    本发明涉及这样合成的全长cDNA。本发明中,全长cDNA是指包 括含有mRNA的CAP结构部分的碱基序列信息和poly(A)的cDNA。本 发明还涉及由根据本发明合成的全长cDNA编码的多肽。分析全长 cDNA的碱基序列,能够鉴定ORF。根据所鉴定的ORF,能够将编码区 域导入至表达载体。本发明含有能够如此得到的表达载体。可以将该表 达载体导入至适当的表达体系,将由cDNA编码的多肽作为重组体使其 表达,再进行回收。

    另外,本发明的全长cDNA的编码区域所编码的多肽可通过生物体 外翻译(in vitro translation)作为重组体表达并回收。生物体外翻译的 方法是公知的。生物体外翻译也称为无细胞蛋白质翻译。即,通过使将 编码目标氨基酸序列的DNA功能性地连接于启动子的构成物 (construct)接触于支持生物体外翻译的要素,能够翻译成氨基酸序列。 构成物中还可配置终止子等转录调控区域。支持生物体外翻译的要素是 含有RNA聚合酶、核糖核苷酸基质、氨基酸、核糖体以及tRNA等的 混合物。如果存在这些蛋白质翻译所必需的成分,则可不利用细胞功能, 也能将DNA翻译成蛋白质。RNA聚合酶识别上述启动子,在其控制下 将DNA作为模板转录成mRNA。转录中使用核糖核苷酸基质ATP、GTP、 CTP和UTP。被转录的mRNA在核糖体中被翻译成多肽。

    作为支持生物体外翻译的要素,可以使用市售的体外翻译用的试剂 盒。利用了兔子网状红血球的溶解产物(Rabbit Reticulocyte Lysate; RRL)、小麦胚芽提取物(Wheat Germ Extract;WGE)或者大肠杆菌的 溶菌产物等的用于无细胞蛋白质翻译的试剂盒在市场有售。或者,也可 以分别以高纯度精制转录、翻译和能量再生中所必需的约30个酶类后, 实现再构成的体外转录和翻译系统(Shimizu et al.(2001)Nature Biotechnology.Vol.19,p.751-755),作为试剂盒在商业上提供。

    而且,本发明涉及识别该多肽的抗体。抗体例如可以通过用上述重 组体、或者由选自翻译氨基酸序列的氨基酸序列构成的域肽对免疫动物 进行免疫而得到。能够从免疫动物中回收多克隆抗体。并且,克隆免疫 动物的抗体产生细胞,可以得到单克隆抗体。使抗体产生细胞与骨髓瘤 之类的细胞株融合而制成杂交瘤、用于筛选产生具有目标反应性的抗体 的克隆的方法是公知的。

    附图说明

    图1为表示根据本发明的基因标记的获取方法的例子的图。将 mRNA分成两半,将mRNA的Cap结构酶置换成含有作为IIs型限制核 酸内切酶的MmeI和Xhol限制性酶部位的两种合成寡核苷酸。接着, 通过dT连接物引物将寡核苷酸帽mRNA变换成cDNA的第1链。使用 PCR利用生物素结合5’引物和dT连接物引物合成第2链。使用在距离 识别部位20bp的位置处进行切割的MmeI,将双链cDNA切割。通过 使其结合于链霉抗生物素蛋白微珠而将5’cDNA分离后,相互连接标记 的两库。

    图2为与UniGene和DBTSS序列中mRNA起始部位进行比较的 5’SAGE标记的距离的图。距离以上游(-)和下游(+)的核苷酸(x- 轴)的数目来表示。UniGene中的mRNA起始部位表示为0。5’SAGE 标记的频率显示于y-轴。配置每个5’SAGE标记及其对应基因的位置的 距离越短,则表示5’标记与已知5’转录起始部位基本一致。本发明人等 为了研究转录起始部位的范围的差,分别使用了UniGene和DBTSS数 据库。

    图3为5’SAGE标记和3’SAGE标记的频率的散点图。如实施例2 的材料和方法的章节中所述,由5’SAGE和3’SAGE分析击中(hit)基 因组中的一个基因座的标记。该图中,两个轴用对数表示。

    具体实施方式

    以下根据实施例,更加具体地说明本发明。

    [实施例1]

    根据本发明,通过以下实验确认能够获得含有mRNA的5’末端碱 基序列的基因标记。以下操作大致示于图1。

    寡核苷酸帽法

    寡核苷酸帽法是改变了Maruyama和Sugano(1994)的方法进行的 (Maruyama,K.,Sugano,S.,1994.Oligo-capping:a simple method to replace the cap structure of eucaryotic mRNAs with oligoribo-nucleotides. Gene 138,171-174.)。在添加了100单位的RNasin(Promega)的总液量为 100μl的100mM Tris-HCl(pH为8.0)和5mM 2-巯基乙醇的混合液中, 利用1.2单位来自于细菌的碱性磷酸酯酶(BAP;TaKaRa)在37℃下将 5~10μg的poly(A)+RNA处理40分钟。进行2次苯酚∶氯仿(1∶1)提取 处理,进行乙醇沉淀处理。在添加了100单位的RNasin的总液量为100μl 的50mM乙酸钠(pH为5.5)、1mM EDTA、5mM 2-巯基乙醇的混合液 中,利用20单位的烟酸性焦磷酸酶(TAP)在37℃下将所得该 poly(A)+RNA处理45分钟。

    在苯酚∶氯仿提取处理和乙醇沉淀处理后,将2~4μg的BAP-TAP处 理poly(A)+RNA分为2库,使各库分别与RNA接头(5’-oligo 1和5’-oligo 2)连接。5’-oligo 1和5’-oligo 2分别为具有以下碱基序列的RNA。任 何一个RNA接头都含有XhoI和MmeI识别序列。

    5’-oligo 1/序列号:1

    5’-UUU GGA UUU GCU GGU GCA GUA CAA CUA GGC UUA AUA CUC GAG UCC GAC-3’

    5’-oligo 2/序列号:2

    5’-UUU CUG CUC GAA UUC AAG CUU CUA ACG AUG UAC GCU CGA GUC CGA C-3’

    将250单位的RNA连接酶(TaKaRa)和100单位的Rnasin用下述 组成的反应混合液达到总液量100μl,在20℃下反应3~16小时,连接 RNA接头。

    50mM Tris-HCl(pH为7.5)

    5mM MgCl2

    5mM 2-巯基乙醇

    0.5mM ATP

    25%PEG8000

    cDNA的合成

    cDNA的合成时,合成全长cDNA富集文库和5’末端cDNA富集文 库的2种文库。全长cDNA富集文库由使用寡dT连接物引物以 poly(A)+mRNA为模板合成的cDNA构成,是全长cDNA富集的文库。 另一方面,5’末端cDNA富集文库由在cDNA的合成中使用随机连接物 引物合成的cDNA构成。通过随机连接物引物的使用,从没有poly(A) 的片段也能合成cDNA。对于这2种cDNA分别尝试获得基因标记。

    将未连接的RNA接头除去后,通过无RNaseH的逆转录酶 (Superscript II,Gibco BRL)合成cDNA。为了得到全长cDNA富集文 库,将10pmol的dT连接物引物(序列号:3)加入到含有2~4μg寡核 苷酸帽poly(A)+RNA的50μl溶液中,合成cDNA。

    DT连接物引物(序列号:3)

    5’-GCG GCT GAA GAC GGC CTA TGT GGC CTT TTT TTT TTT TTT TTT-3’

    反应条件按照厂家推荐的方法(42℃下培养1小时)。

    进而,为了得到5’末端cDNA富集文库,使用10pmol的随机连接 物引物(序列号:4),在12℃下培养1小时,进而在42℃下培养1小 时。

    随机连接物引物(序列号:4)

    5’-GCG GCT GAA GAC GGC CTA TGT GGC CNN NNN NC-3’

    cDNA的扩增

    合成第1链cDNA后,通过使用15mM NaOH在65℃下处理1小 时,将RNA分解。使用100μl中含有16pmol的5’PCR引物和3’PCR 引物(5’-GCG GCT GAA GAC GGC CTA TGT-3’/序列号:7)的XL PCR 试剂盒(Perkin-Elmer)来扩增以1μg的寡核苷酸帽poly(A)+RNA作为 模板合成的cDNA。5’PCR引物在作为RNA接头连接了5’oligo-1的库 中使用序列号:5的引物,连接了5’oligo-2的库中使用序列号:6的引 物。

    5’oligo 1用5’PCR引物/序列号:5

    5’生物素-GGA TTT GCT GGT GCA GTA CAA CTA GGC TTA ATA-3’

    5’oligo 2用5’PCR引物/序列号:6

    5’生物素-CTG CTC GAATTC AAG CTT CTAACG ATG TAG G-3’

    3’PCR引物(序列号:7)

    5’-GCG GCT GAA GAC GGC CTA TGT-3’

    在第1链的合成中使用dT-连接物引物作为引物时,将94℃下1分 钟、58℃下1分钟和72℃下10分钟的循环重复5~10次,进行cDNA 的扩增。另外,在第1链的合成中使用随机连接物引物作为引物时,将 94℃下1分钟、58℃下1分钟和72℃下2分钟的循环重复10次,进行 cDNA的扩增。

    PCR产物在1次的苯酚∶氯仿(1∶1)处理后,经过乙醇沉淀处理, 利用MmeI型IIs限制性酶(University of Gdansk Center of Technology Transfer,Gdansk,Poland)进行处理。限制性酶处理是在总液量为300μl 的10mM HEPES、pH为8.0、2.5mM醋酸钾、5mM醋酸镁、2mM DTT 和40μM S-腺苷基蛋氨酸混合液中使用40单位的MmeI,在37℃下进行 2.5小时。使经限制性酶处理过的5’末端cDNA片断与由链霉抗生物素 蛋白包被的磁珠(Dynal,Oslo,Norway)结合。在16℃下、在16μl含有 添加了4单位T4 DNA连接酶的供给缓冲液的反应溶液中反应2.5小时, 使结合于磁珠的cDNA片断相互直接结合,得到双标记。

    生成的双标记使用引物5’-GGA TTT GCT GGT GCA GTA CAA CTA GGC-3’(序列号:8)和5’-CTG CTC GAA TTC AAG CTT CTA ACG ATG-3’(序列号:9),通过PCR扩增。利用聚丙烯酰胺凝胶电泳(PAGE) 确认PCR产物,通过XhoI进行处理。将含有双标记的条带切出,使其 自身连接形成长的连环体。将该连环体插入到pZero 1.0(Invitrogen)的 XhoI部位。

    通过使用了M13正向引物和M13反向引物的PCR进行群体的筛 选。含有600bp或以上嵌入段的PCR产物使用Big Dye terminator ver.3、 利用3730ABI自动DNA测序仪(Applied Biosystems,CA)确定序列。 相对于所有的电泳图,为了确认有无不明确的碱基以及修改错读,通过 目测进行再分析。

    使用为此制作的软件测定各标记的出现频率。将分析的结果得到的 标记的碱基序列作为搜索项,检索BLAST search(http://www.ncbi.nlm. nih.gov/BLAST/)和人类基因组数据库(http://www.ncbi.nlm.nih.gov/ genome/guide/human/)的数据。

    将从通过随机连接物引物合成的5’末端cDNA富集文库中得到的 3000或以上的基因标记的碱基序列进行分析的部分结果汇总于下。以下 的结果中,接着记载了基因标记的碱基序列的序列号,用“/”将接下 来的信息划分记载。另外,在这些信息后另起一行记载有击中已知基因 的信息(GenBank Accession No.和注释)。

    基因标记的碱基序列

    所得基因标记总数中的该基因标记的出现频率

    基因标记的碱基序列击中的已知序列的位置(○:击中5’末端的序 列、×:并非5’末端的碱基序列)

    (序列号:10)/ACATCTGACCTCATGGAG/27/○

    gi|33694637|tpg|BK000408.1|TPA:人类腺病毒5型,全基因组

    (序列号:11)/CTCTTTCCTTGCCTAACG/22/○

    gi|17981705|ref|NM_001007.2|人类核糖体蛋白质S4,X-连接 (RPS4X),mRNA

    (序列号:12)/TACCTGGTTGATCCTGCC/21/×

    (序列号:13)/CTTTTCCTGTGGCAGCAG/20/○

    <gi|16579884|ref|NM_000968.2|人类核糖体蛋白质L4(RPL4), mRNA

    (序列号:14)/CTCTTCCGCCGTCGTCGC/16/○

    人类真核翻译延长因子2(EEF2),mRNA的上游

    (序列号:15)/CTCATTGAACTCGCCTGC/11/○

    gi|28338|emb|X04098.1|HSACTCGR人类细胞骨架γ-肌动蛋白 (ACTG1基因)的mRNA

    (序列号:16)/CTGGTTGATCCTGCCAGT/11/×

    (序列号:17)/CTCAGTCGCCGCTGCCAG/10/○

    gi|28338|emb|X04098.1|HSACTCGR人类细胞骨架γ-肌动蛋白 (ACTG1基因)的mRNA

    (序列号:18)/CTTTCACTGCAAGGCGGC/10/○

    gi|18314626|gb|BC021993.1|鸟嘌呤核苷酸结合蛋白(G蛋白),β- 多肽2-样1

    (序列号:19)/ACGCTGTGACAGCCACAC/9/○

    NM 005382的上游

    (序列号:20)/GTGACAGCCACACGCCCC/9/×

    gi|35045|emb|Y00067.1|HSNFM人神经丝蛋白亚单位M(NF-M) 的基因

    (序列号:21)/AACGGCTAGCCTGAGGAG/8/×

    gi|188487|gb|M59828.1|HUMMHHSP人MHC III类HSP70-1基因 (HLA),全编码序列

    (序列号:22)/AGTAGCAGCAGCGCCGGG/8/○

    gi|14043071|ref|NM_031243.1|人类核内不均一核糖核蛋白A2/B1

    (序列号:23)/ATTCCTAGTTAAGGCGGC/8/○

    gi|5020073|gb|AF146651.1|AF146651人类乙二醛酶-I基因,全编 码序列

    (序列号:24)/AATTGTGTTCGCAGCCGC/7/○

    gi|22027640|ref|NM_002107.2|人类H3组蛋白,家族3A(H3F3A), mRNA

    (序列号:25)/ATATTTCTTACTCTCTCG/7/×

    gi|37704377|ref|NR_001564.1|X染色体上的人类染色体X失活特异 性转录产物(XIST)

    (序列号:26)/CTCAGTCGCCGCTGCCAA/7/○

    gi|28338|emb|X04098.1|HSACTCGR人类细胞骨架γ-肌动蛋白的 mRNA

    (序列号:27)/AAAACGGCCAGCCTGAGG/6/×

    gi|188489|gb|M59830.1|HUMMHHSP2人MHC III类HSP70-2基因 (HLA),全编码序列

    (序列号:28)/CTCTCTTTCACTGCAAGG/6/○

    gi|12652914|gb|BC000214.1|鸟嘌呤核苷酸结合蛋白(G蛋白),β- 多肽2-样1

    (序列号:29)/AATTTCTACGCGCACCGG/5/○

    gi|402305|gb|L24369.1|HUMRPS4A人类核糖体蛋白质S4基因

    (序列号:30)/ACCGCCGAGACCGCGTCC/5/○

    gi|1043878|dbj|AK025375.1|人类突变的β-肌动蛋白的ACTB mRNA

    (序列号:31)/AGACGCAGAGTAGATTGT/5/○

    gi|2315183|emb|Z82216.1|HS75N13来自于人染色体Xq21.1的克隆 RP1-75N13的DNA序列

    (序列号:32)/AGTTCGATCGGTAGCGGG/5/×

    gi|37540535|ref|XM_294582.2|与DNA-结合蛋白B类似的人类基因

    (LOC347295),mRNA

    (序列号:33)/AGTTCTCGGGCGTACGGC/5/○

    gi|30581134|ref|NM_006306.2|人类染色体1-样1的结构维持SMCl

    (序列号:34)/AGTTGCTTCAGCGTCCCG/5/○

    gi|32487|emb|X15183.1|HSHSP90R人90-kDa热休克蛋白的mRNA

    (序列号:35)/ATTAAACGGTTGCAGGCG/5/×

    gi|33239450|ref|NM_182649.1|人类增殖细胞核抗原(PCNA)转录变 体2,mRNA

    (序列号:36)/CCGGCCGGGGGGCGGGCG/5/○

    gi|55583|gb|U13369.1|HSU13369人核糖体DNA全重复单位

    (序列号:37)/CCTTTTGGCTCTCTGACC/5/○

    gi|15718688|ref|NM_001006.2|人类核糖体蛋白质S3A(RPS3A), mRNA

    (序列号:38)/CTCAGTACAGCTCCGGCC/5/○

    gi|21217408|gb|AC015849.5|人类染色体17,克隆RP11-362K1,全 序列

    (序列号:39)/CTCTTTCGGCCGCGCTGG/5/○

    gi|461248|dbj|D28421.1|HUMRPL80人类核糖体蛋白质L8同源物的 mRNA,5’UTR

    所得标记中30个碱基序列的分析结果为:73%或以上(22/30)的 标记实际上是cDNA的5’末端的碱基序列。这正验证了根据本发明能够 以较高概率将mRNA的5’末端碱基序列作为标记获得。

    [实施例2]

    将利用了根据本发明的含有mRNA的5’末端碱基序列的基因标记 的基因表达分析(以下记为5’SAGE)的结果与公知的SAGE法(以下 记为3’SAGE)进行比较。

    材料和方法

    3’-Long SAGE文库的制作

    从HEK293中分离全RNA,如上所述选择mRNA(Hashimoto,S.-i., Suzuki,T.,Dong,H.-Y.,Yamazaki,N.& Matsushima,K.Serial analysis of gene expression in human monocytes and macrophages.Blood 94, 837-844,1999)。将标准的SAGE顺序如下变更进行使用,用3μg mRNA 进行Long SAGE法(Saha,S.et al.Using the transcriptome to annotate the genome.Nat Biotechnol 20,508-512,2002)。

    即,NlaIII切割后,将接头1A(5’-TTT GGA TTT GCT GGT GCA GTA CAA CTA GGC TTA ATA TCC GAC ATG-3’/序列号:40)和接头1B (5’-TCG GAT ATT AAG CCT AGT TGT ACT GCA CCA GCA AAT CC C7氨基修饰-3’/序列号:41)相互退火,连接于全cDNA的一半,将接 头2A(5’-TTT CTG CTC GAA TTC AAG CTT CTA ACG ATG TAC GTC CGA CAT G-3’/序列号:42)和接头2B(5’-TCG GAC GTA CAT CGT TAG AAG CTT GAA TTC GAG CAG C7氨基修饰-3’/序列号:43)相互退火, 连接于cDNA的剩余一半,并将含有MmeI识别部位的接头连接于 3’cDNA末端。使用MmeI型IIs限制性酶(Gdansk大学技术转让中心 (University of Gdansk Center for Technology Transfer)、Poland、 Gdansk),使接头标记分子从cDNA中游离出来。切割是在300μl的10mM HEPES、pH为8.0、2.5mM醋酸钾、5mM醋酸镁、2mM DTT和40μM S-腺苷基蛋氨酸中使用40单位的MmeI在37℃下进行2.5小时。在16μl 的供给缓冲液中含有4单位T4 DNA连接酶的反应液中,使接头1标记 分子和接头标记2分子在16℃下反应2.5小时,使它们相互直接连接。

    使游离的标记相互连接成链,在pZero 1.0(Invitrogen)的SphI部 位克隆。使用M13正向和M13反向引物,通过聚合酶链式反应法(PCR) 筛选群体。对含有超过600bp插入片断的PCR产物使用Big Dye terminator ver.2进行测序,利用3730ABI自动DNA测序仪(Applied Biosystems、加里福尼亚州)进行分析。电泳图全部通过目测进行再次 分析,研究不清楚的碱基,更正错读。使用SAGE 2000软件(version 4.12),定量各标记的存在量。除去接头序列、其它可能的人工产物和重 复的双标记后,分析各标记。

    5’-SAGE文库的制作

    加入几个变更点(Suzuki,Y.,Yoshitomo-Nakagawa,K.,Maruyama,K., Suyama,A.& Sugano,S.Construction and characterization of a full length-enriched and a 5’-end-enriched cDNA library.Gene 200,149-156, 1997),按照Maruyama和Sugano(Maruyama,K.& Sugano,S. Oligo-capping:a simple method to replace the cap structure of eukaryotic mRNAs with oligoribonucleotides.Gene 138,171-174,1994)所记载的那 样,进行寡核苷酸帽法。

    也就是说,在含有100单位RNasin(Promega)的100μl的100mM Tris-HCl(pH为8.0)、5mM 2-巯基乙醇中,使用1.2单位的来自于细菌 的碱性磷酸酯酶(BAP;TaKaRa)在37℃下将5~10μg的poly(A)+RNA 处理40分钟。利用苯酚∶氯仿(1∶1)提取2次并乙醇沉淀后,在含有 100单位RNasin的100μl的50mM醋酸钠(pH为5.5)、1mM EDTA、 5mM 2-巯基乙醇中,使用20单位的烟酸性焦磷酸酶(TAP)在37℃下 将poly(A)+RNA处理45分钟。在苯酚∶氯仿提取并乙醇沉淀后,将 2~4μg BAP-TAP处理过的poly(A)+RNA分为2库,将含有XhoI/MmeI 识别部位的以下RNA接头中的一个连接于各库:在含有100单位的 RNasin的100ml的50mM Tris-HCl(pH为7.5)、5mM MgCl2、5mM 2- 巯基乙醇、0.5mM ATP、25%PEG8000中,使用250单位的RNA连接 酶(TaKaRa),在20℃下连接5’-oligo 1(5’-UUU GGA UUU GCU GGU GCA GUA CAA CUA GGC UUA AUA CUC GAG UCC GAC-3’/序列号: 1)、5’-oligo 2(5’-UUU CUG CUC GAA UUC AAG CUU CUA ACG AUG UAC GCU CGA GUC CGA C-3’/序列号:2),进行3~16小时。

    除去未连接的5’-寡核苷酸后,使用无RNaseH的逆转录酶 (Superscript II、Gibco BRL)合成cDNA。为了制作5’末端浓缩cRNA 文库,使用10pmol随机连接物引物(5’-GCG GCT GAA GAC GGC CTA TGT GGC CNN NNN NC-3’/序列号:4)在12℃下培养1小时,再在42℃ 下培养1小时。

    合成第1链后,在15mM NaOH中在65℃下培养1小时,由此分 解RNA。使用XL PCR试剂盒(Perkin-Elmer),利用16pmol的5’(5’ 生物素-GGA TTT GCT GGT GCA GTA CAA CTA GGC TTA ATA-3’/序 列号:5、或5’生物素-CTG CTC GAA TTC AAG CTT CTA ACG ATG TAC G-3’/序列号:6)和3’(5’-GCG GCT GAA GAC GGC CTA TGT-3’/序列 号:7)PCR引物,以100μl的量将由1mg寡核苷酸帽poly(A)+RNA 制作的cDNA扩增。对于通过随机连接物引物延伸了的cDNA,将扩增 循环变为94℃下1分钟、58℃下1分钟、72℃下2分钟的10个循环。 将PCR产物使用苯酚∶氯仿(1∶1)提取一次,并进行乙醇沉淀,利用 MmeI型IIs限制性酶(Gdansk大学技术转让中心、Poland、Gdansk) 切割。切割是在300μl的10mM HEPES、pH为8.0、2.5mM醋酸钾、5mM 醋酸镁、2mM DTT和40μM S-腺苷基蛋氨酸中使用40单位的MmeI、 在37℃下进行2.5小时。

    使切割的5’-末端cDNA片断结合于链霉抗生物素蛋白包被的磁珠 (Dynal、Norway、Oslo)。使结合于磁珠的cDNA片断在16μl的供给 缓冲液中含有4单位的T4DNA连接酶的反应液中、在16℃下互相直 接结合2.5小时。使用引物-5’-GGA TTT GCT GGT GCA GTA CAA CTA GGC-3’/序列号:8和5’-CTG CTC GAA TTC AAG CTT CTA ACG ATG-3’/序列号:9进行PCR,扩增双标记。PCR产物用聚丙烯酰胺凝 胶电泳(PAGE)进行分析,并用XhoI切割。将含有双标记的条带切出 使其自身连接,制作长的连环体。在pZero1.0(Invitrogen)的XhoI部 位克隆该连环体。使用M13正向和M13反向引物,使用PCR筛选群体。 对含有超过600bp插入片断的PCR产物使用Big Dye terminator ver.3测 序,利用3730ABI自动DNA测序仪(Applied Biosystems、加里福尼 亚州)进行分析。电泳图全部通过目测检查进行再次分析,研究不清楚 的碱基,更正错读。使用SAGE 2000软件(version 4.12),定量各标记 的存在量。

    5’SAGE标记与对应基因的关联性

    为了评价转录起始点的鉴定中5’SAGE标记的有效性,需要避免 5’SAGE标记与目前cDNA/EST数据库的比对。原因在于其序列一般并 不限定于从转录起始点开始读取。取而代之,使用http://alps.gi.k.u-tokyo. ac.jp/中公开的比对程序ALPS,尝试将我们的5’-标记与可在http:// genome.ucsc.edu/中利用的人类基因组序列、NCBI build 34进行比对。 在该分析中仅考虑在有义方向上一致的标记。

    接着,利用Gene Resource Locator数据库(Honkura,T.,Ogasawara, J.,Yamada,T.& Morishita,S.The Gene Resource Locator:gene locus maps for transcriptome analysis.Nucleic Acids Res.30,221-225,2002URL http://grl.gi.k.u-tokyo.ac.jp/)、UniGene(Build 162)(Wheeler,D.L. Database Resources of the National Center for Biotechnology.Nucleic Acids Res.31,28-33,2003 URL ftp://ftp.ncbi.nih.gov/repository/ UniGene/)等各种资源的序列的比对的数据库,检索各5’-标记的比对 位置附近,找出对应的转录物。主要的问题点是,由于逆转录转座和基 因组重复,因此导致1个5’-标记与作为多个非标码区域的多个位置比 对。该问题通过选择在UniGene数据库中加有注释的基因编码部位而解 决。3’-标记多集中于3’-末端外显子(exon),但5’-标记不需要与第1= 外显子相当。因此,在距离各5’-标记的比对位置500bp距离的范围内 进行检索。

    与已知的5’转录起始点的一致

    由于各5’SAGE标记比对的位置与其对应的基因间的距离短,因此 说明5’-标记与已知5’转录起始点基本一致。但是,为了求出距离,必 须留意在5’-标记附近由于选择性的剪接而导致的多个cDNA/EST序列 比对频繁出现。为了解决该状况并对距离分派固有的值,选择了距离5’- 标记最近的比对。5’-标记位于对应的cDNA上游区域时,定义距离为 负。如果不是这样,值为正或零。特别是,距离零表示完全一致。为了 观察整体距离的分布,求出了mRNA起始点的-500~+200nt的5’SAGE 标记出现率的总数。分别使用RefSeq、UniGene(GRL)和DBTSS数 据库,观察到了覆盖转录起始点的范围的差异。

    结果

    5’SAGE法

    为了得到关于转录起始部位的全面信息,本发明人等使用寡核苷酸 帽法开发了5’SAGE。5’SAGE法能够生成来自于转录物5’末端的 19~20bp的标记,将其迅速分析,并匹配于基因组序列数据。图1显示 了5’SAGE法的策略。

    基因组的定位

    使用该方法,本发明人等研究了在试验细胞株HEK293细胞中表达 的25,684个转录物的特征,并将它们与人类基因组序列相比较。整体中 的19,893个标记与表示13,404个不同标记的基因组序列完全匹配(表 1)。

    13,404个不同标记的80%(10,706个标记)定位于唯一的位置。在 基因组中匹配于多个部位的标记中,定位于2个基因座(loci)的标记 位为11.1%(1483个标记)、定位于3~99个基因座(loci)的标记为8.1% (1090个标记)、定位于100个或以上基因座(loci)的标记为0.9%(125 个标记)。定位于多个基因组座的标记大部分对应于逆转录转座子要素、 反复序列或假基因。

                                          表1 SAGE标记和基因组的实验对照   基因组中的   标记基因座#            定位于基因组的5’SAGE的标记数#             定位于基因组的3’SAGE的标记数##   定位于基因组   的标记数(%)   定位于基因组的   独特的标记数(%)   相对表达水平   定位于基因组   的标记数(%)   定位于基因组的独   特的标记数(%)   相对表达水平   1基因座/基因组   15,448(77.7)   10,706(79.9)   1.44   34,139(63.2)   11.613(75.3)   2.94   2基因座/基因组   2,037(10.2)   1,483(11.1)   1.37   6,739(12.5)   1,395(9.0)   4.83   3~99基因座/基因组   2,275(11.4)   1,090(8.1)   2.09   12,265(22.7)   2.039(13.2)   6.02   >100基因座/基因组   133(0.7)   125(0.9)   1.06   907(1.7)   376(2.4)   2.42   总标记数   19,893(100)   13,404(100)   1.40   54,050(100)   15,422(100)   2.13

    #:使用18bp 5’SAGE标记击中基因组的标记的数。定位按照材料和方法的章节所记载的那样实施。未击中基因组的标记在测序 了的25,684个标记中有5,791个。相对表达水平通过用在文库中观察到的转录物标记的总数除以不同标记的数来确定。

    ##:使用20bp 3’SAGE标记击中基因组的标记的数。定位按照材料和方法的章节所记载的那样实施。未击中基因组的标记在测序 了的81,211个标记中有27,162个。

    对mRNA起始部位的定位

    接着,本发明人等推测5’SAGE标记是否匹配于mRNA起始部 位。本发明人等使用了包括参考序列数据库(RefSeq)、构建含有涉 及调节区域的顺式要素和选择性剪接转录物信息的基因图的Gene Resource Locator(GRL)、和含有人的全长cDNAs的系统5’末端序列 的DataBase of Transcriptional Start Site(DBTSS)(Suzuki,Y.et al. DBTSS:DataBase of human Transcriptional Start Sites and full-length cDNAs.Nucleic Acids Res 30,328-331,2002)的3个数据库。图2表示 距离的分布,表2表示距离短的标记的发生比例,显示了本发明人等 的5’SAGE标记与每个数据库的起始部位信息充分一致。定位于每个 数据库的标记的85.8%~98.2%定位于mRNA起始部位的-500核苷酸 ~+200核苷酸。

    特别是,5’SAGE标记的23.5~49.3%击中这些数据库中定义的转 录起始部位(TSS)的上游区域。而且,本发明人等研究了5’SAGE 标记导致的TSS处的核苷酸选择性(nucleotide preference)。据报告, TSS的核苷酸是使用276个人基因中的5880个mRNA的A(47%)、 G(28%)、C(14%)和T(12%)(Suzuki,Y.et al.Diverse transcriptional initiation revealed by fine,large-scale mapping of mRNA start sites. EMBO Rep 2,388-393,2001)。另外,本发明人等的数据对于最初的核 苷酸使用显示了非常类似的百分率:A(41%)、G(32%)、C(17%) 和T(10%)。综合考虑,本发明人等的5’SAGE标记法能够正确鉴定 TSS。数据不仅为本发明人等提供了正确的转录起始部位信息,而且 提供了用于分析启动子利用的资源。意味深长的是,未匹配于基因组 的标记在本研究中占5’SAGE的全测序标记的33%。其中,未匹配于 基因组的5’SAGE标记的第一核苷酸的39%也为A。能够看到未匹配 于基因组的几个标记击中基因组中具有单一的核苷酸变异或缺失的 区域。

              表2 各数据库中mRNA起始部位和对应的5’SAGE标记的距离   距离各数据库起始点的   距离(核苷酸)                    标记数(%)   RefSeq   UniGene(GRL)   DBTSS   -500~-201   349(3.2)   204(1.5)   160(1.6)   -200~-51   887(8.1)   335(2.4)   253(2.5)   -50~-1   4,179(38.1)   3,957(28.8)   1,965(19.5)   0~+50   3,173(28.9)   8,673(63.2)   7,149(70.8)   +51~+200   837(7.6)   311(2.3)   209(2.1)   (-500~+200)   9,245(85.8)   13,480(98.2)   9,736(96.4)   总标记数   10,982(100)   13,723(100)   10.098(100)

    如图2所示,分析对各数据库的基因的5’末端的定位中一致的标 记。

    新型基因或未被注释的基因的鉴定

    为了鉴定特征不清楚的基因,将5’SAGE标记与基因组序列、 RefSeq和EST数据库进行比较。在基因组中具有单一座的10,706个 独特标记中,能够使9,376个标记与其对应的UniGene EST相关联(表 3)。而且,6,418个5’SAGE的独特标记与DBTSS中的已知基因关联。 剩余的标记(12.4%)匹配于已知基因的内含子内的区域(5.4%)或 特征不清楚的区域(6.6%)。匹配于特征不清楚的区域的标记主要击 中2个部位:

    (1)所有特征均不清楚的区域、

    (2)特征不清楚的EST区域

    只要有关于这种基因表达的证据,则应该对用于通过把3’SAGE 作为参考从而发现全长的新型基因有用。

               表3 特征不清楚的候补基因和外显子的鉴定   基因/外显子的分类     定位于基因组的独特标记(标记的出现频率)   5’SAGE   3’SAGE   已注释过的已知基因   9,376(13,674)   8,359(27,996)   未注释过的内部外显子   (内含子)   515(713)   1,329(2,442)   基因组   815(1,061)   1,925(3,701)   总数   10,706(15,448)   11,613(34,139)

    10,706个定位于独特的位置,9,376个与对应的UniGene EST关 联。

    SAGE是可用于得到根据转录物量的定量信息的非常有力的方 法。表4显示了HEK293细胞中转录物剖面的5’末端。表达量最多的 基因作为神经丝蛋白3(NEF3)被鉴定,其出现频率为1.43%,接 下来是击中多个基因座的基因和延长因子2。NEF3、70kDa热休克蛋 白1A(70kDa热休克蛋白1A)、calreticulin(钙网蛋白)和heterogeneous nuclear Ribonucleoprotein H1(核内不均一核糖核蛋白H1)之类的几个 基因显示了不同的标记。几个基因显示了是从不同TSS转录来的。 例如,70kDa热休克蛋白1A是从8个不同转录起始部位转录而来的。 钙网蛋白是从7个不同转录起始部位转录而来的。这些结果显示每个 转录起始部位可能与基因表达相关。另外,表4所示碱基序列的一部 分也记载在之前给出的实施例1的结果中。在表4中还含有对照所得 基因标记序列和基因组序列的结果,与此相对,实施例1中未将基因 标记序列与基因组序列对照。因此,即便基因标记的碱基序列相同, 在表4的基因列中所记载的内容有时也与实施例1所记载的注释不 同。

                     表4 HEK293细胞中转录物剖面的5’末端   标记序列   序列ID   NO.   标记数   相关的   Unigene簇   相关的   refseq   基因   GCTGTGACAG   CCACACGC   44   286   Hs.71346   NM_005382   人类神经丝蛋白3(150kDa   介质)(NEF3),mRNA   CTTTTCCTGTG   GCAGCAG   13   171   多次击中基因组   CTCTTTCCTTG   CCTAACG   11   127   多次击中基因组   CTCTTCCGCC   GTCGTCGC   14   120   Hs.75309   NM_001961   真核翻译延长因子2   TACCTGGTTG   ATCCTGCC   12   117   多次击中基因组   CTGGTTGATCC   TGCCAGT   16   89   多次击中基因组   AACGGCTAGC   CTGAGGAG   21   83   Hs.274402,   Hs.75452,   Hs.80288   NM_005345   NM_005346   70kDa热休克蛋白1A   AGTAGCAGCA   GCGCCGGG   22   75   Hs.232400   NM_031243   NM_002137   核内不均一核糖核蛋白   A2/B1   CTCATTGAACT   CGCCTGC   15   68   多次击中基因组   GTGACAGCCA   CACGCCCC   20   66   Hs.71346   NM_005382   人类神经丝蛋白3(150kDa   介质)(NEF3),mRNA   AGTTCGATCG   GTAGCGGG   32   57   多次击中基因组   ACGCTGTGAC   AGCCACAC   19   56   Hs.71346   NM_005382   人类神经丝蛋白3(150kDa   介质)(NEF3),mRNA   CTTTTTCGCAA   CGGGTTT   45   55   多次击中基因组   AATTTCTACGC   GCACCGG   29   54   Hs.446628   NM_001007   核糖体蛋白质S4,   X-连接   ACCGCCGAGA   CCGCGTCC   30   53   Hs.426930,   Hs.510444   NM_001101   β-肌动蛋白   CTTTCACTGC   AAGGCGGC   18   52   Hs.5662,   Hs.509234   NM_006098   鸟嘌呤核苷酸结合蛋白   (G蛋白),β-多肽2-样1   ATATTTCTTAC   TCTCTCG   25   48   X染色体上的人类染色体X   失活特异性转录因子(XIST)   CTCAGTCGCC   GCTGCCAG   17   43   Hs.14376   Hs.500737   γ-肌动蛋白1   ATTCCTAGTTA   AGGCGGC   23   42   Hs.268849   NM_006708   乙二醛酶I   AATTGTGTTCG   CAGCCGC   24   37   多次击中基因组   CCTCCTCATCA   CACGCCG   46   37   Hs.15589   NM_004774   PPAR结合蛋白   CTTTCTGCCCG   TGGACGC   47   37   多次击中基因组   AGTACAGCTC   CGGCCGCC   48   35   Hs.402752   NM_003487   NM_139215   TAF15RNA聚合酶II,TATA   盒结合蛋白(TBP)-相关因   子,68kDa   CACCTGTTTG   CAGGCTGC   49   34   Hs.146550   肌球蛋白,重多肽9,非肌肉   CTCTCTTTCAC   TGCAAGG   28   33   Hs.5662   Hs.509234   NM_006098   鸟嘌呤核苷酸结合蛋白(G   蛋白),β-多肽2-样1   AGTTGCTTCA   GCGTCCCG   34   30   Hs.446579   Hs.449634   NM_005348   90kDa热休克蛋白1A,α   AGTTCTCGGG   CGTACGGC   33   29   Hs.211602   NM_006306   染色体1-like1的结构维持   SMCl(酵母)   GTCCGTACTG   CAGAGCCG   50   29   Hs.353170   NM_004343   钙网蛋白   AAAACGGCCA   GCCTGAGG   27   27   Hs.75452   FLJ38698   ATTTCGTCTTA   GCCACGC   51   26   Hs.202166   核内不均一核糖核蛋白   H1(H)   AGGCATTGAG   GCAGCCAG   52   25   击中基因组   AGTGGGCGGA   CCGCGCGG   53   25   Hs.192374   NM_003299   肿瘤排斥抗原(gp96)1   CCCAATTTCTA   CGCGCAC   54   25   Hs.446628   NM_001007   核糖体蛋白质S4,X-连接   CTCGTTGCGC   AGTAGTGC   55   25   Hs.380118   Hs.460941   RNA结合基序蛋白,   X-连接   GTGCTGCAGC   CGCTGCCG   56   25   Hs.2795   NM_005566   乳酸脱氢酶A   CATTTCGTCTT   AGCCACG   57   24   Hs.202166   核内不均一核糖核蛋白   H1(H)   CTCTTTCCCTA   AGCAGCC   58   24   多次击中基因组   GACTAATTTGT   TGGCGGC   59   24   Hs.280311   肌球蛋白,重多肽10,   非肌肉   ACCTCATTCAT   TTCTACC   60   23   Hs.279806   NM_004396   DEAD(天冬氨酸-谷氨酸-丙   氨酸-天冬氨酸)盒多肽5   CCTTTCTGCCC   GTGGACG   61   23   多次击中基因组   AGTATCTGTGG   GTACCCG   62   22   Hs.433455,   Hs.331035   NM_001428   烯醇酶1(α)   CAATTTCTACG   CGCACCG   63   22   Hs.446628   NM_001007   核糖体蛋白质S4,X-连接   GCACACAGCC   ATCCATCC   64   22   Hs.107600   NM_006158   神经丝蛋白,轻质多肽   68kDa   AGTGACGCGT   ATTGCCTG   65   19   Hs.75337,   Hs.467172   NM_004741   核仁和螺旋体磷蛋白1   CTCTTTCCAGC   CAGCGCC   66   19   多次击中基因组   CTTTTCCGCCC   GCTCCCC   67   19   Hs.374596   NM_003295   肿瘤蛋白,翻译控制1   GCGTCTTGTTC   TTGCCTG   68   19   Hs.180909   NM_181696,   NM_181697,   NM_002574   过氧化物酶1   ATATAGAGGCT   GGGGGTG   69   18   Hs.427152   高密度脂蛋白质结合蛋白   (vigilin)   ATTAAACGGTT   GCAGGCG   35   18   Hs.78996,   Hs.449476   NM_002592   增殖细胞核抗原   CCTTTTGGCTC   TCTGACC   37   18   多次击中基因组

    将在HEK293细胞中表达的上游50的5’末端转录物列表。标记 序列显示18-bp的SAGE标记。显示标记及与其对应的Unigene/EST。

    5’和3’SAGE标记表达的一致

    本发明人等为了确认5’SAGE的精度,尝试了同一细胞中mRNA 的3’-Long SAGE。在3’-Long SAGE中,本发明人等研究了在HEK293 细胞株中被表达的81,212个转录物标记的特征。全部中54,050个标 记匹配于表示15,423个不同标记的基因组序列(表1)。15,423个不 同标记的75%(11,613个标记)在基因组中匹配于一个部位。而且, 8,359个3’SAGE标记与UniGene EST中已知的基因相关联(表3)。 匹配于基因组中多个部位的标记中,匹配于2个基因座的标记为9% (1395个标记)、匹配于3~99个基因座的标记为13.2%(2,039个标 记)、匹配于100个或以上基因座的标记为2.4%(376个标记)。匹配 于基因组中多个部位的标记的比例在5’SAGE和3’SAGE之间非常相 近(表2)。另一方面,5’SAGE标记与3’SAGE标记相比,非常的不 均匀。

    Seha等也同样指出,每个基因组显示多于10个拷贝的标记与每 个基因组仅显示1个拷贝的标记相比,平均地被高度表达(Saha,S.et al.Nat Biotechnol 20,508-512,2002)。本发明人等的数据还证明了在 3~99基因座/基因组中,与5’SAGE和3’SAGE文库中的其它部分相 比,相对表达水平更高。这是由于通过逆转录转座的基因表达和基因 复制的相关的机理。为了推测2个文库之间的类似性程度,比较了在 5’SAGE和3’-Long SAGE之间表达的基因。

    5’和3’标记由于是从5’末端和3’末端开始随机采取,因此预测5’ 标记与特定的全长cDNA序列的相关概率与3’标记匹配于cDNA的 概率一致。但是,由于全长的cDNA序列或者选择性剪接转录物的采 集不完全,因此即便这些标记来自于同一编码区域,也不能简单地确 定5’标记和3’标记之间的正确的一致。一个有希望的途径可能是综合 共有外显子的EST比对作为基因编码座的簇进行处理,并将5’和 3’SAGE标记定位于这些簇及其上游的区域,发现5’和3’SAGE标记 表达之间的一致。这样,本发明人等计算与每个基因编码区域相关的 3’(横轴)和5’标记(纵轴)对的产生数,并且在图3的二维平面上 表示所有的对。通过比较表达模式,发现大多数的基因在双方的文库 中以类似的水平表达。但是,几个转录物以显著不同的水平表达, 5’SAGE和3’SAGE文库的皮尔森相关系数为0.36,显示了中等程度 的类似性。

    相关为中等程度的理由是由于5’SAGE和3’SAGE文库中的频率 分散。如以下来源的序列那样,关于这些标记的出现有几个可能性。

    (1)5’SAGE和3’SAGE中PCR扩增的误差

    (2)推测可能在3’SAGE中占据NlaIII限制部位的少数基因

    (3)推测可能在5’SAGE中占据XhoI限制部位的少数基因

    (4)5’SAGE和3’SAGE中的mRNA的未知的剪接变异

    (5)与标记击中多个基因组座相关的注释误差,或者对基因组 的EST注释误差

    本研究作为例子仅鉴定了HEK293细胞中被表达的基因的部分。 为了详细记述被表达的基因的概要,需要来自多种不同细胞类型和环 境条件的相当多的标记。如果积累数据,则有可能可以解决与5’和 3’SAGE标记的表达一致相关的问题。

    考察

    几个研究小组报告了mRNA起始部位(Suzuki,Y.et al.Diverse transcriptional initiation revealed by fine,large-scale mapping of mRNA start sites.EMBO Rep 2,388-393,2001)和多腺苷酸化切割部位 (Pauws,E.van Kampen,A.H.,van de Graaf,S.A.,de Vijlder,J.J.& Ris-Stalpers,C.Heterogeneity in polyadenylation cleavage sites in mammalian mRNA sequences:implications for SAGE analysis.Nucleic Acids Res 29,1690-1694,2001)显示不均一性。Shiraki等人报告了 构建时特定基因的TSS的差别(Shiraki,T.et al.Cap analysis gene expression for high-throughput analysis of transcriptional starting point and identification of promoter usage.Proc Natl Acad Sci USA 100, 15776-15781,2003),但本发明人等的数据显示TSS的多样性在细胞 中已经存在。而且,本发明人等的数据通过5’SAGE和3’SAGE法而 提供了关于TSS和3’末端区域的不均一性的直接证据。

    例如,PPAR结合蛋白具有1个TSS和2个3’SAGE标记部位, 核糖体蛋白质S4具有16个TSS和1个3’SAGE标记部位,钙网蛋 白具有7个TSS和1个3’SAGE标记部位。而且,选择性的mRNA 剪接与人类蛋白质组的复杂性极为重要地相关。最近的基因组研究表 明人类基因的46~60%被选择性剪接(Modrek,B.& Lee,C.A genomic view of alternative splicing.Nature Genetics 30,13-19,2002)。 推测点突变的15%是由于mRNA剪接缺损而引起人类遗传疾病 (Krawczak,M.,Reiss,J.& Cooper,D.N.The mutational spectrum of single base-pair substitutions in mRNA splice junctions of human genes: causes and consequences.Hum Genet 90,41-54,1992)。

    Zavolan等人报告了多数具有剪接型的转录单位,其49%含有在 使用选择性转录开始时伴随的最初外显子的选择性剪接的转录物 (Zavolan,M.et al.Impact of alternative initiation,splicing and termination on the diversity of the mRNA transcripts encoded by the mouse transcriptome,Genome Res 13,1290-1300,2003)。本发明人等还 发现,过氧化物酶4(NM 006406)之类的几个基因的各自mRNA 起始部位不仅显示了mRNA的不同的剪接变体,而且显示了基因表 达的不同的量。这说明选择性转录有经常诱导选择性剪接的可能。

    最近报告了使用Cap-trapper系统鉴定转录起始点的新型方法 (Shiraki,T.et al.Proc Natl Acad Sci USA 100,15776-1578l,2003)。 但是,mRNA起始部位的定位的鉴定效率在这些方法中并不显著。通 过本发明人等的研究中记载的5’SAGE法,能够正确定位TSS,同样 能够确立基因表达的频率。

    综上所述,如果利用5’SAGE法,有可能在很大程度上促进基因 组的注释。由于5’SAGE是不依赖于基因序列的经验知识的少数的高 生产量的发现途径之一,因此通过该种数据,能够立刻进行in silico 基因预测的独立确认和未注释区域的鉴定。而且,5’SAGE法对于在 5’UTR/启动子区域中发现SNP也是有用的。如果全面地鉴定从不同 类型的特异mRNA起始部位转录而来的基因,则不仅能够得到对人 类基因组的功能复杂性的说明,而且,能够获得对于癌、免疫和神经 疾病之类的各种障碍的诊断基础的新的见解。

    最后,如果考虑5’末端的多样性,则为了确定基因表达的频率, 进行5’SAGE比进行3’SAGE更为恰当。

    综上所述,本发明对于基因标记的获取是有用的。基因标记是基 因所固有的碱基序列信息。因此,在某个基因文库中标记的出现频率 反映着构成该文库的所有基因的表达状态。为此,基因标记对于基因 表达分析是有用的。特别是通过本发明能够得到的基因标记是根据所 有mRNA所具有的5’末端的结构而生成的。因此,以通过本发明所 生成的标记为基础的基因表达分析结果的可靠性更高。

    另外,本发明的标记含有mRNA的5’末端区域的碱基序列信息。 因此,以通过本发明生成的标记的碱基序列信息为基础,能够鉴定基 因组的转录起始点。另外,以本发明标记的碱基序列信息为基础设计 的寡核苷酸可作为全长cDNA的合成用引物利用。

    另外,本说明书中所引用的所有现有技术文献都是作为参考纳入 本说明书的。

                    序列表

    <110>株式会社后基因组研究所

    <120>基因标记的获取方法

    <130>PGI-A0301YlP

    <150>JP 2003-402306

    <151>2003-12-01

    <150>JP 2004-6630

    <151>2004-01-14

    <160>69

    <170>PatentIn version 3.1

    <210>1

    <211>48

    <212>RNA

    <213>Artificial

    <220>

    <223>an artificially synthesized RNA linker sequence

    <400>1

    uuuggauuug cuggugcagu acaacuaggc uuaauacucg aguccgac                 48     

    <211>46

    <212>RNA

    <213>Artificial

    <220>

    <223>an artificially synthesized RNA linker sequence

    <400>2

    uuucugcucg aauucaagcu ucuaacgaug uacgcucgag uccgac                   46

    <210>3

    <211>42

    <212>DNA

    <213>Artificial

    <220>

    <223>an artificially synthesized primer sequence

    <400>3

    gcggctgaag acggcctatg tggccttttt tttttttttt tt                       42

    <210>4

    <211>32

    <212>DNA

    <213>Artificial

    <220>

    <223>an artificially synthesized primer sequence

    <220>

    <221>misc_feature

    <222>(26)..(31)

    <223>″n″=a,t,g or c

    <400>4

    gcggctgaag acggcctatg tggccnnnnn nc                                  32

    <210>5

    <211>33

    <212>DNA

    <213>Artificial

    <220>

    <223>an artificially synthesi zed primer sequence

    <220>

    <221>misc_feature

    <222>(1)..(1)

    <223>Label biotin

    <400>5

    ggatttgctg gtgcagtaca actaggctta ata                                 33

    <210>6

    <211>31

    <212>DNA

    <213>Artificial

    <220>

    <223>an artificially synthesized primer sequence

    <220>

    <221>misc_feature

    <222>(1)..(1)

    <223>Label biotin

    <400>6

    ctgctcgaat tcaagcttct aacgatgtac g                                   31

    <210>7

    <211>21

    <212>DNA

    <213>Artificial

    <220>

    <223>an artificially synthesized primer sequence

    <400>7

    gcggctgaag acggcctatg t                                              21

    <210>8

    <211>27

    <212>DNA

    <213>Artificial

    <220>

    <223>an artificially synthesized primer sequence

    <400>8

    ggatttgctg gtgcagtaca actaggc                                        27

    <210>9

    <211>27

    <212>DNA

    <213>Artificial

    <220>

    <223>an artificially synthesized primer sequence

    <400>9

    ctgctcgaat tcaagcttct aacgatg                                        27

    <210>10

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>10

    acatctgacc tcatggag                                                  18

    <210>11

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>11

    ctctttcctt gcctaacg                                                  18

    <210>12

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>12

    tacctggttg atcctgcc                                                  18

    <210>13

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>13

    cttttcctgt ggcagcag                                                  18

    <210>14

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>14

    ctcttccgcc gtcgtcgc                                                  18

    <210>15

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>15

    ctcattgaac tcgcctgc                                                  18

    <210>16

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>16

    ctggttgatc ctgccagt                                                  18

    <210>17

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>17

    ctcagtcgcc gctgccag                                                  18

    <210>18

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>18

    ctttcactgc aaggcggc                                                  18

    <210>19

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>19

    acgctgtgac agccacac                                                  18

    <210>20

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>20

    gtgacagcca cacgcccc                                                  18

    <210>21

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>21

    aacggctagc ctgaggag                                                  18

    <210>22

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>22

    agtagcagca gcgccggg                                                  18

    <210>23

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>23

    attcctagtt aaggcggc                                                  18

    <210>24

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>24

    aattgtgttc gcagccgc                                                  18

    <210>25

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>25

    atatttctta ctctctcg                                                  18

    <210>26

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>26

    ctcagtcgcc gctgccaa                                                  18

    <210>27

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>27

    aaaacggcca gcctgagg                                                  18

    <210>28

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>28

    ctctctttca ctgcaagg                                                  18

    <210>29

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>29

    aatttctacg cgcaccgg                                                  18

    <210>30

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>30

    accgccgaga ccgcgtcc                                                  18

    <210>31

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>31

    agacgcagag tagattgt                                                  18

    <210>32

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>32

    agttcgatcg gtagcggg                                                  18

    <210>33

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>33

    agttctcggg cgtacggc                                                  18

    <210>34

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>34

    agttgcttca gcgtcccg                                                  18

    <210>35

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>35

    attaaacggt tgcaggcg                                                  18

    <210>36

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>36

    ccggccgggg ggcgggcg                                                  18

    <210>37

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>37

    ccttttggct  ctctgacc                                                 18

    <210>38

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>38

    ctcagtacag ctccggcc                                                  18

    <210>39

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>39

    ctctttcggc cgcgctgg                                                  18

    <210>40

    <211>45

    <212>DNA

    <213>Artificial

    <220>

    <223>an artificially synthesized DNA linker sequence

    <400>40

    tttggatttg ctggtgcagt acaactaggc ttaatatccg acatg                    45

    <210>41

    <211>38

    <212>DNA

    <213>Artificial

    <220>

    <223>an artificially synthesized DNA linker sequence

    <220>

    <221>misc_feature

    <222>(38)..(38)

    <223>C7-amino-modified

    <400>41

    tcggatatta agcctagttg tactgcacca gcaaatcc                            38

    <210>42

    <211>43

    <212>DNA

    <213>Artificial

    <220>

    <223>an artificially synthesized DNA linker sequence

    <400>42

    tttctgctcg aattcaagct tctaacgatg tacgtccgac atg                      43

    <210>43

    <211>36

    <212>DNA

    <213>Artificial

    <220>

    <223>an artificially synthesized DNA linker sequence

    <220>

    <221>misc_feature

    <222>(36)..(36)

    <223>C7-amino-modified

    <400>43

    tcggacgtac atcgttagaa gcttgaattc gagcag                              36

    <210>44

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>44

    gctgtgacag ccacacgc                                                  18

    <201>45

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>45

    ctttttcgca acgggttt                                                  18

    <210>46

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>46

    cctcctcatc acacgccg                                                  18

    <210>47

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>47

    ctttctgccc gtggacgc                                                  18

    <210>48

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>48

    agtacagctc cggccgcc                                                  18

    <210>49

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>49

    cacctgtttg  caggctgc                                                 18

    <210>50

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>50

    gtccgtactg cagagccg                                                  18

    <210>51

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>51

    atttcgtctt agccacgc                                                 18

    <210>52

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>52

    aggcattgag gcagccag                                                  18

    <210>53

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>53

    agtgggcgga ccgcgcgg                                                  18

    <210>54

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>54

    cccaatttct acgcgcac                                                  18

    <210>55

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>55

    ctcgttgcgc agtagtgc                                                  18

    <210>56

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>56

    gtgctgcagc cgctgccg                                                  18

    <210>57

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>57

    catttcgtct tagccacg                                                  18

    <210>58

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>58

    ctctttccct aagcagcc                                                  18

    <210>59

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>59

    gactaatttg ttggcggc                                                  18

    <210>60

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>60

    acctcattca tttctacc                                                  18

    <210>61

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>61

    cctttctgcc cgtggacg                                                  18

    <210>62

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>62

    agtatctgtg ggtacccg                                                  18

    <210>63

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>63

    caatttctac gcgcaccg                                                  18

    <210>64

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>64

    gcacacagcc atccatcc                                                  18

    <210>65

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>65

    agtgacgcgt attgcctg                                                  18

    <210>66

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>66

    ctctttccag ccagcgcc                                                  18

    <210>67

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>67

    cttttccgcc cgctcccc                                                  18

    <210>68

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>68

    gcgtcttgtt cttgcctg                                                  18

    <210>69 

    <211>18

    <212>DNA

    <213>Homo sapiens

    <400>69

    atatagaggc tgggggtg                                                  18

    关 键  词:
    基因 标记 获取 方法
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:基因标记的获取方法.pdf
    链接地址:https://www.zhuanlichaxun.net/p-8990863.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1