书签分享收藏举报版权申诉 / 77

立即下载加入VIP,免费下载

当前位置：首页 > > 基因标记的获取方法.pdf

基因标记的获取方法.pdf

上传人：GAME****980

文档编号：8990863

上传时间：2021-01-25

格式：PDF

页数：77

大小：3.58MB

《基因标记的获取方法.pdf》由会员分享，可在线阅读，更多相关《基因标记的获取方法.pdf（77页完整版）》请在专利查询网上搜索。

本发明提供一种用于将mRNA的5末端碱基序列作为标记生成的方法。本发明的方法包括以将含有IIs型限制性酶识别序列的IIs接头连接在CAP结构上的mRNA作为模板合成cDNA的工序。通过使IIs型限制性酶作用于该cDNA，生成由mRNA的5末端碱基序列构成的标记。本方法能够不依赖于碱基序列而从所有mRNA中生成标记。根据本发明的标记的碱基序列信息，提供转录起始点的鉴定方法和全长cDNA合成用引物。。

摘要
申请专利号：	CN200480041239.8	申请日：	20040604
公开号：	CN1914318A	公开日：	20070214
当前法律状态：		有效性：	失效
法律详情：
IPC分类号：	C12N15/09,C12N15/12,C12Q1/68,C07K14/47,C07K16/18,C12P21/02,C12N1/15,C12N1/19,C12N1/21,C12N5/10	主分类号：	C12N15/09,C12N15/12,C12Q1/68,C07K14/47,C07K16/18,C12P21/02,C12N1/15,C12N1/19,C12N1/21,C12N5/10
申请人：	株式会社后基因组研究所
发明人：	桥本真一,松岛纲治,菅野纯夫
地址：	日本东京
优先权：	402306/2003,006630/2004
专利代理机构：	永新专利商标代理有限公司	代理人：	陈建全
PDF完整版下载：	PDF下载

内容摘要

本发明提供一种用于将mRNA的5’末端碱基序列作为标记生成的方法。本发明的方法包括以将含有IIs型限制性酶识别序列的IIs接头连接在CAP结构上的mRNA作为模板合成cDNA的工序。通过使IIs型限制性酶作用于该cDNA，生成由mRNA的5’末端碱基序列构成的标记。本方法能够不依赖于碱基序列而从所有mRNA中生成标记。根据本发明的标记的碱基序列信息，提供转录起始点的鉴定方法和全长cDNA合成用引物。

权利要求书

1.一种真核细胞的基因标记的制造方法，其含有以下工序：(1)在RNA的CAP部位连接含有IIs型限制性酶的识别序列的RNA接头的工序、(2)以(1)的RNA为模板合成cDNA的工序、(3)使识别RNA接头中所含有的识别序列的IIs型限制性酶作用于(2)的cDNA，从而生成基因标记的工序。 2.如权利要求1所述的方法，其中工序(2)含有通过以下工序合成cDNA的工序：(i)通过对RNA的任意区域退火的引物来合成cDNA的第1链的工序、和(ii)通过对以第1链的RNA接头为模板合成的区域退火的引物合成cDNA的第2链，从而制成双链cDNA的工序。 3.如权利要求2所述的方法，其中，对以第1链的RNA接头为模板合成的区域退火的引物具有能够结合于固相的标识、或者被固定在固相上，另外，所述方法还进一步含有通过回收所述固相来回收双链cDNA的工序。 4.如权利要求3所述的方法，其中在使IIs型限制性酶作用之前或之后回收固相。 5.如权利要求1所述的方法，其中RNA接头进一步含有II型限制性酶的识别序列。 6.如权利要求1所述的方法，该方法进一步含有使基因标记的IIs型限制性酶的切割部位与其它基因标记的IIs型限制性酶的切割部位连接，从而生成双标记的工序。 7.如权利要求6所述的方法，该方法进一步含有通过对RNA接头退火的引物来扩增双标记的工序。 8.如权利要求1所述的方法，该方法进一步含有在基因标记的IIs型限制性酶的切割部位上连接具有任意碱基序列的连接物，通过对RNA接头和所述连接物退火的引物来扩增基因标记的工序。 9.一种基因标记的连环体的制造方法，该方法含有将多个通过权利要求1所述的方法生成的基因标记进行连接的工序。 10.一种基因标记的连环体的制造方法，该方法含有将多个通过权利要求6所述的方法生成的基因标记进行连接的工序。 11.一种基因标记的碱基序列的确定方法，该方法含有确定通过权利要求9或权利要求10所述的方法制造的连环体的碱基序列的工序。 12.一种基因标记的制造用试剂盒，该试剂盒含有以下要素：(a)由含有IIs型限制性酶的识别序列的寡核苷酸构成的RNA接头、(b)用于将RNA接头与RNA的CAP部位连接的试剂、(c)由对以RNA接头为模板合成的cDNA退火的寡核苷酸构成的cDNA第2链合成用的引物、(d)cDNA第1链合成用引物。 13.如权利要求12所述的试剂盒，其中cDNA第1链合成用引物是选自以下i)～iii)中的任一个，i)随机引物、ii)寡dT引物、和iii)含有与特定mRNA互补的碱基序列的引物。 14.一种真核细胞中基因表达谱的获取方法，该方法含有以下工序：(1)通过权利要求1所述的方法制造基因标记的工序、(2)确定(1)的基因标记的碱基序列的工序、和(3)通过对应所确定的碱基序列及其出现频率而得到表达谱的工序。 15.一种基因表达谱的数据库，其中积累了通过权利要求14所述的方法所获得的基因表达谱信息。 16.一种基因表达谱的分析方法，该方法含有下述工序：通过权利要求14所述的方法获得不同种类细胞的基因表达谱，比较基因表达谱并选择在细胞间表达频率不同的基因标记。 17.一种基因的转录起始点的确定方法，该方法含有以下工序：(1)通过权利要求1所述的方法制造基因标记的工序、(2)确定(1)的基因标记的碱基序列的工序、和(3)将所确定的碱基序列定位于基因组的碱基序列上，并将碱基序列一致的区域作为该基因的转录起始点来鉴定的工序。 18.如权利要求17所述的方法，其特征在于，其中用于合成cDNA第1链的引物是由从特定基因的碱基序列中选择的碱基序列构成的，另外，所述方法包含确定该基因的转录起始点。 19.一种cDNA合成用引物组，其包含用于合成含有通过以下工序确定的碱基序列或其互补序列的cDNA的5’端引物、以及对cDNA的任意部位退火的3’端引物，(1)通过权利要求1所述的方法制造基因标记的工序、和(2)确定(1)的基因标记的碱基序列的工序。 20.如权利要求19所述的引物组，其中3’端引物是选自下述引物中的任一个，i)寡dT引物、ii)cDNA的片断序列信息、和iii)由与cDNA的II型限制性酶识别邻接的基因标记的碱基序列或其互补序列构成的引物。 21.一种全长cDNA的合成方法，该方法含有以下工序：a)使用用于合成含有通过以下(1)～(2)工序确定的碱基序列或其互补序列的cDNA的5’端引物、和由寡dT引物构成的3’端引物，以RNA或cDNA为模板进行互补链合成反应的工序，(1)通过权利要求1所述的方法制造基因标记的工序、和(2)确定(1)的基因标记的碱基序列的工序；b)将合成的DNA作为全长cDNA回收的工序。 22.一种可通过权利要求21所述的方法得到的全长cDNA。 23.一种含有由权利要求22所述的全长cDNA编码的氨基酸序列的多肽。 24.一种识别权利要求23所述的多肽的抗体。 25.一种将权利要求22所述的全长cDNA的编码区域以可表达的方式保持的载体。 26.一种将权利要求25所述的载体以可表达的方式保持的转化体。 27.一种权利要求23所述的多肽的制造方法，该方法含有培养权利要求26所述的转化体、并回收表达产物的工序。 28.一种权利要求23所述的多肽的制造方法，该方法含有以下工序：i)将含有功能性地连接于启动子的权利要求22所述的全长cDNA的编码区域的DNA构成物与支持生物体外翻译的要素相接触的工序、和ii)回收表达产物的工序。 29.含有mRNA的5’末端碱基序列的cDNA的合成方法，该方法含有以下工序：a)使用用于合成含有通过以下工序(1)～(2)所确定的碱基序列或其互补序列的cDNA的5’端引物、和由与目标mRNA的任意区域互补的碱基序列构成的3’侧引物，以RNA或cDNA为模板进行互补链合成反应的工序，(1)通过权利要求1所述的方法制造基因标记的工序、和(2)确定(1)的基因标记的碱基序列的工序；b)将合成的DNA作为含有mRNA的5’末端碱基序列的cDNA回收的工序。 30.一种确定mRNA的5’侧碱基序列的方法，该方法含有确定通过权利要求29所述的方法回收的cDNA的碱基序列的工序。

说明书

技术领域

本发明涉及基因标记的获取方法以及基因标记的分析方法。

背景技术

通过比较各种细胞的基因表达状态可以赋予细胞特征。即，能够得到通过基因的表达模式表现细胞状态的细胞目录。利用该目录，能够从基因的表达状态特定细胞。相反，如果在细胞间比较基因的表达模式则还能够找出各细胞中的特征基因。例如，如果在正常细胞和施加了人为处理的细胞之间比较基因的表达状态，则可以发现施加了人为处理时表达水平发生变化的基因。该基因是作为人为处理结果的表达水平发生了变化的基因。同样，通过在患者的细胞和健康者的细胞之间比较基因的表达状态，则也能够发现与疾病相关的基因。

把这样通过比较基因的表达状态，网罗式地分析在处于某种状态的细胞中表达的基因，并在细胞间比较其种类和表达水平的过程称为基因的表达分析(expression analysis)。用于基因表达分析的方法可以使用各种方法。

例如，以下所示的方法是为了分离在cDNA文库间表达水平有所变化的基因而开发的方法。

差异显示法(differencial display)

消减文库法(subtraction library)

这些方法是很早以前就已经实用化的方法。任何一个都是用来在来源不同的cDNA文库间发现表达水平有所不同的基因的分析方法。在膨大的基因碱基序列信息得到积累的这几年，利用了该碱基序列信息的更有效的基因表达分析得以实现。即DNA阵列法。在DNA阵列中高密度地配置有多达数万个的基因探针。通过使用1个DNA阵列，通过一次的实验操作即可了解数万个基因的表达状态。人的基因种类推测有3 万～4万，因此DNA阵列作为强力推进人的基因表达分析的工具正在广泛普及。并且，DNA阵列被评价为在治疗目标的探索、药剂候选化合物的开发中是有用的(Nature Genetics volume 32 supplement pp 547-552， 2002)。

但是，通常构成DNA阵列的探针是根据已知的碱基序列信息设计的。因此，是不适于获取未知基因的工具。并且，目前商业上所提供的 DNA阵列限于基因序列信息充分积累的生物物种。例如，Affymetrics 公司提供下述生物物种的DNA阵列。

拟南芥(Arabidopsis ATH1 Genome Array)

线虫(C.elegans Genome Array)

果蝇(Drosophila Genome Array)

大肠杆菌(E.coli Antisense Genome Array)

人(Human Genome Focus Array、其它)

小鼠(Mouse Expression Set 430、其它)

绿脓杆菌(P.aeruginosa Genome Array)

大鼠(Rat Expression Set 230、其它)

酵母(Yeast Genome S98 Array)

为了利用DNA阵列进行其它生物物种的基因表达分析，使用者必须利用测位仪等制作DNA阵列。或者必须利用定做阵列的制作服务。然而，对于基因序列表的积累不充分的生物物种，准备以基因序列信息为基础的DNA阵列还是困难的。

作为能够获得未知的基因、而且能够进行高度有效的基因表达分析的方法，提出了SAGE(基因表达的连续分析，Serial analysis of gene expression)(SCIENCE，Vol.270，484-487，Oct.20，1995)。SAGE是获取基因中固有的标记并网罗式地分析标记的碱基序列的方法。所谓的基因标记是指可作为该基因的名片使用的基因的片断。通常，10～20个碱基左右的连续碱基序列在不同基因之间完全一致的可能性不是那么高。例如由9个碱基构成的片断，理论上可以识别262144种类(49)的基因。因此，该程度长度的片断作为基因标记是有用的。

在人基因组序列中，由18～21个碱基构成的标记序列的出现频率和该标记序列为基因中固有碱基序列的可能性如下计算。

18每268,435,456个碱基出现1次，89.43％

19每1,073,741,824个碱基出现1次，97.24％

20每4,294,967,296个碱基出现1次，99.3％

21每17,179,869,184个碱基出现1次，99.83％

即，理论上可以认为18个碱基的标记序列中以约90％或以上、20 个碱基的标记序列中以约99％或以上的概率是基因中固有的碱基序列。某基因中固有的碱基序列被称为基因中独特的碱基序列。另外，在基因组中其出现频率被认为是1的碱基序列被称为基因组中的独特的碱基序列。

在SAGE中，利用IIs型限制性酶(IIs型核酸内切酶)的作用，生成基因标记。在SAGE中生成标记的IIs型限制性酶被称为标记酶。II 型的限制性酶切割DNA识别序列的中部，与此相对，IIs型限制性酶切割远离识别序列的位置。识别序列和切割位置之间的距离根据酶不同，基本是一定的。例如，Bsm FI或FokI在距离识别序列9～10个碱基的位置处切割DNA，残留粘性末端(sticky end)。作为其它也具有同样作用的IIs型限制性酶，已知有如下的酶(Szybalski，Gene 40：169，1985)。

BbvI，BbvII，BinI，FokI，HgaI，HphI

MboII，MnlI，SfaNI，TaqII，TthlllII

另外，被称为Mme I的IIs型限制性酶将距离识别序列 (5’-TCCRAC-3’)20个碱基的位置切割(Tucholski et al，Gene Vol.157， pp.87-92，1995)。将Mme I作为标记酶进行利用，能够得到20个碱基长的标记的表达分析方法也是公知的(美国专利6498013)。利用Mme I 的SAGE特别也被称为long SAGE。以下简单地归纳一般的SAGE的原理。

首先使用II型限制性酶切割cDNA并回收其片断。II型限制性酶的识别序列为4个碱基时，理论上被切割成256个碱基(44)的片断。例如，Nla III的识别序列为4个碱基。将cDNA的5’末端或者3’末端先捕获在固相中，就能够容易地分别回收被切割的cDNA的5’端或者3’端的片断。回收的cDNA分为2个反应体系，对各反应体系分别进行以下的操作。

在回收的cDNA切割位置上，连接物(adapter)被连接。连接物的末端配置有PCR扩增用的引物碱基序列、中间配置有锚定酶的识别序列、在与cDNA连接的末端配置有IIs型限制性酶(标记酶)的识别序列。在分为2个不同库的cDNA中，含有不同碱基序列的引物的碱基序列的连接物分别与其连接。连接物连接后使IIs型的限制性酶发挥作用， IIs型限制性酶识别cDNA的末端，并切割远离此处的位置。这样就生成了从被II型限制性酶切割的部分到被IIs型限制性酶切割的部分的片断所构成的标记。所生成的标记具有被连接的连接物。

通过IIs型限制性酶的切割而形成的标记的粘性末端(sticky end) 通过T4DNA聚合酶变成平滑末端。其后，分为上述2个反应体系的标记分别在平滑末端被连接。其结果是将不同引物序列配置在末端，2个标记相向连接。2个标记被连接的产物称为双标记。双标记通过PCR被扩增，被锚定酶切割。其结果是从PCR的扩增产物中除去其两端的引物序列。另外，除去了引物序列的双标记成为相互连接的双标记的连环体(concatemer)。如此得到的连环体被插入在测序载体中。

如果分析连环体的碱基序列，则能够同时了解来自于多个基因的基因标记的碱基序列。如果积累从某个cDNA文库中得到的连环体的碱基序列信息，则在理论上就可得到构成该文库的cDNA的全部基因的标记信息。将如此得到的标记信息在细胞间进行比较，能够容易地进行表达分析。

在利用DNA阵列进行的表达分析中，碱基序列信息的积累是不可缺少的。因此，目前商业上可获得的DNA阵列限定于人、小鼠或酵母等一部分生物物种。即，对于其它多数生物物种而言，为了进行使用 DNA阵列的基因表达分析，必须重新制作DNA阵列。另外，DNA阵列将根据已知碱基序列信息合成的探针或者克隆的cDNA作为探针使用。其结果是通常来说发现未知的基因是困难的。与此相对，SAGE方法中，基因的碱基序列信息的积累不充分并不会成为分析的障碍。并且，可以说不需要探针的SAGE是对于未知基因的分离有用的技术。

但是，在目前实用化的SAGE规程中，利用限制性酶切割cDNA，在所得切割位置连接含有IIs型限制性酶识别序列的接头。因此，在用于SAGE的限制性酶中，要求识别序列短。在识别序列长的限制性酶 (rare cutter)中，未切割的cDNA变多。就已知的SAGE而言，不能被限制性酶切割的cDNA不生成标记。

例如，作为识别4个碱基的限制性酶的NlaIII等限制性酶优选用于 SAGE中。理论上，如果cDNA具有44(＝256)或以上的长度，则可以说其含有至少一个NlaIII的识别序列。确切地说，256个碱基或以下的转录产物存在的可能性可能很低。但是，并非构成文库的所有cDNA通常都含有NlaIII的识别序列。即，即便是具有256个碱基或以上长度的 cDNA，也有不生成标记的可能性。实际上，在将线虫的基因作为模型的SAGE评价中，报告有由于不带有NlaIII识别序列，因此存在不生成标记的基因(Genome Res.2003 Jun.13/6A：1203-15)。

另外，经过该工序可获得的标记是与构成cDNA的碱基序列中的限制性酶识别部位邻接的碱基序列。就未知的基因而言，无法提前预测 cDNA中哪里存在限制性酶识别序列。即。通过公知的SAGE所获得的标记序列信息并不能预测来自于cDNA的何处。

美国专利6498013中公开了通过捕获cDNA的5’端或3’端，可分别得到5’端或3’端的标记。但是通过该工序生成的标记由邻接于位于 cDNA的5’端或3’端的限制性酶(NlaIII)的碱基序列构成。换而言之，该标记在cDNA中所含有的限制性酶识别位点中，是与位于cDNA的5’ 端或3’端的限制性酶(NlaIII)邻接的碱基序列。也就是说，还不了解是占据cDNA的碱基序列何处的碱基序列。

就基因表达分析而言，构成标记的碱基序列来自于cDNA中的何处并不是大问题。但是，如果能够明确标记的碱基序列是构成cDNA哪个部分的碱基序列，则标记的有用性会进一步提高。

非专利文献1：Nature Genetics volume 32 supplement pp 547-552， 2002

非专利文献2：SCIENCE，Vol.270，484-487，Oct.20，1995

非专利文献3：Szybalski，Gene 40：169，1985

非专利文献4：Tucholski et al，Gene Vol.157，pp.87-92，1995

非专利文献5：Genome Res.2003 Jun.13/6A：1203-15

专利文献1：美国专利6498013

发明内容

本发明的目的在于提供以新型原理为基础的基因标记的获取方法以及基因标记的分析方法。

如前所述，就目前实用化的SAGE而言，邻接于限制性酶的识别序列的碱基序列作为标记而生成。这使得难以理解标记的碱基序列和 cDNA全长序列的关系。另外，关于不含限制性酶识别序列的cDNA还留有不生成标记的问题。

本发明人等认为如果能够不依赖于限制性酶的识别序列而生成标记的话，则能够解决这些问题。例如，如果利用mRNA的5’末端生成标记，则标记的碱基序列应该能够期待各种有用性。因此，着眼于作为 cDNA合成方法所利用的CAP结构，尝试将其用于基因标记的获取中。结果发现，可将mRNA的5’末端碱基序列信息作为标记获得，从而完成了本发明。即，本发明涉及以下的标记获取方法以及利用该方法获得的标记的用途。

[1]一种真核细胞的基因标记的制造方法，其含有以下工序：

(1)在RNA的CAP部位上连接含有IIs型限制性酶的识别序列的 RNA接头的工序、

(2)将(1)的RNA作为模板合成cDNA的工序、

(3)使识别RNA接头中所含识别序列的IIs型限制性酶作用于(2) 的cDNA，从而生成基因标记的工序。

[2][1]中记载的方法，其中通过以下工序合成cDNA，

i)通过对RNA的任意区域退火的引物合成cDNA的第1链的工序、和

ii)通过对以第1链的RNA接头作为模板合成的区域退火的引物，合成cDNA的第2链，从而制成双链cDNA的工序。

[3][2]中记载的方法，其中，对以第1链的RNA接头作为模板合成的区域退火的引物具有可结合于固相的标识、或者被固定在固相上，另外，所述方法含有通过回收所述固相来回收双链cDNA的工序。

[4][3]中记载的方法，其中在使IIs型限制性酶作用之前或之后将固相回收。

[5][1]中记载的方法，其中RNA接头含有II型限制性酶的识别序列。

[6][1]中记载的方法，该方法包括使基因标记的IIs型限制性酶的切割部位与其它基因标记的IIs型限制性酶的切割部位连接，从而生成双标记的工序。

[7][6]中记载的方法，该方法包括通过对RNA接头退火的引物来扩增双标记的工序。

[8][1]中记载的方法，该方法包括在基因标记的IIs型限制性酶的切割部位上连接具有任意碱基序列的连接物，通过对RNA接头和所述连接物退火的引物来扩增基因标记的工序。

[9]一种基因标记的连环体的制造方法，该方法包括连接多个通过 [1]所记载的方法生成的基因标记的工序。

[10]一种基因标记的连环体的制造方法，该方法包括连接多个通过 [6]所记载的方法生成的双标记的工序。

[11]一种基因标记的碱基序列的确定方法，该方法含有确定通过[9] 或[10]中所述的连环体的碱基序列的工序。

[12]一种基因标记的制造用试剂盒，该试剂盒含有以下要素：

(a)由含有IIs型限制性酶的识别序列的寡核苷酸构成的RNA接头、

(b)用于将RNA接头连接于RNA的CAP部位的试剂、

(c)由对以RNA接头为模板合成的cDNA退火的寡核苷酸构成的 cDNA第2链合成用的引物、

(d)cDNA第1链合成用引物。

[13][12]中记载的试剂盒，其中cDNA第1链合成用引物是选自以下i)～iii)中的任一个引物，

i)随机引物、

ii)寡dT引物、和

iii)含有与特定mRNA互补的碱基序列的引物。

[14]一种真核细胞中基因表达谱的获取方法，该方法含有以下工序：

(1)通过[1]所记载的方法制造基因标记的工序、

(2)确定(1)的基因标记的碱基序列的工序、和

(3)通过对应所确定的碱基序列及其出现频率来得到表达谱的工序。

[15]一种基因表达谱的数据库，其中积累了通过[14]所述的方法获得的基因表达谱信息。

[16]一种基因表达谱的分析方法，该方法含有通过[14]所述方法获得不同种类细胞的基因表达谱、比较基因表达谱、并选择在细胞间表达频率不同的基因标记的工序。

[17]一种基因的转录起始点的确定方法，该方法含有以下工序：

(1)通过[1]所述的方法制造基因标记的工序、

(2)确定(1)的基因标记的碱基序列的工序、和

(3)将所确定的碱基序列定位于基因组的碱基序列上，并将碱基序列一致的区域作为该基因的转录起始点来鉴定的工序。

[18][17]所记载的方法，其特征在于，用于合成cDNA第一链的引物是由从特定基因的碱基序列中选择的碱基序列构成的，并确定该基因的转录起始点。

[19]一种cDNA合成用引物组，该引物组包含用于合成含有通过以下工序确定的碱基序列或其互补序列的cDNA的5’端引物、和对 cDNA的任意部位退火的3’端引物，

(1)通过[1]所述的方法制造基因标记的工序、

(2)确定(1)的基因标记的碱基序列的工序。

[20][19]所记载的引物组，其中3’端引物是选自下述引物中的任一个，

i)寡dT引物、

ii)cDNA的片断序列信息、和

iii)由与cDNA的II型限制性酶识别邻接的基因标记的碱基序列或其互补序列构成的引物。

[21]一种全长cDNA的合成方法，该方法含有以下工序：

a)使用用于合成含有通过以下(1)～(2)的工序确定的碱基序列或其互补序列的cDNA的5’端引物、和由寡dT引物构成的3’端引物，以RNA或cDNA为模板进行互补链合成反应的工序、

(1)通过[1]所述的方法制造基因标记的工序、

(2)确定(1)的基因标记的碱基序列的工序；

b)将合成的DNA作为全长cDNA回收的工序。

[22]一种通过[21]所述的方法能够得到的全长cDNA。

[23]一种含有由[22]所述的全长cDNA编码的氨基酸序列的多肽。

[24]一种识别[23]所述的多肽的抗体。

[25]一种将[22]所述的全长cDNA的编码区域以可表达的方式保持的载体。

[26]一种将[25]所述的载体以可表达的方式保持的转化体。

[27]一种[23]所述的多肽的制造方法，该方法含有培养[26]所述的转化体，并回收表达产物的工序。

[28]一种[23]所述的多肽的制造方法，该方法含有以下工序：

i)将含有功能性地连接于启动子的[22]所述的全长cDNA的编码区域的DNA构成物与支持生物体外翻译的要素相接触的工序、和

ii)回收表达产物的工序。

[29]一种含有mRNA的5’末端碱基序列的cDNA的合成方法，该方法含有以下工序：

a)使用用于合成含有通过以下工序(1)～(2)确定的碱基序列或其互补序列的cDNA的5’端引物、和由与目标mRNA任意区域互补的碱基序列构成的3’端引物，以RNA或cDNA为模板进行互补链合成反应的工序、

(1)通过[1]所述的方法制造基因标记的工序、和

(2)确定(1)的基因标记的碱基序列的工序；

b)将合成的DNA作为含有mRNA的5’末端碱基序列的cDNA回收的工序。

[30]一种确定mRNA的5’端碱基序列的方法，该方法含有确定通过[29]所述的方法回收的cDNA的碱基序列的工序。

本发明提供将mRNA的5’末端碱基序列作为基因标记获取的方法。 mRNA的5’末端是所有真核细胞的mRNA所具有的结构。因此，无论是什么mRNA的碱基序列，在原理上可从所有的基因中获得标记。另一方面，以公知的原理为基础的SAGE将与限制性酶识别位点邻接的区域作为标记生成。其结果是如果构成mRNA的碱基序列中不含限制性酶识别位点，则不能获得该基因的标记。因此，在提供能够获取所有基因的标记的原理方面，本发明的意义重大。

另外，根据本发明的标记的方法，有可能也可以从mRNA的片段中获得基因的标记。生物试样中含有的RNA由于各种原因常常有分解的危险。因此，cDNA的获得、或者以所得cDNA为基础的各种分析结果很大程度上被mRNA的保存条件所左右。SAGE法在不能完整维持 mRNA的结构时，也有不能获得基因标记或者标记重现性消失的可能性。

但是根据本发明的方法，通过将mRNA的5’末端作为标记获得，即便mRNA被片断化，只要维持了5’末端的结构，就能正确地获得标记。因此，很难受到mRNA的保存状态的影响。该特征提高了基因表达分析的可靠性。

另外，通过本发明可以得到的标记的碱基序列由mRNA的5’末端的碱基序列构成。其结果是通过本发明得到的标记的碱基序列信息可应用于各种领域。例如，以下的用途是通过本发明的标记首次实现的用途：

基因组中转录起始点的鉴定、

全长cDNA的合成用引物的提供、

cDNA文库的全长率评价。

通过以已知原理为基础的SAGE得到的标记是mRNA的何处的碱基序列还不清楚。因此，不能用于这种用途。

本发明涉及含有以下工序的真核细胞的基因标记的制造方法，

(1)在RNA的CAP部位连接含有IIs型限制性酶的识别序列的 RNA接头的工序、

(2)将(1)的RNA作为模板合成cDNA的工序、

(3)使识别RNA接头中所含识别序列的IIs型限制性酶作用于(2) 的cDNA，从而生成由RNA的5’末端序列构成的基因标记的工序。

CAP结构是存在于真核细胞或感染真核细胞的病毒的mRNA的5’ 末端的结构。具体地说，7-甲基鸟苷介由5’-5’-3磷酸交联而结合于 mRNA的5’末端的核苷酸上，构成CAP结构。mRNA由CAP结构保护，避免被5’-3’核酸外切酶的活性所分解。在细胞内，完成作用的mRNA 的CAP结构由脱帽酶(decapping enzyme)除去。其结果是失去CAP 结构的mRNA被5’-3’核酸外切酶所分解(LaGradeur et al.，EMBO J， 17：1487-1496，1998)。CAP结构在通过RNA聚合酶II进行的转录反应的初期阶段加成在RNA的5’末端上。

本发明的方法包括在该RNA的CAP结构上连接RNA接头的工序。本发明中，RNA可以使用来自于真核细胞的所有RNA。更具体地说，可以使用polyA(+)RNA或全部RNA。详细言之，可以利用来自于动物、植物、酵母或粘菌等所有在mRNA中具有CAP结构的生物物种的细胞。

另外，来自于感染这些真核细胞的病毒的RNA也具有CAP结构。因此，本发明中来自于真核细胞、感染真核细胞或转录了被导入的基因信息的RNA也包含在来自于真核细胞的RNA中。所谓感染真核细胞的基因的信息包括例如病毒、类病毒或者支原体之类的细胞内寄生物的基因信息。这些基因信息可以是天然的，也可以是人工合成的。另一方面，导入在真核细胞中的基因的信息是指通过载体等人为导入的基因信息。例如，即便是原本不带有CAP结构的原核细胞的基因，通过以能够转录的形式导入至真核细胞中，也能获得CAP结构。这样转录的RNA也包含在本发明的来自于真核细胞的RNA中。

从这些细胞中提取RNA用于本发明的方法中。RNA的提取方法众所周知。利用市售的RNA提取用试剂盒则很便利。例如，利用RNAeasy (QIAGEN)等市售试剂盒，能够容易地获得高纯度的RNA。提取RNA 时，在必须破坏细胞时可以通过公知的方法进行破坏。

本发明中，连接于CAP结构的RNA接头由至少含有IIs型限制性酶识别序列的寡核苷酸构成。作为RNA接头使用的寡核苷酸可以是 DNA也可以是RNA。优选的RNA接头为RNA。构成RNA接头的碱基序列可以是含有IIs型限制性酶识别序列的任意碱基序列。但优选IIs 型限制性酶的识别序列配置在RNA接头的3’末端。

IIs型限制性酶将其识别序列作为基准，将仅距离一定碱基数的位置切割。本发明的目的在于将mRNA的5’末端作为标记获得。因此，优选在尽量接近于mRNA的5’末端的位置上配置识别序列。构成RNA 接头的IIs型限制性酶的识别序列可以按照分析用的IIs型限制性酶进行设计。例如，已经叙述过MmeI的识别序列为5’-TCCRAC-3’(R＝G或 A)。因此，RNA接头优选在其3’末端上配置该碱基序列。另外，IIs型限制性酶的识别序列按照IIs型限制性酶将其3’端切割的方式进行配置。

作为本发明的RNA接头有用的碱基序列如下所示。该碱基序列除了具有配置于3’末端的IIs型限制性酶(MmeI)的识别序列(TCCRAC；大写)，还含有作为II型限制性酶的XhoI的识别序列(cucgag；下划线)。

5’-oligo 1(序列号：1)：

5’-uuuggauuugcuggugcaguacaacuaggcuuaaua cucgagUCCGAC-3’

5’-oligo 2(序列号：2)

5’-uuucugcucgaauucaagcuucuaacgauguacg cucgagUCCGAC-3’

所加成的XhoI位点可以用于标记的连接以及向载体中的插入。并且，构成RNA接头的碱基序列也可作为用于标记扩增的引物进行退火的区域使用。为了引物退火，用于退火的区域优选至少由15个碱基、通常由20～50个碱基、例如由20～30个碱基构成。另外，该构成碱基可以按照引物的熔解温度(Tm)通常为60～80℃、例如为65～75℃左右的方式进行设计。用于引物退火的碱基序列是任意的。因此，例如可以使用能够赋予上述Tm的任意碱基序列。

用于引物退火的碱基序列是任意的。而且，构成各种限制性酶识别序列的区域以及用于使引物退火的区域也可在RNA接头中重复。然而，当使相对于2种RNA接头不同的引物退火时，通过按照不重复的方式进行设计，则可期待退火的特异性提高。

就本发明而言，RNA接头连接于RNA的CAP结构上。用于将寡核苷酸连接在CAP结构的方法是任意的。例如寡核苷酸帽法是本发明中用于RNA接头结合的优选方法。寡核苷酸帽法是为了合成保持了 mRNA的5’端碱基序列的cDNA而开发的方法(Maruyama，K and Sugano，S.：Gene 138：171-174，1994)。寡核苷酸帽法中，利用mRNA的 3’末端poly(A)序列和连接于5’末端CAP结构的RNA接头的碱基序列，实现了全长cDNA的获得。由于5’端的碱基序列不完整的mRNA不保持CAP结构，因此RNA接头不被连接。所以，就寡核苷酸帽法而言，能够特异性地获得全长cDNA。

以下，对于寡核苷酸帽法的反应原理进行简单说明。首先，利用细菌碱性磷酸酯酶(BAP)处理mRNA，水解不带CAP结构的RNA的5’ 末端的磷酸基。在此过程中，不带CAP结构的RNA失去了5’末端的磷酸基。即，片断化的RNA或来自于线粒体的RNA等的5’末端上突出的磷酸基被除去。接着，使烟酸性焦磷酸酶(TAP)作用。TAP将CAP 结构的三磷酸键水解。结果是能够对具有CAP结构特异性地赋予RNA5’ 末端的磷酸基。

在BAP和TAP处理过的RNA上连接RNA接头。RNA接头的结合如可利用T4RNA连接酶。利用T4RNA连接酶进行的连接需要5’末端的磷酸基。因此，相对于通过TAP获得了5’末端磷酸基的RNA，RNA 接头被特异性地连接。这样，能够将RNA接头特异性地结合在CAP结构上。另外，就处理RNA的反应而言，优选所有工序在排除了RNase 的环境下进行。

在寡核苷酸帽法中报告了几个变异。例如已知有利用CAP结合蛋白质柱来精制具有CAP结构的RNA的方法(Edery，L.et al.，Mol.Cell Biol.15：3363-3371，1995)。如果利用该方法，则能够将具有CAP结构的RNA捕获在固相上。如果洗涤固相将不具有CAP结构的RNA除去后用TAP处理，则能够回收具有CAP结构的RNA。这样回收的RNA 由于在5’末端具有磷酸基，因此可以直接连接RNA接头。即、利用CAP 结合蛋白质的方法不需要BAP处理。

接着，将连接了RNA接头的RNA作为模板合成cDNA。用于合成 cDNA的方法是任意的。以下记载了用于合成cDNA的代表性方法。

通常，cDNA的合成由第1链的合成和第2链的合成2个步骤构成。第1链的合成是将RNA作为模板进行利用的逆转录反应。与此相对，第2链是通过将之前合成的第1链DNA作为模板的互补链合成反应而合成。分别已知有通过引发反应的引物而带有特征的几个反应。

本发明中，cDNA的第1链可以通过对RNA任意区域退火的引物合成。将RNA作为模板、利用逆转录酶活性来合成DNA的方法是公知的。具体地说，利用来自于MMLV的逆转录酶(Reversetranscriptase； RT)或其变变体等、通过引物的延长反应合成第1链的方法是公知的。作为逆转录酶的变变体，市场上售有失去逆转录酶所具有的RNaseH活性的变变体(Superscript II，Gibco BRL)等。另外，如Tth DNA聚合酶那样，在作为DNA合成酶的同时，还作为催化以RNA为模板的互补链合成反应的酶也被人们所了解。如果利用这种酶，也能够用单一的酶合成第1链(RNA模板)的第2链(DNA模板)。接着，对于用于合成cDNA的引物进行说明。

在之前叙述的寡核苷酸帽法中，通常在第1链的合成中利用寡dT 引物。由于为了合成cDNA的全长，必须从第1链的3’末端开始合成，因此利用具有与占据mRNA的3’末端的poly(A)互补的碱基序列的寡 dT引物。本发明中也同样，通过利用寡dT引物，能够将全长cDNA的 5’末端作为标记序列获得。

与此相对，就本发明而言，并非必需RNA的全长。本发明中，标记可以从含有RNA的5’末端的微小区域中获得。因此，如果含有RNA 的5’末端的区域能够作为cDNA合成的话，则能够获得本发明所必需的 cDNA。因此，例如可以利用能够从RNA任意部分开始互补链的随机引物合成第1链。通过随机引物的利用，即便是3’端的碱基序列是不完整的片断，只要是具有CAP结构的RNA，就可获得标记。从可由更广范围的RNA中获得标记的方面看，随机引物是在基因表达分析中特别有用的引物。

而且，在第1链的合成中，通过利用具有与特定基因碱基序列互补的碱基序列的引物，还能够选择性地获得特定基因的标记。例如，对于仅清楚部分碱基序列、而5’端的碱基序列不清楚的基因，也能够利用本发明获得5’末端的标记序列。为此，在第1链的合成中，从明确的碱基序列中选择制成引物的碱基序列。该引物将从mRNA的明确区域至5’ 末端的区域作为cDNA的第1链生成。由于引物是从特定基因的碱基序列中选择的，因此不能从目标基因以外的RNA生成第1链。其结果也不生成标记。

将特定的基因作为对象、通过本发明的方法获得的基因标记，可期待具有例如下述的有用性。首先，能够以获得的基因标记的碱基序列信息为基础，清楚该基因的转录起始点。转录起始点是全长cDNA的获得或启动子的研究中重要的信息。例如，对于5’端碱基序列不清楚的 cDNA，利用本发明的方法，能够获得5’端的cDNA。或者，即便是翻译起始点已被鉴定的基因，也可通过基因标记的信息来评价其5’端非翻译区域(5’UTR)是否完整。

而且，在编码同一氨基酸序列的同时，明确了赋予转录起始点不同的多个转录产物的基因。将某种基因作为对象、对于各种mRNA来源，只要获得本发明的基因标记，则能够容易地收集该基因所有转录产物的转录起始点的信息。如果获得多种基因标记，则在该基因中有存在转录起始点不同的多个转录产物的可能性。即，本发明提供含有以下工序的转录起始点不同的多个转录产物的检测方法，

(1)以本发明为基础获得基因标记的工序，其中使用对要分析的基因特异的引物作为cDNA的第1链合成用引物、

(2)比较(1)中所得基因标记的碱基序列的工序、和

(3)多种基因标记被检测出时，检测转录起始点不同的多个转录产物的工序。

利用本发明中检测出的多种基因标记和所述基因特异的引物信息，能够确定各转录产物的转录起始点的碱基序列。并且，以本发明为基础，还可以比较各转录产物的表达水平。即，本发明提供含有以下工序的比较转录起始点不同的多个转录产物的表达水平的方法，

(1)以本发明为基础获得基因标记的工序，其中使用对要分析的基因特异的引物作为cDNA的第1链合成用引物、

(2)比较(1)中所得基因标记的碱基序列的工序、和

(3)以各基因标记的出现频率为基础，作为转录起始点不同的多个转录产物的表达水平获得的工序。

除此之外，也可以有意地将具有共同碱基序列的RNA作为cDNA 合成。例如，对于构成保存性高的蛋白质的功能域的氨基酸序列，将其进行编码，则能够以预测的碱基序列为基础设计第1链合成用的引物。使用该引物合成的cDNA是编码特定功能域的基因的cDNA的可能性很高。其结果是能够有意地收集含有特定功能域的基因标记。通过比较如此得到的基因标记的表达水平，能够比较具有特定功能的基因组的表达水平。

无论怎样，本发明中所合成的cDNA的第1链在其3’末端具有与 RNA接头互补的碱基序列。因此，如果利用能够对该区域退火的寡核苷酸，则能够容易地合成cDNA的第2链。在合成第2链之前，可以通过碱水解将作为第1链模板的RNA除去。本发明中，第2链至少应该按照含有RNA接头中所含的IIs型限制性酶的识别序列的方式进行合成。为此，例如可以利用能够在比与配置于RNA接头3’末端的IIs型限制性酶识别序列相当的区域更靠近3’端处开始互补链合成的引物。或者，还可以利用含有IIs型限制性酶识别序列的引物。

将DNA作为模板，通过引物延长反应合成互补链的方法是公知的。即，已知有利用模板依赖性的DNA聚合酶合成互补链的方法。作为DNA 聚合酶，可以使用T4DNA聚合酶或者Taq聚合酶等。

用于cDNA合成的引物可以含有任意的碱基序列。例如可以利用在其5’末端侧加成有限制性酶识别序列的引物。目前普遍进行的是在引物的5’末端上加成用于赋予克隆位点的碱基序列。

本发明中，cDNA的第2链可以通过具有可结合于固相的标识、或者被固定在固相上的引物来合成。通过将引物结合在固相上，能够将 cDNA的第2链捕获在固相上。捕获于固相上的cDNA可以容易地回收。

用于将作为引物使用的寡核苷酸结合在固相上的方法是任意的。例如，使用交联剂使寡核苷酸的5’末端与探针共价结合的方法等是公知的 (美国专利5656462)。或者，可以在构成寡核苷酸的碱基中导入生物素之类的具有结合亲和性的分子。通过使生物素结合于固相化了的抗生物素蛋白，寡核苷酸被间接地捕获于固相上。寡核苷酸中结合亲和性分子的导入位置没有限制。

通过第2链的合成而成为双链的cDNA经过IIs型限制性酶处理，生成本发明的基因标记。该阶段中，基因标记可以在与作为RNA接头而加成的碱基序列连接的状态下进行回收。为了基因标记的回收，利用第2链合成用的引物所结合的固相。即，将基因标记作为结合了的固相回收。固相可在使IIs型限制性酶作用之后、或者之前进行回收。

并且，通过确定本发明中基因标记的碱基序列，能够获得RNA的 5’末端的碱基序列信息。确定基因标记的碱基序列的方法是任意的。但是，为了有效地确定大量基因标记的碱基序列，SAGE的原理是有用的。即，使多个基因标记连接，制成连环体，将连环体克隆，能够一次性地确定多个标记的碱基序列。

可以发现，通过标记生成中使用的IIs型限制性酶的作用，各基因标记的长度是一定的。因此，认为连环体是通过一定长度的基因标记的碱基序列的重复所构成的。因此，可以从连环体的碱基序列中获得各标记的碱基序列信息。

作为用于连接标记而获得连环体的方法可以举出几个变异。以下阐述其例子。首先对应用了普遍已知的SAGE原理的方法进行说明。在此方法中，首先将2个基因标记相向连接获得双标记(di-tag)。此时，如果IIs型限制性酶导致的切割部分为粘性末端(sticky end)时，则预先使其平滑化。为了形成平滑末端，可以使T4 DNA聚合酶发挥作用。

接着，连接多个双标记生成连环体。为了得到双标记，将同一cDNA 文库分为2库，对每组实施相同操作，由此生成基因标记。然后，将来自于2库的基因标记之间相互连接，制成双标记。此时，基因标记在被 IIs型限制性酶切割的切割部分处连接。基因标记可通过T4 DNA连接酶等进行酶连接。

在此得到的双标记具有以下结构。

PCR→

(固相)-[RNA接头]-[标记]-[标记]-[RNA接头]-(固相)

←PCR

该阶段中，双标记可以通过PCR等扩增方法进行扩增。如果使得2 库间RNA接头的碱基序列不同，则在不同库的标记间连接的双标记被特异性地扩增，因此能够防止标记间的多个失衡。本发明中双标记的扩增是任意的。

接着连接多个双标记得到连环体。为此，例如可预先在RNA接头内配置限制性酶的识别序列。利用限制性酶将双标记消化后，如果将限制性酶的切割部位连接，则能够连接多个双标记。这样得到的连环体的结构可如下所示。

..../[Tag][Tag]/[Tag][Tag]/[Tag][Tag]/[Tag][Tag]/....

即，其是将连接2个标记的双标记“[Tag][Tag]”作为1个单位、且中间夹有限制性酶(锚定酶)导致的切割部位“/”的双标记连续的结构。

并且，可以在与克隆用载体相同的限制性酶位点上插入连环体。这样能够得到将连环体作为嵌入段而包含的克隆载体。通过确定克隆载体的嵌入段的碱基序列，能够明确其中所含标记的碱基序列。另外，连环体的长度优选为能够以1次的序列反应确定碱基序列的长度。例如可以举出小于等于500bp、例如20～400bp、通常50～300bp范围的连环体。

另外，还可以得到不是通过双标记、而是通过标记单元连接的连环体。例如，在使IIs型限制性酶作用后，可在其切割部位上结合连接物。此时，标记具有以下结构。

PCR→

(固相)-[RNA接头]-[标记]-[连接物]

←PCR

如果在连接物上配置限制性酶识别序列，则与消化双标记的RNA 接头同样，可以利用限制性酶将标记的两端切割。而且，在扩增标记时，也可利用RNA接头和连接物的碱基序列通过PCR进行扩增。无论如何都可以连接经限制性酶处理过的标记而制成连环体。连环体进一步插入在克隆载体中，能够明确其碱基序列。

通过IIs型限制性酶切割出的标记长度基本一定。但是，如果万一其长度有所偏差，则在构成双标记时，往往不能鉴定正确的标记碱基序列。如果不经过双标记构成连环体的话，则即便万一标记的长度不均一，也能够正确地确定标记的碱基序列。

本发明的基因标记的获取方法、以及所获标记的碱基序列的确定方法中所必需的各种试剂类，可以预先组合作为试剂盒来提供。

即，本发明涉及含有以下要素的基因标记的制造用试剂盒，

(a)由含有IIs型限制性酶的识别序列的寡核苷酸构成的RNA接头、

(b)用于将RNA接头连接于RNA的CAP部位的试剂、

(c)由对以RNA接头作为模板合成的cDNA退火的寡核苷酸所构成的cDNA第2链合成用引物、

(d)cDNA第1链合成用引物。

本发明的试剂盒可以附加地含有双标记或连环体制备所必需的试剂类。另外，这些构成要素的具体构成如上所述。

本发明的试剂盒中，作为(d)cDNA第1链合成用引物，可以使用例如以下i)～iii)任一个所记载的引物，

i)随机引物、

ii)寡dT引物、和

iii)含有与特定mRNA互补的碱基序列的引物。

将试样中所含的全部mRNA作为对象制造基因标记时，利用随机引物或寡dT引物。随机引物是本发明中特别优选的引物。随机引物是指由具有数十个碱基长度的不特定的碱基序列构成的寡核苷酸的集合体。例如利用5～20、通常8～15个碱基左右长度的寡核苷酸。通过将4 种碱基混合物依次连接成必要的长度进行合成。理论上来说，可以认为随机引物含有对所有碱基序列互补的碱基序列。

或者，通过含有与特定mRNA互补的碱基序列的引物，也能够构成本发明的试剂盒。通过利用对特定的mRNA特异的引物，能够特异地制造某个基因的5’标记。比较这样得到的标记的碱基序列信息，如果在该碱基序列中检测出变异时，则说明在该基因的转录产物中存在有5’ 末端长度不同的多个变体(variant)。因此，通过含有与特定mRNA互补的碱基序列的引物所构成的本发明的试剂盒，作为用于检测特定基因的转录产物的变体的试剂盒是有用的。

例如，通过以下所述要素，能够构成用于实施本发明的方法的试剂盒。在各要素中还可添加对使用了各要素的反应所优选的缓冲液。并且，在本发明的试剂盒中还可组合用于分析基因标记的碱基序列的软件。

用于连接RNA接头的要素：

·BAP

·TAP

·T4RNA连接酶

·RNA接头

用于cDNA合成和分离的要素：

·逆转录酶

·DNA聚合酶

·dXTP

·cDNA第1链合成用随机引物

·cDNA第2链合成用5’生物素化cDNA合成用引物

·抗生物素蛋白结合磁珠

用于生成基因标记的要素：

·IIs型限制性酶

用于双标记的生成和分析的要素

·T4DNA连接酶

·基因标记扩增用引物

·DNA聚合酶

·II型限制性酶

·测序用载体

·用于转化载体的宿主

·用于培养宿主的培养基

在分析通过本发明生成的连环体的碱基序列信息中，利用计算机软件是有利的。例如可以将能够实施以下步骤的软件用于连环体的碱基序列信息的分析中，

读取测序仪的分析数据的步骤、

识别读取的碱基序列数据的标记以外的碱基序列信息的步骤、

积累标记的碱基序列信息的步骤。

这里，作为标记以外的碱基序列信息，可以举出在标记形成过程中连接的RNA接头、连接物等的碱基序列信息。或者，有时也有可能可以读取来自于克隆载体的碱基序列。无论怎样，这些碱基序列信息是预先明确的信息。并且，这些附加的碱基序列信息和标记的碱基序列信息规则地配置在连环体上。因此，能够机械地识别这些碱基序列和标记的碱基序列。

接着，积累标记的碱基序列和所识别的碱基序列信息。形成双标记时，由于有时也读取了反义链的碱基序列，因此也能合并记录互补序列的信息。使用连接物不经过双标记制作连环体时，如果按照使连接物和 RNA接头的克隆位点成为不同序列的方式进行设计的话，则能够在单一方向上克隆。此时，不需要互补序列的积累。

在该程序中还可带有附加的功能。例如可以实施比较所得标记的碱基序列、将相同碱基序列归纳为1个、并记录其出现频率的步骤。另外，还可以实施比较不同RNA来源的标记信息、将出现频率不同的标记提取的步骤。

作为标记信息的比较对象，还可以利用预先积累的数据库的信息。例如，对于标准的组织或细胞株，根据本发明的方法预先积累基因标记的信息。该信息可以在计算机互联网上共用。或者，也可以添加于上述试剂盒中，在商业上游通。还可以比较这样得到的基因标记信息和自己实验获得的基因标记信息。

通过本发明，能够获得作为转录产物的mRNA的5’末端碱基序列信息。5’末端碱基序列信息在基因分析中具有特别重要的意义。例如，可以将通过本发明能够获得的5’末端碱基序列信息用于下述用途中。

首先，本发明可以用于基因表达谱的获得中。即，本发明涉及含有以下工序的、获取真核细胞中基因表达谱的方法，

(1)以本发明为基础制造基因标记的工序、

(2)确定(1)的基因标记的碱基序列的工序、和

(3)通过对应所确定的碱基序列及其出现频率，获得表达谱的工序。

本发明中(1)制造基因标记的工序可以含有以下工序。没有特别声明的情况下，以下的记载也同样，所述的“以本发明为基础制造基因标记的工序”含有以下工序：

(A)在RNA的CAP部位连接含有IIs型限制性酶的识别序列的 RNA接头的工序、

(B)将(A)的RNA作为模板合成eDNA的工序、

(C)使识别RNA接头中所含识别序列的IIs型限制性酶作用于(B) 的eDNA，从而生成基因标记的工序。

一般来说，表达谱是指伴随表达信息的基因信息的列表。表达信息是指显示表达水平的量化参数。基因信息通常是指用于特定基因的信息。具体地说，基因的碱基序列、基因的名称、基因的ID号等构成基因信息。构成列表的基因数是任意的。并且其对象也没有限定。根据分析的目的，积累必要基因的信息构成表达谱。

根据本发明，能够从具有CAP结构的RNA中将其5’末端的碱基序列信息作为标记信息获得。并且，通过对照其碱基序列信息，计算相同碱基序列的数量，能够使碱基序列信息及其出现频率对应。这样能够得到表达谱。

作为RNA，如果将所有RNA作为对象的话，能够获得将全部基因作为对象的表达谱。本发明中，将特定基因或者结构上具有共性的一组基因作为对象，也能够生成基因标记。这种情况下，生成了特定基因或者一组基因的表达谱。

如果假定具有CAP结构的mRNA是指细胞中所表达的全部 mRNA，则可以说通过本发明可得到的表达谱更加正确地反映着细胞内的基因表达状态。本发明中，计算碱基序列的出现频率时，优选积累占据成为分析对象的碱基序列信息总数的某序列出现频率的相对数。特别是在通过PCR等扩增后的出现频率信息的定量意义小。如果作为相对于总数的比进行比较的话，可以期待更加客观的评价。

通过本发明得到的表达谱能够制成数据库。数据库是指将构成表达谱的信息作为机械可读式的数据而积累的电子数据。本发明的数据库至少含有标记的碱基序列信息和与其相关的出现频率信息。并且，本发明的数据库可以合并记录各碱基序列信息的ID号、得到碱基序列信息的 RNA来源。而且，还可附加与已知基因的碱基序列信息的关系、对基因组上的定位结果等信息。

本发明的表达谱的数据库可以保存在电子媒介中。作为电子媒介，可以举出各种光盘装置、磁带媒介或者闪存器等。这些电子媒介可在因互联网上共用。例如，可以在互联网上共有本发明的数据库。并且，还可以介由互联网，在用于分析上述标记序列的软件中追加用于参照本发明数据库信息的功能。或者，相反地也可以介由互联网将根据本发明生成的新型表达谱信息追加在数据库中。

利用本发明的表达谱可以实施表达谱分析。即，本发明涉及一种基因表达谱的分析方法，该方法含有以本发明为基础获得不同种类细胞的基因表达谱、比较基因表达谱、并选择细胞间表达频率有所不同的基因标记的工序。获得不同细胞间表达水平有所不同的基因的分析方法被称为表达谱分析。通过这种分析，例如可以获得数量众多的与疾病等相关的基因。本发明的表达谱也可利用在这种表达谱分析中。

本发明的表达谱分析中，成为分析对象的不同细胞是指其来源不同的所有细胞。即便是来自于同一组织的细胞，在有无疾病、人种、年龄、性别等一些条件有所不同时，也是来源不同的细胞。如果根据分析目的要考虑的条件有所不同的话，则是来源不同的细胞。另一方面，当仅发现相对于分析目的可忽略的条件有所不同时，视为同一细胞。例如，通过比较不同器官、不同组织、或来源和培养条件等有所不同的细胞间的表达谱，能够选择器官、组织或细胞间表达水平高(或者低)的基因。能够应用本发明的分析对象的组合示例如下。

不同组织

成人的组织和胎儿的组织

患者的组织和健康人的组织

男性的组织和女性的组织

人种不同的人的组织

生长环境不同的同一生物物种的组织

不同细胞

同一细胞、培养条件不同的细胞

同样培养条件、培养时间不同的细胞

施加了特定处理的细胞和未施加特定处理的细胞

更具体地说，通过在癌组织和正常组织之间比较表达谱，能够获得对癌特征性的基因标记。或者，特别是通过比较恶性度高的癌和恶性度低的癌，能够特定与恶性度相关的基因标记。

通过本发明得到的基因标记包括mRNA的5’末端的碱基序列信息。因此，能够将作为编码相同蛋白质的基因、且5’UTR结构不同的变体作为不同转录产物反应在表达谱中。与通过公知的SAGE能够得到的标记相比较，该特征是本发明的标记所具有的一大优点。另外，本发明的基因标记的碱基序列信息本身作为全长cDNA的5’端引物的碱基序列信息是有用的。因此，如果利用以通过表达谱分析所选出的标记的碱基序列信息为基础设计的引物和寡dT引物，则能够直接合成全长cDNA。或者，如果组合具有与mRNA任意区域互补的碱基序列的引物，则能够得到含有mRNA的5’端碱基序列的cDNA。这也是本发明的一大特征。

通过本发明能够获得的基因标记含有作为转录产物的mRNA的5’ 末端碱基序列。因此，通过将该碱基序列定位在基因组的碱基序列上，能够鉴定基因的转录起始点。即，本发明涉及含有以下工序的基因转录起始点的确定方法，

(1)以本发明的方法为基础制造基因标记的工序、

(2)确定(1)的基因标记的碱基序列的工序、和

(3)将所确定的基因序列定位在基因组的碱基序列上，并将碱基序列一致的区域作为该基因的转录起始点来鉴定的工序。

2003年4月，国际人类基因组序列协会公布了人类基因组的破译完成。其结果是能够得到以99.99％的精确度覆盖全基因组99％(28亿3000 万碱基对)的人类基因组精密序列。另一方面，本发明将在细胞内转录的所有mRNA的5’末端作为标记产生。因此，从原理上，可以将在某细胞中转录的基因的几乎所有的转录起始点定位于基因组上。被定位在基因组上的转录起始点在转录调节区域的获得中是重要的信息。

例如，可以克隆转录起始点的上游1～2kb的范围，并用于转录调节因子的筛选。或者通过分析该区域的碱基序列，还能够预测转录调节区域。更具体地说，通过研究已知转录因子的识别序列所被保存的区域，能够预测转录因子的结合区域。

另外，转录起始点的定位无非是基因本身的定位。也就是说，以本发明标记的碱基序列信息的定位结果为基础，能够把握基因在基因组上的物理位置关系。目前，基因的转录起始点如果不依赖于质量高的全长 cDNA的碱基序列信息，则不能定位。然而如果利用通过本发明能够得到的标记信息，则能够容易地定位转录起始点。这样，可以说通过本发明能够得到的标记信息具有与全长cDNA的成果相匹敌的价值。

而且，通过本发明能够得到的基因标记的碱基序列信息可以利用在 cDNA的全长率评价中。与基因组的碱基序列被搞清楚相对，为了在蛋白质水平上明确细胞的作用，继续了各种尝试。作为其方法之一，有全长cDNA的网络式分析。在全长cDNA的网络式分析中，网罗地获得在某细胞中表达的基因的全长，确定其结构。此时，所得cDNA的全长性高成为了重要的条件。

首先，第1为了至少特定ORF，必须明确mRNA的5’端碱基序列。另外，为了鉴定转录起始点，获取直至5’末端的碱基序列是重要的。为了确认满足这些条件，常常评价得到的cDNA的全长性。cDNA的全长性是表示含有mRNA的5’末端碱基序列的cDNA占所得cDNA整体的何种程度的参数。

本发明的基因标记提供mRNA的5’末端的碱基序列信息。因此，通过对照网罗式获得的cDNA的碱基序列和从同一文库中获得的本发明的基因标记的碱基序列，能够明确各cDNA的5’末端是否含有mRNA 的5’末端的碱基序列。如果基因标记的碱基序列多数能在cDNA的碱基序列上定位时，所获cDNA的多数为全长的可能性较高。相反，与基因标记一致的碱基序列在所得cDNA中看不到时，推测cDNA的全长性较低。

本发明中基因标记的碱基序列信息可以利用于含有mRNA的5’末端碱基序列的cDNA的获得中。即，本发明涉及cDNA合成用引物组，其包含用于合成含有通过以下工序确定的碱基序列或其互补序列的 cDNA的5’端引物、和对cDNA的任意部位退火的3’端引物、

(1)以本发明为基础制造基因标记的工序、和

(2)确定(1)的基因标记的碱基序列的工序。

构成本发明的引物组的5’端引物的碱基序列含有作为标记获得的碱基序列或其互补序列。标记作为mRNA的有义序列或反义序列而得到。因此，其互补序列或者标记的碱基序列本身作为cDNA合成用的5’ 端引物的碱基序列被使用。由于5’端引物在5’末端开始互补链合成，因此通过本发明的引物组合成的cDNA通常含有5’末端的碱基序列。另外，标记序列由于是从DNA中获得的，因此含有碱基t。与此相对， RNA的5’末端序列与t相当的碱基当然是u。

另一方面，在构成本发明的引物组的3’端引物中，可以利用对cDNA 可退火的任意引物。通过选择3’端引物，能够合成各种cDNA。作为能够利用于本发明引物组的3’端引物，例如可以举出以下所示的引物，

i)寡dT引物、

ii)cDNA的片段序列信息、和

iii)由与cDNA的II型限制性酶识别邻接的基因标记的碱基序列或其互补序列构成的引物。

首先，与寡dT引物的组合在全长cDNA的合成中是有用的。然后，以cDNA的片段序列信息为基础设计的3’端引物作为用于获得该cDNA 的5’端区域的引物被利用。为了这种目的，可以尽量以该cDNA的5’ 端碱基序列为基础设计3’端引物。在cDNA的片段信息中含有EST。另外，通过各种基因分析，能够获得cDNA的片段信息。而且尝试了常常以片段信息为基础确定全长的碱基序列。例如，当必须获得作为DNA 阵列的探针使用的EST的5’端碱基序列时，利用本发明的引物组，能够合成目标区域。或者，有时尝试从通过PCR克隆等获得的cDNA片断中获得其全长。本发明中，cDNA的片段序列信息可以定义为含有与特定mRNA互补的碱基序列的引物。

并且，还可以将由与cDNA的II型限制性酶识别邻接的基因标记的碱基序列或其互补序列所构成的引物作为3’端引物利用。目前实用的 SAGE(SCIENCE，Vol.270，484-487，Oct.20，1995)将与cDNA中所含特定限制性酶位点邻接的区域作为基因标记生成。以该标记的碱基序列信息为基础，能够分析基因表达谱。对于同一分析对象，如果将根据已知分析方法选择的基因标记的碱基序列信息作为3’端的引物使用，则有可能可以合成含有相当一部分目标基因的cDNA。

这些引物组中，特别优选与寡dT引物的组合作为用于合成全长 cDNA的引物组。全长cDNA在转录起始点的定位中有用。另外，为了鉴定5’UTR结构不同的转录产物，必须确定至少含有5’末端区域的碱基序列。而且，全长cDNA通常是难以获得的。由该背景出发，利用根据本发明得到的基因标记信息来合成全长cDNA的有用性特别大。即，本发明涉及含有以下工序的全长cDNA的合成方法，

(a)使用用于合成含有通过以下工序确定的碱基序列或其互补序列的cDNA的5’端引物、和由寡dT引物构成的3’端引物，以RNA或 cDNA为模板进行互补链合成反应的工序、

(1)根据本发明的方法制造基因标记的工序、

(2)确定(1)的基因标记的碱基序列的工序；

(b)将合成的DNA作为全长cDNA回收的工序。

将从含有目标mRNA可能性高的细胞中获得的RNA作为模板，使用上述本发明的引物组合成cDNA。或者也可将从该细胞中获得的 cDNA文库作为模板进行利用。本领域技术人员可以根据所提供的引物的碱基序列信息合成cDNA。具体地说，利用RT-PCR等公知的方法，能够由RNA合成目标cDNA。RNA优选使用mRNA。或者使用cDNA 文库作为模板时，能够通过PCR合成目标cDNA。cDNA文库也可以使用市售的文库。

本发明涉及这样合成的全长cDNA。本发明中，全长cDNA是指包括含有mRNA的CAP结构部分的碱基序列信息和poly(A)的cDNA。本发明还涉及由根据本发明合成的全长cDNA编码的多肽。分析全长 cDNA的碱基序列，能够鉴定ORF。根据所鉴定的ORF，能够将编码区域导入至表达载体。本发明含有能够如此得到的表达载体。可以将该表达载体导入至适当的表达体系，将由cDNA编码的多肽作为重组体使其表达，再进行回收。

另外，本发明的全长cDNA的编码区域所编码的多肽可通过生物体外翻译(in vitro translation)作为重组体表达并回收。生物体外翻译的方法是公知的。生物体外翻译也称为无细胞蛋白质翻译。即，通过使将编码目标氨基酸序列的DNA功能性地连接于启动子的构成物 (construct)接触于支持生物体外翻译的要素，能够翻译成氨基酸序列。构成物中还可配置终止子等转录调控区域。支持生物体外翻译的要素是含有RNA聚合酶、核糖核苷酸基质、氨基酸、核糖体以及tRNA等的混合物。如果存在这些蛋白质翻译所必需的成分，则可不利用细胞功能，也能将DNA翻译成蛋白质。RNA聚合酶识别上述启动子，在其控制下将DNA作为模板转录成mRNA。转录中使用核糖核苷酸基质ATP、GTP、 CTP和UTP。被转录的mRNA在核糖体中被翻译成多肽。

作为支持生物体外翻译的要素，可以使用市售的体外翻译用的试剂盒。利用了兔子网状红血球的溶解产物(Rabbit Reticulocyte Lysate； RRL)、小麦胚芽提取物(Wheat Germ Extract；WGE)或者大肠杆菌的溶菌产物等的用于无细胞蛋白质翻译的试剂盒在市场有售。或者，也可以分别以高纯度精制转录、翻译和能量再生中所必需的约30个酶类后，实现再构成的体外转录和翻译系统(Shimizu et al.(2001)Nature Biotechnology.Vol.19，p.751-755)，作为试剂盒在商业上提供。

而且，本发明涉及识别该多肽的抗体。抗体例如可以通过用上述重组体、或者由选自翻译氨基酸序列的氨基酸序列构成的域肽对免疫动物进行免疫而得到。能够从免疫动物中回收多克隆抗体。并且，克隆免疫动物的抗体产生细胞，可以得到单克隆抗体。使抗体产生细胞与骨髓瘤之类的细胞株融合而制成杂交瘤、用于筛选产生具有目标反应性的抗体的克隆的方法是公知的。

附图说明

图1为表示根据本发明的基因标记的获取方法的例子的图。将 mRNA分成两半，将mRNA的Cap结构酶置换成含有作为IIs型限制核酸内切酶的MmeI和Xhol限制性酶部位的两种合成寡核苷酸。接着，通过dT连接物引物将寡核苷酸帽mRNA变换成cDNA的第1链。使用 PCR利用生物素结合5’引物和dT连接物引物合成第2链。使用在距离识别部位20bp的位置处进行切割的MmeI，将双链cDNA切割。通过使其结合于链霉抗生物素蛋白微珠而将5’cDNA分离后，相互连接标记的两库。

图2为与UniGene和DBTSS序列中mRNA起始部位进行比较的 5’SAGE标记的距离的图。距离以上游(-)和下游(+)的核苷酸(x- 轴)的数目来表示。UniGene中的mRNA起始部位表示为0。5’SAGE 标记的频率显示于y-轴。配置每个5’SAGE标记及其对应基因的位置的距离越短，则表示5’标记与已知5’转录起始部位基本一致。本发明人等为了研究转录起始部位的范围的差，分别使用了UniGene和DBTSS数据库。

图3为5’SAGE标记和3’SAGE标记的频率的散点图。如实施例2 的材料和方法的章节中所述，由5’SAGE和3’SAGE分析击中(hit)基因组中的一个基因座的标记。该图中，两个轴用对数表示。

具体实施方式

以下根据实施例，更加具体地说明本发明。

[实施例1]

根据本发明，通过以下实验确认能够获得含有mRNA的5’末端碱基序列的基因标记。以下操作大致示于图1。

寡核苷酸帽法

寡核苷酸帽法是改变了Maruyama和Sugano(1994)的方法进行的 (Maruyama，K.，Sugano，S.，1994.Oligo-capping：a simple method to replace the cap structure of eucaryotic mRNAs with oligoribo-nucleotides. Gene 138，171-174.)。在添加了100单位的RNasin(Promega)的总液量为 100μl的100mM Tris-HCl(pH为8.0)和5mM 2-巯基乙醇的混合液中，利用1.2单位来自于细菌的碱性磷酸酯酶(BAP；TaKaRa)在37℃下将 5～10μg的poly(A)+RNA处理40分钟。进行2次苯酚∶氯仿(1∶1)提取处理，进行乙醇沉淀处理。在添加了100单位的RNasin的总液量为100μl 的50mM乙酸钠(pH为5.5)、1mM EDTA、5mM 2-巯基乙醇的混合液中，利用20单位的烟酸性焦磷酸酶(TAP)在37℃下将所得该 poly(A)+RNA处理45分钟。

在苯酚∶氯仿提取处理和乙醇沉淀处理后，将2～4μg的BAP-TAP处理poly(A)+RNA分为2库，使各库分别与RNA接头(5’-oligo 1和5’-oligo 2)连接。5’-oligo 1和5’-oligo 2分别为具有以下碱基序列的RNA。任何一个RNA接头都含有XhoI和MmeI识别序列。

5’-oligo 1/序列号：1

5’-UUU GGA UUU GCU GGU GCA GUA CAA CUA GGC UUA AUA CUC GAG UCC GAC-3’

5’-oligo 2/序列号：2

5’-UUU CUG CUC GAA UUC AAG CUU CUA ACG AUG UAC GCU CGA GUC CGA C-3’

将250单位的RNA连接酶(TaKaRa)和100单位的Rnasin用下述组成的反应混合液达到总液量100μl，在20℃下反应3～16小时，连接 RNA接头。

50mM Tris-HCl(pH为7.5)

5mM MgCl2

5mM 2-巯基乙醇

0.5mM ATP

25％PEG8000

cDNA的合成

cDNA的合成时，合成全长cDNA富集文库和5’末端cDNA富集文库的2种文库。全长cDNA富集文库由使用寡dT连接物引物以 poly(A)+mRNA为模板合成的cDNA构成，是全长cDNA富集的文库。另一方面，5’末端cDNA富集文库由在cDNA的合成中使用随机连接物引物合成的cDNA构成。通过随机连接物引物的使用，从没有poly(A) 的片段也能合成cDNA。对于这2种cDNA分别尝试获得基因标记。

将未连接的RNA接头除去后，通过无RNaseH的逆转录酶 (Superscript II，Gibco BRL)合成cDNA。为了得到全长cDNA富集文库，将10pmol的dT连接物引物(序列号：3)加入到含有2～4μg寡核苷酸帽poly(A)+RNA的50μl溶液中，合成cDNA。

DT连接物引物(序列号：3)

5’-GCG GCT GAA GAC GGC CTA TGT GGC CTT TTT TTT TTT TTT TTT-3’

反应条件按照厂家推荐的方法(42℃下培养1小时)。

进而，为了得到5’末端cDNA富集文库，使用10pmol的随机连接物引物(序列号：4)，在12℃下培养1小时，进而在42℃下培养1小时。

随机连接物引物(序列号：4)

5’-GCG GCT GAA GAC GGC CTA TGT GGC CNN NNN NC-3’

cDNA的扩增

合成第1链cDNA后，通过使用15mM NaOH在65℃下处理1小时，将RNA分解。使用100μl中含有16pmol的5’PCR引物和3’PCR 引物(5’-GCG GCT GAA GAC GGC CTA TGT-3’/序列号：7)的XL PCR 试剂盒(Perkin-Elmer)来扩增以1μg的寡核苷酸帽poly(A)+RNA作为模板合成的cDNA。5’PCR引物在作为RNA接头连接了5’oligo-1的库中使用序列号：5的引物，连接了5’oligo-2的库中使用序列号：6的引物。

5’oligo 1用5’PCR引物/序列号：5

5’生物素-GGA TTT GCT GGT GCA GTA CAA CTA GGC TTA ATA-3’

5’oligo 2用5’PCR引物/序列号：6

5’生物素-CTG CTC GAATTC AAG CTT CTAACG ATG TAG G-3’

3’PCR引物(序列号：7)

5’-GCG GCT GAA GAC GGC CTA TGT-3’

在第1链的合成中使用dT-连接物引物作为引物时，将94℃下1分钟、58℃下1分钟和72℃下10分钟的循环重复5～10次，进行cDNA 的扩增。另外，在第1链的合成中使用随机连接物引物作为引物时，将 94℃下1分钟、58℃下1分钟和72℃下2分钟的循环重复10次，进行 cDNA的扩增。

PCR产物在1次的苯酚∶氯仿(1∶1)处理后，经过乙醇沉淀处理，利用MmeI型IIs限制性酶(University of Gdansk Center of Technology Transfer，Gdansk，Poland)进行处理。限制性酶处理是在总液量为300μl 的10mM HEPES、pH为8.0、2.5mM醋酸钾、5mM醋酸镁、2mM DTT 和40μM S-腺苷基蛋氨酸混合液中使用40单位的MmeI，在37℃下进行 2.5小时。使经限制性酶处理过的5’末端cDNA片断与由链霉抗生物素蛋白包被的磁珠(Dynal，Oslo，Norway)结合。在16℃下、在16μl含有添加了4单位T4 DNA连接酶的供给缓冲液的反应溶液中反应2.5小时，使结合于磁珠的cDNA片断相互直接结合，得到双标记。

生成的双标记使用引物5’-GGA TTT GCT GGT GCA GTA CAA CTA GGC-3’(序列号：8)和5’-CTG CTC GAA TTC AAG CTT CTA ACG ATG-3’(序列号：9)，通过PCR扩增。利用聚丙烯酰胺凝胶电泳(PAGE) 确认PCR产物，通过XhoI进行处理。将含有双标记的条带切出，使其自身连接形成长的连环体。将该连环体插入到pZero 1.0(Invitrogen)的 XhoI部位。

通过使用了M13正向引物和M13反向引物的PCR进行群体的筛选。含有600bp或以上嵌入段的PCR产物使用Big Dye terminator ver.3、利用3730ABI自动DNA测序仪(Applied Biosystems，CA)确定序列。相对于所有的电泳图，为了确认有无不明确的碱基以及修改错读，通过目测进行再分析。

使用为此制作的软件测定各标记的出现频率。将分析的结果得到的标记的碱基序列作为搜索项，检索BLAST search(http：//www.ncbi.nlm. nih.gov/BLAST/)和人类基因组数据库(http：//www.ncbi.nlm.nih.gov/ genome/guide/human/)的数据。

将从通过随机连接物引物合成的5’末端cDNA富集文库中得到的 3000或以上的基因标记的碱基序列进行分析的部分结果汇总于下。以下的结果中，接着记载了基因标记的碱基序列的序列号，用“/”将接下来的信息划分记载。另外，在这些信息后另起一行记载有击中已知基因的信息(GenBank Accession No.和注释)。

基因标记的碱基序列

所得基因标记总数中的该基因标记的出现频率

基因标记的碱基序列击中的已知序列的位置(○：击中5’末端的序列、×：并非5’末端的碱基序列)

(序列号：10)/ACATCTGACCTCATGGAG/27/○

gi|33694637|tpg|BK000408.1|TPA：人类腺病毒5型，全基因组

(序列号：11)/CTCTTTCCTTGCCTAACG/22/○

gi|17981705|ref|NM_001007.2|人类核糖体蛋白质S4，X-连接 (RPS4X)，mRNA

(序列号：12)/TACCTGGTTGATCCTGCC/21/×

(序列号：13)/CTTTTCCTGTGGCAGCAG/20/○

＜gi|16579884|ref|NM_000968.2|人类核糖体蛋白质L4(RPL4)， mRNA

(序列号：14)/CTCTTCCGCCGTCGTCGC/16/○

人类真核翻译延长因子2(EEF2)，mRNA的上游

(序列号：15)/CTCATTGAACTCGCCTGC/11/○

gi|28338|emb|X04098.1|HSACTCGR人类细胞骨架γ-肌动蛋白 (ACTG1基因)的mRNA

(序列号：16)/CTGGTTGATCCTGCCAGT/11/×

(序列号：17)/CTCAGTCGCCGCTGCCAG/10/○

gi|28338|emb|X04098.1|HSACTCGR人类细胞骨架γ-肌动蛋白 (ACTG1基因)的mRNA

(序列号：18)/CTTTCACTGCAAGGCGGC/10/○

gi|18314626|gb|BC021993.1|鸟嘌呤核苷酸结合蛋白(G蛋白)，β- 多肽2-样1

(序列号：19)/ACGCTGTGACAGCCACAC/9/○

NM 005382的上游

(序列号：20)/GTGACAGCCACACGCCCC/9/×

gi|35045|emb|Y00067.1|HSNFM人神经丝蛋白亚单位M(NF-M) 的基因

(序列号：21)/AACGGCTAGCCTGAGGAG/8/×

gi|188487|gb|M59828.1|HUMMHHSP人MHC III类HSP70-1基因 (HLA)，全编码序列

(序列号：22)/AGTAGCAGCAGCGCCGGG/8/○

gi|14043071|ref|NM_031243.1|人类核内不均一核糖核蛋白A2/B1

(序列号：23)/ATTCCTAGTTAAGGCGGC/8/○

gi|5020073|gb|AF146651.1|AF146651人类乙二醛酶-I基因，全编码序列

(序列号：24)/AATTGTGTTCGCAGCCGC/7/○

gi|22027640|ref|NM_002107.2|人类H3组蛋白，家族3A(H3F3A)， mRNA

(序列号：25)/ATATTTCTTACTCTCTCG/7/×

gi|37704377|ref|NR_001564.1|X染色体上的人类染色体X失活特异性转录产物(XIST)

(序列号：26)/CTCAGTCGCCGCTGCCAA/7/○

gi|28338|emb|X04098.1|HSACTCGR人类细胞骨架γ-肌动蛋白的 mRNA

(序列号：27)/AAAACGGCCAGCCTGAGG/6/×

gi|188489|gb|M59830.1|HUMMHHSP2人MHC III类HSP70-2基因 (HLA)，全编码序列

(序列号：28)/CTCTCTTTCACTGCAAGG/6/○

gi|12652914|gb|BC000214.1|鸟嘌呤核苷酸结合蛋白(G蛋白)，β- 多肽2-样1

(序列号：29)/AATTTCTACGCGCACCGG/5/○

gi|402305|gb|L24369.1|HUMRPS4A人类核糖体蛋白质S4基因

(序列号：30)/ACCGCCGAGACCGCGTCC/5/○

gi|1043878|dbj|AK025375.1|人类突变的β-肌动蛋白的ACTB mRNA

(序列号：31)/AGACGCAGAGTAGATTGT/5/○

gi|2315183|emb|Z82216.1|HS75N13来自于人染色体Xq21.1的克隆 RP1-75N13的DNA序列

(序列号：32)/AGTTCGATCGGTAGCGGG/5/×

gi|37540535|ref|XM_294582.2|与DNA-结合蛋白B类似的人类基因

(LOC347295)，mRNA

(序列号：33)/AGTTCTCGGGCGTACGGC/5/○

gi|30581134|ref|NM_006306.2|人类染色体1-样1的结构维持SMCl

(序列号：34)/AGTTGCTTCAGCGTCCCG/5/○

gi|32487|emb|X15183.1|HSHSP90R人90-kDa热休克蛋白的mRNA

(序列号：35)/ATTAAACGGTTGCAGGCG/5/×

gi|33239450|ref|NM_182649.1|人类增殖细胞核抗原(PCNA)转录变体2，mRNA

(序列号：36)/CCGGCCGGGGGGCGGGCG/5/○

gi|55583|gb|U13369.1|HSU13369人核糖体DNA全重复单位

(序列号：37)/CCTTTTGGCTCTCTGACC/5/○

gi|15718688|ref|NM_001006.2|人类核糖体蛋白质S3A(RPS3A)， mRNA

(序列号：38)/CTCAGTACAGCTCCGGCC/5/○

gi|21217408|gb|AC015849.5|人类染色体17，克隆RP11-362K1，全序列

(序列号：39)/CTCTTTCGGCCGCGCTGG/5/○

gi|461248|dbj|D28421.1|HUMRPL80人类核糖体蛋白质L8同源物的 mRNA，5’UTR

所得标记中30个碱基序列的分析结果为：73％或以上(22/30)的标记实际上是cDNA的5’末端的碱基序列。这正验证了根据本发明能够以较高概率将mRNA的5’末端碱基序列作为标记获得。

[实施例2]

将利用了根据本发明的含有mRNA的5’末端碱基序列的基因标记的基因表达分析(以下记为5’SAGE)的结果与公知的SAGE法(以下记为3’SAGE)进行比较。

材料和方法

3’-Long SAGE文库的制作

从HEK293中分离全RNA，如上所述选择mRNA(Hashimoto，S.-i.， Suzuki，T.，Dong，H.-Y.，Yamazaki，N.& Matsushima，K.Serial analysis of gene expression in human monocytes and macrophages.Blood 94， 837-844，1999)。将标准的SAGE顺序如下变更进行使用，用3μg mRNA 进行Long SAGE法(Saha，S.et al.Using the transcriptome to annotate the genome.Nat Biotechnol 20，508-512，2002)。

即，NlaIII切割后，将接头1A(5’-TTT GGA TTT GCT GGT GCA GTA CAA CTA GGC TTA ATA TCC GAC ATG-3’/序列号：40)和接头1B (5’-TCG GAT ATT AAG CCT AGT TGT ACT GCA CCA GCA AAT CC C7氨基修饰-3’/序列号：41)相互退火，连接于全cDNA的一半，将接头2A(5’-TTT CTG CTC GAA TTC AAG CTT CTA ACG ATG TAC GTC CGA CAT G-3’/序列号：42)和接头2B(5’-TCG GAC GTA CAT CGT TAG AAG CTT GAA TTC GAG CAG C7氨基修饰-3’/序列号：43)相互退火，连接于cDNA的剩余一半，并将含有MmeI识别部位的接头连接于 3’cDNA末端。使用MmeI型IIs限制性酶(Gdansk大学技术转让中心 (University of Gdansk Center for Technology Transfer)、Poland、 Gdansk)，使接头标记分子从cDNA中游离出来。切割是在300μl的10mM HEPES、pH为8.0、2.5mM醋酸钾、5mM醋酸镁、2mM DTT和40μM S-腺苷基蛋氨酸中使用40单位的MmeI在37℃下进行2.5小时。在16μl 的供给缓冲液中含有4单位T4 DNA连接酶的反应液中，使接头1标记分子和接头标记2分子在16℃下反应2.5小时，使它们相互直接连接。

使游离的标记相互连接成链，在pZero 1.0(Invitrogen)的SphI部位克隆。使用M13正向和M13反向引物，通过聚合酶链式反应法(PCR) 筛选群体。对含有超过600bp插入片断的PCR产物使用Big Dye terminator ver.2进行测序，利用3730ABI自动DNA测序仪(Applied Biosystems、加里福尼亚州)进行分析。电泳图全部通过目测进行再次分析，研究不清楚的碱基，更正错读。使用SAGE 2000软件(version 4.12)，定量各标记的存在量。除去接头序列、其它可能的人工产物和重复的双标记后，分析各标记。

5’-SAGE文库的制作

加入几个变更点(Suzuki，Y.，Yoshitomo-Nakagawa，K.，Maruyama，K.， Suyama，A.& Sugano，S.Construction and characterization of a full length-enriched and a 5’-end-enriched cDNA library.Gene 200，149-156， 1997)，按照Maruyama和Sugano(Maruyama，K.& Sugano，S. Oligo-capping：a simple method to replace the cap structure of eukaryotic mRNAs with oligoribonucleotides.Gene 138，171-174，1994)所记载的那样，进行寡核苷酸帽法。

也就是说，在含有100单位RNasin(Promega)的100μl的100mM Tris-HCl(pH为8.0)、5mM 2-巯基乙醇中，使用1.2单位的来自于细菌的碱性磷酸酯酶(BAP；TaKaRa)在37℃下将5～10μg的poly(A)+RNA 处理40分钟。利用苯酚∶氯仿(1∶1)提取2次并乙醇沉淀后，在含有 100单位RNasin的100μl的50mM醋酸钠(pH为5.5)、1mM EDTA、 5mM 2-巯基乙醇中，使用20单位的烟酸性焦磷酸酶(TAP)在37℃下将poly(A)+RNA处理45分钟。在苯酚∶氯仿提取并乙醇沉淀后，将 2～4μg BAP-TAP处理过的poly(A)+RNA分为2库，将含有XhoI/MmeI 识别部位的以下RNA接头中的一个连接于各库：在含有100单位的 RNasin的100ml的50mM Tris-HCl(pH为7.5)、5mM MgCl2、5mM 2- 巯基乙醇、0.5mM ATP、25％PEG8000中，使用250单位的RNA连接酶(TaKaRa)，在20℃下连接5’-oligo 1(5’-UUU GGA UUU GCU GGU GCA GUA CAA CUA GGC UUA AUA CUC GAG UCC GAC-3’/序列号： 1)、5’-oligo 2(5’-UUU CUG CUC GAA UUC AAG CUU CUA ACG AUG UAC GCU CGA GUC CGA C-3’/序列号：2)，进行3～16小时。

除去未连接的5’-寡核苷酸后，使用无RNaseH的逆转录酶 (Superscript II、Gibco BRL)合成cDNA。为了制作5’末端浓缩cRNA 文库，使用10pmol随机连接物引物(5’-GCG GCT GAA GAC GGC CTA TGT GGC CNN NNN NC-3’/序列号：4)在12℃下培养1小时，再在42℃ 下培养1小时。

合成第1链后，在15mM NaOH中在65℃下培养1小时，由此分解RNA。使用XL PCR试剂盒(Perkin-Elmer)，利用16pmol的5’(5’ 生物素-GGA TTT GCT GGT GCA GTA CAA CTA GGC TTA ATA-3’/序列号：5、或5’生物素-CTG CTC GAA TTC AAG CTT CTA ACG ATG TAC G-3’/序列号：6)和3’(5’-GCG GCT GAA GAC GGC CTA TGT-3’/序列号：7)PCR引物，以100μl的量将由1mg寡核苷酸帽poly(A)+RNA 制作的cDNA扩增。对于通过随机连接物引物延伸了的cDNA，将扩增循环变为94℃下1分钟、58℃下1分钟、72℃下2分钟的10个循环。将PCR产物使用苯酚∶氯仿(1∶1)提取一次，并进行乙醇沉淀，利用 MmeI型IIs限制性酶(Gdansk大学技术转让中心、Poland、Gdansk) 切割。切割是在300μl的10mM HEPES、pH为8.0、2.5mM醋酸钾、5mM 醋酸镁、2mM DTT和40μM S-腺苷基蛋氨酸中使用40单位的MmeI、在37℃下进行2.5小时。

使切割的5’-末端cDNA片断结合于链霉抗生物素蛋白包被的磁珠 (Dynal、Norway、Oslo)。使结合于磁珠的cDNA片断在16μl的供给缓冲液中含有4单位的T4DNA连接酶的反应液中、在16℃下互相直接结合2.5小时。使用引物-5’-GGA TTT GCT GGT GCA GTA CAA CTA GGC-3’/序列号：8和5’-CTG CTC GAA TTC AAG CTT CTA ACG ATG-3’/序列号：9进行PCR，扩增双标记。PCR产物用聚丙烯酰胺凝胶电泳(PAGE)进行分析，并用XhoI切割。将含有双标记的条带切出使其自身连接，制作长的连环体。在pZero1.0(Invitrogen)的XhoI部位克隆该连环体。使用M13正向和M13反向引物，使用PCR筛选群体。对含有超过600bp插入片断的PCR产物使用Big Dye terminator ver.3测序，利用3730ABI自动DNA测序仪(Applied Biosystems、加里福尼亚州)进行分析。电泳图全部通过目测检查进行再次分析，研究不清楚的碱基，更正错读。使用SAGE 2000软件(version 4.12)，定量各标记的存在量。

5’SAGE标记与对应基因的关联性

为了评价转录起始点的鉴定中5’SAGE标记的有效性，需要避免 5’SAGE标记与目前cDNA/EST数据库的比对。原因在于其序列一般并不限定于从转录起始点开始读取。取而代之，使用http：//alps.gi.k.u-tokyo. ac.jp/中公开的比对程序ALPS，尝试将我们的5’-标记与可在http：// genome.ucsc.edu/中利用的人类基因组序列、NCBI build 34进行比对。在该分析中仅考虑在有义方向上一致的标记。

接着，利用Gene Resource Locator数据库(Honkura，T.，Ogasawara， J.，Yamada，T.& Morishita，S.The Gene Resource Locator：gene locus maps for transcriptome analysis.Nucleic Acids Res.30，221-225，2002URL http：//grl.gi.k.u-tokyo.ac.jp/)、UniGene(Build 162)(Wheeler，D.L. Database Resources of the National Center for Biotechnology.Nucleic Acids Res.31，28-33，2003 URL ftp：//ftp.ncbi.nih.gov/repository/ UniGene/)等各种资源的序列的比对的数据库，检索各5’-标记的比对位置附近，找出对应的转录物。主要的问题点是，由于逆转录转座和基因组重复，因此导致1个5’-标记与作为多个非标码区域的多个位置比对。该问题通过选择在UniGene数据库中加有注释的基因编码部位而解决。3’-标记多集中于3’-末端外显子(exon)，但5’-标记不需要与第1＝外显子相当。因此，在距离各5’-标记的比对位置500bp距离的范围内进行检索。

与已知的5’转录起始点的一致

由于各5’SAGE标记比对的位置与其对应的基因间的距离短，因此说明5’-标记与已知5’转录起始点基本一致。但是，为了求出距离，必须留意在5’-标记附近由于选择性的剪接而导致的多个cDNA/EST序列比对频繁出现。为了解决该状况并对距离分派固有的值，选择了距离5’- 标记最近的比对。5’-标记位于对应的cDNA上游区域时，定义距离为负。如果不是这样，值为正或零。特别是，距离零表示完全一致。为了观察整体距离的分布，求出了mRNA起始点的-500～+200nt的5’SAGE 标记出现率的总数。分别使用RefSeq、UniGene(GRL)和DBTSS数据库，观察到了覆盖转录起始点的范围的差异。

结果

5’SAGE法

为了得到关于转录起始部位的全面信息，本发明人等使用寡核苷酸帽法开发了5’SAGE。5’SAGE法能够生成来自于转录物5’末端的 19～20bp的标记，将其迅速分析，并匹配于基因组序列数据。图1显示了5’SAGE法的策略。

基因组的定位

使用该方法，本发明人等研究了在试验细胞株HEK293细胞中表达的25,684个转录物的特征，并将它们与人类基因组序列相比较。整体中的19,893个标记与表示13,404个不同标记的基因组序列完全匹配(表 1)。

13,404个不同标记的80％(10,706个标记)定位于唯一的位置。在基因组中匹配于多个部位的标记中，定位于2个基因座(loci)的标记位为11.1％(1483个标记)、定位于3～99个基因座(loci)的标记为8.1％ (1090个标记)、定位于100个或以上基因座(loci)的标记为0.9％(125 个标记)。定位于多个基因组座的标记大部分对应于逆转录转座子要素、反复序列或假基因。

表1 SAGE标记和基因组的实验对照基因组中的标记基因座# 定位于基因组的5’SAGE的标记数# 定位于基因组的3’SAGE的标记数## 定位于基因组的标记数(％) 定位于基因组的独特的标记数(％) 相对表达水平定位于基因组的标记数(％) 定位于基因组的独特的标记数(％) 相对表达水平 1基因座/基因组 15,448(77.7) 10,706(79.9) 1.44 34,139(63.2) 11.613(75.3) 2.94 2基因座/基因组 2,037(10.2) 1,483(11.1) 1.37 6,739(12.5) 1,395(9.0) 4.83 3～99基因座/基因组 2,275(11.4) 1,090(8.1) 2.09 12,265(22.7) 2.039(13.2) 6.02 ＞100基因座/基因组 133(0.7) 125(0.9) 1.06 907(1.7) 376(2.4) 2.42 总标记数 19,893(100) 13,404(100) 1.40 54,050(100) 15,422(100) 2.13

#：使用18bp 5’SAGE标记击中基因组的标记的数。定位按照材料和方法的章节所记载的那样实施。未击中基因组的标记在测序了的25,684个标记中有5,791个。相对表达水平通过用在文库中观察到的转录物标记的总数除以不同标记的数来确定。

##：使用20bp 3’SAGE标记击中基因组的标记的数。定位按照材料和方法的章节所记载的那样实施。未击中基因组的标记在测序了的81,211个标记中有27,162个。

对mRNA起始部位的定位

接着，本发明人等推测5’SAGE标记是否匹配于mRNA起始部位。本发明人等使用了包括参考序列数据库(RefSeq)、构建含有涉及调节区域的顺式要素和选择性剪接转录物信息的基因图的Gene Resource Locator(GRL)、和含有人的全长cDNAs的系统5’末端序列的DataBase of Transcriptional Start Site(DBTSS)(Suzuki，Y.et al. DBTSS：DataBase of human Transcriptional Start Sites and full-length cDNAs.Nucleic Acids Res 30，328-331，2002)的3个数据库。图2表示距离的分布，表2表示距离短的标记的发生比例，显示了本发明人等的5’SAGE标记与每个数据库的起始部位信息充分一致。定位于每个数据库的标记的85.8％～98.2％定位于mRNA起始部位的-500核苷酸～+200核苷酸。

特别是，5’SAGE标记的23.5～49.3％击中这些数据库中定义的转录起始部位(TSS)的上游区域。而且，本发明人等研究了5’SAGE 标记导致的TSS处的核苷酸选择性(nucleotide preference)。据报告， TSS的核苷酸是使用276个人基因中的5880个mRNA的A(47％)、 G(28％)、C(14％)和T(12％)(Suzuki，Y.et al.Diverse transcriptional initiation revealed by fine，large-scale mapping of mRNA start sites. EMBO Rep 2，388-393，2001)。另外，本发明人等的数据对于最初的核苷酸使用显示了非常类似的百分率：A(41％)、G(32％)、C(17％) 和T(10％)。综合考虑，本发明人等的5’SAGE标记法能够正确鉴定 TSS。数据不仅为本发明人等提供了正确的转录起始部位信息，而且提供了用于分析启动子利用的资源。意味深长的是，未匹配于基因组的标记在本研究中占5’SAGE的全测序标记的33％。其中，未匹配于基因组的5’SAGE标记的第一核苷酸的39％也为A。能够看到未匹配于基因组的几个标记击中基因组中具有单一的核苷酸变异或缺失的区域。

表2 各数据库中mRNA起始部位和对应的5’SAGE标记的距离距离各数据库起始点的距离(核苷酸) 标记数(％) RefSeq UniGene(GRL) DBTSS -500～-201 349(3.2) 204(1.5) 160(1.6) -200～-51 887(8.1) 335(2.4) 253(2.5) -50～-1 4,179(38.1) 3,957(28.8) 1,965(19.5) 0～+50 3,173(28.9) 8,673(63.2) 7,149(70.8) +51～+200 837(7.6) 311(2.3) 209(2.1) (-500～+200) 9,245(85.8) 13,480(98.2) 9,736(96.4) 总标记数 10,982(100) 13,723(100) 10.098(100)

如图2所示，分析对各数据库的基因的5’末端的定位中一致的标记。

新型基因或未被注释的基因的鉴定

为了鉴定特征不清楚的基因，将5’SAGE标记与基因组序列、 RefSeq和EST数据库进行比较。在基因组中具有单一座的10,706个独特标记中，能够使9,376个标记与其对应的UniGene EST相关联(表 3)。而且，6,418个5’SAGE的独特标记与DBTSS中的已知基因关联。剩余的标记(12.4％)匹配于已知基因的内含子内的区域(5.4％)或特征不清楚的区域(6.6％)。匹配于特征不清楚的区域的标记主要击中2个部位：

(1)所有特征均不清楚的区域、

(2)特征不清楚的EST区域

只要有关于这种基因表达的证据，则应该对用于通过把3’SAGE 作为参考从而发现全长的新型基因有用。

表3 特征不清楚的候补基因和外显子的鉴定基因/外显子的分类定位于基因组的独特标记(标记的出现频率) 5’SAGE 3’SAGE 已注释过的已知基因 9,376(13,674) 8,359(27,996) 未注释过的内部外显子 (内含子) 515(713) 1,329(2,442) 基因组 815(1,061) 1,925(3,701) 总数 10,706(15,448) 11,613(34,139)

10,706个定位于独特的位置，9,376个与对应的UniGene EST关联。

SAGE是可用于得到根据转录物量的定量信息的非常有力的方法。表4显示了HEK293细胞中转录物剖面的5’末端。表达量最多的基因作为神经丝蛋白3(NEF3)被鉴定，其出现频率为1.43％，接下来是击中多个基因座的基因和延长因子2。NEF3、70kDa热休克蛋白1A(70kDa热休克蛋白1A)、calreticulin(钙网蛋白)和heterogeneous nuclear Ribonucleoprotein H1(核内不均一核糖核蛋白H1)之类的几个基因显示了不同的标记。几个基因显示了是从不同TSS转录来的。例如，70kDa热休克蛋白1A是从8个不同转录起始部位转录而来的。钙网蛋白是从7个不同转录起始部位转录而来的。这些结果显示每个转录起始部位可能与基因表达相关。另外，表4所示碱基序列的一部分也记载在之前给出的实施例1的结果中。在表4中还含有对照所得基因标记序列和基因组序列的结果，与此相对，实施例1中未将基因标记序列与基因组序列对照。因此，即便基因标记的碱基序列相同，在表4的基因列中所记载的内容有时也与实施例1所记载的注释不同。

表4 HEK293细胞中转录物剖面的5’末端标记序列序列ID NO. 标记数相关的 Unigene簇相关的 refseq 基因 GCTGTGACAG CCACACGC 44 286 Hs.71346 NM_005382 人类神经丝蛋白3(150kDa 介质)(NEF3)，mRNA CTTTTCCTGTG GCAGCAG 13 171 多次击中基因组 CTCTTTCCTTG CCTAACG 11 127 多次击中基因组 CTCTTCCGCC GTCGTCGC 14 120 Hs.75309 NM_001961 真核翻译延长因子2 TACCTGGTTG ATCCTGCC 12 117 多次击中基因组 CTGGTTGATCC TGCCAGT 16 89 多次击中基因组 AACGGCTAGC CTGAGGAG 21 83 Hs.274402， Hs.75452， Hs.80288 NM_005345 NM_005346 70kDa热休克蛋白1A AGTAGCAGCA GCGCCGGG 22 75 Hs.232400 NM_031243 NM_002137 核内不均一核糖核蛋白 A2/B1 CTCATTGAACT CGCCTGC 15 68 多次击中基因组 GTGACAGCCA CACGCCCC 20 66 Hs.71346 NM_005382 人类神经丝蛋白3(150kDa 介质)(NEF3)，mRNA AGTTCGATCG GTAGCGGG 32 57 多次击中基因组 ACGCTGTGAC AGCCACAC 19 56 Hs.71346 NM_005382 人类神经丝蛋白3(150kDa 介质)(NEF3)，mRNA CTTTTTCGCAA CGGGTTT 45 55 多次击中基因组 AATTTCTACGC GCACCGG 29 54 Hs.446628 NM_001007 核糖体蛋白质S4， X-连接 ACCGCCGAGA CCGCGTCC 30 53 Hs.426930， Hs.510444 NM_001101 β-肌动蛋白 CTTTCACTGC AAGGCGGC 18 52 Hs.5662， Hs.509234 NM_006098 鸟嘌呤核苷酸结合蛋白 (G蛋白)，β-多肽2-样1 ATATTTCTTAC TCTCTCG 25 48 X染色体上的人类染色体X 失活特异性转录因子(XIST) CTCAGTCGCC GCTGCCAG 17 43 Hs.14376 Hs.500737 γ-肌动蛋白1 ATTCCTAGTTA AGGCGGC 23 42 Hs.268849 NM_006708 乙二醛酶I AATTGTGTTCG CAGCCGC 24 37 多次击中基因组 CCTCCTCATCA CACGCCG 46 37 Hs.15589 NM_004774 PPAR结合蛋白 CTTTCTGCCCG TGGACGC 47 37 多次击中基因组 AGTACAGCTC CGGCCGCC 48 35 Hs.402752 NM_003487 NM_139215 TAF15RNA聚合酶II，TATA 盒结合蛋白(TBP)-相关因子，68kDa CACCTGTTTG CAGGCTGC 49 34 Hs.146550 肌球蛋白，重多肽9，非肌肉 CTCTCTTTCAC TGCAAGG 28 33 Hs.5662 Hs.509234 NM_006098 鸟嘌呤核苷酸结合蛋白(G 蛋白)，β-多肽2-样1 AGTTGCTTCA GCGTCCCG 34 30 Hs.446579 Hs.449634 NM_005348 90kDa热休克蛋白1A，α AGTTCTCGGG CGTACGGC 33 29 Hs.211602 NM_006306 染色体1-like1的结构维持 SMCl(酵母) GTCCGTACTG CAGAGCCG 50 29 Hs.353170 NM_004343 钙网蛋白 AAAACGGCCA GCCTGAGG 27 27 Hs.75452 FLJ38698 ATTTCGTCTTA GCCACGC 51 26 Hs.202166 核内不均一核糖核蛋白 H1(H) AGGCATTGAG GCAGCCAG 52 25 击中基因组 AGTGGGCGGA CCGCGCGG 53 25 Hs.192374 NM_003299 肿瘤排斥抗原(gp96)1 CCCAATTTCTA CGCGCAC 54 25 Hs.446628 NM_001007 核糖体蛋白质S4，X-连接 CTCGTTGCGC AGTAGTGC 55 25 Hs.380118 Hs.460941 RNA结合基序蛋白， X-连接 GTGCTGCAGC CGCTGCCG 56 25 Hs.2795 NM_005566 乳酸脱氢酶A CATTTCGTCTT AGCCACG 57 24 Hs.202166 核内不均一核糖核蛋白 H1(H) CTCTTTCCCTA AGCAGCC 58 24 多次击中基因组 GACTAATTTGT TGGCGGC 59 24 Hs.280311 肌球蛋白，重多肽10，非肌肉 ACCTCATTCAT TTCTACC 60 23 Hs.279806 NM_004396 DEAD(天冬氨酸-谷氨酸-丙氨酸-天冬氨酸)盒多肽5 CCTTTCTGCCC GTGGACG 61 23 多次击中基因组 AGTATCTGTGG GTACCCG 62 22 Hs.433455， Hs.331035 NM_001428 烯醇酶1(α) CAATTTCTACG CGCACCG 63 22 Hs.446628 NM_001007 核糖体蛋白质S4，X-连接 GCACACAGCC ATCCATCC 64 22 Hs.107600 NM_006158 神经丝蛋白，轻质多肽 68kDa AGTGACGCGT ATTGCCTG 65 19 Hs.75337， Hs.467172 NM_004741 核仁和螺旋体磷蛋白1 CTCTTTCCAGC CAGCGCC 66 19 多次击中基因组 CTTTTCCGCCC GCTCCCC 67 19 Hs.374596 NM_003295 肿瘤蛋白，翻译控制1 GCGTCTTGTTC TTGCCTG 68 19 Hs.180909 NM_181696， NM_181697， NM_002574 过氧化物酶1 ATATAGAGGCT GGGGGTG 69 18 Hs.427152 高密度脂蛋白质结合蛋白 (vigilin) ATTAAACGGTT GCAGGCG 35 18 Hs.78996， Hs.449476 NM_002592 增殖细胞核抗原 CCTTTTGGCTC TCTGACC 37 18 多次击中基因组

将在HEK293细胞中表达的上游50的5’末端转录物列表。标记序列显示18-bp的SAGE标记。显示标记及与其对应的Unigene/EST。

5’和3’SAGE标记表达的一致

本发明人等为了确认5’SAGE的精度，尝试了同一细胞中mRNA 的3’-Long SAGE。在3’-Long SAGE中，本发明人等研究了在HEK293 细胞株中被表达的81,212个转录物标记的特征。全部中54,050个标记匹配于表示15,423个不同标记的基因组序列(表1)。15,423个不同标记的75％(11,613个标记)在基因组中匹配于一个部位。而且， 8,359个3’SAGE标记与UniGene EST中已知的基因相关联(表3)。匹配于基因组中多个部位的标记中，匹配于2个基因座的标记为9％ (1395个标记)、匹配于3～99个基因座的标记为13.2％(2,039个标记)、匹配于100个或以上基因座的标记为2.4％(376个标记)。匹配于基因组中多个部位的标记的比例在5’SAGE和3’SAGE之间非常相近(表2)。另一方面，5’SAGE标记与3’SAGE标记相比，非常的不均匀。

Seha等也同样指出，每个基因组显示多于10个拷贝的标记与每个基因组仅显示1个拷贝的标记相比，平均地被高度表达(Saha，S.et al.Nat Biotechnol 20，508-512，2002)。本发明人等的数据还证明了在 3～99基因座/基因组中，与5’SAGE和3’SAGE文库中的其它部分相比，相对表达水平更高。这是由于通过逆转录转座的基因表达和基因复制的相关的机理。为了推测2个文库之间的类似性程度，比较了在 5’SAGE和3’-Long SAGE之间表达的基因。

5’和3’标记由于是从5’末端和3’末端开始随机采取，因此预测5’ 标记与特定的全长cDNA序列的相关概率与3’标记匹配于cDNA的概率一致。但是，由于全长的cDNA序列或者选择性剪接转录物的采集不完全，因此即便这些标记来自于同一编码区域，也不能简单地确定5’标记和3’标记之间的正确的一致。一个有希望的途径可能是综合共有外显子的EST比对作为基因编码座的簇进行处理，并将5’和 3’SAGE标记定位于这些簇及其上游的区域，发现5’和3’SAGE标记表达之间的一致。这样，本发明人等计算与每个基因编码区域相关的 3’(横轴)和5’标记(纵轴)对的产生数，并且在图3的二维平面上表示所有的对。通过比较表达模式，发现大多数的基因在双方的文库中以类似的水平表达。但是，几个转录物以显著不同的水平表达， 5’SAGE和3’SAGE文库的皮尔森相关系数为0.36，显示了中等程度的类似性。

相关为中等程度的理由是由于5’SAGE和3’SAGE文库中的频率分散。如以下来源的序列那样，关于这些标记的出现有几个可能性。

(1)5’SAGE和3’SAGE中PCR扩增的误差

(2)推测可能在3’SAGE中占据NlaIII限制部位的少数基因

(3)推测可能在5’SAGE中占据XhoI限制部位的少数基因

(4)5’SAGE和3’SAGE中的mRNA的未知的剪接变异

(5)与标记击中多个基因组座相关的注释误差，或者对基因组的EST注释误差

本研究作为例子仅鉴定了HEK293细胞中被表达的基因的部分。为了详细记述被表达的基因的概要，需要来自多种不同细胞类型和环境条件的相当多的标记。如果积累数据，则有可能可以解决与5’和 3’SAGE标记的表达一致相关的问题。

考察

几个研究小组报告了mRNA起始部位(Suzuki，Y.et al.Diverse transcriptional initiation revealed by fine，large-scale mapping of mRNA start sites.EMBO Rep 2，388-393，2001)和多腺苷酸化切割部位 (Pauws，E.van Kampen，A.H.，van de Graaf，S.A.，de Vijlder，J.J.& Ris-Stalpers，C.Heterogeneity in polyadenylation cleavage sites in mammalian mRNA sequences：implications for SAGE analysis.Nucleic Acids Res 29，1690-1694，2001)显示不均一性。Shiraki等人报告了构建时特定基因的TSS的差别(Shiraki，T.et al.Cap analysis gene expression for high-throughput analysis of transcriptional starting point and identification of promoter usage.Proc Natl Acad Sci USA 100， 15776-15781，2003)，但本发明人等的数据显示TSS的多样性在细胞中已经存在。而且，本发明人等的数据通过5’SAGE和3’SAGE法而提供了关于TSS和3’末端区域的不均一性的直接证据。

例如，PPAR结合蛋白具有1个TSS和2个3’SAGE标记部位，核糖体蛋白质S4具有16个TSS和1个3’SAGE标记部位，钙网蛋白具有7个TSS和1个3’SAGE标记部位。而且，选择性的mRNA 剪接与人类蛋白质组的复杂性极为重要地相关。最近的基因组研究表明人类基因的46～60％被选择性剪接(Modrek，B.& Lee，C.A genomic view of alternative splicing.Nature Genetics 30，13-19，2002)。推测点突变的15％是由于mRNA剪接缺损而引起人类遗传疾病 (Krawczak，M.，Reiss，J.& Cooper，D.N.The mutational spectrum of single base-pair substitutions in mRNA splice junctions of human genes： causes and consequences.Hum Genet 90，41-54，1992)。

Zavolan等人报告了多数具有剪接型的转录单位，其49％含有在使用选择性转录开始时伴随的最初外显子的选择性剪接的转录物 (Zavolan，M.et al.Impact of alternative initiation，splicing and termination on the diversity of the mRNA transcripts encoded by the mouse transcriptome，Genome Res 13，1290-1300，2003)。本发明人等还发现，过氧化物酶4(NM 006406)之类的几个基因的各自mRNA 起始部位不仅显示了mRNA的不同的剪接变体，而且显示了基因表达的不同的量。这说明选择性转录有经常诱导选择性剪接的可能。

最近报告了使用Cap-trapper系统鉴定转录起始点的新型方法 (Shiraki，T.et al.Proc Natl Acad Sci USA 100，15776-1578l，2003)。但是，mRNA起始部位的定位的鉴定效率在这些方法中并不显著。通过本发明人等的研究中记载的5’SAGE法，能够正确定位TSS，同样能够确立基因表达的频率。

综上所述，如果利用5’SAGE法，有可能在很大程度上促进基因组的注释。由于5’SAGE是不依赖于基因序列的经验知识的少数的高生产量的发现途径之一，因此通过该种数据，能够立刻进行in silico 基因预测的独立确认和未注释区域的鉴定。而且，5’SAGE法对于在 5’UTR/启动子区域中发现SNP也是有用的。如果全面地鉴定从不同类型的特异mRNA起始部位转录而来的基因，则不仅能够得到对人类基因组的功能复杂性的说明，而且，能够获得对于癌、免疫和神经疾病之类的各种障碍的诊断基础的新的见解。

最后，如果考虑5’末端的多样性，则为了确定基因表达的频率，进行5’SAGE比进行3’SAGE更为恰当。

综上所述，本发明对于基因标记的获取是有用的。基因标记是基因所固有的碱基序列信息。因此，在某个基因文库中标记的出现频率反映着构成该文库的所有基因的表达状态。为此，基因标记对于基因表达分析是有用的。特别是通过本发明能够得到的基因标记是根据所有mRNA所具有的5’末端的结构而生成的。因此，以通过本发明所生成的标记为基础的基因表达分析结果的可靠性更高。

另外，本发明的标记含有mRNA的5’末端区域的碱基序列信息。因此，以通过本发明生成的标记的碱基序列信息为基础，能够鉴定基因组的转录起始点。另外，以本发明标记的碱基序列信息为基础设计的寡核苷酸可作为全长cDNA的合成用引物利用。

另外，本说明书中所引用的所有现有技术文献都是作为参考纳入本说明书的。

序列表

<110>株式会社后基因组研究所

<120>基因标记的获取方法

<130>PGI-A0301YlP

<150>JP 2003-402306

<151>2003-12-01

<150>JP 2004-6630

<151>2004-01-14

<160>69

<170>PatentIn version 3.1

<210>1

<211>48

<212>RNA

<213>Artificial

<220>

<223>an artificially synthesized RNA linker sequence

<400>1

uuuggauuug cuggugcagu acaacuaggc uuaauacucg aguccgac 48

<211>46

<212>RNA

<213>Artificial

<220>

<223>an artificially synthesized RNA linker sequence

<400>2

uuucugcucg aauucaagcu ucuaacgaug uacgcucgag uccgac 46

<210>3

<211>42

<212>DNA

<213>Artificial

<220>

<223>an artificially synthesized primer sequence

<400>3

gcggctgaag acggcctatg tggccttttt tttttttttt tt 42

<210>4

<211>32

<212>DNA

<213>Artificial

<220>

<223>an artificially synthesized primer sequence

<220>

<221>misc_feature

<222>(26)..(31)

<223>″n″＝a，t，g or c

<400>4

gcggctgaag acggcctatg tggccnnnnn nc 32

<210>5

<211>33

<212>DNA

<213>Artificial

<220>

<223>an artificially synthesi zed primer sequence

<220>

<221>misc_feature

<222>(1)..(1)

<223>Label biotin

<400>5

ggatttgctg gtgcagtaca actaggctta ata 33

<210>6

<211>31

<212>DNA

<213>Artificial

<220>

<223>an artificially synthesized primer sequence

<220>

<221>misc_feature

<222>(1)..(1)

<223>Label biotin

<400>6

ctgctcgaat tcaagcttct aacgatgtac g 31

<210>7

<211>21

<212>DNA

<213>Artificial

<220>

<223>an artificially synthesized primer sequence

<400>7

gcggctgaag acggcctatg t 21

<210>8

<211>27

<212>DNA

<213>Artificial

<220>

<223>an artificially synthesized primer sequence

<400>8

ggatttgctg gtgcagtaca actaggc 27

<210>9

<211>27

<212>DNA

<213>Artificial

<220>

<223>an artificially synthesized primer sequence

<400>9

ctgctcgaat tcaagcttct aacgatg 27

<210>10

<211>18

<212>DNA

<213>Homo sapiens

<400>10

acatctgacc tcatggag 18

<210>11

<211>18

<212>DNA

<213>Homo sapiens

<400>11

ctctttcctt gcctaacg 18

<210>12

<211>18

<212>DNA

<213>Homo sapiens

<400>12

tacctggttg atcctgcc 18

<210>13

<211>18

<212>DNA

<213>Homo sapiens

<400>13

cttttcctgt ggcagcag 18

<210>14

<211>18

<212>DNA

<213>Homo sapiens

<400>14

ctcttccgcc gtcgtcgc 18

<210>15

<211>18

<212>DNA

<213>Homo sapiens

<400>15

ctcattgaac tcgcctgc 18

<210>16

<211>18

<212>DNA

<213>Homo sapiens

<400>16

ctggttgatc ctgccagt 18

<210>17

<211>18

<212>DNA

<213>Homo sapiens

<400>17

ctcagtcgcc gctgccag 18

<210>18

<211>18

<212>DNA

<213>Homo sapiens

<400>18

ctttcactgc aaggcggc 18

<210>19

<211>18

<212>DNA

<213>Homo sapiens

<400>19

acgctgtgac agccacac 18

<210>20

<211>18

<212>DNA

<213>Homo sapiens

<400>20

gtgacagcca cacgcccc 18

<210>21

<211>18

<212>DNA

<213>Homo sapiens

<400>21

aacggctagc ctgaggag 18

<210>22

<211>18

<212>DNA

<213>Homo sapiens

<400>22

agtagcagca gcgccggg 18

<210>23

<211>18

<212>DNA

<213>Homo sapiens

<400>23

attcctagtt aaggcggc 18

<210>24

<211>18

<212>DNA

<213>Homo sapiens

<400>24

aattgtgttc gcagccgc 18

<210>25

<211>18

<212>DNA

<213>Homo sapiens

<400>25

atatttctta ctctctcg 18

<210>26

<211>18

<212>DNA

<213>Homo sapiens

<400>26

ctcagtcgcc gctgccaa 18

<210>27

<211>18

<212>DNA

<213>Homo sapiens

<400>27

aaaacggcca gcctgagg 18

<210>28

<211>18

<212>DNA

<213>Homo sapiens

<400>28

ctctctttca ctgcaagg 18

<210>29

<211>18

<212>DNA

<213>Homo sapiens

<400>29

aatttctacg cgcaccgg 18

<210>30

<211>18

<212>DNA

<213>Homo sapiens

<400>30

accgccgaga ccgcgtcc 18

<210>31

<211>18

<212>DNA

<213>Homo sapiens

<400>31

agacgcagag tagattgt 18

<210>32

<211>18

<212>DNA

<213>Homo sapiens

<400>32

agttcgatcg gtagcggg 18

<210>33

<211>18

<212>DNA

<213>Homo sapiens

<400>33

agttctcggg cgtacggc 18

<210>34

<211>18

<212>DNA

<213>Homo sapiens

<400>34

agttgcttca gcgtcccg 18

<210>35

<211>18

<212>DNA

<213>Homo sapiens

<400>35

attaaacggt tgcaggcg 18

<210>36

<211>18

<212>DNA

<213>Homo sapiens

<400>36

ccggccgggg ggcgggcg 18

<210>37

<211>18

<212>DNA

<213>Homo sapiens

<400>37

ccttttggct ctctgacc 18

<210>38

<211>18

<212>DNA

<213>Homo sapiens

<400>38

ctcagtacag ctccggcc 18

<210>39

<211>18

<212>DNA

<213>Homo sapiens

<400>39

ctctttcggc cgcgctgg 18

<210>40

<211>45

<212>DNA

<213>Artificial

<220>

<223>an artificially synthesized DNA linker sequence

<400>40

tttggatttg ctggtgcagt acaactaggc ttaatatccg acatg 45

<210>41

<211>38

<212>DNA

<213>Artificial

<220>

<223>an artificially synthesized DNA linker sequence

<220>

<221>misc_feature

<222>(38)..(38)

<223>C7-amino-modified

<400>41

tcggatatta agcctagttg tactgcacca gcaaatcc 38

<210>42

<211>43

<212>DNA

<213>Artificial

<220>

<223>an artificially synthesized DNA linker sequence

<400>42

tttctgctcg aattcaagct tctaacgatg tacgtccgac atg 43

<210>43

<211>36

<212>DNA

<213>Artificial

<220>

<223>an artificially synthesized DNA linker sequence

<220>

<221>misc_feature

<222>(36)..(36)

<223>C7-amino-modified

<400>43

tcggacgtac atcgttagaa gcttgaattc gagcag 36

<210>44

<211>18

<212>DNA

<213>Homo sapiens

<400>44

gctgtgacag ccacacgc 18

<201>45

<211>18

<212>DNA

<213>Homo sapiens

<400>45

ctttttcgca acgggttt 18

<210>46

<211>18

<212>DNA

<213>Homo sapiens

<400>46

cctcctcatc acacgccg 18

<210>47

<211>18

<212>DNA

<213>Homo sapiens

<400>47

ctttctgccc gtggacgc 18

<210>48

<211>18

<212>DNA

<213>Homo sapiens

<400>48

agtacagctc cggccgcc 18

<210>49

<211>18

<212>DNA

<213>Homo sapiens

<400>49

cacctgtttg caggctgc 18

<210>50

<211>18

<212>DNA

<213>Homo sapiens

<400>50

gtccgtactg cagagccg 18

<210>51

<211>18

<212>DNA

<213>Homo sapiens

<400>51

atttcgtctt agccacgc 18

<210>52

<211>18

<212>DNA

<213>Homo sapiens

<400>52

aggcattgag gcagccag 18

<210>53

<211>18

<212>DNA

<213>Homo sapiens

<400>53

agtgggcgga ccgcgcgg 18

<210>54

<211>18

<212>DNA

<213>Homo sapiens

<400>54

cccaatttct acgcgcac 18

<210>55

<211>18

<212>DNA

<213>Homo sapiens

<400>55

ctcgttgcgc agtagtgc 18

<210>56

<211>18

<212>DNA

<213>Homo sapiens

<400>56

gtgctgcagc cgctgccg 18

<210>57

<211>18

<212>DNA

<213>Homo sapiens

<400>57

catttcgtct tagccacg 18

<210>58

<211>18

<212>DNA

<213>Homo sapiens

<400>58

ctctttccct aagcagcc 18

<210>59

<211>18

<212>DNA

<213>Homo sapiens

<400>59

gactaatttg ttggcggc 18

<210>60

<211>18

<212>DNA

<213>Homo sapiens

<400>60

acctcattca tttctacc 18

<210>61

<211>18

<212>DNA

<213>Homo sapiens

<400>61

cctttctgcc cgtggacg 18

<210>62

<211>18

<212>DNA

<213>Homo sapiens

<400>62

agtatctgtg ggtacccg 18

<210>63

<211>18

<212>DNA

<213>Homo sapiens

<400>63

caatttctac gcgcaccg 18

<210>64

<211>18

<212>DNA

<213>Homo sapiens

<400>64

gcacacagcc atccatcc 18

<210>65

<211>18

<212>DNA

<213>Homo sapiens

<400>65

agtgacgcgt attgcctg 18

<210>66

<211>18

<212>DNA

<213>Homo sapiens

<400>66

ctctttccag ccagcgcc 18

<210>67

<211>18

<212>DNA

<213>Homo sapiens

<400>67

cttttccgcc cgctcccc 18

<210>68

<211>18

<212>DNA

<213>Homo sapiens

<400>68

gcgtcttgtt cttgcctg 18

<210>69

<211>18

<212>DNA

<213>Homo sapiens

<400>69

atatagaggc tgggggtg 18

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

30 金币 0人已下载

下载	加入VIP,免费下载

版权申诉 PDF格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

关键词：: 基因标记获取方法

专利查询网所有文档均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

0条评论

还可以输入200字符

暂无评论，赶快抢占沙发吧。

关于本文

本文标题：基因标记的获取方法.pdf
链接地址：https://www.zhuanlichaxun.net/p-8990863.html