技术领域
本发明属于生物技术领域,具体说,是涉及在丹参中表达的牻牛儿基牻牛儿基焦磷酸合 成酶基因及其编码的蛋白质和应用。
背景技术
心脑血管疾病是目前对人类威胁最大的三大类疾病之一,且是位于这三大疾病之首。据 统计,全世界每年大约有1700万人死于心脑血管疾病,约占全球总死亡人数的1/3;我国每年 大约有260万人死于心脑血管疾病,心脑血管疾病已成为威胁全人类健康与生命的“头号杀 手”。因此积极研究及开发高效、低毒和廉价的治疗心脑血管疾病的临床药物对提高人类健康 水平具有十分深远的意义。
中药丹参系唇形科鼠尾草属植物丹参(Salvia miltiorrhiza Bunge)的干燥根及根茎,因其 色红且形状似参而得名“丹参”,是一种主治心血管系统疾病的常用中药。丹参作为一种传统 中药材在我国沿用已久,始载于《神农本草经》,被列为上品。《本草经疏》、《本草纲目》中 亦有记载。传统中医认为丹参具有祛瘀止痛、活血通经、清心除烦的作用,主治冠心病、心 绞痛、心烦不眠、月经不调、经闭痛经等症。现代药理研究表明丹参对心血管系统,血液系 统的疾病疗效十分显著。以丹参为主的多种复方制剂如复方丹参注射液、复方丹参片、复方 丹参胶囊和复方丹参滴丸等,被临床广泛用于治疗心血管疾病、肾病、肝病及抗感染等,近 年来还发现丹参具有抗肿瘤活性,因此,丹参在临床上具有十分广泛的用途。然而由于丹参 的市场需求巨大,而野生资源日益减少,加之丹参为多年生草本植物,其生长周期较长,药 用活性成分含量低,在传统的栽培模式下,面临着品质严重退化及品种选育成本过高等诸多 弊端。因此,如何使得丹参这一原料药材的供应在数量和质量上能更好地满足临床应用的需 求成了一个研究热点。
研究表明:利用现代基因工程技术将丹参药用活性成分生物合成途径中的关键酶基因导 入到丹参中,获得转基因的发根、细胞系或再生植株,并进行大规模的培养,是提高丹参药 用活性成分的含量和拓展丹参活性产物来源的最佳途径之一。而丹参活性成分主要分为两大 类:即脂溶性二萜类化合物(丹参酮I、丹参酮II A、隐丹参酮等)和水溶性酚酸类化合物(丹 酚酸A、丹酚酸B、紫草酸、迷迭香酸、原儿茶醛、丹参素等),牻牛儿基牻牛儿基焦磷酸合 成酶(GGPPS)催化15碳的法呢基焦磷酸(FPP)与另一个5碳分子异戊烯基焦磷酸(IPP) 可合成20碳的牻牛儿基牻牛儿基焦磷酸(GGPP),GGPP是二萜类物质(包括丹参酮和青蒿 素等)的生物合成的关键前体物质。由于牻牛儿基牻牛儿基焦磷酸合成酶基因编码的酶对于 丹参酮类二萜成分的生物合成具有显著影响,因此,这一步是利用基因工程技术来调控丹参 酮生物合成的关键切入点。但至今尚未有从药物植物丹参中分离克隆出全长牻牛儿基牻牛儿 基焦磷酸合成酶基因的文献报道。
发明内容
本发明所要解决的技术问题是提供一种丹参牻牛儿基牻牛儿基焦磷酸合成酶基因及其编 码的蛋白质和应用,以填补从我国药物植物丹参中分离克隆出牻牛儿基牻牛儿基焦磷酸合成 酶基因的空白。
本发明所提供的丹参牻牛儿基牻牛儿基焦磷酸合成酶基因,是具有SEQ ID No.1所示的 核苷酸序列或者添加、取代、插入或缺失一个或多个核苷酸的同源序列或其等位基因及其衍 生的核苷酸序列。
本发明所提供的丹参牻牛儿基牻牛儿基焦磷酸合成酶基因编码的蛋白质,是具有SEQ ID No.2所示的氨基酸序列或者添加、取代、插入或缺失一个或多个氨基酸的同源序列。
含有本发明的丹参牻牛儿基牻牛儿基焦磷酸合成酶基因全序列或部分片段的质粒和植物 表达载体均属于本发明的保护范围。
一种宿主细胞,该细胞含有本发明的丹参牻牛儿基牻牛儿基焦磷酸合成酶基因或质粒或 植物表达载体的基因序列。
所述宿主细胞为大肠杆菌细胞、农杆菌细胞、酵母细胞、烟草细胞、丹参发根细胞、丹 参细胞或其它植物细胞,优选大肠杆菌细胞或农杆菌细胞或丹参发根细胞。
本发明的丹参牻牛儿基牻牛儿基焦磷酸合成酶基因的应用,包括用所述的植物表达载体 转化丹参细胞或者用所述的农杆菌与丹参细胞共培养或者用所述的丹参发根细胞培育雄性不 育植株或者用所述的牻牛儿基牻牛儿基焦磷酸合成酶基因序列提供一种转基因丹参。
本发明技术方案中涉及的概念具体内容如下:
本发明所说的丹参牻牛儿基牻牛儿基焦磷酸合成酶基因的DNA分子包括:编码具有丹参 牻牛儿基牻牛儿基焦磷酸合成酶活性的多肽的核苷酸序列,而且所述的核苷酸序列与SEQ ID NO.1中从核苷酸第73~1167位的核苷酸序列有至少70%的同源性;或者所述的核苷酸序列 能在40~55℃条件下与SEQ ID NO.1中从核苷酸第73~1167的核苷酸序列杂交。较佳地, 所述的序列编码具有SEQ ID NO.2所示的氨基酸序列的多肽。更佳地,所述的序列具有SEQ ID NO.1中从核苷酸第73~1167位的核苷酸序列。
本发明分离出的丹参牻牛儿基牻牛儿基焦磷酸合成酶多肽包括:具有SEQ ID NO.2氨基 酸序列的多肽、或其保守性变异多肽、或其活性片段,或其活性衍生物。较佳地,该多肽是 具有SEQ ID NO.2序列的多肽。
本发明中的DNA分子包含所述的DNA分子中8~100个连续核苷酸。
在本发明中,“分离的”、“纯化的”DNA是指:该DNA或片段已从天然状态下位于其 两侧的序列中分离出来,或指该DNA或片段已经与天然状态下伴随核酸的组分分开,而且已 经与在细胞中伴随其的蛋白质分开。
本发明中术语“丹参牻牛儿基牻牛儿基焦磷酸合成酶(或多肽)基因”是指:编码具有丹参 牻牛儿基牻牛儿基焦磷酸合成酶活性的多肽的核苷酸序列,如SEQ ID NO.1中第73~1167 位核苷酸序列及其简并序列。该简并序列是指位于SEQ ID NO.1序列的编码框第73~1167 位核苷酸中,有一个或多个密码子被编码相同氨基酸的简并密码子所取代后而产生的序列。 由于密码子的简并性,所以与SEQ ID NO.1中第73~1167位核苷酸序列同源性低至约70% 的简并序列也能编码出SEQ ID NO.2所述的序列。还包括能在中度严谨条件下,更佳的在高 度严谨条件下与SEQ ID NO.1中从核苷酸第73~1167位的核苷酸序列杂交的核苷酸序列。 还包括与SEQ ID NO.1中从核苷酸第73~1167位的核苷酸序列的同源性至少70%,较佳地 至少80%,更佳地至少90%,最佳地至少95%的核苷酸序列。还包括能编码具有与天然的丹 参牻牛儿基牻牛儿基焦磷酸合成酶相同功能的蛋白的SEQ IDNO.1中开放阅读框序列的变异 形式。这些变异形式包括(但并不限于):若干个(通常为1~90个,较佳地1~60个,更佳地 1~20个,最佳地1~10个)核苷酸的缺失、插入和/或取代,以及在5’和/或3’端添加数个(通 常为60个以内,较佳地为30个以内,更佳地为10个以内,最佳地为5个以内)核苷酸。
本发明中术语“丹参牻牛儿基牻牛儿基焦磷酸合成酶蛋白或多肽”是指:具有丹参牻牛 儿基牻牛儿基焦磷酸合成酶活性的SEQ ID NO.2序列的多肽。该术语还包括具有与天然丹参 牻牛儿基牻牛儿基焦磷酸合成酶相同功能的SEQ ID NO.2序列的变异形式。这些变异形式包 括(但并不限于):若干个(通常为1~50个,较佳地1~30个,更佳地1~20个,最佳地1~ 10个)氨基酸的缺失、插入和/或取代,以及在C末端和/或N末端添加一个或数个(通常为20 个以内,较佳地为10个以内,更佳地为5个以内)氨基酸。例如,在本领域中,用性能相近 或相似的氨基酸进行取代时,通常不会改变蛋白质的功能。又比如,在C末端和/或N末端添 加一个或数个氨基酸通常也不会改变蛋白质的功能。该术语还包括丹参牻牛儿基牻牛儿基焦 磷酸合成酶的活性片段和活性衍生物,还包括能够可操作地连于信号肽、启动子或者核糖体 结合位点序列所组成的衍生物。
本发明的丹参牻牛儿基牻牛儿基焦磷酸合成酶多肽的变异形式包括:同源序列、保守性 变异体、等位变异体、天然突变体、诱导突变体、在高或低的严谨条件下能与丹参牻牛儿基 牻牛儿基焦磷酸合成酶DNA杂交的DNA所编码的蛋白、以及利用丹参牻牛儿基牻牛儿基焦 磷酸合成酶多肽的血清获得的多肽或蛋白。
本发明中丹参牻牛儿基牻牛儿基焦磷酸合成酶保守性变异多肽是指:与SEQ ID NO.2的 氨基酸序列相比,有至多10个,较佳地至多8个,更佳地至多5个氨基酸性质相似或相近的 氨基酸所替换而形成多肽。这些保守性变异多肽最好根据表1进行替换而产生。
表1.保守性变异多肽中的取代残基
最初的残基 代表性的取代 优选的取代 Ala(A) Val;Leu;Ile Val Arg(R) Lys;Gln;Asn Lys Asn(N) Gln;His;Lys;Arg Gln Asp(D) Glu Glu Cys(C) Ser Ser Gln(Q) Asn Asn Glu(E) Asp Asp Gly(G) Pro;Ala Ala His(H) Asn;Gln;Lys;Arg Arg Ile(I) Leu;Val;Met;Ala;Phe Leu Leu(L) Ile;Val;Met;Ala;Phe Ile Lys(K) Arg;Gln;Asn Arg Met(M) Leu;Phe;Ile Leu Phe(F) Leu;Val;Ile;Ala;Tyr Leu Pro(P) Ala Ala Ser(S) Thr Thr Thr(T) Ser Ser Trp(W) Tyr;Phe Tyr Tyr(Y) Trp;Phe;Thr;Ser Phe Val(V) Ile;Leu;Met;Phe;Ala Leu
本发明还包括丹参牻牛儿基牻牛儿基焦磷酸合成酶或多肽的类似物。这些类似物与天然 牻牛儿基牻牛儿基焦磷酸合成酶多肽的差别可以是氨基酸序列上的差异,也可以是不影响序 列的修饰形式上的差异,或者兼而有之。这些多肽包括天然或诱导的遗传变异体。诱导变异 体可以通过各种技术得到,如通过辐射或暴露于诱变剂而产生随机诱变,还可通过定点诱变 法或其他已知分子生物学的技术。类似物还包括具有不同于天然L-氨基酸的残基(如D-氨基 酸)的类似物,以及具有非天然存在的或合成的氨基酸(如β、γ-氨基酸)的类似物。应理解, 本发明的多肽并不限于上述例举的代表性的多肽。所述修饰(通常不改变一级结构)形式包括: 体内或体外的多肽的化学衍生形式如乙酰化或羧基化。修饰还包括糖基化,如那些在多肽的 合成和加工中或进一步加工步骤中进行糖基化修饰而产生的多肽。这种修饰可以通过将多肽 暴露于进行糖基化的酶(如哺乳动物的糖基化酶或去糖基化酶)而完成。修饰形式还包括具有磷 酸化氨基酸残基(如磷酸酪氨酸,磷酸丝氨酸,磷酸苏氨酸)的序列。还包括被修饰从而提高了 其蛋白水解性能或优化了溶解性能的多肽。
在本发明中,可选用本领域已知的各种载体,如市售的载体,包括质粒,粘粒等。在生 产本发明的丹参牻牛儿基牻牛儿基焦磷酸合成酶多肽时,可以将丹参牻牛儿基牻牛儿基焦磷 酸合成酶基因的核苷酸序列可操作地连于表达调控序列,从而形成丹参牻牛儿基牻牛儿基焦 磷酸合成酶表达载体。所述“可操作地连于”指这样一种状况,即线性DNA序列的某些部分 能够影响同一线性DNA序列其他部分的活性。例如,如果信号肽DNA作为前体表达并参与 多肽的分泌,那么信号肽(分泌前导序列)DNA就是可操作地连于多肽DNA;如果启动子控制 序列的转录,那么它是可操作地连于编码序列;如果核糖体结合位点被置于能使其翻译的位 置时,那么它是可操作地连于编码序列。一般,“可操作地连于”意味着相邻,而对于分泌前 导序列则意味着在阅读框中相邻。
本发明中宿主细胞为原核细胞或者真核细胞。常用的原核宿主细胞包括大肠杆菌;常用 的真核宿主细胞包括酵母细胞、烟草细胞和其它植物细胞。
本发明还可用Northern印迹法技术分析丹参牻牛儿基牻牛儿基焦磷酸合成酶基因产物的 表达,即分析丹参牻牛儿基牻牛儿基焦磷酸合成酶的RNA转录物在细胞中的存在和数量。
此外,本发明中可用作探针的核酸分子通常具有丹参牻牛儿基牻牛儿基焦磷酸合成酶核 苷酸编码序列的8~100个连续核苷酸,较佳地具有15~50个连续核苷酸。该探针可用于检 测样品中是否存在编码丹参牻牛儿基牻牛儿基焦磷酸合成酶的核酸分子。
本发明涉及检测样品中是否存在丹参牻牛儿基牻牛儿基焦磷酸合成酶核苷酸序列的方 法,它包括用上述的探针与样品进行杂交,然后检测探针是否发生了结合。较佳地,该样品 是PCR扩增后的产物,其中PCR扩增引物对应于丹参牻牛儿基牻牛儿基焦磷酸合成酶核苷 酸编码序列,并可位于该编码序列的两侧或中间。引物长度一般为15~50个核苷酸。此外, 根据本发明的丹参牻牛儿基牻牛儿基焦磷酸合成酶核苷酸序列和氨基酸序列,可以在核酸同 源性或表达蛋白质的同源性基础上,筛选丹参牻牛儿基牻牛儿基焦磷酸合成酶源基因或同源 蛋白。
为了得到与丹参牻牛儿基牻牛儿基焦磷酸合成酶相关的丹参cDNAs的点阵,可以用DNA 探针筛选丹参cDNA文库,这些探针是在低严谨条件下,用32P对丹参牻牛儿基牻牛儿基焦 磷酸合成酶基因的全部或部分做放射活性标记而得的。最适合于筛选的cDNA文库是来自丹 参的文库。构建来自感兴趣的细胞或者组织的cDNA文库的方法是分子生物学领域众所周知 的。另外,许多这样的cDNA文库也可以购买到,例如购自Clontech,Stratagene,Palo Alto,Cal.。 这种筛选方法可以识别与丹参牻牛儿基牻牛儿基焦磷酸合成酶的基因家族的核苷酸序列。
本发明的丹参牻牛儿基牻牛儿基焦磷酸合成酶核苷酸全长序列或其片段通常可以用PCR 扩增法、重组法或人工合成的方法获得。对于PCR扩增法,可根据本发明所公开的有关核苷 酸序列,尤其是开放阅读框序列来设计引物,并用市售的cDNA库或按本领域技术人员已知 的常规方法所制备的cDNA库作为模板,扩增而得有关序列。当序列较长时,常常需要进行 两次或多次PCR扩增,然后再将各次扩增出的片段按正确次序拼接在一起。一旦获得了有关 的序列,就可以用重组法来大批量地获得有关序列。这通常是将其克隆入载体,再转入细胞, 然后通过常规方法从增殖后的宿主细胞中分离得到有关序列。此外,还可通过化学合成将突 变引入本发明蛋白序列中。除了用重组法产生之外,本发明蛋白的片段还可用固相技术,通 过直接合成肽而加以生产(Stewart等人,(1969)Solid-Phase Peptide Synthesis,WH Freeman Co., San Francisco;Merrifield J.(1963)J.Am Chem.Soc 85:2149~2154)。在体外合成蛋白质可以 用手工或自动进行。例如,可以用Applied Biosystems的431A型肽合成仪(Foster City,CA) 来自动合成肽。可以分别化学合成本发明蛋白的各片段,然后用化学方法加以连接以产生全 长的分子。利用本发明的丹参牻牛儿基牻牛儿基焦磷酸合成酶,通过各种常规筛选方法,可 筛选出与丹参牻牛儿基牻牛儿基焦磷酸合成酶发生相互作用的物质,或者受体、抑制剂或拮 剂等。
本发明提供的牻牛儿基牻牛儿基焦磷酸合成酶基因是首次从丹参中克隆制备的,可以通 过基因工程技术来提高丹参等植物中丹参酮的含量,转基因结果显示,丹参牻牛儿基牻牛儿 基焦磷酸合成酶基因对促进丹参酮含量的提高有明显作用,丹参牻牛儿基牻牛儿基焦磷酸合 成酶基因可用于利用转基因技术来提高丹参酮含量的研究和产业化中,尤其可用于中药材丹 参的品质改良,对于缓解丹参酮药源严重匮乏问题具有较好的促进作用,因此本发明具有很 好的应用前景。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不 用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可 以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
下列实施例中未注明具体条件的实验方法,通常按照常规条件,例如Sambrook等分子克 隆:实验室手册(New York:Cold Spring Harbor Laboratory Press,1989)中所述的条件,或按照 制造厂商所建议的条件。
实施例1(丹参牻牛儿基牻牛儿基焦磷酸合成酶基因的克隆)
1.组织分离(isolation)
丹参植株来源于河南,采取幼嫩根后立即置于液氮中冷冻保存。
2.RNA的分离(RNA isolation)
取部分组织用研钵研碎,加入盛有裂解液的1.5mL EP管,充分振荡后,再移入玻璃匀 浆器内。匀浆后移至1.5mL EP管中,抽提总RNA(TRIzol Reagents,GIBCO BRL,USA)。用 甲醛变性胶电泳鉴定总RNA质量,然后在分光光度计上测定RNA含量。
3.基因的全长克隆(Cloning of Full-length cDNA)
根据曼地亚红豆杉,野生烟草及其它已克隆得到的牻牛儿基牻牛儿基焦磷酸合成酶氨基 酸保守序列,设计简并引物,利用同源性基因克隆原理,采用Smart-RACE方法(Clonetech试 剂盒)进行cDNA全长克隆,分三个阶段进行:
(1)3′-RACE
PCR(UPM+F2)得到SmGGPPS F2’(695bp),回收,连接到T-Easy载体上,用SP6或T7 作为通用引物,采用终止物荧光标记(Big-Dye,Perkin-Elmer,USA)的方法,在ABI 3730测 序仪(Perkin-Elmer,USA)上进行测序。测序结果用GCG软件包(Wisconsin group,USA)中的 BLAST和FASTA软件搜索已有的数据库(Genebank+EMBL),结果表明其核酸序列及编码蛋 白与已知GGPPS基因(如野生烟草GGPPS基因等)的同源性很高,故初步认为它是一个GGPPS 基因。
(2)5′-RACE
根据3′RACE结果,设计反向特异引物R2,经PCR(UPM+R2)得到SmGGPPS R2′(748bp) (过程同(1))。回收,连接到T-Easy载体上,用SP6或T7作为通用引物,采用终止物荧光标 记(Big-Dye,Perkin-Elmer,USA)的方法,在ABI 3730测序仪(Perkin-Elmer,USA)上进行测 序。
(3)将5′RACE测序结果与3′RACE测序结果比序并进行拼接,得到全长片段序列信息, 并设计一对特异引物SmGGPPS KF1(5′-ATGAGATCTATGAATCTGGT-3′)(SEQ ID NO.3)和 SmGGPPS KR1(5′-TTAGTTCTGCCTATGTGCAA-3′)(SEQ ID NO.4)进行PCR扩增SmGGPPS 编码区得到SmGGPPS编码区(1095bp)(过程同步骤(1))。
BLAST的结果证明:从丹参中新得到的基因确为一个牻牛儿基牻牛儿基焦磷酸合成酶基 因。研究表明,牻牛儿基牻牛儿基焦磷酸合成酶基因对于萜类物质如紫杉醇等的代谢合成具 有重要影响,故推测新克隆的基因具有相似的功能。
通过组合使用上述3种方法,获得了候选的丹参SmGGPPS蛋白的全长编码序列。在拼 接得到全长(至少包含完整的开放读框)的基础上,以SmGGPPS F1 (5′-ATCAACAGACTTACCCGAACTCT-3′)为正向引物,SmGGPPS R1 (5′-CTACAACAAACACCAAACTTTTC-3′)为反向引物,以总RNA为模板,进行RT-PCR 扩增,PCR条件为94℃5分钟,随之以94℃1分钟、58℃1分钟和72℃2分半钟进行35 个循环,最后以72℃延伸10分钟。电泳检测PCR扩增产物,获得扩增片段长度为1217bp。 然后按常规方法以PCR扩增产物进行克隆、测序,获得SEQ ID NO.1所示的序列。
实施例2(丹参GGPPS基因的序列信息与同源性分析)
本发明的丹参牻牛儿基牻牛儿基焦磷酸合成酶全长cDNA的长度为1095bp,详细序列见 SEQ ID NO.1,其中开放读框位于73~1167位核苷酸。根据全长cDNA推导出丹参牻牛儿基 牻牛儿基焦磷酸合成酶的氨基酸序列,共364个氨基酸残基,分子量39.04KDa,pI为5.68, 详细序列见SEQ ID NO.2。
将丹参牻牛儿基牻牛儿基焦磷酸合成酶的全长cDNA序列及其编码蛋白质用BLAST程 序在Non-redundant GenBank+EMBL+DDBJ+PDB和Non-redundant GenBank CDS translations +PDB+SwissProt+Superdate+PIR数据库中进行核苷酸和蛋白质同源性检索,结果发现它与野 生烟草GGPPS基因(GenBank Accession No.EF382626)具有72%的同源性(见表2);在氨基酸 水平上,它与野生烟草GGPPS(GenBank Accession No.ABQ53935)的第1~364位氨基酸残基 有74%的相同性和85%的相似性(见表3)。由上可见,丹参牻牛儿基牻牛儿基焦磷酸合成酶基 因与野生烟草牻牛儿基牻牛儿基焦磷酸合成酶基因无论从核酸还是蛋白水平上都存在较高的 同源性。故可以认为丹参牻牛儿基牻牛儿基焦磷酸合成酶在提高丹参中丹参酮类二萜成分含 量上具有促进作用。
表2.本发明的丹参SmGGPPS与野生烟草(Nicotiana attenuata)NaGGPPS 的核苷酸序列的同源比较(GAP)
Query 297 GATCCACGACGCGATGCGCTACTCCCTCCTCGCCGGAGGCAAGCGCGTCCGCCCCATGCT 356
||||||||| | ||||||||||| || ||||| || ||||| | ||||||||||||||
Sbjct 258 GATCCACGAATCTATGCGCTACTCTCTTCTCGCGGGGGGCAAAAGGGTCCGCCCCATGCT 317
Query 357 CTGTATCGCCGCCTGCGAGATCGTCGGCGGCCCCCAGTCGGCGGCGATCCCCGCCGCCTG 416
||| |||||||||||||| |||||||||||| || || | || || || ||||||||
Sbjct 318 CTGCCTCGCCGCCTGCGAGCTCGTCGGCGGCCACCCCTCCACCGCCATGCCTGCCGCCTG 377
Query 417 CGCCGTCGAGATGATCCACACCATGTCTCTCATCCACGACGATCTACCCTGTATGGACAA 476
||| |||||||||||||||||||||| ||||| |||||| || || ||| ||||||||||
Sbjct 378 CTCCATCGAGATGATCCACACCATGTCCCTCATGCACGACGACCTCCCCTGCATGGACAA 437
Query 477 TGATGACCTCCGCCGCGGCAAGCCCACCAATCACAAGGTCTTCGGCGAAGACGTTGCTGT 536
|| | |||||||||||| | ||||| || |||| |||||| || || ||||| |||||
Sbjct 438 CGACCATCTCCGCCGCGGCCATCCCACTAACCACATCGTCTTCGGAGAGGACGTCGCTGT 497
Query 537 GCTCGCAGGGGATGCTCTGTTGGCTTTCGCGTTCGAATTCATGGCCACGGCAACGACGGG 596
|| ||| || || ||||| | || | | ||||||| | | ||||| || || |||
Sbjct 498 CCTCGCCGGCGACGCTCTTCTTGCCTATTCCTTCGAATACTTAGCCACCGCGACAGAGGG 557
Query 597 GGTGGCGCCGGAAAGGATACTGGCGGCGGTGGGGGAGCTGGCGAAGGCGATCGGGACAGA 656
|| || ||| ||||| | | | | | ||| ||||||| ||| | ||||
Sbjct 558 AGTCCTTCCTGAACGGATAGTCAGAGTGATCGCCGAGTTGGCGAAATGTATCCGCTCAGA 617
Query 657 GGGGCTGGTGGCGGGGCAAGTGGTGGACCT--GAACTGCACCGGCGATGCAAACG---TA 711
|| || |||||||||| |||||||| | | ||| | |||| || | || |
Sbjct 618 AGGCCTTCTGGCGGGGCAGGTGGTGGATATATGCTCTGAA--GGCG-TG--AGCGAGATC 672
Query 712 GGGTTAGACACATTGGAATTCATACACATACACAAAACTGCTGCACTGTTAGAGGCCTCT 771
||||| || ||||| | |||||| | ||||| || || || || | |||| |||
Sbjct 673 GGGTTGGAGCATTTGGAGTACATACATTTGCACAAGACGGCGGCGTTGCTCGAGGGCTCG 732
Query 772 GTAGTTTTGGGGGCTATTTTGGGAGGTGGAAGCAGCGATCAAATTGAGAAATTAAGAACT 831
|| || ||||| || |||||||| || || | || | |||| | || || |
Sbjct 733 GTCGTCTTGGGCGCGATTTTGGGTGGCGGGAATGATGAAGAGGTTGAAAGGTTGAGGAAG 792
Query 832 TTCGCTAGGAAAATTGGTCTGCTTTTCCAAGTTGTGGATGACATTTTGGATGTGACCAAG 891
|| || ||| ||||| ||| | || || || |||||||| ||| | ||||| || ||
Sbjct 793 TTTGCCAGGTGTATTGGGCTGTTGTTTCAGGTGGTGGATGATATTCTTGATGTTACTAAA 852
Query 892 TCTTCGGAGGAGTTGGGAAAGACGGCTGGGAAGGACTTGGCCGTCGACAAGACCACGTAT 951
| |||| |||| |||| |||||||| ||||| || |||| | || ||||||||||||
Sbjct 853 ACGTCGGTGGAGCTGGGGAAGACGGCCGGGAAAGATTTGGTGGCGGATAAGACCACGTAT 912
Query 952 CCCAAGCTGCTGGGGCTGGACAAGGCCATGGAGTTTGCCGAGAAGCTCAACGAGGAGGCC 1011
| |||||| | ||| | || ||| | | ||||||||| |||||| | ||| ||||||
Sbjct 913 CCGAAGCTGATTGGGATTGAGAAGTCGAGGGAGTTTGCGGAGAAGTTGAACCGGGAGGCG 972
Query 1012 AAGGCGCAGCTCGCAGGGTTCGACCCGAGCAAGGCGGCTCCACTGACCGCGCTGGCCGAT 1071
||| ||||| | |||||| || || ||||| || || ||| ||||| || ||
Sbjct 973 CAGGAACAGCTTGTAGGGTTTGATTCGGATAAGGCCGCGCCGTTGATTGCGCTCGCGAAT 1032
Query 1072 TACATTGCACATAGGCAGAA 1091
|| ||||| ||||| ||||
Sbjct 1033 TATATTGCGTATAGGGAGAA 1052
其中:Query表示丹参SmGGPPS的核酸序列;Subject表示野生烟草NaGGPPS的核酸 序列(GenBank Accession No.EF382626)。比较结果显示:在1095个核苷酸的比对中两者有72% 的相似性。
表3.本发明的丹参SmGGPPS与野生烟草NaGGPPS氨基酸序列的 同源比较(FASTA)
Query 1 MRSMNLVDAWV-QNLSIFKQPCPSKSLVGFIHHPRFEPVFLKSRKRISSHGVSAVLTGEE 59
MRSMNLVD+W Q S+F Q P+K+ GF+ P P FLK++ S+ VSA+ T E+
Sbjct 1 MRSMNLVDSWAAQVCSVFNQTIPNKTFTGFMKIPVKNPSFLKQKRPFSALSVSAIATKED 60
Query 60 ARVS-TQRDDAPFNFNAYVVEKANHVNEALDDAVAVRNPPMIHDAMRYSLLAGGKRVR 116
RV TQ++ FNF YV EKA VN+ALD+AV V++PP+I++AMRYSLLAGGKRVR
Sbjct 61 ERVKEAGTQKEQ--FNFKTYVAEKAISVNKALDEAVIVKDPPVIYEAMRYSLLAGGKRVR 118
Query 117 PMLCIAACEIVGGPQSAAIPAACAVEMIHTMSLIHDDLPCMDNDDLRRGKPTNHKVFGED 176
PMLC+AACE+VGG QS A+PAACAVEMIHTMSLIHDDLPCMDNDD+RRGKPTNHKV+GED
Sbjct 119 PMLCLAACELVGGDQSNAMPAACAVEMIHTMSLIHDDLPCMDNDDIRRGKPTNHKVYGED 178
Query 177 VAVLAGDALLAFAFEFMATATTGVAPERILAAVGELAKAIGTEGLVAGQVVDLNCTGDAN 236
VAVLAGD+LLAFAFEF+ATAT GV+P RILAA+GELAK+IGTEGLVAGQV D+ CTG +N
Sbjct 179 VAVLAGDSLLAFAFEFIATATAGVSPSRILAAIGELAKSIGTEGLVAGQVADIACTGNPN 238
Query 237 VGLDTLEFIHIHKTAALLEASVVLGAILGGGSSDQIEKLRTFARKIGLLFQVVDDILDVT 296
VGLDTLEFIHIHKTAALLEASVVLGAILGGG+ +++EKLR FAR IGLLFQVVDDILDVT
Sbjct 239 VGLDTLEFIHIHKTAALLEASVVLGAILGGGTDEEVEKLRRFARCIGLLFQVVDDILDVT 298
Query 297 KSSEELGKTAGKDLAVDKTTYPKLLGLDKAMEFAEKLNEEAKAQLAGFDPSKAAPLTALA 356
KSSEELGKTAGKDL VDKTTYPKLLGL+KA EFA +LN +AK QLA FDP KAAPL ALA
Sbjct 299 KSSEELGKTAGKDLVVDKTTYPKLLGLEKAKEFAAELNRDAKQQLADFDPHKAAPLVALA 358
Query 357 DYIAHRQN 364
DYIA+RQN
Sbjct 359 DYIANRQN 366
其中:Query表示丹参SmGGPPS的氨基酸序列;Subject表示野生烟草NaGGPPS的氨 基酸序列(GenBank Accession No.ABQ53935);相同的氨基酸在两个序列之间用氨基酸单字符 标出。比较结果显示:在364个氨基酸的比对中,两者分别有74%的相同性和85%的相似性。
实施例3(丹参牻牛儿基牻牛儿基焦磷酸合成酶或多肽在大肠杆菌中进行原核表达及提 纯)
在该实施例中,将全长的丹参SmGGPPS基因编码序列或片段构建入商品化的蛋白质融 合表达载体之中,以表达和提纯重组蛋白。
1、原核表达载体的构建以及转化大肠杆菌
根据丹参SmGGPPS的核苷酸序列,设计扩增出蛋白编码区的引物,并在正反引物上分 别引入限制性内切酶位点(这根据选用的pET28a(+)载体而定),以便构建表达载体。以实施例 1中获得的扩增产物为模板,经PCR扩增后,将丹参SmGGPPS基因在保证阅读框正确的前 提下克隆至pET28a(+)载体(Novagen)。鉴定好的表达载体利用CaCl2方法转入大肠杆菌BL21, 筛选鉴定得到含有pET28a(+)-SmGGPPS表达载体的工程菌BL21-pET28a(+)-SmGGPPS。
2、表达Trx-SmGGPPS重组蛋白的工程菌的分离鉴定
挑取单菌落的BL21-pET28a(+)-SmGGPPS工程菌于3mL含100μg/mL氨苄青霉素的LB 培养基中振摇培养过夜,按1∶100的浓度吸取培养液于新的LB培养基(含100μg/mL氨苄青 霉素)中培养约3小时,至OD600达0.5后,加入IPTG至终浓度1mmol/L继续于37℃分别培 养0,1,2,3小时。取培养时间不同的1mL菌液离心,在细菌沉淀物中加入裂解液(2×SDS 上样缓冲液50μL,蒸馏水45μL,二巯基乙醇5μL),混悬细菌沉淀,沸水浴中煮5分钟,10000rpm 离心1分钟,上清加入12%SDS-PAGE胶中电泳。染色后观察预期分子量大小的蛋白量随IPTG 诱导时间增加而增加的菌株即为表达Trx-SmGGPPS融合蛋白的工程菌。
3、Trx-SmGGPPS融合蛋白的提取纯化
按上述方法诱导表达Trx-SmGGPPS融合表达蛋白的工程菌BL21-pET28a(+)-SmGGPPS, 经离心沉淀收集菌体,并根据厂家(Novagen)的说明书以BugBuster试剂和Benzonase核酸 酶来纯化包涵体。包涵体可用溶解缓冲液(50mM CAPS,pH11.0,0.3%N-lauroylsarcosine) 来溶解,再用透析缓冲液(200mM Tris-HCl,pH8.5)来透析。然后用组氨酸结合(His Bind) 树脂进行亲和层析,并经洗脱缓冲液(1M imidazole,500mM NaCl,20mM Tris-HCl pH7.9)洗 脱来收集Trx-SmGGPPS融合蛋白。融合蛋白经肠激酶20℃酶切16小时后即可分离获得 SmGGPPS的表达蛋白。
所获得的表达蛋白分子量为41.3KD,pI为5.0,具有催化15碳的法呢基焦磷酸(FPP) 与另一个5碳分子异戊烯基焦磷酸(IPP)合成20碳的牻牛儿基牻牛儿基焦磷酸(GGPP)的 酶活性。
实施例4(丹参牻牛儿基牻牛儿基焦磷酸合成酶或多肽在丹参中进行真核细胞表达及转 基因发根中丹参酮含量测定)
含目的基因(丹参牻牛儿基牻牛儿基焦磷酸合成酶基因)的表达载体的构建,根据丹参 牻牛儿基牻牛儿基焦磷酸合成酶的全长序列(SEQ ID NO.1),设计扩增出完整编码阅读框的引 物,并在上游和下游引物上分别引入限制性内切酶位点(这可视选用的载体而定),以便构建表 达载体。以实施例1中获得的扩增产物为模板,经PCR扩增后,将丹参牻牛儿基牻牛儿基焦 磷酸合成酶基因cDNA克隆到双元表达载体(如pBI121),将其转入农杆菌中,遗传转化资 源植物丹参或喜树。利用发根农杆菌Ri质粒介导的丹参的遗传转化过程为:
1)将发根农杆菌C58C1在使用前自冰箱取出,传代2次,传代所用固体培养基为YEB培 养基;菌种在使用前接种于YEB液体培养基中,于28℃培养过夜。
2)取生长8周左右的丹参无菌嫩叶片。
3)经过夜培养的菌液,用转化液稀释为100个细菌/mL;取无菌丹参叶片,用无菌的解剖 刀划以“+”字形伤口,放入上述转化中,以60rpm/min振荡培养8h,取出用无菌水冲洗3 次,放入含250~500mg/L卡那霉素和不同浓度的B5培养基中,每2周转移到新鲜培养基中 1次,待长出毛状根后分离毛状根,转移至含250~500mg/L卡那霉素无激素的1/2MS培养 基中培养,转移4~5次直至无细菌为止,然后再转移至不含卡那霉素的无激素1/2MS培养 基中培养。
4)将在固体培养基中的毛状根的继代培养物,接种于装有100mL无激素1/2MS培养基 的500mL三角瓶中,培养温度、光照、转速等培养条件与愈伤组织液体悬浮培养条件相同, 培养20天,将毛状根从培养基上取出放入冷冻干燥机中进行干燥,然后称重,贮存于-70℃ 备用。
5)含丹参牻牛儿基牻牛儿基焦磷酸合成酶基因的转基因发根的丹参酮含量测定 按Ge等(Plant Science,2005)的方法对表达丹参牻牛儿基牻牛儿基焦磷酸合成酶基因的转基 因发根进行丹参酮含量测定。测定结果表明:在表达丹参牻牛儿基牻牛儿基焦磷酸合成酶基 因的转基因发根中丹参酮含量同非转基因对照组的相比,提高2.1倍(P<0.05)。因此转基因结 果证明:丹参牻牛儿基牻牛儿基焦磷酸合成酶基因对促进丹参酮含量的提高有明显作用。
核苷酸序列表
<110>上海师范大学
<120>丹参牻牛儿基牻牛儿基焦磷酸合成酶基因及其编码的蛋白质和应用
<160>4
<170>PatentIn version 3.3
<210>1
<211>1234
<212>DNA
<213>丹参(Salvia miltiorrhiza)
<220>
<221>CDS
<222>(73)..(1167)
<400>1
atcaacagac ttacccgaac tcttagctca aaaaccaact agaaaaagaa aaagaaaaaa 60
aattagaaaa tt atg aga tct atg aat ctg gtg gat gcg tgg gtc caa aac 111
Met Arg Ser Met Asn Leu Val Asp Ala Trp Val Gln Asn
1 5 10
ctc tca atc ttc aag cag cca tgc ccc tcc aaa tcc ctg gtc gga ttc 159
Leu Ser Ile Phe Lys Gln Pro Cys Pro Ser Lys Ser Leu Val Gly Phe
15 20 25
atc cac cac ccg aga ttc gaa ccc gtt ttc ctg aaa tca cgg aag cgc 207
Ile His His Pro Arg Phe Glu Pro Val Phe Leu Lys Ser Arg Lys Arg
30 35 40 45
att tcc tcc cac ggc gtc tcc gcc gtg ctc acc ggc gag gag gcc aga 255
Ile Ser Ser His Gly Val Ser Ala Val Leu Thr Gly Glu Glu Ala Arg
50 55 60
gtg tcg acg cag aga gac gat gcg ccc ttc aat ttc aac gcc tac gtc 303
Val Ser Thr Gln Arg Asp Asp Ala Pro Phe Asn Phe Asn Ala Tyr Val
65 70 75
gtc gag aag gcg aat cac gtg aac gag gcg ctt gac gac gcc gtg gcg 351
Val Glu Lys Ala Asn His Val Asn Glu Ala Leu Asp Asp Ala Val Ala
80 85 90
gtc agg aat cca ccg atg atc cac gac gcg atg cgc tac tcc ctc ctc 399
Val Arg Asn Pro Pro Met Ile His Asp Ala Met Arg Tyr Ser Leu Leu
95 100 105
gcc gga ggc aag cgc gtc cgc ccc atg ctc tgt atc gcc gcc tgc gag 447
Ala Gly Gly Lys Arg Val Arg Pro Met Leu Cys Ile Ala Ala Cys Glu
110 115 120 125
atc gtc ggc ggc ccc cag tcg gcg gcg atc ccc gcc gcc tgc gcc gtc 495
Ile Val Gly Gly Pro Gln Ser Ala Ala Ile Pro Ala Ala Cys Ala Val
130 135 140
gag atg atc cac acc atg tct ctc atc cac gac gat cta ccc tgt atg 543
Glu Met Ile His Thr Met Ser Leu Ile His Asp Asp Leu Pro Cys Met
145 150 155
gac aat gat gac ctc cgc cgc ggc aag ccc acc aat cac aag gtc ttc 591
Asp Asn Asp Asp Leu Arg Arg Gly Lys Pro Thr Asn His Lys Val Phe
160 165 170
ggc gaa gac gtt gct gtg ctc gca ggg gat gct ctg ttg gct ttc gcg 639
Gly Glu Asp Val Ala Val Leu Ala Gly Asp Ala Leu Leu Ala Phe Ala
175 180 185
ttc gaa ttc atg gcc acg gca acg acg ggg gtg gcg ccg gaa agg ata 687
Phe Glu Phe Met Ala Thr Ala Thr Thr Gly Val Ala Pro Glu Arg Ile
190 195 200 205
ctg gcg gcg gtg ggg gag ctg gcg aag gcg atc ggg aca gag ggg ctg 735
Leu Ala Ala Val Gly Glu Leu Ala Lys Ala Ile Gly Thr Glu Gly Leu
210 215 220
gtg gcg ggg caa gtg gtg gac ctg aac tgc acc ggc gat gca aac gta 783
Val Ala Gly Gln Val Val Asp Leu Asn Cys Thr Gly Asp Ala Asn Val
225 230 235
ggg tta gac aca ttg gaa ttc ata cac ata cac aaa act gct gca ctg 831
Gly Leu Asp Thr Leu Glu Phe Ile His Ile His Lys Thr Ala Ala Leu
240 245 250
tta gag gcc tct gta gtt ttg ggg gct att ttg gga ggt gga agc agc 879
Leu Glu Ala Ser Val Val Leu Gly Ala Ile Leu Gly Gly Gly Ser Ser
255 260 265
gat caa att gag aaa tta aga act ttc gct agg aaa att ggt ctg ctt 927
Asp Gln Ile Glu Lys Leu Arg Thr Phe Ala Arg Lys Ile Gly Leu Leu
270 275 280 285
ttc caa gtt gtg gat gac att ttg gat gtg acc aag tct tcg gag gag 975
Phe Gln Val Val Asp Asp Ile Leu Asp Val Thr Lys Ser Ser Glu Glu
290 295 300
ttg gga aag acg gct ggg aag gac ttg gcc gtc gac aag acc acg tat 1023
Leu Gly Lys Thr Ala Gly Lys Asp Leu Ala Val Asp Lys Thr Thr Tyr
305 310 315
ccc aag ctg ctg ggg ctg gac aag gcc atg gag ttt gcc gag aag ctc 1071
Pro Lys Leu Leu Gly Leu Asp Lys Ala Met Glu Phe Ala Glu Lys Leu
320 325 330
aac gag gag gcc aag gcg cag ctc gca ggg ttc gac ccg agc aag gcg 1119
Asn Glu Glu Ala Lys Ala Gln Leu Ala Gly Phe Asp Pro Ser Lys Ala
335 340 345
gct cca ctg acc gcg ctg gcc gat tac att gca cat agg cag aac taa 1167
Ala Pro Leu Thr Ala Leu Ala Asp Tyr Ile Ala His Arg Gln Asn
350 355 360
cttaagctag ttagttttgc tgctaatgaa aagtttggtg tttgttgtag aaaaaaaaaa 1227
aaaaaaa 1234
<210>2
<211>364
<212>PRT
<213>丹参(Salvia miltiorrhiza)
<400>2
Met Arg Ser Met Asn Leu Val Asp Ala Trp Val Gln Asn Leu Ser Ile
1 5 10 15
Phe Lys Gln Pro Cys Pro Ser Lys Ser Leu Val Gly Phe Ile His His
20 25 30
Pro Arg Phe Glu Pro Val Phe Leu Lys Ser Arg Lys Arg Ile Ser Ser
35 40 45
His Gly Val Ser Ala Val Leu Thr Gly Glu Glu Ala Arg Val Ser Thr
50 55 60
Gln Arg Asp Asp Ala Pro Phe Asn Phe Asn Ala Tyr Val Val Glu Lys
65 70 75 80
Ala Asn His Val Asn Glu Ala Leu Asp Asp Ala Val Ala Val Arg Asn
85 90 95
Pro Pro Met Ile His Asp Ala Met Arg Tyr Ser Leu Leu Ala Gly Gly
100 105 110
Lys Arg Val Arg Pro Met Leu Cys Ile Ala Ala Cys Glu Ile Val Gly
115 120 125
Gly Pro Gln Ser Ala Ala Ile Pro Ala Ala Cys Ala Val Glu Met Ile
130 135 140
His Thr Met Ser Leu Ile His Asp Asp Leu Pro Cys Met Asp Asn Asp
145 150 155 160
Asp Leu Arg Arg Gly Lys Pro Thr Asn His Lys Val Phe Gly Glu Asp
165 170 175
Val Ala Val Leu Ala Gly Asp Ala Leu Leu Ala Phe Ala Phe Glu Phe
180 185 190
Met Ala Thr Ala Thr Thr Gly Val Ala Pro Glu Arg Ile Leu Ala Ala
195 200 205
Val Gly Glu Leu Ala Lys Ala Ile Gly Thr Glu Gly Leu Val Ala Gly
210 215 220
Gln Val Val Asp Leu Asn Cys Thr Gly Asp Ala Asn Val Gly Leu Asp
225 230 235 240
Thr Leu Glu Phe Ile His Ile His Lys Thr Ala Ala Leu Leu Glu Ala
245 250 255
Ser Val Val Leu Gly Ala Ile Leu Gly Gly Gly Ser Ser Asp Gln Ile
260 265 270
Glu Lys Leu Arg Thr Phe Ala Arg Lys Ile Gly Leu Leu Phe Gln Val
275 280 285
Val Asp Asp Ile Leu Asp Val Thr Lys Ser Ser Glu Glu Leu Gly Lys
290 295 300
Thr Ala Gly Lys Asp Leu Ala Val Asp Lys Thr Thr Tyr Pro Lys Leu
305 310 315 320
Leu Gly Leu Asp Lys Ala Met Glu Phe Ala Glu Lys Leu Asn Glu Glu
325 330 335
Ala Lys Ala Gln Leu Ala Gly Phe Asp Pro Ser Lys Ala Ala Pro Leu
340 345 350
Thr Ala Leu Ala Asp Tyr Ile Ala His Arg Gln Asn
355 360
<210>3
<211>20
<212>DNA
<213>丹参(Salvia miltiorrhiza)
<400>3
ATGAGATCTATGAATCTGGT
<210>4
<211>20
<212>DNA
<213>丹参(Salvia miltiorrhiza)
<400>4
TTAGTTCTGCCTATGTGCAA