书签 分享 收藏 举报 版权申诉 / 241

具有靶向结合特异性的嵌合多肽.pdf

  • 上传人:大师****2
  • 文档编号:12890
  • 上传时间:2018-01-11
  • 格式:PDF
  • 页数:241
  • 大小:21.98MB
  • 摘要
    申请专利号:

    CN201380057657.5

    申请日:

    2013.09.04

    公开号:

    CN104781404A

    公开日:

    2015.07.15

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):C12N 15/62申请日:20130904|||公开

    IPC分类号:

    C12N15/62

    主分类号:

    C12N15/62

    申请人:

    斯克利普斯研究院

    发明人:

    卡洛斯·F·巴巴斯三世; 安德鲁·莫瑟; 布莱恩·M·郎布; 托马斯·甲基

    地址:

    美国加利福尼亚州

    优先权:

    61/696,689 2012.09.04 US; 61/753,763 2013.01.17 US; 61/818,364 2013.05.01 US

    专利代理机构:

    上海胜康律师事务所31263

    代理人:

    樊英如; 李献忠

    PDF完整版下载: PDF下载
    内容摘要

    本发明公开了嵌合多肽,其组合物、表达载体、以及其用于产生转基因细胞、组织、植物和动物的使用方法。本发明的组合物、载体和方法在基因治疗技术中也有用。

    权利要求书

    1.  一种嵌合多肽,其包括:
    a)重组酶、转录因子或核酸酶;以及
    b)转录激活子样效应因子(TALE)蛋白。

    2.
      如权利要求1所述的嵌合蛋白,其中所述TALE蛋白是截短的。

    3.
      如权利要求2所述的嵌合蛋白,其中所述TALE蛋白包含C-末端截短或 N-末端截短。

    4.
      如权利要求3所述的嵌合蛋白,其中所述TALE蛋白包含C-末端截短。

    5.
      如权利要求1所述的嵌合蛋白,其中所述TALE蛋白选自:AcrXa7、 Tal1c和PthXol。

    6.
      如权利要求1所述的嵌合蛋白,其中所述TALE蛋白包含如SEQ ID NO:2 中所列的氨基酸序列。

    7.
      如权利要求6所述的嵌合蛋白,其中所述TALE蛋白包含C-末端截短。

    8.
      如权利要求7所述的嵌合蛋白,其中所述TALE蛋白在氨基酸残基27和 氨基酸残基268之间、氨基酸残基92和氨基酸残基134之间、氨基酸残 基120和氨基酸残基129之间、氨基酸残基74和氨基酸残基147之间、 或氨基酸残基87和氨基酸残基120之间是截短的。

    9.
      如权利要求8所述的嵌合蛋白,其中所述TALE蛋白在氨基酸残基28 处、氨基酸残基74处、氨基酸残基87处、氨基酸残基92处、氨基酸残 基95处、氨基酸残基120处、氨基酸残基124处、氨基酸残基128处、 氨基酸残基129处、氨基酸残基147处和氨基酸残基150处是截短的。

    10.
      如权利要求1所述的嵌合蛋白,其中所述重组酶选自以下物质:
    (a)Tn3,也称为EcoTn3;Hin,也称为StyHin;Gin,也称为MuGin; Sin;Beta;Pin;Min;Din;Cin;EcoTn21;SfaTn917;BmeTn5083; Bme53;Cpe;SauSKl;SauSK41;SauTn552;Ran;Aac;Lla;pMER05; Mlo92;Mlo90;Rrh;Pje;Req;PpsTn5501;Pae;Xan;ISXc5;Spy; RhizY4cG;SarpNLl;SsolSC1904a;SsolSC1904b;SsoISC1913;Aam606; MjaM0014;Pab;HpylS607;MtulS_Y349;MtuRv2792c;MtuRv2979c; MtuRv3828c;MtuRv0921;MceRv0921;TnpX;TndX;WwK;乳球菌噬菌 体TP901-1丝氨酸重组酶;化脓性链球菌噬菌体φ370.1丝氨酸重组酶;化脓 性链球菌噬菌体φFC1丝氨酸重组酶;李斯特菌属噬菌体A118丝氨酸重组 酶;天蓝色链霉菌染色体SC3C8.24丝氨酸重组酶;天蓝色链霉菌染色体 SC2E1.37丝氨酸重组酶;天蓝色链霉菌染色体SCD78.04c丝氨酸重组酶;天 蓝色链霉菌染色体SC8F4.15c丝氨酸重组酶;天蓝色链霉菌染色体 SCD12A.23丝氨酸重组酶;天蓝色链霉菌染色体SCH10.38c丝氨酸重组酶; 天蓝色链霉菌染色体SCC88.14丝氨酸重组酶;链霉菌噬菌体φC31丝氨酸重 组酶;链霉菌噬菌体R4丝氨酸重组酶;芽孢杆菌噬菌体φ105丝氨酸重组 酶;芽孢杆菌噬菌体SPBc2丝氨酸重组酶;芽孢杆菌前噬菌体SKIN丝氨酸 重组酶;金黄色葡萄球菌ccrA丝氨酸重组酶;金黄色葡萄球菌ccrB丝氨酸 重组酶;结核分枝杆菌噬菌体Bxbl丝氨酸重组酶;结核分枝杆菌前噬菌体φ RVl丝氨酸重组酶;YBCK_ECOLI;Y4bA;Bja;Spn;Cac 1956;和Cac  1954;以及
    (b)(a)的重组酶的突变蛋白。

    11.
      如权利要求10所述的嵌合蛋白,其中所述重组酶选自以下物质:Gin, Hin,Tn3,Sin,Beta,Pin,Min,Din和Cin以及Gin的突变蛋白,Hin 的突变蛋白,Sin的突变蛋白,Beta的突变蛋白,Pin的突变蛋白,Min的 突变蛋白,Din的突变蛋白和Cin的突变蛋白,Tn3的突变蛋白。

    12.
      如权利要求10所述的嵌合蛋白,其中所述重组酶是Gin。

    13.
      如权利要求1所述的嵌合蛋白,其中所述重组酶是Gin并且所述TALE蛋 白是AcrXa7。

    14.
      一种分离的核酸分子,其编码权利要求1-13中任一项所述的嵌合蛋白。

    15.
      一种表达盒,其包含权利要求14所述的核酸分子。

    16.
      一种载体,其包含权利要求15所述的表达盒。

    17.
      一种宿主细胞,其被用权利要求14所述的核酸分子或权利要求16所述的 载体转化或转染。

    18.
      一种用于位点特异性重组的方法,其包括:
    (a)提供包括用于与权利要求1所述的嵌合蛋白特异性相互作用的至少 两个结合位点的DNA序列;以及
    (b)使所述DNA序列与所述嵌合蛋白发生反应,其中所述嵌合蛋白催化 与所述嵌合蛋白特异性相互作用的两个位点之间的位点特异性重组事件,在 所述事件中,所述DNA序列的两条链都被切割。

    19.
      如权利要求18所述的方法,其中所述位点特异性重组事件是倒位。

    20.
      如权利要求18所述的方法,其中所述位点特异性重组事件是整合。

    21.
      如权利要求18所述的方法,其中所述位点特异性重组事件是解离。

    22.
      一种用于基因治疗的方法,其包括向受试者施用包括编码权利要求1所述 的嵌合多肽的核酸分子的组合物,其中所述核酸分子一经表达,存在于所 述受试者的基因组中的基因就被特异性地去除或失活。

    23.
      如权利要求22所述的方法,其进一步包括向受试者施用包括基因的功能 替代品的核酸分子。

    24.
      一种药物组合物,其包括:
    a)权利要求1所述的嵌合蛋白;以及
    b)药学上可接受的载体。

    25.
      一种药物组合物,其包括:
    a)核酸分子,其编码权利要求1所述的嵌合蛋白;以及
    b)药学上可接受的载体。

    26.
      一种转基因生物,其是通过权利要求1所述的嵌合蛋白催化的重组产生 的。

    27.
      一种用于基因治疗的方法,其包括向受试者施用包括具有由权利要求18- 21中任一项所述的方法产生的DNA序列的核酸分子的细胞。

    28.
      一种用于修饰生物的基因组的方法,其包括使用权利要求18-22中任一项 所述的方法通过在核酸分子上进行位点特异性重组修饰所述生物的所述基 因组。

    29.
      如权利要求28所述的方法,其中所述生物是原核生物、细菌、病毒或真 核生物。

    30.
      一种产生特异性结合期望的核苷酸的转录激活子样效应因子(TALE)蛋 白结合结构域的方法,其包括:
    a)通过使可变二残基(RVD)内的氨基酸残基突变或RVD的N-末端或 C-末端1至2个氨基酸残基内的氨基酸残基突变而使TALE蛋白结合结构域 的所述氨基酸序列随机化;以及
    b)选择(a)中的随机化的所述TALE蛋白结合结构域,其中所述TALE 蛋白结合结构域特异性结合到期望的核苷酸。

    31.
      一种分离的蛋白,其包括通过权利要求30所述的方法产生的转录激活子 样效应因子(TALE)蛋白结合结构域。

    32.
      如权利要求31所述的分离的蛋白,其中所述蛋白包含1至40个TALE蛋 白结合结构域。

    33.
      如权利要求32所述的分离的蛋白,其中所述蛋白特异性结合靶核苷酸序 列。

    34.
      如权利要求33所述的分离的蛋白,其中所述蛋白包含核酸酶活性或重组 酶活性。

    35.
      如权利要求33所述的分离的蛋白,其中所述蛋白调控基因表达。

    36.
      一种分离的核酸分子,其编码包含权利要求31-35中任一项所述的TALE 蛋白结合结构域的蛋白。

    37.
      一种表达盒,其包含权利要求36所述的核酸分子。

    38.
      一种载体,其包含权利要求37所述的表达盒。

    39.
      一种宿主细胞,其被用权利要求37所述的核酸分子或权利要求38所述的 载体转化或转染。

    40.
      一种分离的多肽,其包括黄单胞杆菌属衍生的转录激活子样效应因子 (TALE)蛋白,所述TALE蛋白具有包括如SEQ ID NO:3 (VGKQWSGARAL)中所列的氨基酸序列的N-末端结构域(NTD), 所述氨基酸序列具有选自以下的一个或多个突变或缺失:Q是Y、Q是 S、Q是R、W是R、W是G、W缺失、S是R、S是H、S是A、S是 N、以及S是T。

    41.
      如权利要求40所述的多肽,其中所述NTD包含选自以下序列的氨基酸序 列:VGKYRGARAL(SEQ ID NO:4)、VGKSRSGARAL(SEQ ID  NO:5)、VGKYHGARAL(SEQ ID NO:6)和VGKRGAGARAL(SEQ ID  NO:7)。

    42.
      一种分离的多肽,其包含罗尔斯通菌属衍生的转录激活子样效应因子 (TALE)蛋白,所述TALE蛋白具有包含如SEQ ID NO:8 (IVDIAR1QR2SGDLA)中所列的氨基酸序列的N-末端结构域 (NTD),所述氨基酸序列具有选自以下的一个或多个突变或缺失:R1是K、Q是Y、Q是S、Q是R、R2是W、R2是G、R2缺失、S是R、S 是H、S是A、S是N、以及S是T。

    43.
      如权利要求42所述的多肽,其中所述NTD包括选自以下序列的氨基酸序 列:IVDIARQWSGDLA(SEQ ID NO:9)、IVDIARYRGDLA(SEQ ID  NO:10)、IVDIARSRSGDLA(SEQ ID NO:11)、IVDIARYHGDLA (SEQ ID NO:12)和IVDIARRGAGDLA(SEQ ID NO:13)。

    44.
      如权利要求40-43中任一项所述的多肽,其进一步包括重组酶结构域或核 酸酶结构域。

    45.
      一种分离的核酸分子,其编码权利要求40-44中任一项所述的多肽。

    46.
      一种表达盒,其包含权利要求45所述的核酸分子。

    47.
      一种载体,其包含权利要求46所述的表达盒。

    48.
      一种宿主细胞,其被用权利要求45所述的核酸分子或权利要求47所述的 载体转化或转染。

    49.
      一种产生转录激活子样效应因子(TALE)蛋白N-末端结构域(NTD)的 方法,其包括:
    a)通过使所述NTD内的一个或多个氨基酸残基突变或缺失而使所述 NTD的氨基酸序列随机化,其中所述氨基酸序列是SEQ ID NO:14 (VGKXXXGAR)或SEQ ID NO:15(VDIAXXXXGDLA);以及
    b)选择(a)中的随机化的所述TALE蛋白NTD,其中所述TALE蛋白 NTD特异性结合到期望的核苷酸或表现出增强的活性。

    50.
      一种产生具有比对应的野生型重组酶高的催化特异性的多个锌指重组酶 (ZFR)蛋白的方法,其包括:
    a)在重组酶催化结构域的相当于Gin I1e120、Thrl23、Leul27、Ilel36和 Glyl37或其组合的位置进行随机诱变,使在每个氨基酸的位置2和位置3处 的所述DNA突变;
    b)使a)中的所述重组酶催化结构域与多个锌指结合结构域融合以形成 ZFR,以及
    c)富集b)中的具有比对应的野生型重组酶高的催化特异性的ZFR。

    51.
      如权利要求50所述的方法,其中所述ZFR对选自GC、GT、CA、TT和 AC的DNA靶具有增高的催化活性。

    52.
      如权利要求50所述的方法,其中所述重组酶催化结构域在Ilel36和/或 Glyl37处发生诱变。

    53.
      如权利要求50所述的方法,其中所述ZFR对染色体1、染色体2、染色 体4、染色体6、染色体7、染色体11、染色体13、和/或染色体X具有 增高的靶向特异性。

    54.
      如权利要求50所述的方法,其中所述ZFR是在载体中。

    55.
      如权利要求50所述的方法,其中所述重组酶催化结构域是来自选自以下 物质的重组酶:
    a)Tn3,也称为EcoTn3;Hin,也称为StyHin;Gin,也称为MuGin; Sin;Beta;Pin;Min;Din;Cin;EcoTn21;SfaTn917;BmeTn5083; Bme53;Cpe;SauSKl;SauSK41;SauTn552;Ran;Aac;Lla;pMER05; Mlo92;Mlo90;Rrh;Pje;Req;PpsTn5501;Pae;Xan;ISXc5;Spy; RhizY4cG;SarpNLl;SsolSC1904a;SsolSC1904b;SsoISC1913;Aam606; MjaM0014;Pab;HpylS607;MtulS_Y349;MtuRv2792c;MtuRv2979c; MtuRv3828c;MtuRv0921;MceRv0921;TnpX;TndX;WwK;乳球菌噬菌 体TP901-1丝氨酸重组酶;化脓性链球菌噬菌体φ370.1丝氨酸重组酶;化脓 性链球菌噬菌体φFC1丝氨酸重组酶;李斯特菌属噬菌体A118丝氨酸重组 酶;天蓝色链霉菌染色体SC3C8.24丝氨酸重组酶;天蓝色链霉菌染色体 SC2E1.37丝氨酸重组酶;天蓝色链霉菌染色体SCD78.04c丝氨酸重组酶;天 蓝色链霉菌染色体SC8F4.15c丝氨酸重组酶;天蓝色链霉菌染色体 SCD12A.23丝氨酸重组酶;天蓝色链霉菌染色体SCH10.38c丝氨酸重组酶; 天蓝色链霉菌染色体SCC88.14丝氨酸重组酶;链霉菌噬菌体φC31丝氨酸重 组酶;链霉菌噬菌体R4丝氨酸重组酶;芽孢杆菌噬菌体φ105丝氨酸重组 酶;芽孢杆菌噬菌体SPBc2丝氨酸重组酶;芽孢杆菌前噬菌体SKIN丝氨酸 重组酶;金黄色葡萄球菌ccrA丝氨酸重组酶;金黄色葡萄球菌ccrB丝氨酸 重组酶;结核分枝杆菌噬菌体Bxbl丝氨酸重组酶;结核分枝杆菌前噬菌体φ RVl丝氨酸重组酶;YBCK_ECOLI;Y4bA;Bja;Spn;Cac 1956;和Cac  1954;以及
    b)a)的突变蛋白。

    56.
      如权利要求6所述的方法,其中所述重组酶催化结构域选自以下物质: Gin的突变蛋白,Hin的突变蛋白,Sin的突变蛋白,Beta的突变蛋白, Pin的突变蛋白,Min的突变蛋白,Din的突变蛋白,Cin的突变蛋白,或 Tn3的突变蛋白。

    57.
      一种嵌合多肽,其是通过权利要求50所述的方法产生的。

    58.
      如权利要求57所述的嵌合多肽,其中所述重组酶催化结构域是选自以下 物质:
    a)Tn3,也称为EcoTn3;Hin,也称为StyHin;Gin,也称为MuGin; Sin;Beta;Pin;Min;Din;Cin;EcoTn21;SfaTn917;BmeTn5083; Bme53;Cpe;SauSKl;SauSK41;SauTn552;Ran;Aac;Lla;pMER05; Mlo92;Mlo90;Rrh;Pje;Req;PpsTn5501;Pae;Xan;ISXc5;Spy; RhizY4cG;SarpNLl;SsolSC1904a;SsolSC1904b;SsoISC1913;Aam606; MjaM0014;Pab;HpylS607;MtulS_Y349;MtuRv2792c;MtuRv2979c; MtuRv3828c;MtuRv0921;MceRv0921;TnpX;TndX;WwK;乳球菌噬菌 体TP901-1丝氨酸重组酶;化脓性链球菌噬菌体φ370.1丝氨酸重组酶;化脓 性链球菌噬菌体φFC1丝氨酸重组酶;李斯特菌属噬菌体A118丝氨酸重组 酶;天蓝色链霉菌染色体SC3C8.24丝氨酸重组酶;天蓝色链霉菌染色体 SC2E1.37丝氨酸重组酶;天蓝色链霉菌染色体SCD78.04c丝氨酸重组酶;天 蓝色链霉菌染色体SC8F4.15c丝氨酸重组酶;天蓝色链霉菌染色体 SCD12A.23丝氨酸重组酶;天蓝色链霉菌染色体SCH10.38c丝氨酸重组酶; 天蓝色链霉菌染色体SCC88.14丝氨酸重组酶;链霉菌噬菌体φC31丝氨酸重 组酶;链霉菌噬菌体R4丝氨酸重组酶;芽孢杆菌噬菌体φ105丝氨酸重组 酶;芽孢杆菌噬菌体SPBc2丝氨酸重组酶;芽孢杆菌前噬菌体SKIN丝氨酸 重组酶;金黄色葡萄球菌ccrA丝氨酸重组酶;金黄色葡萄球菌ccrB丝氨酸 重组酶;结核分枝杆菌噬菌体Bxbl丝氨酸重组酶;结核分枝杆菌前噬菌体φ RVl丝氨酸重组酶;YBCK_ECOLI;Y4bA;Bja;Spn;Cac 1956;和Cac  1954;以及
    b)a)的突变蛋白。

    59.
      如权利要求9所述的方法,其中所述重组酶催化结构域选自以下物质: Gin的突变蛋白,Hin的突变蛋白,Sin的突变蛋白,Beta的突变蛋白, Pin的突变蛋白,Min的突变蛋白,Din的突变蛋白,Cin的突变蛋白,或 Tn3的突变蛋白。

    60.
      一种分离的核酸分子,其编码权利要求57所述的多肽。

    61.
      一种表达盒,其包含权利要求60所述的核酸分子。

    62.
      一种载体,其包含权利要求61所述的表达盒。

    63.
      一种分离的宿主细胞,其含有权利要求62所述的载体。

    64.
      一种用于位点特异性整合到DNA序列中的方法,其包括:
    使所述DNA序列与权利要求57所述的嵌合多肽接触,其中所述嵌合多肽 催化位点特异性整合。

    65.
      一种用于基因治疗的方法,其包括向受试者施用包括编码权利要求57所 述的嵌合多肽的核酸分子的组合物,其中所述核酸分子一经表达,存在于 所述受试者的基因组中的基因就被特异性地去除或失活。

    66.
      如权利要求65所述的方法,其进一步包括向受试者施用包括基因的功能 替代品的核酸分子。

    67.
      一种药物组合物,其包括:
    a)权利要求57所述的嵌合多肽;以及
    b)药学上可接受的载体。

    68.
      一种药物组合物,其包括:
    a)核酸分子,其编码权利要求57所述的嵌合多肽;以及
    b)药学上可接受的载体。

    69.
      一种转基因生物,其是通过权利要求57所述的嵌合多肽催化的重组产生 的。

    说明书

    具有靶向结合特异性的嵌合多肽
    相关申请的交叉引用
    本申请根据35 U.S.C.§119(e)要求于2012年9月4日提交的美国 序列号为61/696,689的申请、于2013年1月17日提交的美国序列号为 61/753,763的申请以及于2013年5月1日提交的美国序列号为61/818,364的 申请的优先权的利益,上述申请的全部内容通过引用并入本文。
    技术领域
    本发明总体上涉及生物技术领域,并且更具体地涉及识别特异性 DNA序列的嵌合重组酶。
    背景技术
    蛋白质以序列依赖性的方式识别DNA的能力对生命是至关重要 的,因为各种蛋白质结构域已经发展到提供序列特异性DNA识别。由这些结 构域中的少数几个的DNA识别也是各种各样的生物技术应用的基础。特别 是,C2H2型锌指蛋白(ZFPs)是第一批被设计以识别用户定义的DNA序列 的DNA结合蛋白质之一并且已被不同程度的成功用于许多应用,该应用包括 转录调控、基因组工程和后天修饰。ZFPs的模块化装配促进了这些方法。然 而,尽管ZFP技术取得了进步且具有前景,但是对某些序列的特异性、高亲 和性ZFPs的构建仍然困难并且在选择的情况下,需要使用不易被非专业实验 室采用的耗时和劳动密集型的选择系统。
    转录激活子样效应因子(TALE)结构域是代表ZFP技术的可能 的替代方案的一类天然存在的DNA结合结构域(DBD)。被发现于植物病 原体黄单胞杆菌属中的TALE包含一系列的33至35个氨基酸重复序列,该 重复序列发挥功能以选择性地结合靶DNA序列。这些重复序列除了两个相邻 的重复可变二残基(RVD)之外是相同的,该重复可变二残基通过介导结合 到单个的核苷酸而赋予DNA特异性。已经描述了结合到DNA位点的类似数 目的碱基对(bp)的超过30个重复序列的阵列。虽然每个RVD的结合中固 有简并性,但是最近的报告表明,合成的TALE蛋白质具有足够的特异性以 靶向人类基因组内的单个位点。
    通过嵌合核酸酶(例如,锌指核酸酶(ZFN))引入DNA双链 断裂(DSB)可以用来敲除基因功能或者在外源添加的DNA的存在下驱动在 目标位点的盒整合。在过去十年中,ZFN已被广泛研究,并且在某些情况 下,正在接近临床应用进行基因治疗。最近,一些团体已经探索了利用将 TALE DNA结合结构域与核酸酶(TALEN)融合进行靶向基因组编辑。事实 上,许多使用ZFN的工作已使用TALE核酸酶来复制,因为较之ZFN, TALEN可具有关于DNA结合模块化的优点。然而,尽管对ZFN和TALEN 进行了令人印象深刻的研究,还仍然存在关于其安全性和特异性的问题。特 别是,脱靶裂解事件仍难以检测,脱靶DSB最有可能的结果是引入小插入或 小缺失。此外,DSB的修复依赖于随细胞类型而变化的细胞机制。
    一个实现靶向基因组修饰的替代方法是使用位点特异性重组酶 (SSR)。诸如酪氨酸重组酶Cre和Flp之类的SSR是被常规用于操纵在细 胞内的染色体结构的有价值的分子生物学工具。因为这些酶依赖于若干复杂 的蛋白质-蛋白质和蛋白质-DNA相互作用以协调催化,SSR表现出显著的靶 位点特异性。然而,迄今为止,已经证明许多SSR的特异性的改变非常困 难。解离酶型/转化酶型丝氨酸重组酶为酪氨酸重组酶进行基因组工程提供了 灵活多样的可变性。在自然界中,这些酶具有以高度模块化的方式协调重组 的多域蛋白复合物的功能。然而,几种丝氨酸重组酶突变体已经确定不需要 用于重组的辅助因子。此外,许多研究已经表明,丝氨酸重组酶的天然DBD 能够被定制设计的ZFP代替,以产生嵌合锌指重组酶(ZFR)。原则上,可 以产生能够识别扩展数目的序列的ZFR,但是,由于缺乏能够识别所有可能 的DNA三联体的锌指结构域,导致限制这些酶的潜在的模块化靶向能力。
    ZFR是由来源于解离酶系/转化酶系的丝氨酸重组酶的激活的催 化结构域和能被定制设计以识别几乎任何DNA序列的锌指DNA结合结构域 组成(图30A)。ZFR催化特定ZFR靶位点之间的重组,该特定ZFR靶位 点由侧接由重组酶催化结构域识别的中央20bp核心序列的双倒位(two- inverted)的锌指结合位点(ZFB)组成(图30B)。与锌指核酸酶(ZFN) 和TAL效应物核酸酶(TALEN)相比,ZFR自动发挥作用并能在不激活细 胞DNA损伤应答途径的情况下切除并整合人类和小鼠细胞中的转基因。然 而,与常规的位点特异性重组酶一样,ZFR的应用已经受到由重组酶催化结 构域强加的序列要求的限制,其决定了ZFR靶位点包含来源于天然丝氨酸解 离酶/转化酶重组位点的20-bp核心。
    诸如Cre-loxP、FLP-FRT和C31-att之类的位点特异性DNA重组 系统已成为基因工程的强大工具。促进这些DNA重排的位点特异性重组酶识 别短的(30-bp至40-bp)序列并且通过不需要DNA合成或高能辅助因子的 机制协调DNA裂解、链交换以及重新连接。这种简单性使得研究人员能够以 非凡的空间和时间的敏感性研究基因功能。然而,由位点特异性重组酶所强 加的严格的序列要求已限制它们应用于包含人工引入重组位点的细胞和生物 体。为了解决此限制,定向进化已经被用于朝向天然存在的DNA序列改变几 种重组酶的序列特异性。尽管取得了进步,但是对于复杂的诱变和选择策略 的需要以及关于重新设计的重组酶变体通常表现出宽松的底物特异性的发现 已阻碍了这种技术的广泛使用。
    因此,需要一种催化内源性基因组的靶向和位点特异性重组、尤 其是用于基因治疗的更一般化的方法以及用于可以催化这类靶向和位点特异 性重组的酶。这种方法对于基因疗法特别有用,但也在分子生物学领域具有 许多其它应用,该应用包括在基因克隆中的应用以及在工业微生物和农业植 物和动物的修饰中的应用。
    发明内容
    本文公开了用于产生转基因细胞、组织、植物和动物的靶向嵌合 多肽,其包括它们的组合物、表达载体、以及使用它们的方法。本发明的组 合物、载体和方法在基因治疗技术中也是非常有用的。
    一方面,本发明提供了嵌合多肽。该多肽包括:a)重组酶、核酸 酶或转录因子、或其片段;和b)转录激活子样效应因子(TALE)蛋白。在 各实施方式中,该TALE蛋白是截短的,并且包括C-末端或N-末端截短。在 实施方式中,TALE蛋白是AcrXa7、Tallc和PthXol。在实施方式中,TALE 蛋白包括如SEQ ID NO:2中所列的所有或一部分氨基酸序列。在一些实施方 式中,TALE蛋白是在SEQ ID NO:2的氨基酸残基27和268、92和134、120 和129、74和147、或87和120之间被截短。在一些实施方式中,TALE蛋 白是在SEQ ID NO:2的氨基酸残基28、74、87、92、95、120、124、128、 129、147和150处被截短。
    另一方面,本发明提供产生特异性结合期望的核苷酸的转录激活 子样效应因子(TALE)蛋白结合结构域的方法。该方法包括:a)通过使可 变二残基(RVD)内的氨基酸残基突变,或者通过使该RVD的1至2个氨基 酸残基N-末端或C-末端内的氨基酸残基突变使TALE蛋白结合结构域的氨基 酸序列随机化;以及b)选择(a)中的随机化的TALE蛋白结合结构域,其 中TALE蛋白结合结构域特异性结合到期望的核苷酸。
    另一方面,本发明提供分离的多肽,其包括黄单胞杆菌属衍生的 转录激活子样效应因子(TALE)蛋白,该TALE蛋白具有包括如SEQ ID  NO:3(VGKQWSGARAL)中所列的氨基酸序列的N-末端结构域(NTD), 该氨基酸序列具有选自以下的一个或多个突变或缺失:Q是Y、Q是S、Q是 R、W是R、W是G、W缺失、S是R、S是H、S是A、S是N、以及S是 T。
    另一方面,本发明提供分离的多肽,其包含罗尔斯通菌属衍生的 转录激活子样效应因子(TALE)蛋白,该TALE蛋白具有包含如SEQ ID  NO:8(IVDIAR1QR2SGDLA)中所列的氨基酸序列的N-末端结构域 (NTD),该氨基酸序列具有选自以下的一个或多个突变或缺失:R1是K、 Q是Y、Q是S、Q是R、R2是W、R2是G、R2缺失、S是R、S是H、S是 A、S是N、以及S是T。
    在另一个实施方式中,本发明提供产生转录激活子样效应因子 (TALE)蛋白N-末端结构域(NTD)的方法。该方法包括:a)通过使 NTD内的一个或多个氨基酸残基突变或缺失而使NTD的氨基酸序列随机 化,其中该氨基酸序列是SEQ ID NO:14(VGKXXXGAR)或SEQ ID NO:15 (VDIAXXXXGDLA);以及b)选择(a)中的随机化的TALE蛋白 NTD,其中TALE蛋白NTD特异性结合到期望的核苷酸或表现出增强的活 性。
    本文还公开了用于产生转基因细胞、组织、植物和动物的嵌合蛋 白,其包括丝氨酸重组酶和一种或多种锌指结合结构域、产生ZFR的方法、 它们的组合物、表达载体、以及使用它们的方法。本发明的组合物、载体和 方法在基因治疗技术中也是非常有用的。
    一方面,本发明提供产生具有比对应的野生型重组酶高的催化特 异性的多个锌指重组酶(ZFR)蛋白的方法。该方法包括在重组酶催化结构 域的相当于Gin I1e120、Thrl23、Leul27、Ilel36和Glyl37或其组合的位置进 行随机诱变,使在每个氨基酸的位置2和位置3处的DNA突变;使重组酶催 化结构域与多个锌指结合结构域融合以形成ZFR,并且富集具有比对应的野 生型重组酶高的催化特异性的ZFR。在一些实施方式中,ZFR对选自GC、 GT、CA、TT和AC的DNA靶具有增强的催化活性。在一个实施方式中,重 组酶催化结构域在Ilel36和/或Glyl37处发生诱变。
    在各方面中,本文所述的嵌合多肽包括来源于如本文所公开的以 下物质或者由如本文所公开的以下物质随机诱变的重组酶催化结构域:a) Tn3,也称为EcoTn3;Hin,也称为StyHin;Gin,也称为MuGin;Sin; Beta;Pin;Min;Din;Cin;EcoTn21;SfaTn917;BmeTn5083;Bme53; Cpe;SauSKl;SauSK41;SauTn552;Ran;Aac;Lla;pMER05;Mlo92; Mlo90;Rrh;Pje;Req;PpsTn5501;Pae;Xan;ISXc5;Spy;RhizY4cG; SarpNLl;SsolSC1904a;SsolSC1904b;SsoISC1913;Aam606;MjaM0014; Pab;HpylS607;MtulS_Y349;MtuRv2792c;MtuRv2979c;MtuRv3828c; MtuRv0921;MceRv0921;TnpX;TndX;WwK;乳球菌(lactococcal)噬菌 体TP901-1丝氨酸重组酶;化脓性链球菌噬菌体φ370.1丝氨酸重组酶;化脓 性链球菌噬菌体φFC1丝氨酸重组酶;李斯特菌属噬菌体A118丝氨酸重组 酶;天蓝色链霉菌染色体SC3C8.24丝氨酸重组酶;天蓝色链霉菌染色体 SC2E1.37丝氨酸重组酶;天蓝色链霉菌染色体SCD78.04c丝氨酸重组酶;天 蓝色链霉菌染色体SC8F4.15c丝氨酸重组酶;天蓝色链霉菌染色体 SCD12A.23丝氨酸重组酶;天蓝色链霉菌染色体SCH10.38c丝氨酸重组酶; 天蓝色链霉菌染色体SCC88.14丝氨酸重组酶;链霉菌噬菌体φC31丝氨酸重 组酶;链霉菌噬菌体R4丝氨酸重组酶;芽孢杆菌噬菌体φ105丝氨酸重组 酶;芽孢杆菌噬菌体SPBc2丝氨酸重组酶;芽孢杆菌前噬菌体SKIN丝氨酸 重组酶;金黄色葡萄球菌ccrA丝氨酸重组酶;金黄色葡萄球菌ccrB丝氨酸 重组酶;结核分枝杆菌噬菌体Bxbl丝氨酸重组酶;结核分枝杆菌前噬菌体φ RVl丝氨酸重组酶;YBCK_ECOLI;Y4bA;Bja;Spn;Cac 1956;和Cac  1954;或b)a)的突变蛋白。
    在又一方面,本发明提供分离的核酸分子,其编码本文所述的嵌 合多肽。
    在又一方面,本发明提供表达盒,其包含编码本文所述的嵌合多 肽的核酸分子。
    在又一方面,本发明提供载体,其包含本文所述的表达盒。
    在又一方面,本发明提供分离的宿主细胞,其含有本文所述的载 体。
    在又一方面,本发明提供用于位点特异性整合入DNA序列的方 法。该方法包括使DNA序列与本发明的嵌合多肽接触,其中该嵌合多肽催化 位点特异性整合。
    在又一方面,本发明提供用于基因治疗的方法。该方法包含向受 试者施用包括编码本文所述的嵌合多肽的核酸分子的组合物,其中该核酸分 子一经表达,存在于受试者的基因组中的基因就被特异性地去除或失活。
    在又一方面,本发明提供药物组合物。该组合物包含本文所述的 嵌合多肽;以及药学上可接受的载体。在另一方面,该组合物包含编码本文 所述的嵌合多肽的核酸分子;以及药学上可接受的载体。
    在又一方面,本发明提供通过本发明的嵌合多肽催化重组产生的 转基因生物。
    在又一方面,本发明提供用于基因治疗的方法。该方法包含向受 试者施用包括具有通过本文所述的位点特异性整合的方法产生的DNA序列的 核酸分子的细胞。
    在另一方面,本发明提供分离的核酸分子,其编码本文所述的嵌 合蛋白。
    在另一方面,本发明提供用于位点特异性重组的方法。该方法包 括:a)提供包括用于与本文所述的嵌合蛋白特异性相互作用的至少两个结合 位点的DNA序列;和b)使该DNA序列与该嵌合蛋白发生反应,其中该嵌 合蛋白催化与该嵌合蛋白特异性相互作用的两个位点之间的位点特异性重组 事件,在该事件中,该DNA序列的两条链都被切割。
    附图说明
    图1是一系列关于TALER融合取向和活性的图形表示和图解表 示。A)卡通说明用来评估TALER活性的拆分β内酰胺酶系统。B)示意性 表示每个TALER及其相应的靶位点(1=SEQ ID NO:288;2=SEQ ID  NO:289;3=SEQ ID NO:290)的融合取向。C)每个设计的TALER融合对其 预期DNA靶的活性。将重组相对背景(空载体作为参照)归一化。D)Gin- Avr对同源(Avr-20G)DNA靶和对非同源(Avr-20T、Avr-20GG、PthXol- 20G)DNA靶的活性。误差线表示标准偏差(s.d.)(n=3)。
    图2是一系列关于选定的TALER截短的重组谱的图形表示和图 解表示。A)示意性说明20-成员TALER截短库的设计。B)选定的TALER 变体对含有增加长度(14-bp、20-bp、26-bp、32-bp和44-bp)的核心序列的 DNA靶的活性。C)Gin-AvrXa7△120对含有非同源核心序列或增加长度的 核心位点的多样化底物的活性。误差线表示s.d.(n=3)。
    图3是一系列关于选自增量截短库的TALER变体的图形表示。 A)选定的TALER截短变体的频率。经过3轮选择之后,将递增截短Gin- AvrXa7变体进行分离并使用DNA测序来测定截短长度。B)递增截短 TALER变体(长度介于Δ92和Δ134之间)对Avr-32G DNA靶的活性。为 了方便参考,最短(Δ145)截短变体和最长(Δ74)截短变体、以及Δ87 截短变体都包括在内。C)Gin-AvrΔ74、Gin-AvrΔ128和Gin-AvrΔ145对多 样化同源DNA靶和非同源DNA靶的活性。误差线表示s.d.(n=3)。
    图4是一系列关于合成TALER的活性的图形表示。A)合成Gin- Avrl5Δ128、Gin-Avrl5Δ120和Gin-Phtl5Δ120变体对DNA靶Avr-32G或 Pth-32G的活性。B)具有基于Gin-AvrΔ120的长度介于15个重复序列和20 个重复序列之间的DBD的合成TALER对Avr-32G和Avr-32T的活性。误差 线表示s.d.(n=3)。
    图5是一系列关于TALER在哺乳动物细胞中的活性的图形表 示。图5A和5B均表示HEK293T细胞中萤光素酶表达减少的倍数,其中 (A)为TALER或ZFR表达载体(Gin-AvrΔ120和GinC4)在报告质粒 (Avr-32G、Avr-44G和C4-20G)的存在下共转染、(B)表示TALER和 ZFR表达载体(Gin-AvrΔ120+GinC4)相结合与报告质粒(Avr-G-ZF)共转 染。误差线表示s.d.(n=3)。
    图6是AvrXa7(SEQ ID NO:1DNA序列;SEQ ID NO:2氨基酸 序列)的设计的N-末端截短的引物的位置的图解表示。星表示Δ120融合点 的位置。
    图7是AvrXa7靶序列(SEQ ID NO:16-SEQ ID NO:18)的天然 野生型RDV结构域和合成RDV结构域的比较的图解表示。
    图8是AvrXa7蛋白(SEQ ID NO:19)的TALE氨基酸序列和 TALER氨基酸序列的图解表示。
    图9是构建体AvrXa7 DNA序列(SEQ ID NO:20)的图解表示。
    图10是构建体Gin-AvrΔ74氨基酸序列(SEQ ID NO:21)的图解 表示。
    图11是构建体Gin-AvrΔ87氨基酸序列(SEQ ID NO:22)的图解 表示。
    图12是构建体Gin-AvrΔ120氨基酸序列(SEQ ID NO:23)的图 解表示。
    图13是构建体Gin-AvrΔ120*氨基酸序列(SEQ ID NO:24)的 图解表示。
    图14是构建体Gin-AvrΔ147氨基酸序列(SEQ ID NO:25)的图 解表示。
    图15是构建体GinAvrl5Δ128-合成蛋白氨基酸序列(SEQ ID  NO:26)的图解表示。
    图16是构建体Gin-Avrl5Δ128-合成蛋白DNA序列(SEQ ID  NO:27)的图解表示。
    图17是构建体GinAvrl5Δ128-合成蛋白氨基酸序列(SEQ ID  NO:28)的图解表示。
    图18是一系列关于TALE N-末端结构域的特异性的图像表示和 图形表示。A)TALE(SEQ ID NO:29)结合到其靶DNA的示意图。B)结 构分析表明5'T与N-1发夹(N-0-SEQ ID NO:30;N-1-SEQ ID NO:31和 RVD-SEQ ID NO:32)的W232接触。这种发夹与RVD发夹共享显著的序列 同源性。C-F)在C)AvrXa7 TALE-R的背景下分析NT-T(wt)NTD,在 D)AvrXa7 TALE-TF的背景下分析NT-T(wt)NTD,在E)AvrXa7  MBPTALE的背景下分析NT-T(wt)NTD,以及在F)CCR5靶TALEN的 背景下分析NT-T(wt)NTD。(相比于5'T,*=P<0.05,**=P<0.01, ***=p<0.001)。
    图19是一系列关于重组酶变体的图形表示和图解表示。A-C)重 组酶选择变体对具有A)5'G的底物、具有B)5'A的底物、具有C)5'C的底 物的活性。图19D是优化的TALE NTD(SEQ ID NO:33-SEQ ID NO:36)的 比对,说明在N-1发夹中的序列差异性。E)优化的NTD活性在MBP-TALE  AvrXa7的背景下的综合比较。(相比于野生型和5'A/G/C,*=P<0.05,**= P<0.01,***=p<0.001)。
    图20是一系列选定的NTD在TALE-TF的背景下的分析的图解表 示和图形表示。A)用于转录激活实验的荧光素酶报告质粒上的5xAvr启动 子区(SEQ ID NO:37)的示意图。B)具有NT-T、NT-G、NT-áN和结构域的TALE-TF对具有所示5'残基的底物的相对荧光素酶激活。(相比于 NT-T和各自的5'A/G/C/T,*=P<0.05,**=P<0.01,***=p<0.001)。
    图21是一系列具有野生型NTD和用不同的5'碱基演变的NTD的 TALEN对的设计和活性的图解表示和图形表示。A)展开CCR5基因(SEQ  ID NO:38-SEQ ID NO:39)以突出用来诱导H32突变的靶位点(SEQ ID  NO:40-SEQ ID NO:47)。B)野生型(NT-T)TALEN、具有用非-T5'残基优 化的结构域的TALEN、以及dHax3 NTD的基因编辑效率。C)具有优化的 NTD的TALEN对与具有5'T特异性的TALEN的增强倍数。每个NTD的活 性示于每个TALEN对底物上。
    图22是显示N-末端和C-末端结构域(SEQ ID NO:48-SEQ ID  NO:53)的比对的图解表示。
    图23是说明TALE-重组酶选择方案的示意性表示。使用 Not1/Stul限制性内切酶和互补连接作用将NTD库克隆到Avrl5 TALE-R中。 TALE-R的激活导致可以用抗生素(羧苄青霉素)选择和扩增的更频繁的重 组事件。得到的输出质粒为酶切的Not1/Xba1并且被连接到TALE-R骨架载 体中以便进一步的选择和扩增。
    图24是发现于库选择(库XXXSGAR(SEQ ID NO:39)和库 KXXGAR(SEQ ID NO:291))的变体群的概要的图解表示。
    图25是显示NT-G(SEQ ID NO:54)与NTD-Brg11(SEQ ID  NO:55)、罗尔斯通菌属TALE结构域的排列。排列表明Brg11可以表现出 对5'G碱基的特异性。
    图26是一系列如通过ELISA所分析的MBP-TALE蛋白对靶 5'A/G/C/T Avrl5发夹寡核苷酸的相对结合亲和力的图形表示。蛋白浓度为~ 75nM并且板被显色120分钟。
    图27是一系列在用示于右侧的%插入/缺失和插入/缺失群编辑 TALEN后PCR扩增的CCR5的细胞分析的图像表示和图形表示。
    图28是选自图27(从顶部到底部SEQ ID NO:292-SEQ ID  NO:332)的TALEN实验的对准插入/缺失测序的图解表示。
    图29是两个分开的Goldy TALE-转录因子架构的活性的比较的 图形表示,其中每个靶向仅在5'残基不同的相同的5x AvrXa7启动子。
    图30是一系列有关结合到DNA的锌指重组酶二聚体的结构的图 解表示。A)每个锌指重组酶(ZFR)单体(蓝色或橙色)由连接到定制设计 的锌指DNA结合结构域的激活的丝氨酸重组酶催化结构域组成。模型是从γ δ解离酶和Aart锌指蛋白(分别为PDB ID:1GDT和2I13)的晶体结构产生 的。B)ZFR二聚体结合到DNA(SEQ ID NO:333-SEQ ID NO:334)的卡通 图。ZFR靶位点由侧接由ZFR催化结构域识别的中央20bp核心序列的双倒 位的锌指结合位点(ZFB)组成。锌指蛋白(ZFP)可以被设计为识别“左” 或“右”半位点(分别为蓝色框和橙色框)。缩写如下:N表示A、T、C、 或者G;R表示G或A;以及Y表示C或T。
    图31是一系列Gin重组酶催化结构域的特异性的图形表示和图解 表示。A-D)于(A,SEQ ID NO:335)在二核苷酸核心处含有每个可能的两 个碱基的组合的DNA靶上测量重组、(B,SEQ ID NO:336)在位置3和位 置2处含有每个可能的两个碱基的组合的DNA靶上测量重组、(C,SEQ ID  NO:337)在位置6、位置5和位置4处含有每个可能的单个碱基取代的DNA 靶上测量重组、以及(D,SEQ ID NO:338)在位置10、位置9、位置8和位 置7处含有每个可能的单个碱基取代的DNA靶上测量重组。在每个图的上 方,取代的碱基被加以方框表示。重组是通过分裂基因重新组装评估的并且 以羧苄青霉素-耐药性转化子与氯霉素-耐药性转化子的比例来测量的(材料 和方法)。误差线表示s.d.(n=3)。(E)γδ解离酶二聚体与(左)二核 苷酸核心、(中间)位置6、位置5和位置4、以及(右)位置10、位置9、 位置8和位置7(PDB ID:1GDT)处的DNA之间的相互作用。相互作用的残 基显示为紫色棒。碱基的颜色如下:A,黄色;T,蓝色;C,褐色;和G, 粉红色。
    图32是一系列重新设计的Gin重组酶催化特异性的图形表示和图 解表示。A)由该Gin催化结构域识别的规范的20-bp核心。图中方框表示位 置3和位置2(SEQ ID NO:339)。B)(顶部)γδ解离酶与DNA(PDB  ID:1GDT)复合物的结构。为诱变选择的侧臂区域残基显示为紫色棒。(底 部)γδ解离酶(SEQ ID NO:341)和Gin重组酶(SEQ ID NO:342)催化结 构域的序列比对。保守残基显示为橙色阴影。黑色箭头表示为诱变选择的侧 臂区域位置。C)断裂基因重装配选择系统的示意图。活性ZFR变体的表达 导致β内酰胺酶的阅读框的恢复和宿主细胞对氨苄青霉素的耐药性。实线表 示ZFR靶位点的位置和识别性。位置3和位置2标有下划线(SEQ ID  NO:340)。D)重组在位置3和位置2含有GC、GT、CA、TT和AC碱基 组合的核心位点的Gin突变体的选择。星号表示选择步骤,其中培养时间从 16小时减少到6小时(材料和方法,实施例5)。E)为在位置3和位置2处 的每个可能的两碱基组合所选择的催化结构域(由a指示的β、γ、δ、 ε、和ζ、野生型Gin)的重组特异性。预期的DNA靶标有下划线。重组通 过断裂基因重装配确定,并且以一式三份进行。
    图33是一系列说明ZFR在哺乳动物细胞中重组用户定义的序列 的能力的图形表示和图解表示。A)用于评估哺乳动物细胞中的ZFR活性的 萤光素酶报告系统的示意图。ZFR靶位点侧接驱动荧光素酶表达的SV40启 动子。实线表示用于识别潜在的ZFR靶位点的44-bp共有靶序列。下划线碱 基表示锌指靶以及位置3和位置2(SEQ ID NO:343)。B)萤光素酶在用设 计的ZFR对以及它们的同源报告质粒共转染的HEK293T细胞中的表达的减 少倍数。减少倍数被归一化至用空载体和报告质粒共转染。示出了每个ZFR 靶位点(从顶部到底部SEQ ID NO:344-SEQ ID NO:362)的序列同一性和染 色体定位以及每个ZFR对的催化结构域组成。下划线碱基表示位置3和位置 2。从三个独立的实验计算标准误差。在表2中提供了ZFR氨基酸序列。 C)ZFR对的特异性。为ZFR对1至ZFR对9以及每个非同源报告质粒的 GinC4测定萤光素酶表达的减少倍数。重组被归一化至每个ZFR对与它的同 源报告质粒的减少倍数。以一式三份进行分析。
    图34是一系列说明ZFR靶向整合到人类基因组的能力的图形表 示和图解表示。A)供体质粒(顶部)和由ZFR 1(SEQ ID NO:363)、ZFR  2(SEQ ID NO:364)和ZFR 3(SEQ ID NO:365)靶向的基因组位点的示意 图。打开框表示邻近的外显子。箭头指示转录方向。示出了每个ZFR靶的序 列和位置。下划线碱基表示锌指靶以及位置3和位置2。B)ZFR介导的整合 的效率。数据被归一化至来自仅用供体质粒转染的细胞的数据。误差线表示 标准偏差(n=3)。C)ZFR介导的整合的PCR分析。PCR引物组合以正向 方向(中部)或反向方向(底部)扩增(顶部)未修饰的位点或者扩增整合 的质粒。D)ZFR 1(SEQ ID NO:366)和ZFR 3(SEQ ID NO:367)的PCR 扩增整合的供体的代表性层析谱。箭头指示测序引物的方向。阴影框表示基 因组靶序列。
    图35是重组酶DNA结合残基位于二聚体界面之外的图解表示。 γδ解离酶与靶DNA的复合物。催化结构域二聚体为青色。DNA为灰色。 侧臂区域残基显示为红色棒。二聚体界面处的残基显示为紫色棒(PDB  ID:1GDT)。
    图36是选定的重组酶的序列分析的图解表示。饼图表示在每个靶 定侧臂位置处的氨基酸取代的百分比。经过4轮的选择后,从每个库测序> 20个克隆。重组TT的克隆的序列分析被描述在别处(1)。
    图37是显示分离的催化结构域的核心特异性的表。经过4轮的选 择后,评估了选定的催化结构域重组在位置3和位置2具有取代基的核心序 列的能力。指定的DNA靶标有下划线。示出了重组酶突变体。星号表示选择 用于进一步分析的催化结构域。在位置3和位置2的野生型碱基组合为CC。 重组通过断裂基因重装配(2)确定,并且以一式三份进行。重组TT取代基 的催化结构域被描述在别处(1)。
    图38是一系列选定的催化结构域的位置特异性的图形表示。重组 测定在α、β、γ、δ和ζ催化结构域与对称取代的靶位点之间进行。对在 位置6、位置5和位置4处含有(A(SEQ ID NO:368))>4000随机强碱基 (S:G或C)取代以及在位置10、位置9、位置8和位置7处含有(B(SEQ  ID NO:369))>106(一种可能为4.29×109)独特碱基组合(N:A、T、C 或G)的文库DNA靶进行重组检测。重组通过断裂基因重装配(2)检测(n =3)。
    图39是一系列ZFR同二聚体活性的图形表示。用150ng ZFR-L 或150ng ZFR-R和2.5ng相应pGL3ZFR报告质粒共转染HEK293T细胞。重 组被归一化至用150ng ZFR-L和150ng ZFR-R和2.5ng相应pGL3ZFR报告 质粒共转染。
    图40是一系列描绘ZFR-修饰的细胞的克隆分析的图像表示。 PCR引物组合以正向方向或反向方向扩增未修饰的基因组靶或者扩增整合的 质粒。
    具体实施方式
    本发明提供了TALE重组酶(TALER)的首次公开。使用递增截 短的TALE结构域文库,鉴定了在细菌和哺乳动物细胞中可以用于重组DNA 的优化的TALER架构。任何定制的TALE重复阵列都可以被插入到本文所 述的TALER架构,从而显著地扩大了工程化的重组酶在生物技术和医药的 应用中的靶向能力。
    转录激活子样效应因子(TALE)蛋白可以被设计成结合几乎任 何DNA序列。用于TALE DNA结合结构域的设计的一般准则建议TALE所 结合的DNA序列的5'最末端碱基(N0碱基)应该是胸腺嘧啶。通过对在该 位置的每个DNA碱基分析TALE转录因子(TALE-TF)、TALE重组酶 (TALE-R)和TALE核酸酶(TALEN)的活性来对N0要求进行定量分析。 观察到:与含有5'T的靶序列相比,在没有5'T存在的情况下,TALE活性降 低高达>1000倍的TALE-TF活性、降低高达100倍的TALE-R活性以及高达 10倍的TALEN活性的减少。为了开发识别所有可能的N0碱基的TALE架 构,结构引导的文库设计加上TALE-R活性选择被用来进化新型TALE N末 端结构域,以适应任何N0碱基。分离并表征了G选择性结构域和广义反应性 结构域。以TALE-R形式选择的工程化的TALE结构域表现出模块化并且在 TALE-TF和TALEN架构有活性。进化的N末端结构域对于作为TALE结合 蛋白和设计酶的任何DNA序列提供有效的和不受约束的基于TALE的靶 定。
    此外,为了解决序列要求的限制,描述了重新工程化丝氨酸重组 酶催化特异性的基于知识的方法。这种基于特异性决定DNA结合残基的饱和 诱变的策略被用来产生特异性的转变>10,000倍的重组酶变体。重要的是, 这种方法专门集中在位于重组酶二聚体界面外部的氨基酸残基(图35)。结 果,确定重新工程化的催化结构域可以结合形成ZFR异二聚体,并且这些设 计的ZFR对以卓越的特异性重组预先确定的DNA序列。总之,这些结果使 我们推测由该方法开发的专门的催化结构域的扩展目录可以被用来产生具有 定制特异性的ZFR。这里,底物特异性分析和定向进化的组合被用来开发能 够识别估计4×108个独特20-bp核心序列的多样化的Gin重组酶催化结构 域。结果表明,从这些重新设计的催化结构域装配的ZFR以高特异性重组用 户定义的序列并整合DNA至人类细胞中的靶向内源性位点。这些结果表明, ZFR技术具有用于包括基因组工程和基因治疗的各种各样的应用的潜力。
    在描述本发明的组合物和方法之前,应当理解的是,本发明不限 于所描述的具体的组合物、方法和实验条件,因为这些装置、方法和条件可 以变化。也应该理解的是,本文所用的术语仅用于描述特定的实施方式,并 不是用于限制,由于本发明的范围仅限于所附的权利要求书。
    如本说明书及所附的权利要求中所使用的,单数形式“一(a)”、 “一(an)”和“所述(the)”包括复数形式,除另有明确说明外。因此,例如, 本领域技术人员阅读本发明等后,能清楚提到“所述组合物”或“所述方法” 时,包括一种或多种组合物和方法,和/或本文描述的类型的步骤。
    除非另有说明,本文使用的所有技术术语和科技术语具有本领域 技术人员所理解的一般含义。虽然与本文描述相似或相同的任何方法和材料 都能用于进行或测试本发明,但是现在描述的是优选的方法和材料。
    “重组酶”是介导由重组酶识别的特定的DNA序列之间的位点 特异性重组的酶家族((Esposito,D.,和Scocca,J.J.,Nucleic Acids Research 25, 3605-3614(1997);Nunes-Duby,S.E.,等人,Nucleic Acids Research 26,391-406 (1998);Stark,W.M.,等人,Trends in Genetics 8,432-439(1992))。
    如本文所用,术语“嵌合TALE重组酶”包括但不限于具有 TALE结构域的重组酶,所述TALE结构域来自天然存在的TALE蛋白或者 合成的TALE蛋白或者具有序列特异性结合活性的结构域。
    如本文所用,术语“嵌合锌指重组酶”包括但不限于具有锌指结 合结构域的重组酶,所述锌指结合结构域来自天然存在的锌指DNA结合蛋白 或者合成的锌指结合蛋白或者具有序列特异性结合活性的结构域。
    如本文所用,术语“锌指”、“锌指核苷酸结合结构域”,或类 似术语既指天然存在的锌指,也指人工产生的锌指。此类锌指可以具有多种 构架结构,例如,但不限于,C2H2、C4、H4、H3C、C3X、H3X、C2X2和 H2X2,其中X为锌连接的氨基酸。在这些构架结构中,如锌指结构的描述中 常用的,“C”代表半胱氨酸残基以及“H”代表组氨酸残基。具有构架 C2H2的锌指包括,但不限于,如在Barbas等人的国际公开号 WO2008/006028、Barbas的美国专利号7,101,972、Barbas等人的美国专利号 7,067,617、Barbas等人的美国专利号6,790,941、Barbas的美国专利号 6,610,512、Barbas等人的美国专利号6,242,568、Barbas等人的美国专利号 6,140,466、Barbas的美国专利号6,140,081、Barbas的美国专利申请公开号 20060223757、Barbas等人的美国专利申请公开号20060211846、Barbas等 人的美国专利申请公开号20060078880、Barbas的美国专利申请公开号 20050148075、Barbas等人的美国专利申请公开号20050084885、Barbas等 人的美国专利申请公开号20040224385、Barbas等人的美国专利申请公开号 20030059767、和Barbas等人的美国专利申请公开号20020165356中描述 的,通过这种引用将它们都并入本文。其它锌指在Rebar等人的美国专利号 7,067,317、Liu等人的美国专利号7,030,215、Rebar等人的美国专利号 7,026,462、Case等人的美国专利号7,013,219、Cox III等人的美国专利号 6,979,539、Case等人的美国专利号6,933,113、Cox III等人的美国专利号 6,824,978、Eisenberg等人的美国专利号6,794,136、Eisenberg等人的美国专 利号6,785,613、Case等人的美国专利号6,777,185、Choo等人的美国专利号 6,706,470、Cox IM等人的美国专利号6,607,882、Case等人的美国专利号 6,599,692、Cox II等人的美国专利号6,534,261、Case等人的美国专利号 6,503,717、Eisenberg等人的美国专利号6,453,242、Rebar等人的美国专利申 请公开号2006/0246588、Rebar等人的美国专利申请公开号2006/0246567、 Case等人的美国专利申请公开号2006/0166263、Cox HI等人的美国专利申请 公开号2006/0078878、Rebar等人的美国专利申请公开号2005/0257062、Cox  III等人的美国专利申请公开号2005/0215502、Cox MI等人的美国专利申请公 开号2005/0130304、Case等人的美国专利申请公开号2004/0203064、Case等 人的美国专利申请公开号2003/0166141、Case等人的美国专利申请公开号 2003/0134318、Eisenberg等人的美国专利申请公开号2003/0105593、Cox IM 等人的美国专利申请公开号2003/0087817、Rebar等人的美国专利申请公开号 2003/0021776、和Case等人的美国专利申请公开号2002/0081614中描述的, 通过这种引用将它们都并入本文。例如,描述在这些专利和专利公开中的一 个备选方法涉及使用所谓的“D-能够位点”和锌指组件或锌指DNA结合结 构域,其可以结合到此类位点。“D-能够”位点是靶位点区,其允许适当设 计的锌指组件或锌指DNA结合结构域结合到靶链的四个碱基而不是三个碱 基。此类锌指组件或锌指DNA结合结构域结合到双链DNA靶区段(靶链)的 一条链上的三个碱基的三联体和互补链上的第四个碱基。单个锌指与四个碱 基靶区段的结合既对靶链的序列施加了限制,也对锌指的氨基酸序列施加了 限制。
    如本文所用,本文中出现的各种氨基酸序列中的氨基酸是根据它 们公知的三字母或单字母缩写来表示的。出现在各种DNA片段中的核苷酸, 是用本领域常规使用的标准的单字母标识来指定。
    在肽或蛋白质中,氨基酸的合适的保守替代是本领域技术人员公 知的并且通常可以产生所述替代而不改变所得分子的生物活性。本领域技术 人员认识到,通常,多肽的非必需区域中的单个氨基酸替代不实质上改变生 物活性(见例如,Watson等人Molecular Biologyof the Gene,4th Edition, 1987,Benjamin/Cummings,p.224)。具体地,这种保守变体具有经修饰的氨 基酸序列,使得所述改变不实质上改变该蛋白质的(保守变体的)结构和/或活 性,例如,抗体活性、酶活性或者受体活性。这些包括氨基酸序列的保守修 饰的变异,即对于蛋白质活性不关键的那些残基的氨基酸替代、添加或缺 失,或者用具有相似性质(例如,酸性、碱性、带正电荷或负电荷的、极性或 非极性等)残基替代氨基酸,使得甚至关键的氨基酸的替代也不实质上改变结 构和/或活性。提供功能上相似的氨基酸的保守替代表是本领域公知的。例 如,选择保守替代的一个示例性教导包括(原始残基接着是示例性替代): Ala/Gly或Ser;Arg/Lys;Asn/Gln或His;Asp/Glu;Cys/Ser;Gln/Asn; Gly/Asp;Gly/Ala或Pro;His/Asn或Gln;Ile/Leu或Val;Leu/Ile或Val; Lys/Arg或Gln或Glu;Met/Leu或Tyr或Ile;Phe/Met或Leu或Tyr; Ser/Thr;Thr/Ser;Trp/Tyr;Tyr/Trp或Phe;Val/Ile或Leu。备选的示例性教 导使用下面的六组,每个含有相互为保守替代的氨基酸:(1)丙氨酸(A或 Ala),丝氨酸(S或Ser),苏氨酸(T或Thr);(2)天冬氨酸(D或Asp),谷氨酸(E 或Glu);(3)天冬酰胺(N或Asn),谷氨酰胺(Q或Gln);(4)精氨酸(R或Arg), 赖氨酸(K或Lys);(5)异亮氨酸(I或Ile),亮氨酸(L或Leu),甲硫氨酸(M或 Met),缬氨酸(V或Val);和(6)苯丙氨酸(F或Phe),酪氨酸(Y或Tyr),色氨 酸(W或Trp);(也见,例如,Creighton(1984)Proteins,W.H. Freeman and Company;Schulz and Schimer(1979)Principles of Protein  Structure,Springer-Verlag)。本领域技术人员将理解上述替代不是仅仅可能的 保守替代。例如,对于一些目的,可以认为所有带电荷的氨基酸相互为保守 替代,而不管它们是带正电荷或负电荷。此外,在编码序列中改变、添加或 缺失单个氨基酸或者小百分比的氨基酸的个体替代、缺失或添加也可以被认 为是“保守修饰的变异”(当将被递送的蛋白质的三维结构和功能被这种变异 保留时)。
    如本文所用,术语“表达载体”指本领域中已知的质粒、病毒、 噬菌粒或其他载体,其已经通过插入或掺入异源DNA(如编码本文的融合蛋 白的核酸或本文提供的表达盒)而被操作。这种表达载体通常含有用于所插入 的核酸在细胞中有效转录的启动子序列。表达载体通常含有复制原点、启动 子,以及允许所转化细胞的表型选择的特定基因。
    如本文所用,术语“宿主细胞”指其中载体可以增殖并且其DNA 可以表达的细胞。该术语也包括主题宿主细胞的任何后代。可以理解所有后 代可以不与亲本细胞相同,因为在复制期间可以发生突变。当使用术语“宿主 细胞”时,包括这种后代。稳定转移(其中外源DNA在宿主中被持续保持)的 方法是本领域已知的。
    如本文所用,遗传治疗涉及将异源DNA转移到哺乳动物、尤其 人的某些细胞、靶细胞,所述哺乳动物患有该种治疗寻求的病症或状况。将 DNA以这样的方式导入所选的靶细胞使得异源DNA被表达并且产生其编码 的治疗产物。替代地,异源DNA可以以某种方式介导编码治疗产物的DNA 的表达,或者它可以编码产物,如肽或RNA,其以某种方式直接或间接介导 治疗产物的表达。遗传治疗也可以用于递送编码基因产物的核酸,其替换它 所导入的哺乳动物或细胞的缺陷基因或者补充所述哺乳动物或细胞产生的基 因产物。所导入的核酸可以编码治疗化合物,如其生长因子抑制剂,或者肿 瘤坏死因子或其抑制剂,如其受体,所述治疗化合物不通常在哺乳动物宿主 中产生或者不以治疗有效量或者治疗有用的时间产生。可以在导入受折磨的 宿主细胞前修饰编码治疗产物的异源DNA以便增强或改变其产物或表达。遗 传治疗也可以涉及递送基因表达的抑制剂或阻抑物或其他调节剂。
    如本文所用,异源DNA是这样的DNA,其编码通常不在其所表 达的细胞体内产生的RNA和蛋白质或者其通过影响转录、翻译或者其它可调 节的生物化学过程介导或编码改变内源DNA的表达的介体。异源DNA也可 以被称作外源DNA。本领域技术人员将认识到或认为对于其所表达的细胞异 源或外源的任何DNA都在这里被异源DNA所包括。异源DNA的实例包括 但不限于,编码可追踪的标记蛋白(如赋予药物抗性的蛋白质)的DNA、编 码治疗有效性物质(如抗癌剂、酶和激素)的DNA,和编码其它类型蛋白质 (如抗体)的DNA。异源DNA编码的抗体可以被细胞所分泌或在细胞表面 上表达,其中在所述细胞中已经导入了所述异源DNA。
    因此,本文的异源DNA或外源DNA包括这样的DNA分子,其 不存在于在基因组中发现的对应DNA分子的确切的方向和位置中。它也可以 指来自另一生物或物种(即外源的)的DNA分子。
    如本文所用,治疗有效产物是异源核酸(通常是DNA)编码的产 物,当将所述核酸导入宿主时,表达产物,该产物减轻或消除遗传的或获得 性疾病的症状、表现,或者治愈该疾病。通常,通过常规方法将编码期望的 基因产物的DNA克隆到质粒载体并导入或显微注射到生产细胞,如包装细胞 中,所述方法诸如磷酸钙介导的DNA摄入(见,(1981)Somat.Cell.Mol. Genet.7:603-616)。在生产细胞中扩增后,将含有异源DNA的载体导入所选 的靶细胞中。
    如本文所用,表达载体或递送载体指任何质粒或病毒,其中可以 插入外源或异源DNA用于在合适的宿主细胞中表达,即该DNA编码的蛋白 质或多肽在宿主细胞的系统中合成。能够指导编码一种或多种蛋白质的DNA 区段(基因)表达的载体在本文中被称作“表达载体”。还包括允许使用逆转录酶 从产生的mRNA克隆cDNA(互补DNA)的载体。
    如本文所用,基因指核酸分子,其核苷酸序列编码RNA或多 肽。基因可以是RNA或DNA。基因可以包括编码区之前和之后的区域(前导 序列和非转录尾区)以及单独的编码区段(外显子)之间的间插序列(内含子)。
    如本文所用,关于核酸分子或多肽或其它生物分子的术语“分离 的”指该核酸或多肽已经与从中得到该多肽或核酸的遗传环境分离。它也可 以指该生物分子已经从其天然状态改变。例如,天然存在于活的动物中的多 核苷酸或多肽不是“分离的”,但是如该术语在本文中所用与其天然状态的 共存物质分离的相同多核苷酸或多肽是“分离的”。从而,认为在重组宿主 中产生和/或包含在重组宿主中的多肽或多核苷酸是分离的。还预期为“分离 的多肽”或“分离的多核苷酸”是已经从重组宿主细胞或从天然来源纯化、 部分或基本纯化的多肽或多核苷酸。例如,可以通过Smith等人(1988) Gene 67:3140中所述的一步方法基本上纯化重组产生形式的化合物。术语分 离的和纯化的有时可互换使用。
    从而,“分离的”指核酸没有那些基因的编码序列,所述基因在 自然存在的基因组中位于编码目的核酸的基因的直接侧翼。分离的DNA可以 是单链或双链的,可以是基因组DNA、cDNA、重组杂种DNA或合成的 DNA。它可以与天然DNA序列是相同的,或者可以通过缺失、添加或替代 一个或多个核苷酸而与此类序列不同。
    如那些术语用于指从生物细胞或宿主制备的制备物一样,“分离 的”或“纯化的”指含有所述DNA或蛋白质的任何细胞提取物,包括目的 DNA或蛋白质的粗提物。例如,在蛋白质的情况下,可以按照单独的技术或 者一系列制备或生物化学技术得到纯化制剂,并且目的DNA或蛋白质可以以 不同的纯度存在于这些制剂中。具体对于蛋白质,所述方法可以包括例如但 不限于,硫酸铵分级分离、凝胶过滤、离子交换层析、亲和层析、密度梯度 离心、电聚焦、层析聚焦和电泳。
    “基本上纯的”或“分离的”DNA或蛋白质制剂应该被理解为指 这样的制剂,其没有在天然中通常伴随着此类DNA或蛋白质的天然存在的物 质。“基本上纯的”应该被理解为指“高度”纯化的制剂,其含有至少95% 的目的DNA或蛋白质。
    含有目的DNA或蛋白质的细胞提取物应该被理解为指从表达目 的蛋白质或含有目的DNA的细胞得到的匀浆制剂或无细胞的制剂。术语“细 胞提取物”意在包括培养基,特别是已经去除细胞的耗尽的培养基。
    如本文所用,基因的启动子区包括通常位于结构基因的5’的一种 或多种调节元件;可以存在通过间插的核苷酸序列分开的多种调节元件。如 果基因将被激活,那么称作转录因子的蛋白质附着到该基因的启动子区。该 装配通过使得酶将第二遗传区段从DNA转录为RNA而类似于“通电”。在 多数情况下,所得的RNA分子作为特定蛋白质合成的模板;有时RNA自身 是终产物。启动子区可以是正常的细胞启动子或者例如,是癌启动子。癌启 动子通常是病毒来源的启动子。可以靶定锌指结合多肽的病毒启动子包括但 不限于,逆转录病毒长末端重复序列(LTR)、和慢病毒启动子,如来自人T细 胞嗜淋巴细胞病毒(HTLV)1和2的和人免疫缺陷病毒(HIV)1或2的启动子。
    如本文所用,术语“截短的”或类似术语是指多肽衍生物,其含 有比天然蛋白的完整氨基酸序列少的氨基酸序列,例如,ZFP、TALE或丝氨 酸重组酶。
    如本文所用,多肽“变体”或“衍生物”是指这样的多肽,其为 多肽的诱变形式或者通过重组产生的,但仍保留所期望的活性,例如结合配 体或核酸分子或调节转录的能力。
    如本文所用,术语“药学上可接受的”、“生理学耐受的”和其 语法变体当指组合物、载体、稀释剂和试剂时,可互换使用并且表示该物质 能够施用于人而不产生不期望的生理学作用,如恶心、眩晕、胃不适等等, 它们将一定程度上阻止该组合物的施用。
    如本文所用,术语“载体”指核酸分子,其能够将其已经有效连 接的另一核酸在不同的遗传环境之间转运。优选的载体是能够自主复制和表 达它们有效连接的DNA区段中存在的结构基因产物的那些载体。因此,载体 优选含有复制子和先前描述的可选择的标记。载体包括但不必须局限于表达 载体。
    如本文关于核酸分子,包括DNA片段所用的,短语“有效连 接”指序列或区段优选通过常规的磷酸二酯键共价连接到单链或双链形式的 DNA的一条链,使得被有效连接的部分如预期的发挥功能。如本领域公知 的,本文提供的转录单元或盒有效连接的载体的选择直接取决于所希望的功 能性质,例如载体复制和蛋白质表达,和将被转化的宿主细胞,这些是构建 重组DNA分子领域中固有的限制。
    如本文所用,治疗组合物的施用可以通过任何方式实现,并且包 括但不限于,经口、皮下、静脉内、肌内、胸骨内、灌注技术、腹膜内施用 和肠胃外施用。
    转化细胞的方法是本领域公知的。通过“转化的”是指细胞中由 外源DNA的摄取而产生的可遗传的改变。合适的方法包括病毒感染、转染、 偶联、原生质体融合、电穿孔、粒子枪技术、磷酸钙沉淀、直接显微注射 等。方法的选择通常取决于被转化的细胞类型和转化发生的环境(即体外、 离体或体内)。可以在Ausubel等人,Short Protocols in Molecular Biology, 3rd ed.,Wiley&Sons,1995中发现这些方法的一般讨论。
    术语“核酸分子”和“多核苷酸”可以互换使用并且是指任何长 度的核苷酸的聚合形式,或者是脱氧核糖核苷酸或核糖核苷酸,或其类似 物。多核苷酸可具有已知或未知的任何三维结构,并且可以执行已知或未知 的任何功能。多核苷酸的非限制性实例包括基因、基因片段、外显子、内含 子、信使RNA(mRNA)、转移RNA、核糖体RNA、核酶、cDNA、重组多 核苷酸、分支多核苷酸、质粒、载体、任何序列的分离的DNA、任何序列的 分离的RNA、核酸探针和引物。
    “表达盒”包括能够指导目的基因/编码序列的表达的任何核酸 构建体。为了将表达盒转移进靶细胞,可以将这种盒构造成“载体”、“载 体构建体”、“表达载体”或“基因转移载体”。因此,该术语包括克隆和 表达载体,以及病毒载体。
    用于测定核酸和氨基酸“序列同一性”的技术在本领域是公知 的。通常地,此类技术包括测定基因的mRNA的核苷酸序列和/或测定由其 编码的氨基酸序列,以及将这些序列与第二核苷酸或氨基酸序列相比较。一 般而言,“同一性”是指两个多核苷酸或多肽序列的确切的核苷酸对核苷酸 或氨基酸对氨基酸的分别对应。两个或更多个序列(多核苷酸或氨基酸)可通 过测定它们的“百分比同一性”来比较。两个序列的百分比同一性,无论是 核酸还是氨基酸序列,是两个比对的序列之间确切匹配的数目除以较短序列 的长度,随后乘以100。核酸序列的近似比对利用Smith和Waterman的局部 同源性算法,Advances in Applied Mathematics 2:482-489(1981)来提供。该算 法可通过使用由Dayhoff,Atlas of Protein Sequences and Structure,M.O. Dayhoff编著,5 suppl.3:353-358,National Biomedical Research Foundation, Washington,D.C.,USA开发的,和由Gribskov,Nucl.Acids Res.14(6):6745- 6763(1986)标准化的评分矩阵来用于氨基酸序列。这种测定序列的百分比同 一性的算法的示例性实施方式由“BestFit”实用申请中的 Genetics Computer Group(Madison,Wis.)提供。这种方法的缺省参数被描述 在the Wisconsin Sequence Analysis Package Program Manual,Version 8 (1995)(可从Genetics Computer Group,Madison,Wis.中获得)中。在本发明的 背景中,确立百分比同一性的优选的方法是使用MPSRCE程序包,爱丁堡大 学拥有其版权,由John F.Collins和Shane S.Sturrok研发,并由 IntelliGenetics,Inc.(Mountain View,Calif.)分销。根据该组程序包,可以使用 Smith-Waterman算法,其中评分表使用缺省参数(例如,空位开放罚分12、 空位扩展罚分1、以及空位6)。根据产生的数据,“匹配”值反映了“序列 同一性”。用于计算序列之间的百分比同一性或相似性的其它合适的程序在 本领域通常是已知的,例如,另一个算法程序是使用缺省参数的BLAST。例 如,可通过使用下列缺省参数来使用BLASTN和BLASTP:遗传密码=标 准;过滤=无;链=两条;截断值=60;期望值=10;矩阵=BLOSUM62; 描述=50个序列;排序依据=高评分;数据库=非冗余的, GenBank+EMBL+DDBJ+PDB+GenBank CDS翻译+Swiss蛋白 +Spupdate+PIR。
    可选地,通过在同源区域之间形成稳定双链体的条件下杂交多核 苷酸,接着通过用单链特异性核酸酶(一种或者多种)消化,并且确定消化片 段的大小,可以确定同源性。如使用上述方法所确定的,当序列在分子的限 定长度内表现出至少约80%-85%、优选至少约85%-90%、更优选至少约 90%-95%、以及最优选至少约95%-98%的序列同一性时,两个DNA或者两 个多肽序列彼此“基本同源”。如本文所用,基本同源也指与特定的DNA或 多肽序列表现出完全同一性的序列。基本同源的DNA序列可以在例如,该具 体系统规定的严格条件下、以DNA杂交(Sourthern hybridization)实验鉴定。 限定合适的杂交条件在本领域的技术范围内。参见例如,Sambrook等人,见 上;DNA Cloning,见上;Nucleic Acid Hybridization,见上。
    正因为如此,本发明提供了核酸和编码本发明的嵌合多肽的氨基 酸序列,其是基本同源的并且编码保持同等的生物活性的多肽。
    两个核酸片段如本文所描述的被视为“选择性杂交”。两个核酸 分子之间的序列同一性程度影响此种分子之间的杂交事件的效率和强度。部 分等同的核酸序列将至少部分抑制完全等同的序列与靶分子的杂交。完全等 同序列的杂交抑制可以使用本领域公知的杂交测定进行评估(例如,DNA印 迹、RNA印迹、溶液杂交等,参见Sambrook等人,Molecular Cloning:A  Laboratory Manual,Second Edition,(1989)Cold Spring Harbor,N.Y.)。此种测定 可以使用不同程度的选择性来进行,例如,使用从低到高严格性不等的条 件。如果采用低严格性的条件,那么使用甚至缺乏部分序列同一性程度的二 级探针(例如,与靶分子具有小于约30%序列同一性的探针)也可以评估非特 异性结合的不存在,从而使得在不存在非特异性结合事件的情况下,二级探 针将不与靶杂交。
    当利用基于杂交的检测系统时,选择这样的核酸探针,其与靶核 酸序列互补,并且随后通过选择合适条件,探针和靶序列彼此“选择性杂 交”或结合,以形成杂交分子。在“中等严格性”下能够与靶序列选择性杂交 的核酸分子一般在这样的条件下杂交,所述条件允许检测与所选择的核酸探 针序列具有至少约70%序列同一性、长度至少约10-14个核苷酸的靶核酸序 列。严格杂交条件一般允许检测与所选择的核酸探针序列具有超过约90-95% 序列同一性、长度至少约10-14个核苷酸的靶核酸序列。用于其中探针和靶 具有特定序列同一性程度的探针/靶杂交的杂交条件,可以如本领域已知的进 行测定(参见例如,Nucleic Acid Hybridization:A Practical Approach,编辑 B.D.Hames和S.J.Higgins,(1985)Oxford;Washington,D.C.;IRL Press)。
    就用于杂交的严格性条件而言,本领域众所周知的是,通过改变 例如下述因素众多等价条件可以用于确定特定严格性:探针和靶序列的长度 和性质、各种序列的碱基组成、盐和其它杂交溶液组分的浓度、杂交溶液中 阻断剂(例如,甲酰胺、硫酸葡聚糖和聚乙二醇)的存在或不存在、杂交反应 温度和时间参数,以及改变洗涤条件。特定杂交条件组的选择根据本领域的 标准方法进行选择(参见,例如,Sambrook等人,Molecular Cloning:A  Laboratory Manual,Second Edition,(1989)Cold Spring Harbor,N.Y.)。
    如果第一种多核苷酸与第二种多核苷酸、其cDNA、其互补体的 区域具有相同或基本上相同的碱基对序列,或如果它显示出如上所述的序列 同一性,则认为第一种多核苷酸“衍生自”第二种多核苷酸。
    如果第一种多肽(i)由衍生自第二种多核苷酸的第一种多核苷酸编 码,或(ii)显示如上所述的与第二种多肽的序列同一性,则认为第一种多肽 “衍生自”第二种多肽。
    位点特异性重组酶是用于基因组工程的强大工具。丝氨酸重组酶 的解离酶/转化酶家族的过度活化变体在没有辅助因子的情况下发挥功能,因 此可以通过用工程化的锌指蛋白(ZFP)取代天然的DNA结合结构域重新靶 向目的序列。
    本文所描述的锌指重组酶是嵌合酶,其由衍生自丝氨酸重组酶的 解离酶/转化酶家族和定制设计的锌指DNA结合结构域的活化的催化结构域 组成。从设计的催化结构域装配的ZFR以高度特异性有效重组用户定义的 DNA靶,并且经设计的ZFR将DNA整合入人类细胞中的靶向内源性位点。
    在一方面,本发明提供了产生具有比对应的野生型重组酶高的催 化特异性的多个锌指重组酶(ZFR)蛋白的方法。该方法包括在重组酶催化 结构域的相当于就野生型Gin催化结构域而言的Gin I1e120、Thrl23、 Leul27、Ilel36和Glyl37或其组合的位置上进行随机诱变,使在每个氨基酸的 位置2和位置3处的DNA突变;使重组酶催化结构域与多个锌指结合结构域 融合以形成ZFR,并且富集具有比对应的野生型重组酶高的催化特异性的 ZFR。在一些实施方式中,ZFR对选自GC、GT、CA、TT和AC的DNA靶 具有增高的催化活性。在一个实施方式中,重组酶催化结构域在Ilel36和/或 Glyl37处发生诱变。
    如本文所用,野生型Gin催化结构域是指包括所有或部分的具有 如下所示的列于SEQ ID NO:56中的氨基酸序列的多肽的Gin催化结构域: MLIGYVRVSTNDQNTDLQRNALVCAGCEQIFEDKLSGTRTDRPGLKRALK RLQKGDTLVVWKLDRLGRSMKHLISLVGELRERGINFRSLTDSIDTSSPMG RFFFYVMGALAEMERELIIERTMAGLAAARNKGRIGGRPPKLTKAEWEQA GRLLAQGIPRKQVALIYDVALSTLYKKHP。
    在各种实施方式中,本发明的嵌合多肽包括Gin催化结构域,例 如由本发明的方法产生的那些Gin催化结构域。具体的Gin催化结构域包括 列于表1中的那些Gin催化结构域。
    表1.Gin催化结构域

    在各种实施方式中,通过本发明的方法产生的ZFR包括可操作 地连接到多个锌指结合结构域的Gin催化结构域。由本发明产生的示例性的 ZFR包括列于表2中的那些ZFR。
    表2.ZFR




    虽然实施例说明了具有Gin催化结构域的ZFR的产生,但是该 方法也可以适用于若干其它重组酶的催化结构域。这样的重组酶包括: a)Tn3,也称为EcoTn3;Hin,也称为StyHin;MuGin;Sin;Beta;Pin; Min;Din;Cin;EcoTn21;SfaTn917;BmeTn5083;Bme53;Cpe; SauSKl;SauSK41;SauTn552;Ran;Aac;Lla;pMER05;Mlo92;Mlo90; Rrh;Pje;Req;PpsTn5501;Pae;Xan;ISXc5;Spy;RhizY4cG; SarpNLl;SsolSC1904a;SsolSC1904b;SsoISC1913;Aam606;MjaM0014; Pab;HpylS607;MtulS_Y349;MtuRv2792c;MtuRv2979c;MtuRv3828c; MtuRv0921;MceRv0921;TnpX;TndX;WwK;乳球菌噬菌体TP901-1丝 氨酸重组酶;化脓性链球菌噬菌体φ370.1丝氨酸重组酶;化脓性链球菌噬菌 体φFC1丝氨酸重组酶;李斯特菌属噬菌体A118丝氨酸重组酶;天蓝色链霉 菌染色体SC3C8.24丝氨酸重组酶;天蓝色链霉菌染色体SC2E1.37丝氨酸重 组酶;天蓝色链霉菌染色体SCD78.04c丝氨酸重组酶;天蓝色链霉菌染色体 SC8F4.15c丝氨酸重组酶;天蓝色链霉菌染色体SCD12A.23丝氨酸重组酶; 天蓝色链霉菌染色体SCH10.38c丝氨酸重组酶;天蓝色链霉菌染色体 SCC88.14丝氨酸重组酶;链霉菌噬菌体φC31丝氨酸重组酶;链霉菌噬菌体 R4丝氨酸重组酶;芽孢杆菌噬菌体φ105丝氨酸重组酶;芽孢杆菌噬菌体 SPBc2丝氨酸重组酶;芽孢杆菌前噬菌体SKIN丝氨酸重组酶;金黄色葡萄 球菌ccrA丝氨酸重组酶;金黄色葡萄球菌ccrB丝氨酸重组酶;结核分枝杆 菌噬菌体Bxbl丝氨酸重组酶;结核分枝杆菌前噬菌体φRV1丝氨酸重组酶; YBCK_ECOLI;Y4bA;Bja;Spn;Cac 1956;和Cac 1954;以及b)a)的 突变蛋白。
    特定结构域的不完善模块化、缺乏结合到所有DNA三联体的高 亲和力以及难以构建已经阻碍了ZFP在非专业化的实验室中的广泛使用。从 黄单胞菌属发现的转录激活子样效应因子(TALE)蛋白中的新型DNA结合 结构域提供了ZFP的替代。本文描述的是嵌合TALE重组酶(TALER):来 自DNA转化酶Gin的过度活化的催化结构域与优化的TALE架构之间的工程 化融合。递增截短的TALE变体文库被鉴定以鉴定TALER融合体,其以与 细菌细胞中的锌指重组酶相当的效率和特异性修饰DNA。在实施例中还示 出,在哺乳动物细胞中的TALER重组DNA。本文所述的TALER架构提供 用于插入定制的TALE结构域的平台,从而显著扩大工程化的重组酶的靶向 能力以及它们在生物技术和医药中的可能的应用。
    转录激活子样效应因子(TALE)蛋白可以被设计成结合几乎任 何DNA序列。用于TALE DNA结合结构域的设计的一般准则建议TALE所 结合的DNA序列的5'最末端碱基(N0碱基)应该是胸腺嘧啶。通过对在该 位置的每个DNA碱基分析TALE转录因子(TALE-TF)、TALE重组酶 (TALE-R)和TALE核酸酶(TALEN)的活性来对N0要求进行定量分析。 观察到:与含有5'T的靶序列相比,在没有5'T存在的情况下,TALE活性降 低高达>1000倍的TALE-TF活性、降低高达100倍的TALE-R活性以及高达 10倍的TALEN活性的减少。为了开发识别所有可能的N0碱基的TALE架 构,结构引导的文库设计加上TALE-R活性选择被用来进化新型TALE N末 端结构域,以适应任何N0碱基。分离并表征G选择性结构域和广义反应性结 构域。以TALE-R形式选择的工程化的TALE结构域表现出模块化并且在 TALE-TF和TALEN架构有活性。进化的N末端结构域对于作为TALE结合 蛋白和设计酶的任何DNA序列提供有效的和不受约束的基于TALE的靶 定。
    在一方面,本发明提供产生特异性结合期望的核苷酸的转录激活 子样效应因子(TALE)蛋白结合结构域的方法。如实施例中所示出的,该方 法包括:a)通过使可变二残基(RVD)内的氨基酸残基突变,或者通过使该 RVD的N-末端或C-末端的1至2个氨基酸残基内的氨基酸残基突变使TALE 蛋白结合结构域的氨基酸序列随机化;以及b)选择(a)中的随机化的 TALE蛋白结合结构域,其中TALE蛋白结合结构域特异性结合到期望的核 苷酸。
    本文提供了序列特异性核酸酶、重组酶、核酸酶和转录因子。序 列特异性多肽包括定制的TAL效应因子DNA结合结构域。正因为如此,在 另一方面,本发明提供了嵌合多肽。该多肽包括:a)重组酶、转录因子或核 酸酶;以及b)转录激活子样效应因子(TALE)蛋白。
    TALE是植物病原菌蛋白,其通过所述病原体注入植物细胞,其 中所述TALE进入细胞核并作为转录因子启动特定植物基因。TALE的一级 结构的氨基酸序列决定其结合的核苷酸序列。因此,可根据TALE预测靶位 置,且如本文所述,TALE还可被工程化并生成以用于结合具体核苷酸序 列。
    融合TALE编码核酸序列的是编码核酸酶、转录因子或重组酶或 其部分的序列。许多这样的蛋白是现有技术中已知的,其可以在本发明中使 用。
    在各种实施方式中,嵌合多肽包括重组酶的催化结构域。如上所 讨论的,可以利用若干重组酶的催化结构域。这样的重组酶包括:a)Tn3,也 称为EcoTn3;Hin,也称为StyHin;Gin,也称为MuGin;Sin;Beta;Pin; Min;Din;Cin;EcoTn21;SfaTn917;BmeTn5083;Bme53;Cpe; SauSKl;SauSK41;SauTn552;Ran;Aac;Lla;pMER05;Mlo92;Mlo90; Rrh;Pje;Req;PpsTn5501;Pae;Xan;ISXc5;Spy;RhizY4cG; SarpNLl;SsolSC1904a;SsolSC1904b;SsoISC1913;Aam606;MjaM0014; Pab;HpylS607;MtulS_Y349;MtuRv2792c;MtuRv2979c;MtuRv3828c; MtuRv0921;MceRv0921;TnpX;TndX;WwK;乳球菌噬菌体TP901-1丝 氨酸重组酶;化脓性链球菌噬菌体φ370.1丝氨酸重组酶;化脓性链球菌噬菌 体φFC1丝氨酸重组酶;李斯特菌属噬菌体A118丝氨酸重组酶;天蓝色链霉 菌染色体SC3C8.24丝氨酸重组酶;天蓝色链霉菌染色体SC2E1.37丝氨酸重 组酶;天蓝色链霉菌染色体SCD78.04c丝氨酸重组酶;天蓝色链霉菌染色体 SC8F4.15c丝氨酸重组酶;天蓝色链霉菌染色体SCD12A.23丝氨酸重组酶; 天蓝色链霉菌染色体SCH10.38c丝氨酸重组酶;天蓝色链霉菌染色体 SCC88.14丝氨酸重组酶;链霉菌噬菌体φC31丝氨酸重组酶;链霉菌噬菌体 R4丝氨酸重组酶;芽孢杆菌噬菌体φ105丝氨酸重组酶;芽孢杆菌噬菌体 SPBc2丝氨酸重组酶;芽孢杆菌前噬菌体SKIN丝氨酸重组酶;金黄色葡萄 球菌ccrA丝氨酸重组酶;金黄色葡萄球菌ccrB丝氨酸重组酶;结核分枝杆 菌噬菌体Bxbl丝氨酸重组酶;结核分枝杆菌前噬菌体φRV1丝氨酸重组酶; YBCK_ECOLI;Y4bA;Bja;Spn;Cac 1956;和Cac 1954;以及b)a)的 突变蛋白。在优选的实施方式中,利用高活性的Gin催化结构域。这样的结 构域可以使用如本文所述的本发明的方法来产生。
    如本文所述,TALE包括若干不完善的重复序列,该重复序列决 定了其与DNA相互作用的特异性。每个重复序列结合单个碱基,取决于该重 复序列的残基12和残基13处的具体双氨基酸序列。因此,通过工程改造 TALE内的重复序列可以靶向特定的DNA位点。这种工程改造的TALE可用 作例如靶向特定DNA序列的转录因子。
    如在实施例中所说明的,以如列于表3中的变体及其部分(例 如,RVD和NTD)来例举本发明的嵌合蛋白。
    表3







    在各种实施方式中,嵌合蛋白包括具有C末端或N末端截短的 TALE蛋白。例如,TALE蛋白可以包括全部SEQ ID NO:2或者SEQ ID NO:2 的一部分。在实施方式中,TALE蛋白在氨基酸残基27与氨基酸残基268、 氨基酸残基92与氨基酸残基134、氨基酸残基120与氨基酸残基129、氨基 酸残基74与氨基酸残基147、或氨基酸残基87与氨基酸残基120之间是截短 的,例如在氨基酸残基28、氨基酸残基74、氨基酸残基87、氨基酸残基 92、氨基酸残基95、氨基酸残基120、氨基酸残基124、氨基酸残基128、氨 基酸残基129、氨基酸残基147和氨基酸残基150处。
    在另一个实施方式中,提供了分离的多肽,其包含转录激活子样 效应因子(TALE)蛋白,其中TALE蛋白具有包括如SEQ ID NO:3 (VGKQWSGARAL)中所列的氨基酸序列的N-末端结构域(NTD),该氨 基酸序列具有选自以下的一个或多个突变或缺失:Q是Y、Q是S、Q是R、 W是R、W是G、W缺失、S是R、S是H、S是A、S是N、以及S是T。
    在一些实施方式中,NTD包括选自以下的氨基酸序列: VGKYRGARAL(SEQ ID NO:4)、VGKSRSGARAL(SEQ ID NO:5)、 VGKYHGARAL(SEQ ID NO:6)和VGKRGAGARAL(SEQ ID NO:7)。
    在另一个实施方式中,提供了分离的多肽,其包含转录激活子样 效应因子(TALE)蛋白,其中TALE蛋白具有包含如SEQ ID NO:8 (IVDIAR1QR2SGDLA)中所列的氨基酸序列的N-末端结构域(NTD),该 氨基酸序列具有选自以下的一个或多个突变或缺失:R1是K、Q是Y、Q是 S、Q是R、R2是W、R2是G、R2缺失、S是R、S是H、S是A、S是N、 以及S是T。
    在一些实施方式中,NTD包括选自以下的氨基酸序列: IVDIARQWSGDLA(SEQ ID NO:9)、IVDIARYRGDLA(SEQ ID  NO:10)、IVDIARSRSGDLA(SEQ ID NO:11)、IVDIARYHGDLA(SEQ  ID NO:12)和IVDIARRGAGDLA(SEQ ID NO:13)。
    在另一个实施方式中,TALE蛋白包括具有阐述如下的氨基酸序 列的修饰的N0结构域:LTPDQLVKIAKRGGTAMEAVHASRNALTGAPLN (SEQ ID NO:102)。在各种实施方式中,TALE蛋白包括经突变的变体,其 中SEQ ID NO:102的KRGG(SEQ ID NO:103)是选自LDYE(SEQ ID  NO:104)、INLV(SEQ ID NO:105)、YSKK(SEQ ID NO:106)、NMAH (SEQ ID NO:107)、SPTN(SEQ ID NO:108)、SNTR(SEQ ID  NO:109)、LTTT(SEQ ID NO:110)、VADL(SEQ ID NO:111)、MVLS (SEQ ID NO:112)、YNGR(SEQ ID NO:113)、RIPR(SEQ ID  NO:114)、YSKI(SEQ ID NO:115)、LTQY(SEQ ID NO:116)、YLSK (SEQ ID NO:117)、LRPN(SEQ ID NO:118)、LFTN(SEQ ID  NO:119)、LLTN(SEQ ID NO:120)、EEDK(SEQ ID NO:121)、VTAM (SEQ ID NO:122)、CPSR(SEQ ID NO:123)、LTRV(SEQ ID  NO:124)、KGDL(SEQ ID NO:125)、QKAL(SEQ ID NO:126)、LYLL (SEQ ID NO:127)、WISV(SEQ ID NO:128)、GDQV(SEQ ID NO:129) 和CPSR(SEQ ID NO:130)。
    在另一个实施方式中,TALE蛋白包括具有阐述如下的氨基酸序 列的修饰的N-1结构域:
    MRSPKKKRKVQVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTH AHIVALSQHPAALGTVAVTYQHIITALPEATHEDIVGVGXXXXXARALEAL LTDAGELRGPPLQLDTGQLVKIAKRGGVTAMEAVHASRNALTGAP(SEQ  ID NO:131)。在各种实施方式中,SEQ ID NO:131的XXXXX是KRPAG (SEQ ID NO:132)或KRPSG(SEQ ID NO:133)。此外,该蛋白可以包括 表现出增强的活性的E40G突变(参照SEQ ID NO:131)。
    在另一个实施方式中,TALE蛋白包括具有阐述如下的氨基酸序 列的重复序列结构域:
    LTPDVVAISNNGGKQALETVQRLLPVLCQDGH(SEQ ID NO:134)。在各 种实施方式中,TALE蛋白包括经突变的变体,其中SEQ ID NO:134的 SNNG(SEQ ID NO:135)是选自RGGG(SEQ ID NO:136)、RGGR(SEQ  ID NO:137)、RGVR(SEQ ID NO:138)、KGGG(SEQ ID NO:139)、 SGGG(SEQ ID NO:140)、GGRG(SEQ ID NO:141)、LGGS(SEQ ID  NO:142)、MDNI(SEQ ID NO:143)、RVMA(SEQ ID NO:144)、LASV (SEQ ID NO:145)、VGTG(SEQ ID NO:146)和QGGG(SEQ ID  NO:147)。
    提供以下实施例以进一步说明本发明的优点和特征,但并不旨在 限制本发明的范围。虽然它们是可能使用的方法中典型的例子,但是也可使 用本领域技术人员已知的其它过程、方法或技术。
    实施例1
    嵌合TALE重组酶
    实验总结
    该研究提供了第一个TALE重组酶(TALER)的实施例。使用 递增截短的TALE结构域文库,鉴定优化的TALER架构,其可用于使DNA 重组入细菌和哺乳动物细胞中。任何定制的TALE重复阵列可以被插入本文 所述的TALER架构,从而显著扩大设计的重组酶在生物技术和医药应用中 的靶向能力。
    在本实施例中使用了以下的材料和方法。
    试剂
    除非另有说明,否则所有的酶均购自New England Biolabs。引物 序列提供在表4中。
    表4.引物





    质粒构建
    为了将BamHl限制位点引入到Gin编码序列的5'或者3'端,分 别用引物5'Gin_N端和3'Gin_N端或者5'Gin_C端和3'Gin_C端将Gin催化结 构域进行PCR扩增。将PCR产物连接至pBluescriptII(Fermentas)的SacI和 XbaI限制位点中以产生pB-Bam-Gin和pB-Gin-Bam。为了产生C末端和N 末端TALER融合,用BamHl将AvrXa7基因从pWAvrXa7释放(由B.Yang 博士友情提供,Iowa State University)并且分别连接到pB-Bam-Gin和pB- Gin-Bam(41)的BamHl位点中以建立pB-Avr-Bam-Gin和pB-Gin-Bam- Avr。通过序列分析(图6-16)验证每个TALER的正确构建。
    为了产生AvrXa7的N-末端截短,利用扩展的高保真PCR系统 (Expand High Fidelity PCR System)(Roche)使用5'Avr-n-(1-10)和3' Avr+28或者3'Avr+95引物按照以下程序对AvrXa7进行PCR扩增:94℃3分 钟的条件下进行1个循环、94℃1分钟、52℃1分钟、68℃6分钟的条件下进 行16个循环、以及68℃1小时的条件下进行最后一个循环。在标准PCR条 件下用5'Gin_C端和3'GinNTalPCRFus对Gin催化结构域进行PCR扩增,并 且通过利用上述的PCR条件进行重叠PCR而将其融合到截短的AvrXa7变 体。以等摩尔比值对纯化的Gin-Avr PCR产物进行混合并用SacI和XbaI对 其进行消化。
    为了产生设计TALE,我们使用带有以下修饰的TALEN试剂盒 (Addgene):pTALl修饰为在Δ120、Δ128、或+28处包含截短。为了实现 这一目标,用5'Avr n4或Avr n128和3'TalR Xba+28对AvrXa7Δ120和 AvrXa7Δ128片段进行PCR扩增,并且将其连接到pTALl的BamHl限制位 点,以产生pTALΔ120和pTALΔ128。质粒pTALΔ120和pTALΔ128为金 门克隆(Golden Gate cloning)保留Esp3I限制性位点。用BamHl和XbaI对 克隆到pTALΔ120和pTALΔ128的TALE阵列进行消化以连接到pB-Gin- Bam。
    为了产生哺乳动物TALER表达载体,用5'Nhe-SD-Gin F和 3'GinGS R从pB-Gin-Avr中对Gin催化结构域进行PCR扩增并且将其连接到 pcDNA 3.1(Invitrogen)的NheI和BamHI限制性位点。用BamHl和XbaI 从pTALΔ120或pTALΔ128中对Avr15进行消化,并且将其连接至pcDNA- Gin-Bam以产生pcDNA-Gin-Avr表达载体。
    如前所述构建pBLA底物质粒。
    为了产生pGL3报告质粒,用含有引物5'pGL3SV40BglII和3' pGL3SV40HindIII的重组位点从pGL3-启动子(Promega)中对SV40启动子 进行PCR扩增,并且将其连接入pGL3-启动子的BglII和HindIII限制性位 点。
    细菌重组分析。
    如前所述进行细菌重组分析。
    递增截短文库。
    利用先前所述的修饰方案产生递增截短文库。简要地说,为了保 护Gin编码序列不被外切核酸酶消化,将具有SmaI限制性位点的填充片段插 入BamHl以产生pB-Gin-SmaI-Bam-Avr。用NheI将该质粒线性化并与外切核 酸酶III在37℃下孵育2.5分钟,随后在75℃下加热灭活25分钟。然后用具 有200μΜdNTP和5μΜ[α]-S-dNTP的Klenow片段(3'至5'外切)与pB- Gin-Bam-Avr在37℃下孵育30分钟,随后在80℃下加热灭活25分钟。为了 产生截短文库,将pB-Gin-Bam-Avr与外切核酸酶III在37℃下孵育2.5分 钟,随后加热灭活以及随后用绿豆核酸酶在30℃下平端1小时。用SmaI消 化后,将重组酶编码序列的3'平端连接到TALE片段的平端文库。转化并纯 化后,用SacI和XbaI对该质粒进行消化以释放Gin-ΔAvr。
    哺乳动物报告分析。
    以每孔4×104个细胞的密度将HEK293T细胞接种到96孔板 上,并使其在湿润的5%CO2气氛中于37℃下生长。在接种后24小时,根据 制造商的说明利用Lipofectamine 2000(Invitrogen)用150ng pcDNA TALER 表达载体、2.5ng pGL3报告质粒以及1ng表达海肾萤光素酶的pRL-CMV对 细胞进行转染。在转染后48小时,用被动裂解缓冲液(Promega)使细胞裂 解并根据制造商的说明利用双荧光素酶报告基因检测系统(Promega)测定荧 光素酶的表达。利用Veritas微孔板检测仪(Turner Biosystems)测量发光。
    结果。
    TALER架构。
    已经描述了用于评估和定向进化重组酶活性的定量系统。在该系 统(图1A)中,侧接重组位点的GFPuv转基因被插入到编码TEM-1β内酰 胺酶的基因。这种改变破坏β内酰胺酶的表达并使包含此质粒(pBLA)的大 肠杆菌细胞对氨苄青霉素敏感。但是,活性重组酶从含质粒的底物中的表达 导致靶位点与复原的β内酰胺酶阅读框之间的重组。这种修饰使宿主细胞建 立对氨苄青霉素的耐药性并且能够实现活性重组酶变体从含质粒的底物中的 分离。通过测量质粒纯化和重新转化后的氨苄青霉素-耐药性转化体数量,也 可以直接评估重组酶活性。因为嵌合重组酶的活性取决于催化结构域和DBD 两者,所以这种分裂基因重装配选择系统也可以用于评估个体DBD的有效 性。因此,该系统适合于确定最佳的TALER架构。
    重要的是,因为DNA转化酶Gin及相关的丝氨酸重组酶的催化 结构域具有预先定义的催化特异性,所以TALER融合蛋白不能利用为 TALEN描述的设计而被构建。对于γδ解离酶和设计的酶的结构和功能的研 究已经表明,C末端E-螺旋介导丝氨酸重组酶DNA识别。在ZFR中,这种 螺旋从C末端至N末端、从5'到3'结合DNA。因此,由于TALE以5'至3'的 方向结合DNA,因此可以预计仅当TALE结合位点被定位在20-bp核心(图 1B)的相反链时才能发生重组。
    有人选择利用AvrXa7产生TALER,因为这种TALE蛋白先前 已经用于产生TALE核酸酶和转录因子。为方便起见,BamHI限制性位点侧 接许多TALE,该TALE包括AvrXa7,并且多个基团已经用这种限制性位点 以产生合成TALE融合。值得注意的是,BamHI片段保持TALE N末端完 整,但会除去C末端的天然效应子结构域。采用这种策略并通过BamHl限制 消化产生了Gin-AvrXa7融合。
    将Gin-AvrXa7克隆到含有由中央20-bp核心序列组成的重组位 点和两个侧接26-bp AvrXa7结合位点的pBLA选择载体中,该中央20-bp核 心序列由Gin催化结构域识别。正如预期的那样,当AvrXa7结合位点被定 位邻近该20-bp核心(图1C)时,Gin-AvrXa7融合无法重组DNA。然而, 当AvrXa7结合位点被定位在20-bp核心的相反链上时,重组变得明显(图 1C),这表明重组位点取向是催化结构域融合到TALE N-末端的关键组成。 为了进一步确立N-末端融合对于重组是必要的,构建出C-末端AvrXa7-Gin 变体,其含有预计约束催化结构域活性的非规范融合方向(图1B和表5)。 正如预期的那样,确定了这种C-末端AvrXa7融合在细菌细胞中显示出可忽 略的活性(图1C)。
    表5。


    设计截短。
    尽管上述Gin-AvrXa7融合催化重组,但是该变体的活性比设计 的ZFR的活性要低得多。此外,特异性分析显示,Gin-AvrXa7融合无法进行 包含非同源DBD位点的识别位点与非天然20-bp核心序列之间的忠实鉴别, 表明重组可能不是Gin介导的(图1D)。最近的报告表明,TALEN活性可 以在融合蛋白的TALE部分被截短时增强。因此,为了试图提高TALER活 性,生成了一系列N末端和C末端AvrXa7截短(图2A)。
    以大致相等的间隔在始于AvrXa7 Thr 27(Δ27)并止于AvrXa7  Gly 268(Δ268)的位置上装配十个N-末端截短(图6)。也生成了AvrXa7 Δ150,其已被报道为TALEN的N-末端截短变体。在位置28(+28)和位置 95(+95)处生成两个C末端AvrXa7截短。+28和+95已被报道为在TALEN 中的稳定融合点。每个TALE截短变体被融合到Gin催化结构域,并且将这 20-成员TALER文库克隆到含AVR-20G识别位点的pBLA选择载体中。在细 菌细胞中进行一轮选择(材料和方法)后,对个体的氨苄青霉素-耐药性克隆 进行测序,发现所有选定的TALER包含两个N末端截短:Δ87和Δ120中 的任一个。每个选定的克隆也是在C末端+28。除了在靠近融合点(Δ 120*)处具有自发的12氨基酸缺失的单个Δ120克隆,这些克隆的活性是相 当低的(图2B)。在这种分析中,基于Gin的ZFR常规地显示20-40%的重 组,但是,在选定的TALER融合中所观察到的最高活性为~7%的重组 (Gin-AvrXa7Δ120*)。因为TALE DBD比ZF结构域大三倍(不包括所需 的侧接肽序列),所以我们推断用于这些TALER构建体的20-bp间隔区可能 不是重组的最佳长度。
    核心序列长度。
    接下来通过评估含有14(Avr-14G)、26(Avr-26G)和32-bp (Avr-32G)核心位点的DNA靶是否能通过选定的TALER重组来研究核心 序列长度对重组的影响。为了在重组酶介导的重装配后保持β内酰胺酶基因 的阅读框,通过±3-bp来修饰核心半位点(表1)。用每个靶位点变体对上 述20-成员TALER文库进行一轮选择。虽然鉴定能够重组最短靶的TALER 变体是不可能的,但是鉴定了Avr-14G(数据未示出)、重组Avr-26G和 Avr-32G的两个Gin-ΔAvrXa7变体(基于N-末端TALE截短Δ87和Δ120以 及C-末端截短+28)其。具体地,克隆分析表明,所选择的TALER(Gin- AvrXa7Δ87和Gin-AvrXa7Δ120)重组具有较长核心(例如,26和32-bp) 的DNA比重组具有较短核心(例如,14和20-bp)的DNA有效至少100倍 (图2B)。此外,人们发现,Gin-AvrXa7Δ120重组含有同源核心序列(A vr-26G和Avr-32G)的靶比重组含有非同源核心(Avr-20T、Avr-20GG、 Avr-32T和Avr-32GG)的靶有效>100倍(图2C)。有趣的是,Gin-AvrXa7 Δ120融合在44-bp核心(Avr-44G)上并不活跃(重组比在Avr-32G上的重 组低~3倍)(图2C),这表明26和44-bp之间的核心长度对于由Gin- AvrXa7Δ120在大肠杆菌中的重组来说可能是最佳的。
    递增截短文库。
    虽然Gin-AvrXa7Δ120相比于Gin-AvrXa7表现出增加的重组, 但是怀疑Gin-AvrXa7Δ120可能不是最佳的TALE融合架构,因为:(i)含 有Gin催化结构域的ZFR重组DNA比Gin-AvrXa7Δ120有效>2倍,以及 (ii)没有从TALE截短变体的综合文库中鉴别出Gin-AvrXa7Δ120。因此, 为了找出更好的融合架构,基于递增截短TALE DBD的文库的产生设计筛选 方式。
    为了实现这一目标,采用如前所述的方案以使未修饰的N末端 结构域(Gin)能够融合至截短C-末端片段(AvrXa7)的文库(材料和方 法)。通过外切核酸酶消化产生跨越在AvrXa7 N-末端截短(Met1)和第一 AvrXa7重复序列(Leu 298)之间的区域的N末端AvrXa7截短并融合至Gin 催化结构域的未修饰的拷贝(蛋白质变体的理论数目:~300)。因为先前的 结果表明,+28是最佳的C-末端截短,所以我们将这种架构并入截短文库。 将TALER克隆到含有Avr-32G靶位点的pBLA选择载体,并转化到大肠杆 菌(>1×105转化子)。序列分析证实跨越目的区域的截短的相等分布(数 据未显示)。
    在三轮选择之后,对个别氨苄青霉素-耐药性克隆进行测序并且 鉴定出许多独特的截短变异体(图3A)。与利用20-成员TALE截短文库进 行的选择一致,该选择表明最佳的N-末端TALER融合点可能位于接近位置 87和位置120的位置,发现所有选定的Gin-AvrXa7变体含有介于位置74 (Δ74)和147(Δ147)之间的截短。特别地,73个克隆中的26个克隆 (35.6%,P<0.001)含有介于位置124(Δ124)和129(Δ129)之间的截 短。根据这个占有数,在位置128(Δ128)处的截短最有代表性。
    为了系统地确定选择的AvrXa7结构域是否增加了TALER活 性,我们在大肠杆菌中评估分离的Gin-AvrXa7变体对含有Avr-32G靶位点的 DNA底物的性能。我们集中分析在AvrXa7位置92(Δ92)和134(Δ134) 之间含有N-末端缺失的克隆。与序列分析一致,结果发现在Δ120和Δ129 之间含有N-末端截短的TALER重组DNA比基于相对较长或较短的截短的变 体重组DNA更有效,尽管Δ92融合也相当有效(图3B)。三个克隆进一步 的特征在于:Δ74和Δ145被选中是因为它们代表了可能的融合点的界限, 并且对Δ128进行测定是因为它是在选择中发现的最普遍的克隆。对具有从 14到44-bp的间隔长度的五个靶连同三个阴性对照(Avr32T、Avr32GG和 PthXol-32G)一起进行分析。经测定,Gin-Avr32GΔ74和Gin-Avr32GΔ145 对于比20-bp长的间隔区具有中度的活性,而Gin-Avr32GΔ128重组DNA具 有比得上ZFR GinC4的效率(图3C)。此外,特异性分析表明,Gin- Avr32GΔ74、Gin-Avr32GΔ128和Gin-Avr32GΔ145重组含有同源核心的底 物比重组含有非同源核心(Avr-32T、Avr-32GG和PthXol-32G)底物的有效 性>100倍(图3C)。总之,这些结果表明,在Δ120和Δ129之间含有N- 末端缺失的TALE蛋白代表用于融合到重组酶的最佳截短。
    掺入合成TALE重复阵列。
    上述本研究使用天然存在的AvrXa7 TALE蛋白的天然DBD。为 了确定设计的TALE重复阵列是否可以掺入所选定的Gin-ΔAvrXa7框架,生 成设计为靶向AvrXa7结合位点的一系列合成TALE蛋白(长度为15至20重 复序列)(图7)。利用公开可用的TALEN质粒组(Addgene)构建TALE 蛋白。修饰克隆质粒以包含+28C-末端截短和Δ120或Δ128N-末端截短。将 设计TALE融合到Gin催化结构域(表示为Gin-Avrl5Δ120和Gin-Avr15Δ 128),并克隆到含有Avr-32G或Avr-32T靶位点的pBLA选择载体。
    在大肠杆菌中的活性分析显示,当Gin-Avr15Δ120和Gin-Avr15 Δ128融合到活性催化结构域时,都可以用于重组DNA,而且合成重复序列 的掺入提供了增加的活性(图4A)。重要的是,每个TALER显示出严格的 选择性,重组含有同源核心的靶位点比重组含有非同源核心的靶位点有效> 1000倍(图4B)。令人惊讶地,还发现基于Δ120截短的TALER重组DNA 与基于Δ128架构的TALE一样有效(图4A),这表明设计的TALE不如含 有天然AvrXa7 DBD的那些对N-末端截短敏感。
    为了进一步证明本文所述的TALER架构可以被重新编程以靶向 任何DNA序列,合成酶被创造设计以靶向由天然存在的TALE蛋白PthXol (Gin-Pth15Δ120)识别的序列。人们发现,Gin-Pthl5Δ120在其同源底物上 具有高度活性而且Gin-Pthl5Δ120和Gin-Avrl5Δ120两者在重组具有它们的 同源结合位点的靶中表现出>600倍的增加(图4A)。还评估了含有长度介 于15和20个重复序列之间的DBD的一系列设计的TALER的活性,并且发 现每个融合以相似的高效性和特异性催化重组(图4B),这表明掺入了合成 TALE重复阵列的嵌合重组酶可以用于位点特异性重组。
    TALER在哺乳动物细胞中的活性。
    还确定了TALER是否能在哺乳动物细胞中修饰DNA。为了实 现这一目的,我们使用能够快速评估细胞培养中的重组酶活性的附加体报告 基因分析。在该分析中,用重组酶表达载体和报告质粒(pGL3)对人胚胎肾 (HEK)293T细胞进行共转染,该报告质粒在侧接重组位点的SV40启动子 的控制下包含荧光素酶基因。合适的重组酶的瞬时表达导致SV40启动子切 除并减少荧光素酶在细胞中的表达。因此,重组酶活性与萤光素酶表达的减 少倍数成正比。
    Gin-Avrl5Δ120与携带Avr-44G识别位点(pGL3-Avr-44G)的报 告质粒共转染导致荧光素酶的表达相比于其与pGL3-Avr-44G单独转染减少 ~20倍(图5A)。尽管事实上在大肠杆菌中Gin-Avrl5Δ120显示出与ZFR GinC4相似的活性,但是我们发现GinC4在与其同源靶质粒,pGL3-C4-20G 共转染之后,使萤光素酶表达减少了>80倍(图5A)。这种差异可能是由于 相比于pBLA,在pGL3中重组酶靶位点之间的相对较短的插入DNA序列或 者在哺乳动物细胞中TALER和ZFR之间的差异表达。然而,这种差异的根 本原因仍然不清楚。最后,尽管32-bp被确定为在大肠杆菌中用于TALER的 最佳核心序列长度,但是确定了Gin-Avrl5Δ120与pGL3-Avr-32G的共转染 导致荧光素酶的表达仅有6倍的减少(图5A)。这种差异的根本原因仍然 不清楚。
    接下来对ZFR(GinC4)和TALER(Gin-Avrl5Δ120)是否可以 在哺乳动物细胞中形成相容的异二聚体进行了研究。为了评估这种可能性, 产生了混合的重组位点,其中AvrXa7结合位点和C4锌指结合位点(GCG  GGA GGC GTG;SEQ ID NO:279)侧接由Gin催化结构域(pGL3-Avr-G- ZF)识别的核心序列(见表2)。令人惊奇的是,pGL3-Avr-G-ZF与GinC4 和Gin-Avrl5Δ120共转染导致萤光素酶的表达相比于其与pGL3-Avr-G-ZF转 染减少>140倍(图5B),而GinC4或者Gin-Avrl5Δ120与pGL3-Avr-G-ZF 的转染导致报告基因表达的减少可以忽略不计。这些结果表明,产生ZF- TALE异二聚体代表一种用于改善嵌合重组酶的靶向能力的潜在有效的方 法。
    讨论。
    不同于含有极小融合架构的ZFP,TALE DBD在DBD阵列的任 一侧上需要天然蛋白框架以发挥作用。在几乎所有已知的TALE识别位点中 发现的所谓的第0重复序列和第一重复序列就表示这样的N-末端框架并介导 胸腺嘧啶残基在位置0处的结合。最近的晶体结构提供了位置0处胸腺嘧啶 的结合的说明,但数据仍不足以确定最小的TALE架构。事实上,直到现在 所有的研究已经使用含有比介导位置0处的结合所需要的那些残基多得多的 残基的N-末端截短。仍然不确定这部分蛋白在实现适当的DNA结合构象中 起什么作用或者什么可以构建最小的TALE结构域。虽然最初尝试基于融合 到全长TALE蛋白以产生功能TALE嵌合体,但是最近的研究集中在独特的 C末端截短的鉴别上,其在Δ150N-末端结构下改善效应子结构域的功能。 先前的报告指出,AvrBs3TALE的N-末端残基2-153(Δ150)的缺失去除了 TALE从它的原生细菌移位到靶植物细胞所需要的结构域,但不会影响转录 因子活性。
    然而,开发活性的TALER使得鉴定独特的N-末端TALE变体成 为必要。最初对具有C-末端截短+28和+95的N末端TALE进行了广泛的、 系统性的调查,并发现只有两个结构域(具有+28的Δ87和具有+28的Δ 120)对进一步的分析显示出足够高的活性。基于AvrXa7 N-末端的递增截短 的二次分析导致以AvrXa7位置74(Δ74)到位置145(Δ145)为中心的截 短变体的广泛簇的鉴定。在这个实验中回收的克隆,38%在位置Δ119和Δ 128之间含有截短,并且从在这个区域具有融合的TALER得到的调查数据表 现出高活性。特别地,确定基于来自这个区域(Δ128和Δ120)的N-末端截 短的TALER可用于在细菌和哺乳动物细胞中重组DNA。Δ119和Δ128之间 的截短变体簇也可以指示这个区域的内在稳定性。
    ZFR通常催化长度介于44至50-bp之间的靶位点的重组。每个 靶位点包含中央20-bp核心序列,其由重组酶催化结构域识别,以及两个相 邻的ZFP结合位点。然而,TALER的融合方向使得TALE结合位点位于相对 于中央核心序列的相反链上成为必要。这种独特的几何特征导致我们调查了 用于重组的最低核心序列要求。由于TALE DBD的长度(TALE重复序列比 ZFP长3至4倍)和催化结构域与TALE结构域之间的扩展的N-末端接头, 我们推断,对重组来说,较长的核心序列(32或44-bp)将会是必要的。事 实上,除了携带自发的缺失(Δ120*)的TALE变体,在本研究中鉴别的大 多数的N-末端截短变体显示出对32-bp核心的最佳性能。这些结果与关于 TALEN的文献报道相一致,TALEN不像ZFN,其需要显著较长的间隔序列 (例如TALEN:17至20-bp,ZFN:5至6-bp)以有效地切割DNA。支持这 些观察,我们发现以短核心序列(14-bp)为标准选择独特的N-末端截短变 体没有产生任何克隆。
    Gin-AvrXa7Δ128被确定为最佳的TALE融合,但使用利用公开 可用的TALE装配试剂盒生成的合成TALE蛋白的随后研究表明,基于Δ128 和Δ120的TALER在大肠杆菌中表现出相似的活性。这些设计的TALE是基 于嵌合蛋白的,该嵌合蛋白来源于密切相关的和天然存在的Tallc和PthXol TALE蛋白。虽然这些TALE共享高同源性,但它们是不相同的。尽管在残 基12和残基13之外的RVD重复序列中的多态性已被证明对TALE融合活性 没有影响,但就我们所知,还没有DBD之外的TALE框架中的差异的系统评 价的报道。如递增截短文库的分析所表明的,较小的氨基酸改变可以显著影 响特定的融合的活性。因此,我们观察到的Gin-AvrXa7Δ120和合成Gin- Avrl5Δ120之间的活性的差异可能归因于AvrXa7框架和先前使用的TALE 框架架构之间的序列变化。
    受构建合成TALE青睐的四种RVD(NI:A、HD:C、NG:T 以及NN:G)是自然界最普遍的,然而,仍然有待确定这些重复序列是否代 表了最特定RVD模块。对于26-重复序列AvrXa7 TALE而言,靶定相同序列 的合成版本将在RVD组成中具有16种变化(图7)。据推测,因为它们更 常见地发现于自然界,因此为合成用途选择的四种RVD可能对它们的同源碱 基比其它RVD具有较高的亲和力。如果确实是这样,则可以合理地假定用合 成RVD重复序列创建的TALE可具有比使用天然结构域创建的TALE较高的 DNA结合亲和力。虽然RVD亲和力的问题没有直接解决,但确定了含有合 成重复阵列的TALER比含有天然AvrXa7 DBD的构建体更活跃。具有合成 DBD的TALER尽管含有明显更少的DBD,仍然显示出比含有天然重复序列 的构建体高出大约2倍的活性。此外,使用合成阵列观察到的活性的增益与 脱靶重组中的任何增加无关。
    一些研究已经表明,TALE可以容忍在其靶序列中的一些错配。 这些发现并不令人吃惊,因为与特定的碱基正相关的RVD已经显示出本质上 容忍非同源碱基。然而,由TALER提供的协同的特异性可以用于规避潜在 的局限性。因为催化结构域有助于特异性重组,可以想到的是,也可以生成 能够选择性修饰高度同源的基因组序列的设计TALER。事实上,最近已表 明,重组酶催化特异性可以被有效地重新编程以靶向非天然核心位点。
    实施例2
    新型第0位残基特异性的选择
    设计了一类新型的基于Tal的DNA结合蛋白。TAL(转录激活 子样)效应子构建了一类新型的具有可预测的特异性的DNA结合蛋白。黄单 胞菌属的革兰氏阴性植物致病细菌利用Tal效应子,该细菌经由III型分泌系 统(T3SS)将不同的效应子蛋白的混合物导入植物细胞中,在植物细胞中它 们作为毒力基因。TAL的DNA结合特异性是由串联重复序列的中央结构域 来确定的。每个重复序列赋予DNA中的一个碱基对(bp)的识别。重复序列 模块的重排使得具有期望的DNA结合特异性的蛋白的设计有某些重要的限 制。例如,靶定具有Tal结构域的DNA序列的最约束的特征是Tal DNA位点 以碱基T开始以及有时候以碱基C开始的要求。已经不可能在-1位置处靶定 以G碱基或A碱基开始的结合位点。Tal重组酶活性选择用来选择Tal DNA 结合结构域,其通过使突变靶向第-1位和第0位RVD区而没有这种限制。这 一发现的实际后果是巨大的,因为现在每个DNA序列都可以被新的Tal结构 域靶向,促成了新的对于TAL转录因子的无限制的接近,从而启动/上调或 停止/下调转录、靶向TAL核酸酶以敲除基因功能或者直接同源重组或者靶 向我们自己的TAL重组酶或其它TAL酶。
    对于在(-1)位置处的G特异性,首先利用GinAvrl5Δ128-合成 蛋白的(-1)结构域之内的NNK密码子策略使氨基酸QWSG(SEQ ID  NO:209)随机化。经过3轮的所得的文库的Tal重组酶活性选择,选择了在 靶区域中具有选定的序列RSNG(SEQ ID NO:210)和SRSG(SEQ ID  NO:211)的新型TAl结合结构域。然后相对于由起始克隆识别的亲本T,这 些显示出结合靶序列的第0位置处的G。重复选择以随机化下面红色示出的 KQW区域,该区域与最初选择的QWSG(SEQ ID NO:212)有重叠。现在对 具有选定的SSR、SRA、SRC和KRC序列的克隆进行选择。在结合研究中, 用限定的携带G取代的寡核苷酸对所有选定的Tal结合结构域进行分析,所 有选定的Tal结合结构域现在显示出优先结合序列G-ATAAACCCCCTCCAA (SEQ ID NO:213)。需要注意的是,使用相同的序列进行Tal重组酶活性选 择。起始Tal结合蛋白GinAvrl5Δ128结合T-ATAAACCCCCTCCAA(SEQ  ID NO:214)。对携带所选择的突变的Tal核酸酶进行的随后测试证实这些序 列的G指定使得这种新型的Tal能够被首次开发。所选择的序列可以移植到 来源于其它物种的Tal。
    表6

    还利用这种靶向A的相同的文库进行选择。在这项研究中,选 择了序列PRG、PTR以及PKD。在结合研究中,用限定的携带A取代的寡 核苷酸对所有选定的Tal结合结构域进行分析,所有选定的Tal结合结构域现 在显示出优先结合序列A-ATAAACCCCCTCCAA(SEQ ID NO:222)。需要 注意的是,使用这种相同的序列进行Tal重组酶活性选择。起始Tal结合蛋白 GinAvrl5Δ128结合T-ATAAACCCCCTCCAA(SEQ ID NO:223)。对携带所 选择的突变的Tal核酸酶进行的随后测试证实这些序列的A指定使得这种新 型的Tal能够被首次开发。可以通过随机诱变N-末端结构域或靶向诱变在第 0位结构域内的KRGG(SEQ ID NO:223)序列并在重组酶系统中重新选择来 实现随后的对结合活性的优化。
    实施例3
    选择
    对于环境依赖的RVD选择和具有新特异性的RVD的选择,创 建了文库,其随机化以下加粗的HD序列。 LTPDQVVAIASHDGGKQALETVQRLLPVLCQDHG(原型RVD序列;SEQ  ID NO:225)
    典型地,尽管受限于N、D、H、K和Q氨基酸的文库通常为H 残基的成功替代品,但是文库允许所有的氨基酸处在这两个位置。替代地, 随机化SHDG(SEQ ID NO:226)和ASHDGG(SEQ ID NO:227)区域的较 大的文库允许具有环境依赖的特征的独特的RVD特异性的选择。
    然后Tal重组酶活性选择迅速允许靶向RVD结构域内的新特异 性的选择。所得到的RVD在其序列识别中可以是高度模块化的或者环境依赖 的,并且可以接着用于创建Tal核酸酶和转录因子。
    这种技术的应用包括对于TAL转录因子的无限制的接近,从而 启动/上调或停止/下调转录、靶向TAL核酸酶以敲除基因功能或者直接同源 重组或者靶向我们自己的TAL重组酶或其它TAL酶以用作工具和治疗。
    这一发现的优点和实际效果是巨大的,因为现在每个DNA序列 都可以被我们的新的Tal结构域靶向并且它们的特异性可以很容易地优化。
    实施例4
    TALE N-末端结构域的定向进化以容纳除胸腺嘧啶外的5'碱基
    转录激活子样效应因子(TALE)蛋白可以被设计成结合几乎任 何目的DNA序列。靶向植物无毒基因的天然TALE转录因子(TALE-TF) 的DNA结合位点具有5'胸腺嘧啶。合成的TALE-TF也有这个要求。最近的 结构数据表明,靶序列的N-末端结构域(NTD)与5'T之间发生相互作用。 最近的TALE核酸酶(TALEN)文献调查得出有关靶序列的第一碱基,N0残 基的重要性的矛盾数据。此外,没有关于N0碱基对TALE重组酶(TALE- R)的活性的影响的研究。在这里,在TALE-R、TALE-TF、表达为具有麦芽 糖结合蛋白(MBP-TALE)和TALEN的融合体的TALE DNA结合结构域的 结合区域中,对N0碱基的影响进行量化。这些TALE平台中的每一个具有不 同的N-末端和C-末端架构,但当N0碱基为胸腺嘧啶时,所有这些都显示出 最高的活性。为了简化在这些平台中构建有效的TALE的规则,以及允许在 任意DNA序列处的高精度基因工程应用,我们利用我们最近研发的TALE-R 系统设计了结构导向的活性选择。鉴定了新型的NTD序列,其对具有5'G的 TALE结合位点有高度活化的和选择性的TALE-R活性,并对额外的结构域 序列进行选择,其容许任何对5'N0残基的一般靶定。这些结构域被导入到 TALE-TF、MBP-TALE和TALEN架构中并对具有非-T 5'残基的靶序列一贯 表现出比野生型NTD所具有的活性更大的活性。新型NTD与金门TALEN 装配方案相兼容,现在使得能够有效构建TALE转录因子、重组酶、核酸酶 和DNA结合蛋白,其识别任何DNA序列以能够实现在不考虑限制大多数天 然TALE蛋白的5'T规则的情况下,对基于TALE-蛋白的DNA的准确和无约 束的定位。
    在这个实施例中使用了下面的材料和方法。
    寡核苷酸。
    引物和其它寡核苷酸(以下表4)定购于Integrated DNA  Technologies(San Diego,CA)。
    表7.引物。



    TALE-R NTD进化质粒的生成。
    此前报道的TALE-R系统适合于这项研究。简而言之,用 HindIII/Spel消化pBCS(含有氯霉素和羧苄青霉素-耐药性基因)。用HindⅢ /Xbal消化含双重组酶位点的填充片段(Avr X,其中X为N0碱基)并使其 连接到载体中以创建分裂β-内酰胺酶基因。然后用BamHl/Sacl消化pBCS  AvrX,并用BamHl/Sacl消化Ginl27-N-填充片段-Avrl5并使其连接到载体中 以创建Ginl27-N-填充片段-Avrl5-X。用Notl/Stul消化填充片段以在N-1TALE 发夹处演变,以及用Notl/Sphl消化填充片段以在N0 TALE发夹处演变。
    TALE NTD演变文库的生成
    引物ptal127Notl fwd和反向引物KXXG lib rev或KXXXX lib rev 被用于生成N-1TALE发夹处的N-末端变体,随后用Notl/Stul对其进行消 化,然后使其连接到经消化的Ginl27-AvrX。正向引物ptal127Notl fwd和反 向引物KRGG lib rev被用于PCR扩增在N0 TALE发夹中具有突变的文库。 随后用Notl/Sphl对其进行消化并使其连接到经Notl/Sphl-消化的Gin127- AvrX。
    TALE-R NTD演变分析。
    第1轮连接进行乙醇沉淀并转化到Top 10F’电感受态细胞中, 然后在SOC中回收1小时。细胞在含100mg/ml氯霉素的100ml超级肉汤 (SB)介质中生长过夜。通过标准程序将DNA分离。得到的质粒DNA (Rd 1输入)被转化到Top 10F’电感受态细胞;细胞在含100mg/ml羧苄青 霉素和100mg/ml氯霉素的100ml SB中生长过夜。通过标准程序将质粒 DNA分离。用Notl/Xbal消化第1轮输出并使其连接到具有互补的粘性末端 的Gin127-AvrX载体。当观察到共有序列并且对克隆进行了表征时,这个方 案被重复三次至四次。
    测定N-末端TALEN活性。
    使用金门方案生成含有每个可能的碱基的四个TALEN对。融合 A质粒和融合B质粒经由第二金门反应被直接连接到Goldy TALEN(NΔ 152/C+63)框架。通过用BglII/Nsil消化pCAG载体并与用BglII/Nsil消化的 PCR扩增的NTD连接来修饰NTD。TALEN对(每个TALEN/孔50-75ng) 被转染到在96孔板的孔中的密度为1.5×104细胞/孔的HeLa细胞中。转染 后,将细胞置于37℃的培养箱中培养24小时,然后将其转移到30℃下持续 2天,然后将其转移到37℃下持续24小时。根据公开的方案将基因组DNA 分离,并用Cel1Surveyor分析以及通过测序对DNA突变率进行定量。针对 CelI测定,通过巢式PCR扩增基因组DNA,首先用引物CCR5外fwd/CCR5 外rev,然后用CCR5内fwd/CCR5内rev。针对插入缺失的测序,用CCR5 插入缺失fwd/CCR5插入缺失rev进行第二PCR。然后用BamHl/EcoRl消化 片段并使其连接到具有互补消化的pUC19。
    TALE-TF和荧光素酶分析。
    用引物ptal127 SFI fwd和N-端Sphl对来自重组酶选择的变体 NTD进行PCR扩增。对PCR产物进行扩增,用Notl/Stul消化并使其连接到 pTAL127-SFI Avrl5,其含有双SFI-1消化位点,促进N-末端修饰的TALE从 pTAL127-SFI Avrl5转移至pcDNA 3.0VP64。相应的TALE结合位点被克隆 到pGL3Basic载体(Promega)的荧光素酶基因上游。针对每个分析,根据 制造商的说明利用Lipofectimine 2000(Life Technology),将5ng的pGL3载 体和1ng的pRL海肾萤光素酶控制载体以及100ng的pcDNA共转染至96 孔板的孔中的HEK293t细胞中。48小时后,对细胞进行洗涤、裂解并在 Veritas微孔板光度计(Turner Biosystems)上用双荧光素酶报告系统 (Promega)评估荧光素酶活性。转染以一式三份完成,并取平均结果。
    MBP-TALE分析。
    利用前述的方案进行MBP-TALE结合到生物素化的寡核苷酸的 亲和力分析。简单地说,从XL1-Blue细胞中的pMAL MBP-AvrXa7质粒表达 AvrXa7 TALE结构域并在直链淀粉树脂上纯化。具有修饰的残基的含有靶 AvrXa7靶位点的生物素化的寡核苷酸被用来确定在夹心酶联免疫吸附试验设 计中的TALE结合活性。靶定MBP取代的抗体被用于分析显色。
    结果。
    5'T规则的初步分析。
    结合到PthXo7 DNA序列的TALE蛋白的最近的晶体结构揭示了 在N-1发夹中的W232与DNA底物(该N0碱基)的接触区域的5'端处的胸腺 嘧啶之间的独特的相互作用。这项研究为先前建立的5'T规则提供了结构基 础,该5'T规则是在TALE密码首次被破译(图18A和18B)时报道的。出 现了关于TALEN的靶序列的第一碱基的重要性的矛盾数据。对于靶DNA中 的5'T的要求最初是在TALE-R的背景中使用含有所有可能的5'残基侧接 Gin32G核心的四个AvrXa7结合位点的四个分裂β内酰胺酶TALE重组酶选 择载体评估的(图18C)。然后用含有识别位点含有每个可能的5'残基的五 聚体AvrXa7启动子区的四个荧光素酶报告载体评估由TALE-TF识别的N0残 基(图18D)。对于除了5'T之外的碱基,我们观察到其相对于具有5'T的序 列(图18C和18D)TALE-R活性减少高达>100倍和TALE-TF活性减少高 达1000倍。尽管据说这些嵌合体的C-末端架构中的变体除去了5'T偏差,尤 其是在大大缩短的C-末端结构域(CTD)的存在下,仍然观察到这些减少。 酶联免疫吸附试验也表明MBP-TALE DNA结合蛋白对具有非T 5'残基的靶 寡核苷酸的亲和力降低(图18E)。最后,检查显示:带有野生型NTD的设 计的TALEN对于具有非T 5'核苷酸的靶标的活性相比于对于具有5'T的靶标 的活性减少高达10倍(图18F)。结果表明,5'T是在重组酶、转录因子、 核酸酶和简单的DNA结合蛋白的背景下使TALE结构域最大程度有效的重 要设计参数。
    TALE NTD的演变以适应非T 5'残基
    为了创建更加灵活的用于DNA识别的系统,有人推测最近开发 的TALE-R选择系统可以被利用来演变TALE的NTD,以除去5'T约束(图 23)。通过随机化残基G234到残基K230生成文库,并且在几轮选择之后分 离相对于每个可能的5'碱基具有活性的TALE-R(图19A-19C)。最活跃的 选定的克隆展现出K230和G234的高度保守性;前者可接触DNA磷酸骨 架,后者可能影响发夹环的形成(图24)。在文库K230-W232的情况下, 经常观察到K230S,但在单独测定的几乎所有变体中都具有比K230R或 K230变体低得多的活性。几个观察到具有W232到R232诱变的克隆中的一 个(NT-G)表现出从5'T到5'G的选择性的显著转变;该序列类似于最近在 这个区域中描述的罗尔斯通菌属TALE蛋白的NTD的序列。在植物转录因子 的报告基因调控的背景中的罗尔斯通菌属NTD已被报道在其底物中优选5'G (参见用于蛋白质比对的图25)。如对5'G的NT-G的严格性所显示,残基 R232可能特定地接触G碱基。NT-G对5'G的优先比得上野生型结构域对5'T 的特异性。不能够得到对5'A或5'C特异的NTD变体,但得到了允许的 NTD、NT-αN,其类似于接受具有任意5'残基的底物并保持高的活性的 K265-G268 N0发夹。据推测,这种变体与野生型NTD相比,使与DNA磷酸 骨架的非特异性接触增强,增强了TALE-DNA复合物的整体结合而不接触特 定的5'残基。据推测,缩短的发夹结构将允许对5'A或5'C残基具有特异性的 变体的选择。在Q231-W232具有随机化并具有残基233缺失的文库被设计以 缩短推定的DNA结合环。重组酶选择表明高度保守的Q231Y诱变,其在大 量克隆中具有高的活性(图19D)。特别地,NT-βΝ相比于具有野生型 NTD的TALE表现出对具有5'A、5'C或5'G的底物的增加的活性,但对5'T 底物具有减少的活性(图19E)。
    演变的TALE NTD的应用。
    为了评估演变的NTD在设计TALE融合蛋白应用中的可移性, 将优化的NTD掺入TALE-TF、MBP-TALE和TALEN。具有NT-G、NT-α N和NT-βN结构域的TALE-TF与具有NT-T结构域的TALE-TF相比时,显 示出400-1500倍的荧光素酶靶基因的转录激活的增加,所述荧光素酶靶基因 携带操作基因位点而无5'T残基。如在TALE-R选择系统中所观察的,基于 NT-G的TF保留了5'G选择性。基于NT-αN的TF和基于NT-βN的TF对 所有5'核苷酸的活性追踪了在重组酶设计中观察到的相对活性(图20)。 MBP-TALE相比于野生型MBP-TALE还表现出较大的对具有不含5'T的位点 的靶寡核苷酸的相对结合亲和力(图26),其提供进一步的证据表明,所选 择的结构域增强了对非胸腺嘧啶5'碱基的识别或容忍。
    然后将四个优化的NTD导入到Goldy TALEN框架中。对于这些 实验,四个底物被构建在CCR5基因的Δ32基因座的范围内(图21A)。每 个底物含有不同的5'残基。实验包括具有野生型(NT-T)的TALEN和对5'T 具有特异性的dHax3 NTD(dHax3是从野油菜黄单胞菌中分离的常用的NTD 变体)以确定基准基因编辑活性。设计底物TALEN对以保留尽可能多的 RVD同源性(50-90%)以确定变体NTD的活性增强贡献(图21A)。
    通过测序并通过使用Cel1测定两者分析TALEN的活性。与含 有野生型结构域的TALEN的活性相比,所选择的结构域对非T 5'残基表现出 介于2倍和9倍的之间的基因编辑活性的增加(图21和图27)。具有野生型 或dHax3 NTD的TALEN对T1/T2表现出最高的活性。通过具有NT-αN、 NT-βN和NT-G的TALEN最有效地处理TALEN对底物G1/G2,相对于 NT-T具有2.0-3.5倍的增加。NT-αN对TALEN对A1/A2和TALEN对 C1/C2具有的活性比野生型NT-T对TALEN对A1/A2和TALEN对C1/C2具 有的活性分别高9倍和2倍。虽然在5'残基处的错配的影响在TALEN中比在 TALE-TF和TALE-R框架中更温和,但当用于基因编辑实验中时,优化的 NTD大大增加了TALEN活性。
    讨论
    大多数,但不是所有的,先前的研究已经表明,需要胸腺嘧啶作 为最佳TALE DNA结合结构域的设计中的5'最末端残基。本文所述的分析表 明,胸腺嘧啶对构建功能TALE融合蛋白是最佳的,并且在某些情况下是关 键的。因此,这一要求对可以被TALE转录因子、核酸酶和重组酶嵌合体有 效靶向的序列施加了限制。虽然这一要求理论上对TALEN用于基因敲除的 应用施加了微小的限制,但由于其宽的间隔区忍耐度,可以容纳任何5'残基 的NTD会进一步简化有效TALE构建的规则并大大提高基因工程和基因询问 中需要精确TALE定位的应用(例如,使用TALEN在选定的碱基对处精确 切割DNA、经由TALE重组酶进行无缝基因插入和交换、将天然DNA结合 蛋白从特定的内源性DNA序列移位以询问它们的功能作用、用于途径工程的 正交转录因子的发展、其中转录因子定位是关键的天然和合成基因的协同激 活以及许多其它应用)。基于DNA的纳米技术的其它用途包括用特定的 DNA结合蛋白修饰DNA纳米结构/DNA折叠(origami)。这里,基于DNA 折叠/结构,靶向特定位点被约束,从而能够结合任何位点是至关重要的。具 有DNA结合蛋白的这些结构和设备的精心设计可以是用来扩展功能的有吸引 力的方法。事实上,不难想象,当除去所有靶向约束时的DNA结合蛋白和它 们的融合体的许多应用。在这些潜在的应用鼓舞下,我们的目的是开发能够 靶向在任何碱基处起始的位点的NTD。
    最近开发的TALE-R系统被用来演变TALE的NTD以除去5'-T 约束。在三轮的选择中,得到了对5'G具有特异性的NTD。进行了许多选择 来尝试得到识别5'A或5'C的变体。使G230-K234发夹倒位、扩展K230- G234/ins232发夹、尝试改造K265-G268 N0发夹并评估随机诱变文库。虽然 我们确实鉴别出具有缺失的NTD的NT-βN,其以可接受的亲和力识别具有 5'A和5'C残基两者的底物,但这些策略都没有产生对具有5'A或5'C的靶序 列具有亲和力的NTD。NTD NT-T和NTD NT-G表现出的强的选择优先性以 及W232在NT-T中的重要性和R232在NT-G中的重要性可能是由于这些氨 基酸与DNA识别序列的5'末端残基的特异性相互作用。据最近报道,青枯雷 尔氏菌TALE严格需要5'G,且与NT-G的序列比对显示这似乎是在类似于在 NT-G中的232位置处含有精氨酸的可比较的N-1发夹(图25)。由于NTD  Brgll和NT-T之间的高度结构同源性,所以可能通过简单的精氨酸向色氨酸 突变修饰罗尔斯通菌属TALE NTD对胸腺嘧啶的优先性或者通过接枝NT-α Ν或NT-βΝ结构域至这个相关的蛋白来消除特异性。有趣地注意到,精氨 酸-鸟嘌呤相互作用在演变的锌指结构域中是常见的。
    所选的变体NTD已成功导入TALE-TF、MBP-TALE和 TALEN,并且根据重组酶演变系统的数据来看,通常赋予预期的活性和特异 性。相对于NT-T对具有非-T 5'残基的AvrXa7启动子位点的活性,具有优化 的NTD的TALE-TF使TALE激活增强了400倍和1500倍之间。当掺入 TALEN时,我们的具有非T选择性的NTD的活性相对于NT-T结构域对具 有5'A、5'C或5'G的底物所具有的活性增强了2-9倍。在TALEN基因编辑中 的增加通常与在TALE-R和TALE-TF构建体中观察的活性增加有关。如在用 TALEN对A1/A2、C1/C2和T1/T2的测定中的较低活性所证明的,保持了 NT-G的特异性和高活性,并且NT-αΝ和NT-βΝ的一般高活性也被导入 TALENΔ152/+63架构中。
    据最近报道,具有合成TALE RVD结构域的或选截短TALE不 需要在DNA底物中的5'T。所报道的Δ143、+47截短被构建为Goldy TALE- TF,并且观察到对AvrXa7底物的活性比Δ127、+95截短(已被他人常用并 且其是我们的研究中所使用的截短组)大幅降低(图29)。因此,报道的结 果中的差异可能是由于所使用的截短架构造成的。
    总之,在TALE-R、TALE-TF、MBP-TALE和TALEN嵌合体的 背景下确定DNA底物中的5'胸腺嘧啶对于结合的重要性以及设计的TALE的 活性。靶向诱变和TALE-R选择被应用于工程化TALE NTD,其识别除了胸 腺嘧啶以外的碱基作为底物DNA的5'最末端碱基。本文开发的工程化TALE 结构域表现出模块化并在TALE-TF和TALEN架构中高度活跃。这些新型的 NTD将可以由当前的TALE-R靶向的位点数目扩展了~15倍,TALE-R对它 们的结合位点具有严格的几何要求并且对N0碱基的鉴别高度敏感。此外,现 在它们允许TALE DBD和TALE-TF在任何DNA序列精确定位以促进基因调 控、内源DNA结合蛋白位移以及其中精确结合可能是关键的合成生物学应 用。虽然基于天然NTD的TALEN表现出对N0碱基取代的不同程度的容忍 度,数据显示,本文报道的新型NTD与天然的基于NTD的TALEN相比, 也有利于对任何N0碱基进行较高效率的基因编辑。
    实施例5
    嵌合锌指重组酶
    使用了下面的材料和方法。
    分裂基因重组载体(pBLA)来源于pBluescriptII SK(-) (Stratagene),修饰该载体使其含有在lac启动子的控制下的氯霉素耐药性 基因和中断的TEM-1 p内酰胺酶基因。如前所述引入ZFR靶位点。简而言 之,用引物GFP-ZFR-XbaI-Fwd和GFP-ZFR-HindIII-Rev对GFPuv (Clontech)进行PCR扩增并将其克隆到pBLA的SpeI和HindⅢ限制位点中 以产生pBLA-ZFR底物。所有的引物序列列于表8中。
    表8.引物序列


    为了生成荧光素酶报告质粒,用引物SV40-ZFR-BglIII-Fwd和 SV40-ZFR-HindIII-Rev从pGL3-Prm(Promega)对SV40启动子进行PCR扩 增。用BglII和HindIII消化PCR产物并使其连接到pGL3-Prm的相同的限制 性位点以产生pGL3-ZFR-1、pGL3-ZFR-2、pGL3-ZFR-3……pGL3-ZFR-18。 如前所述构建pBPS-ZFR供体质粒,具有以下例外:通过引物3'CMV-PstI- ZFR-1-Rev、3'CMV-PstI-ZFR-2-Rev或3'CMV-PstI-ZFR-3-Rev编码ZFR-1、 ZFR-2和ZFR-3重组位点。通过序列分析验证每个质粒的正确构建。
    重组测定
    如前所述通过PCR装配ZFR。用SacI和XbaI消化PCR产物并 使其连接到pBLA的相同的限制性位点。通过电穿孔将连接转化至大肠杆菌 TOP 10F'(Invitrogen)。在SOC培养基中回收1小时后,用具有30g ml-1氯 霉素的SB培养基孵育细胞并于37℃下培养。16小时后,收获细胞;通过 Mini-prep(Invitrogen)分离质粒DNA并用200ng pBLA转化大肠杆菌TOP  10F'。在SOC中回收1小时后,将细胞接种在具有30g ml-1氯霉素或30g ml-1氯霉素和100g ml-1羧苄青霉素、氨苄青霉素类似物的固体LB培养基 上。重组被确定为LB培养基上的含有氯霉素和羧苄青霉素的菌落数除以LB 培养基上的含有氯霉素的菌落数。使用GelDoc XR成像系统(Bio-Rad)自动 计数测定菌落数。
    选择
    如前所述通过重叠延伸PCR构建ZFR文库。突变被引入在具有 简并密码子NNK(N:A、T、C或G以及K:G或T)的位置120、123、 127、136和137处,NNK编码所有20种氨基酸。用SacI和XbaI消化PCR 产物并使其连接到pBLA的相同限制性位点。用乙醇对连接进行沉淀并将其 用于转化大肠杆菌TOP 10F'。文库大小常规确定为~5×107。在SOC培养基 中回收1小时后,用具有30g ml-1氯霉素的100ml SB培养基于37℃下孵育 细胞。16小时后,收获30ml细胞;通过Mini-prep分离质粒DNA并用3g 质粒DNA转化大肠杆菌TOP 10F'。在SOC中回收1小时后,用具有30g ml-1氯霉素和100g ml-1羧苄青霉素的100ml SB培养基于37℃下孵育细胞。 在16小时,收获细胞,并通过Maxi-prep(Invitrogen)分离质粒DNA。通过 SacI和XbaI消化分离富集的ZFR并使其连接入新鲜pBLA用于进一步的选 择。经过4轮的选择后,对单独的羧苄青霉素耐药性克隆进行序列分析。如 上所述进行重组测定。
    ZFR构建
    用引物5'Gin-HBS-koz和3'Gin-AgeI-Rev从各自的pBLA选择载 体对重组酶催化结构域进行PCR扩增。用HindⅢ和AgeI消化PCR产物并使 其连接到pBH的相同的限制性位点,以产生SuperZiF-兼容的亚克隆质粒: PBH-Gin-a、P、y、5、S或Z。通过SuperZiF组装锌指并使其连接入PBH- Gin-a、P、y、5、S或Z的AgeI和SpeI限制位点以产生pBH-ZFR-L/R-1、 pBH-ZFR-L/R-2、pBH-ZFR-L/R-3……pBH-ZFR-L/R-18(L:左ZFR;R:右 ZFR)。通过SfiI消化从pBH释放ZFR基因并使其连接至pcDNA 3.1 (Invitrogen)中,以产生pCDNA-ZFR-L/R-1、pCDNA-ZFR-L/R-2、pCDNA- ZFR-L/R-3……pCDNA-ZFR-L/R-18。通过序列分析(表9)验证每个ZFR的 正确构建。
    表9.催化结构域取代和预期的DNA靶

    a表示野生型DNA靶。
    b该ε催化结构域也包含取代E117L和L118S。
    c该ζ催化结构域也包含取代M124S、R131I和P141R。
    荧光素酶测定
    使人类胚胎肾(HEK)293和293T细胞(ATCC)维持在含有 10%(体积/体积)FBS和1%(体积/体积)抗生素-抗真菌(抗-抗; Gibco)的DMEM中。以每孔4×104个细胞的密度将HEK293T细胞接种到 96孔板上,并使其在湿润的5%CO2气氛中于37℃下建立。在接种后24小 时,根据制造商的说明利用Lipofectamine 2000(Invitrogen)用150ng  pcDNA-ZFR-L 1-18、150ng pcDNA-ZFR-R 1-18、2.5ng pGL3-ZFR-1、pGL3- ZFR-2、pGL3-ZFR-3或pGL3-ZFR-18以及1ng pRL-CMV对细胞进行转染。 在转染后48小时,用被动裂解缓冲液(Promega)使细胞裂解并使用Veritas 微孔板检测仪(Turner Biosystems)利用双荧光素酶报告基因检测系统 (Promega)测定荧光素酶的表达。
    整合测定
    以每孔5×105个细胞的密度将HEK293细胞接种到6孔板上, 并使其在湿润的5%CO2气氛中于37℃下保持在含血清培养基中。在接种后 24小时,根据制造商的说明利用Lipofectamine 2000用1g pcDNA-ZFR-L- 1、1g pcDNA-ZFR-L-2或1g pcDNA-ZFR-L-3和1g pcDNA-ZFR-R-1、1g  pcDNA-ZFR-R-2或1g pcDNA-ZFR-R-3以及200ng pBPS-ZFR-1、200ng  pBPS-ZFR-2或200ng pBPS-ZFR-3对细胞进行转染。在转染后48小时,以 每孔5×104个细胞的密度将细胞分开到6孔板上,并使其保持在具有2g ml-1嘌呤霉素的含血清培养基中。达到100%汇合时收获细胞并用Quick Extract  DNA提取液(Epicentre)分离基因组DNA。利用扩展的高保真Taq系统 (Expand High Fidelity Taq System)(Roche)使用以下的引物组合对ZFR靶 进行PCR扩增:ZFR-靶-1-Fwd、ZFR-靶-2-Fwd或ZFR-靶-3-Fwd和ZFR-靶- 1-Rev、ZFR-靶-2-Rev或ZFR-靶-3-Rev(未修饰靶);ZFR-靶-1-Fwd、ZFR- 靶-2-Fwd或ZFR-靶-3-Fwd和CMV-Mid-Prim-1(正向整合);以及CMV- Mid-Prim-1和ZFR-靶-1-Rev、ZFR-靶-2-Rev或ZFR-靶-3-Rev(反向整合)。 对于克隆分析,在转染后2天,将1×105个细胞分开到100mm培养皿上, 并使其保持在具有2g ml-1嘌呤霉素的含血清培养基中。利用10mm×10mm 开放式(open-ended)克隆环使用无菌硅脂(Millipore)将单个菌落分离并在 培养基中扩增。如上所述,达到100%汇合时收获细胞并分离基因组DNA, 并用作PCR的模板。对于菌落计数测定,在转染后2天,以每孔1×104个细 胞的密度将细胞分开到6孔板中,并使其保持在含或不含2g ml-1嘌呤霉素 的含有血清的培养基中,在16天,用0.2%结晶紫溶液对细胞进行着色并通 过计数形成在含有嘌呤霉素培养基中的菌落数除以形成在不含嘌呤霉素培养 基中的菌落数确定整合效率。使用GelDoc XR成像系统(Bio-Rad)自动计数 测定菌落数。
    结果
    Gin重组酶的特异性分布
    为了重新工程化丝氨酸重组酶催化特异性,对由这种酶家族识别 底物的基础因素进行详细理解。为了实现此目的,对DNA转化酶Gin的催化 结构域的活化突变体重组一整套对称取代靶位点的能力进行了评价。Gin催 化结构域重组伪对称20-bp核心,它由两个10-bp半位点区组成。因此重组位 点的这个集合包含在位置10、位置9、位置8、位置7、位置6、位置5和位 置4处的每个可能的单碱基取代以及在位置3和位置2处以及在二核苷酸核 心中的每个可能的两碱基组合。重组是由分裂基因重装配(先前描述的方 法)测定的,该方法将重组酶活性与抗生素耐药性联系起来。
    通常,人们发现,Gin容忍(ⅰ)在二核苷酸核心处的16种可 能的两碱基组合中的12种(AA、AT、AC、AG、TA、TT、TC、TG、CA、 CT、GA、GT);(ii)在位置3和位置2处的16种可能的两碱基组合中的 4种(CC、CG、GG和TG);(ⅲ)在位置6、位置5或位置4处的单个A 至T取代;以及(iv)在位置10、位置9、位置8和位置7处的所有12种可 能的单碱基取代(图31A-31D)。此外,人们发现,Gin可以重组在位置 10、位置9、位置8和位置7处含有至少106(可能的4.29×109中的)独特的 碱基组合的靶位点文库(图31D)。
    这些结果与yS解离酶的晶体结构的观察相一致,其表明:(i) 重组酶二聚体对整个二核苷酸核心的相互作用是对称的且以非特异性为主; (ⅱ)在重组酶侧臂区中的进化上保守的Gly-Arg基序与DNA小沟之间的相 互作用对位置6、位置5和位置4处的腺嘌呤或胸腺嘧啶施加了要求;以及 (iii)侧臂区与小沟之间在位置10、位置9、位置8或位置7处没有序列特 异性相互作用(图31E)。这些结果也与集中于确定密切相关的Hin重组酶 的DNA结合特性的研究相一致。
    重新工程化Gin重组酶催化特异性
    基于这样的发现,即Gin容忍在位置3和位置2处的保守取代 (即,CC、CG、GG和TG),对Gin催化特异性是否可以被重新工程化以 特异性识别包含不被天然酶容忍的12种碱基组合中的每一种的核心序列(图 32A)进行了研究。为了鉴定由Gin参与DNA识别的特定的氨基酸残基,对 两种相关的丝氨酸重组酶(y6解离酶及Sin重组酶)在与其各自的DNA靶复 合中的晶体结构进行了研究。基于这些模型,鉴定出在位置3和位置2处接 触DNA的五种残基:Leu 123、Thr 126、Arg 130、Val 139和Phe 140(根据 y5解离酶标号)(图32B)。通过重叠延伸PCR在Gin催化结构域(Ile  120、Thr 123、Leu 127、Ile 136和Gly 137)中的等位残基上进行随机诱变并 通过使这些催化结构域变体融合至未修饰的“Hl”ZFP的拷贝构建ZFP变体 的文库。这个文库的理论大小为3.3×107变体。
    将该ZFR文库克隆到含有不被天然酶容忍的五种碱基组合 (GC、GT、CA、AC或TT)中的一种的底物质粒并通过分裂基因重装配富 集活化ZFR(图32C)。经过4轮选择后,我们发现,每个ZFR群对含有 GC、GT、CA和TT取代的DNA靶的活性增加>1000倍,以及每个ZFR群 对含有AC取代的DNA靶的活性增加>100倍(图32D)。
    从每个群对单独的重组酶变体进行测序,并发现高水平的氨基酸 多样性存在于位置120、位置123和位置127,还发现>80%的选定的克隆在 位置136处含有Arg以及在位置137处含有Trp或Phe(图36)。这些结果 表明,位置136和位置137在识别非天然核心序列中发挥关键作用。对每个 选定的酶重组其靶DNA的能力进行了评估,结果发现,几乎所有的重组酶显 示出活性(>10%重组),并朝向其预期的核心序列显示出>1000倍的特异性 转变(图37)。就亲本Gin而言,人们发现,几种重组酶容忍在位置3和位 置2处的保守取代(即,对GT和CT或AC和AG的交叉反应),表明单个 重新工程化的催化结构域可以用于靶向多个核心位点(图37)。
    为了进一步调查重组酶特异性,对五个Gin变体(以下称Gin  p、Gin y、Gin 6、Gin e和Gin Z)重组分布进行测定,这五个Gin变体显示 为识别不被亲本酶容忍的12种可能的两碱基组合中的九种(GC、TC、GT、 CT、GA、CA、AG、AC和TT)(表1)。Gin p、Gin 6和Gin e重组其预 期的核心序列的活性和特异性比得上亲本酶(以下简称为Gin a)重组其预期 的核心序列的活性和特异性,并且Gin y和Gin Z能够重组其预期的核心序列 的活性和特异性超过了Gin a能够重组其预期的核心序列的活性和特异性 (图32E)。每个重组酶对在位置6、位置5和位置4处的腺嘌呤或胸腺嘧啶 表现出>1000倍的优先性,并且在位置10、位置9、位置8和位置7处显示 无碱基优先性(图38)。这些结果表明,DNA结合臂的诱变没有影响重组酶 特异性。不可能选择能够容忍在位置3和位置2处的AA、AT或TA取代的 Gin变体。这一结果的一种可能性是包含>4个连续的A-T bp的DNA靶可能 会表现出干扰重组酶结合和/或催化的弯曲DNA构象。
    工程化ZFR以重组用户定义的序列
    对由重新工程化的催化结构域组成的ZFR是否能够重组预先确 定的序列进行了研究。为了检验这种可能性,使用44-bp共有重组位点在人 类基因组(GRCh37主参照组装)中搜索潜在的ZFR靶位点,所述44-bp共 有重组位点被预测为在随机DNA中每400,000bp会发生大约一次(图 4A)。这种来源于选定的Gin变体的核心序列分布的ZFR共有靶位点包括大 约7×108(可能的1.0955×1012中的)独特的20-bp核心组合和模块化锌指结 构域的保守选择,该核心组合预计被21种可能的催化结构域组合所容忍,该 保守选择排除每个ZFBS内的5'-CNN-3'和5'-TNN-3'三联体。以ZFP特异性 为主要决定因素进行选择,在8个人类染色体(Chr.1、Chr.2、Chr.4、 Chr.6、Chr.7、Chr.11、Chr.13和Chr.X)的非蛋白编码基因座鉴定了18种可 能的ZFR靶位点。平均来说,每20-bp核心显示出与天然Gin催化结构域所 识别的核心序列~46%的序列同一性(图33B)。每个相应的ZFR通过模块 化组装来构建(见材料和方法)。
    为了确定各ZFR对是否可以重组其预期的DNA靶,进行了瞬时 报道测定,其使ZFR介导的重组与减少的荧光素酶表达相关联(图33A和图 39)。为实现此目的,将ZFR靶位点引入SV40启动子的上游和下游,该 SV40启动子驱动萤光素酶报告基因的表达。用每个ZFR对的表达载体及其 相应的报告质粒对人胚胎肾(HEK)293T细胞进行共转染。转染后48小 时,测定萤光素酶表达。18个ZFR对分析中,使荧光素酶表达减少>75倍 的占38%(18个中的7个)以及使荧光素酶表达减少>140倍的占22%(18 个中的4个)(图33B)。相比之下,被设计以靶向天然Gin催化结构域所 识别的核心序列的ZFR阳性对照GinC4使荧光素酶表达减少107倍。总的来 说,我们发现,50%(18个中的9个)的所评估的ZFR对使萤光素酶表达减 少至少20倍。重要的是,实际上,在细菌细胞中显示出显著活性的每一催化 结构域(>20%重组)被成功地用于重组哺乳动物细胞中的至少一种天然存 在的序列。
    为了评价ZFR特异性,利用九个最活跃ZFR的表达质粒和各自 的非同源报告质粒对分离的HEK293T细胞进行共转染。每个ZFR对对其预 期的DNA靶表现出高特异性并且77%(9个中的7个)的所评估的ZFR呈 显出与阳性对照GinC4的重组特异性几乎相同的整体重组的特异性(图 4C)。为了确定减少的萤光素酶表达是预期的ZFR异二聚体的产物而不是重 组态ZFR同二聚体的副产物,对每个ZFR单体对重组的贡献进行了测定。 ZFR 1“左”单体与其相应的报告质粒的共转染导致荧光素酶表达的中度减少 (对重组的总贡献:~22%),但是绝大多数的(18个中的16个)个别 ZFR单体没有显著有助于重组(<10%重组),以及许多(18个中的7个) 显示出没有活性(图39)。总之,这些研究表明,ZFR可被工程化以高度特 异性重组用户定义的序列。
    工程化的ZFR介导靶向整合到人类基因组中。
    接下来对ZFR是否可以将DNA整合到在人体细胞中的内源性基 因座进行了评估。为了实现此目的,在SV40启动子的控制下,用ZFR表达 载体和相应的DNA供体质粒对HEK293细胞进行共转染,该DNA供体质粒 包含特定的ZFR靶位点和嘌呤霉素耐药性基因。对于这种分析,使用了ZFR 对1、ZFR对2和ZFR对3,这些ZFR对被设计以分别靶向人类染色体4、X 和4上的非蛋白编码基因座(图34A)。在转染后2天,用含有嘌呤霉素的 培养基孵育细胞并且通过确定嘌呤霉素耐药性(puroR)菌落数来测定整合效 率。我们发现:(ⅰ)供体质粒和相应的ZFR对的共转染与仅用供体质粒的 转染相比导致>12倍的puroR菌落的增加,并且(ⅱ)用两个ZFR共转染与 用个别ZFR单体转染相比导致6至9倍的puroR菌落的增加(图34B)。为 了评估ZFR对是否正确地靶向整合,从puroR群中分离出基因组DNA,并通 过PCR扩增每个靶向位点。在由这些ZFR对靶向的每个位点观察到对应于 整合为正向和/或反向取向的PCR产物(图34C)。接着,为了确定ZFR介 导的整合的整体特异性,从克隆的细胞群中分离出基因组DNA,并通过PCR 评价质粒插入。该分析显示,对ZFR对1、ZFR对2和ZFR对3分别为 8.3%(12个克隆中的1个)、14.2%(35个克隆中的5个)以及9.1%(11 个克隆中管的1个)的靶向效率(图S6)。每个PCR产物的序列分析证实了 ZFR介导的整合(图34D)。总之,这些结果表明,ZFR可以被设计以精确 地将DNA整合至内源基因座。
    最后,应该指出的是,发现ZFR-1“左”单体靶向整合入ZFR-1 基因座(图34C)。这个与上述荧光素酶报告研究(图39)相一致的结果表 明,重组态ZFR同二聚体具有介导脱靶整合的能力。优化的异源二聚体ZFR 架构的未来发展和脱靶整合的综合评价应该引起表现更高的靶向效率的ZFR 的设计。
    本文表明,ZFR可以被设计以高特异性重组用户定义的序列,并 且ZFR可以将DNA整合入人类细胞中预先确定的内源基因座。通过结合底 物特异性分析和定向进化,消除了由ZFR催化结构域施加的几乎所有的序列 要求。使用45个预先选择的锌指模块的存档,估计ZFR可以被设计以识别> 1×1022独特的44-bp DNA序列,其对应于随机序列中每4000bp大约一个潜 在的ZFR靶位点。通过选择构建的定制的锌指结构域将进一步延伸靶。本文 所述的重新工程化的催化结构域将与最近描述的TAL效应子重组酶相容。这 项工作表明生成具有定制特异性的ZFR的可行性,并说明ZFR在包括基因组 工程、合成生物学和基因治疗的广泛的应用中的潜在应用。
    虽然已经参照上述实施例描述了本发明,应当理解的是,修改和 变化都包含在本发明的精神和范围之内。因此,本发明仅由以下权利要求书 限定。















































































































































    关 键  词:
    具有 靶向 结合 特异性 嵌合 多肽
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:具有靶向结合特异性的嵌合多肽.pdf
    链接地址:https://www.zhuanlichaxun.net/p-12890.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1