《用减少数量的转录物测量进行的基因表达概况分析.pdf》由会员分享,可在线阅读,更多相关《用减少数量的转录物测量进行的基因表达概况分析.pdf(98页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103168118 A (43)申请公布日 2013.06.19 CN 103168118 A *CN103168118A* (21)申请号 201180027991.7 (22)申请日 2011.04.06 61/321,298 2010.04.06 US C40B 30/00(2006.01) C40B 40/06(2006.01) C40B 40/08(2006.01) G01N 33/48(2006.01) G01N 33/50(2006.01) G01N 31/00(2006.01) (71)申请人 麻省理工学院 地址 美国麻萨诸塞州 (72)发明人 D.D。
2、. 佩克 J. 兰布 T.R. 戈卢布 A. 苏布拉马尼安 (74)专利代理机构 中国专利代理(香港)有限公 司 72001 代理人 孔青 庞立志 (54) 发明名称 用减少数量的转录物测量进行的基因表达概 况分析 (57) 摘要 本发明提供用于制备和使用全转录物组基因 表达概况分析平台的组合物和方法, 所述平台仅 测量转录物总数的选定亚组的表达水平。因为据 信基因表达是高度相关的, 所以少数(例如1,000 个 ) 适当选择的转录物的直接测量允许推断转录 物的表达水平。 因此, 相对于需要测量所有转录物 的众所周知的常规方法而言, 本发明具有降低全 转录物组基因表达概况分析的成本和增加其通量。
3、 的潜力。 (30)优先权数据 (85)PCT申请进入国家阶段日 2012.12.06 (86)PCT申请的申请数据 PCT/US2011/031395 2011.04.06 (87)PCT申请的公布数据 WO2011/127150 EN 2011.10.13 (51)Int.Cl. 权利要求书 5 页 说明书 84 页 附图 8 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书5页 说明书84页 附图8页 (10)申请公布号 CN 103168118 A CN 103168118 A *CN103168118A* 1/5 页 2 1. 一种使用亚转录物组数量的转录物。
4、测量来制备全转录物组 mRNA 表达概况分析平 台的方法, 所述方法包括 : a) 提供 : i) 来自第一生物样品集合的全转录物组 mRNA 表达数据的第一文库 ; ii) 第二生物样品集合 ; iii) 来自所述第二生物样品集合的全转录物组 mRNA 表达数据的第二文库 ; iv) 能测量转录物表达水平的装置 ; b) 对所述第一文库进行计算分析, 使得建立多个转录物聚类, 其中所述聚类的数量实 质上小于所有转录物的总数 ; c) 在所述多个转录物聚类的每一个内鉴定形心转录物, 由此建立多个形心转录物, 所 述剩余转录物为非形心转录物 ; d) 用所述装置测量来自所述第二生物样品集合的至少。
5、一部分转录物的表达水平, 其 中所述部分的转录物包括经鉴定为来自所述第一文库的所述形心转录物的转录物 ; e) 确定所述形心转录物表达水平的所述测量用以推断来自所述第二文库的至少一部 分转录物的水平的能力, 其中所述部分由非形心转录物组成 ; f) 选择其所述表达水平具有推断所述部分的非形心转录物水平的所述能力的所述形 心转录物。 2. 权利要求 1 的方法, 其中所述多个形心转录物为大约 1000 个形心转录物。 3. 权利要求 1 的方法, 其中所述装置选自微阵列、 珠阵列、 液体阵列和核酸测序仪。 4. 权利要求 1 的方法, 其中所述计算分析包括聚类分析。 5. 权利要求 1 的方法,。
6、 其中所述方法还包括重复步骤 c) 至 f) 直到所述多个转录物聚 类的每一个的经验证的形心转录物被鉴定。 6. 权利要求 1 的方法, 其中所述多个转录物聚类是正交的。 7. 权利要求 1 的方法, 其中所述多个转录物聚类为非重叠的。 8. 权利要求 1 的方法, 其中所述确定包括所述形心转录物的所述表达水平与所述非 形心转录物的所述表达水平之间的相关性。 9. 权利要求 1 的方法, 其中实质上不变的转录物组的表达水平还用所述装置在所述 第二生物样品集合中测量。 10. 权利要求 9 的方法, 其中相对于实质上不变的转录物组的表达水平, 对用所述装 置进行的所述形心转录物的所述测量以及来自。
7、所述第一和第二文库的所述 mRNA 表达数据 进行标准化。 11. 一种在转录物组内鉴定预测性转录物亚群的方法, 所述方法包括 : a) 提供 : i) 来自第一生物样品集合的全转录物组 mRNA 表达数据的第一文库 ; ii) 第二生物样品集合 ; ii) 来自所述第二生物样品集合的全转录物组 mRNA 表达数据的第二文库 ; iii) 能测量转录物表达水平的装置 ; b) 对所述第一文库进行计算分析, 使得建立多个转录物聚类, 其中所述聚类的数量小 于所述第一文库中所有转录物的总数 ; 权 利 要 求 书 CN 103168118 A 2 2/5 页 3 c) 在所述转录物聚类的每一个内鉴。
8、定形心转录物, 由此建立多个形心转录物, 所述剩 余转录物为非形心转录物 ; d) 在所述装置上处理来自所述第二生物样品集合的转录物, 以测量所述形心转录物 的表达水平, 和 e) 确定在所述装置上测量的所述多个形心转录物中预测全转录物组数据的所述第二 文库中的所述非形心转录物水平的转录物。 12. 权利要求 11 的方法, 其中所述多个形心转录物为大约 1000 个形心转录物。 13. 权利要求 11 的方法, 其中所述装置选自微阵列、 珠阵列、 液体阵列和核酸测序仪。 14. 权利要求 11 的方法, 其中所述计算分析包括聚类分析。 15. 权利要求 11 的方法, 其中所述确定包括所述形。
9、心转录物与所述非形心转录物之 间的相关性。 16. 权利要求 11 的方法, 其中所述方法还包括重复步骤 c) 至 e)。 17. 一种在转录物组内鉴定大约 1000 个预测性转录物的亚群的方法, 所述方法包括 : a) 提供 : i) 来自第一生物样品集合的代表大于 1000 个不同转录物的全转录物组 mRNA 表达数 据的第一文库, 和 ii) 来自第二生物样品集合的转录物 ; b) 对所述第一文库进行计算分析, 使得建立多个转录物聚类, 其中所述聚类的数量为 大约 1000 并且小于所述第一文库中的所有转录物的总数 ; c) 在所述转录物聚类的每一个内鉴定形心转录物, 所述剩余转录物为非。
10、形心转录 物 ; d) 处理来自所述第二生物样品集合的转录物, 以便测量非形心转录物的表达水平以 建立第一测量, 和测量形心转录物的表达水平以建立第二测量 ; 和 e) 根据所述第一测量确定哪些形心转录物根据所述第二测量预测所述非形心转录物 的水平, 由此在转录物组内鉴定预测性转录物的亚群。 18. 权利要求 17 的方法, 其中所述方法还包括能测量所述形心转录物表达水平的装 置。 19. 权利要求 18 的方法, 其中所述装置能测量大约 1000 个所述形心转录物的表达水 平。 20. 权利要求 17 的方法, 其中所述计算分析包括聚类分析。 21. 权利要求 17 的方法, 其中所述确定包。
11、括所述形心转录物与所述非形心转录物之 间的相关性。 22. 权利要求 17 的方法, 其中所述方法还包括重复步骤 c) 至 e)。 23. 一种通过测量第二转录物群的表达水平来预测第一转录物群的表达水平的方法, 所述方法包括 : a) 提供 : i) 包含第二转录物异质群的第一转录物异质群, 所述第二群构成所述第一群的亚组, ii) 能预测不在所述第二群内的所述第一群内的转录物表达水平的算法, 所述预测基 于在所述第二群内测量的转录物表达水平 ; 权 利 要 求 书 CN 103168118 A 3 3/5 页 4 b) 在建立仅代表所述第二转录物群的多个不同模板的条件下处理所述第一转录物异 。
12、质群 ; c) 测量所述不同模板的每一个的量以建立多个测量 ; 和 d) 将所述算法用于所述多个测量, 由此预测不在所述第二群内的所述第一群内的转 录物表达水平。 24. 权利要求 23 的方法, 其中所述第一转录物异质群包含多个非形心转录物。 25. 权利要求 23 的方法, 其中所述第二转录物异质群包含多个形心转录物。 26. 权利要求 23 的方法, 其中所述方法还包括能测量大约 1000 个所述不同模板的量 的装置。 27. 权利要求 26 的方法, 其中所述装置选自微阵列、 珠阵列、 液体阵列和核酸测序仪。 28. 权利要求 23 的方法, 其中所述算法包括相关性矩阵。 29. 一种。
13、测定基因表达的方法, 所述方法包括 : a) 提供 : i) 大约 1000 个不同条形码序列 ; ii) 大约1000个珠, 每个珠包含同质核酸探针组, 每一组与所述大约1000个条形码序 列的不同条形码序列互补 ; iii) 超过 1000 个不同转录物的群, 每个转录物包含基因特异性序列 ; iv) 能预测未测量的转录物表达水平的算法 ; b) 处理所述转录物群以建立大约 1000 个不同模板, 每一模板包含与不同基因特异性 序列有效连接的所述大约 1000 个条形码序列中的一个, 其中所述大约 1000 个不同模板代 表小于所述群内的转录物总数 ; c) 测量所述大约 1000 个不同。
14、模板的每一个的量以建立多个测量 ; 和 d) 将所述算法用于所述多个测量, 由此预测所述群内未测量的转录物表达水平。 30. 权利要求 29 的方法, 其中所述方法还包括能测量所述大约 1000 个不同模板的每 一个的量的装置。 31. 权利要求 29 的方法, 其中所述珠是光寻址的。 32. 权利要求 29 的方法, 其中所述处理包括连接介导的扩增。 33. 权利要求 31 的方法, 其中所述测量包括检测所述光寻址珠。 34. 权利要求 31 的方法, 其中所述测量包括通过与所述大约 1000 个条形码序列互补 的所述核酸探针使所述大约 1000 个不同模板与所述大约 1000 个珠杂交。 。
15、35. 权利要求 31 的方法, 其中所述测量包括流式细胞仪。 36. 权利要求 29 的方法, 其中所述算法包括相关性矩阵。 37. 一种包含扩增的核酸序列的组合物, 其中所述序列包括至少一部分聚类形心转录 物序列和条形码序列, 其中所述组合物还包括光寻址珠, 并且其中所述珠包括与所述条形 码杂交的捕获探针核酸序列。 38. 权利要求 37 的组合物, 其中所述条形码序列与所述捕获探针核酸至少部分互补。 39. 权利要求 37 的组合物, 其中所述扩增的核酸序列被生物素化。 40. 权利要求 37 的组合物, 其中所述光寻址珠可用流式细胞术系统检测。 41. 权利要求40的组合物, 其中所述。
16、流式细胞术系统辨别大约500 1000个光寻址 权 利 要 求 书 CN 103168118 A 4 4/5 页 5 珠。 42. 一种建立全基因组表达概况的方法, 所述方法包括 : a) 提供 : i) 源自生物样品的多个基因组转录物 ; ii) 构成至少一部分所述基因组转录物的多个形心转录物, 所述剩余基因组转录物为 非形心转录物 ; b) 测量所述多个形心转录物的表达水平 ; c) 根据所述形心转录物表达水平来推断所述非形心转录物表达水平, 由此建立全基 因组表达概况。 43. 权利要求 42 的方法, 其中所述多个形心转录物包括大约 1,000 个转录物。 44. 权利要求 42 的方。
17、法, 其中所述测量包括选自微阵列、 珠阵列、 液体阵列和核酸测 序仪的装置。 45. 权利要求 42 的方法, 其中所述推断包括相关性矩阵。 46. 权利要求 42 的方法, 其中所述全基因组表达概况将所述生物样品鉴定为患病。 47. 权利要求 42 的方法, 其中所述全基因组表达概况将所述生物样品鉴定为健康。 48. 权利要求 42 的方法, 其中所述全基因组表达概况提供干扰物作用的功能性读出。 49. 权利要求 42 的方法, 其中所述全基因组表达概况包括适用于连通图的表达概况。 50. 权利要求 49 的方法, 其中比较所述表达概况与查询标记的相似性。 51. 权利要求 42 的方法, 。
18、其中所述全基因组表达概况包括适用于连通图的查询标记。 52. 权利要求 51 的方法, 其中比较所述查询标记与已知全基因组表达概况的相似性。 53. 一种试剂盒, 所述试剂盒包括 : a) 包含源自转录物组的多个形心转录物的第一容器 ; b) 包含适合在生物样品内测量所述多个形心转录物表达水平的缓冲剂和试剂的第二 容器 ; c) 用于根据所述多个形心转录物表达水平在所述生物样品内推断非形心转录物表达 水平的一组使用说明。 54. 权利要求 53 的试剂盒, 其中所述多个形心转录物为大约 1,000 个转录物。 55. 一种制备全转录物组 mRNA 表达概况的方法, 所述方法包括 : a) 提供。
19、 : i) 数量实质上小于所有转录物总数的经验证的形心转录物的组合物 ; ii) 能测量所述经验证的形心转录物表达水平的装置 ; iii) 根据通过所述装置测量的所述经验证的形心转录物表达水平和建立自生物样品 集合的全转录物组 mRNA 表达数据文库的转录物聚类信息, 能实质上计算不在所述经验证 的形心转录物组中的转录物表达水平的算法 ; 和 iv) 生物样品 ; b) 将所述生物样品用于所述装置, 由此测量所述生物样品中的所述经验证的形心转 录物表达水平 ; c) 将所述算法用于所述测量, 由此建立全转录物组 mRNA 表达概况。 56. 权利要求 55 的方法, 其中所述经验证的形心转录物。
20、包括大约 1,000 个转录物。 权 利 要 求 书 CN 103168118 A 5 5/5 页 6 57. 权利要求 55 的方法, 其中所述装置选自微阵列、 珠阵列、 液体阵列和核酸测序仪。 58. 权利要求 55 的方法, 其中在所述生物样品中还测量实质上不变的转录物组的表 达水平。 59. 权利要求 55 的方法, 其中相对于所述不变的转录物的所述表达水平, 对所述经验 证的形心转录物的所述表达水平进行标准化。 权 利 要 求 书 CN 103168118 A 6 1/84 页 7 用减少数量的转录物测量进行的基因表达概况分析 0001 政府资助声明 本发明是在美国国立卫生院 (th。
21、e National Institutes of Health) 给予的资助号 CA133834 的政府资助下完成的。美国政府享有本发明的一定的权利。 发明领域 0002 本发明涉及基因组信息学和基因表达概况分析领域。基因表达概况提供有关细 胞或组织相关状态的复杂的分子指纹。生物体状态 ( 即例如正常和患病的细胞和 / 或组 织 ) 之间的基因表达概况的相似性提供分子分类学、 分类和诊断。各种外部干扰 ( 即例如, 特定基因的消除或强迫表达和 / 或小分子和 / 或环境变化 ) 所致的基因表达概况的相似 性揭示这些干扰物之间的功能相似性, 其在途径和作用机制的阐明中有价值。生物体状态 ( 例如。
22、疾病 ) 和所诱导的状态 ( 例如由小分子诱导 ) 之间的基因表达概况的相似性可鉴定 临床有效治疗。本文所述的改进允许有效而经济地产生全转录物组基因表达概况, 即通过 鉴定能预测同一聚类内其它转录物表达水平的聚类形心界标转录物 (cluster centroid landmark transcript)。 0003 背景 高密度、 全转录物组 DNA 微阵列是用于无偏倚的基因表达概况分析的选择方法。已 发现这些概况可用于疾病的分类和诊断, 预测患者对治疗的反应, 探索生物机制, 用于小 分子作用机制的分类和阐述, 以及用于鉴定新的治疗药。van de Vijver 等 , “A gene ex。
23、pression signature as a predictor of survival in breast cancer ( 作为乳腺癌 存活预测物的一个基因表达标记 )” N Engl J Med 347:1999-2009 (2002) ; Lamb 等 , “A mechanism of cyclin D1 action encoded in the patterns of gene expression in human cancer ( 在人类癌症的基因表达模式中编码的细胞周期蛋白 D1 作用机制 )” Cell 114:323-334 (2003) ; Glas 等 , “Ge。
24、ne expression profiling in follicular lymphoma to assess clinical aggressiveness and to guide the choice of treatment (滤泡性 淋巴瘤中基因表达概况分析, 以评价临床攻击性并指导治疗的选择 )” Blood 105:301-307 (2005) ; Burczynski 等 , “Molecular classification of Crohn s disease and ulcerative colitis patients using transcriptional pr。
25、ofiles in peripheral blood mononuclear cells ( 克罗恩病和溃疡性结肠炎患者的分子分类, 使用在外周血单核细胞 中的转录概况” J Mol Diagn 8:51-61 (2006) ; Golub 等 , “Molecular classification of cancer: class discovery and class prediction by gene expression monitoring ( 癌症的分子分类 : 通过基因表达监测进行类别发现和类别预测 )” Science 286:531 (1999) ; Ramaswamy 等。
26、 , “Multiclass cancer diagnosis using tumor gene expression signatures (使用肿瘤基因表达标记的多类癌症诊断)” Proc Natl Acad Sci 98: 15149 (2001) ; Lamb 等 , “The Connectivity Map: using gene-expression signatures to connect small molecules, genes and disease (连通图 : 使用基因表达标记以连通小分 子、 基因和疾病)” Science 313:1929 (2006)。 然而。
27、, 这些方法的总体成功和广泛使用受到 说 明 书 CN 103168118 A 7 2/84 页 8 现有转录物组分析技术的高成本和低通量的严重制约。例如, 仅当每天可分析成千种化合 物且成本远远低于常规微阵列的情况下, 使用基因表达概况分析以筛选具有所需生物效应 的小分子才是实用的。 0004 本领域所需要的是简单灵活的、 成本有效的和高通量的全转录物组基因表达概况 分析方法, 所述方法可允许分析外部干扰所诱导的数以千计的组织标本和细胞状态。这将 极大加快其中编码的医学相关的联系的发现速率。 已经开发出在大量样品中快速测定少量 转录物表达的方法 ; 例如, Peck 等 , “A metho。
28、d for high-throughput gene expression signature analysis ( 用于高通量基因表达标记分析的方法 )” Genome Biol 7:R61 (2006)。如果可鉴定出能可信地预测其它转录物表达水平的转录物, 可以相信, 使用这 些中等多重测定 (moderate-multiplex assay) 方法, 并配合从这些测量中计算非界标 (landmark) 转录物水平的算法, 一组这类 “界标” 转录物的测量就可提供全转录物组基因表 达分析方法。 0005 发明概述 本发明涉及基因组信息学和基因表达概况分析领域。 基因表达概况提供有关细胞或组。
29、 织相关状态的复杂的分子指纹。生物体状态 ( 即例如正常和患病的细胞和 / 或组织 ) 之间 的基因表达概况的相似性提供分子分类学、 分类和诊断。各种外部干扰 ( 即例如, 特定基因 的消除或强迫表达, 和 / 或小分子, 和 / 或环境变化 ) 所致的基因表达概况的相似性揭示这 些干扰物之间的功能相似性, 其在途径和作用机制的阐明中重要。 生物体(例如疾病)和所 诱导的 ( 例如由小分子诱导的 ) 状态之间的基因表达概况的相似性可鉴定临床有效治疗。 本文所述的改进允许有效而经济地产生全转录物组基因表达概况, 即通过鉴定能预测同一 聚类内其它转录物表达水平的聚类形心界标转录物。 0006 在一。
30、个实施方案中, 本发明涉及使用亚转录物组数量的转录物测量来制备全转录 物组 mRNA 表达概况分析平台的方法, 所述方法包括 : a) 提供 : i) 来自第一生物样品集合 的全转录物组 mRNA 表达数据的第一文库 ; ii) 第二生物样品集合 ; iii) 来自所述第二生 物样品集合的全转录物组 mRNA 表达数据的第二文库 ; iv) 能测量转录物表达水平的装置 ; b) 对所述第一文库进行计算分析, 使得建立多个转录物聚类, 其中所述聚类的数量实质上 小于所有转录物的总数 ; c) 在所述多个转录物聚类的每一个内鉴定形心转录物, 由此建立 多个形心转录物, 所述剩余转录物为非形心转录物。
31、 ; d) 用所述装置测量来自所述第二生物 样品集合的至少一部分转录物的表达水平, 其中所述部分的转录物包括经鉴定为来自所述 第一文库的所述形心转录物的转录物 ; e) 确定所述形心转录物表达水平的所述测量用以 推断来自所述第二文库的至少一部分转录物水平的能力, 其中所述部分由非形心转录物组 成 ; f) 选择所述形心转录物, 其所述表达水平具有推断所述部分的非形心转录物水平的能 力。在一个实施方案中, 所述多个形心转录物为大约 1000 个形心转录物。在一个实施方案 中, 所述装置选自微阵列、 珠阵列、 液体阵列或核酸测序仪。 在一个实施方案中, 所述计算分 析包括聚类分析。在一个实施方案中。
32、, 所述方法还包括重复步骤 c) 至 f) 直到所述多个转 录物聚类的每一个的经验证的形心转录物被鉴定。在一个实施方案中, 所述多个转录物聚 类是正交的 (orthogonal)。在一个实施方案中, 所述多个转录物聚类为非重叠的。在一个 实施方案中, 所述确定包括所述形心转录物的所述表达水平与所述非形心转录物的所述表 达水平之间的相关性。在一个实施方案中, 实质上不变的转录物组的表达水平还用所述装 说 明 书 CN 103168118 A 8 3/84 页 9 置在所述第二生物样品集合中测定。在一个实施方案中, 相对于实质上不变的转录物组的 表达水平, 对用所述装置进行的所述形心转录物的测量,。
33、 以及来自所述第一和第二文库的 所述 mRNA 表达数据进行标准化。 0007 在一个实施方案中, 本发明涉及在转录物组内鉴定预测性转录物亚群的方法, 所 述方法包括 : a) 提供 : i) 来自第一生物样品集合的全转录物组 mRNA 表达数据的第一文 库 ; ii) 第二生物样品集合 ; ii) 来自所述第二生物样品集合的全转录物组 mRNA 表达数据 的第二文库 ; iii) 能测量转录物表达水平的装置 ; b) 对所述第一文库进行计算分析, 使 得建立多个转录物聚类, 其中所述聚类的数量小于所述第一文库中所有转录物的总数 ; c) 在所述转录物聚类的每一个内鉴定形心转录物, 由此建立多。
34、个形心转录物, 所述剩余转录 物为非形心转录物 ; d) 在所述装置上处理来自所述第二生物样品集合的转录物以测量所 述形心转录物表达水平, 和 e) 确定在所述装置上测量的所述多个形心转录物中预测全转 录物组数据的所述第二文库中的所述非形心转录物水平的转录物。在一个实施方案中, 所 述多个形心转录物为大约 1000 个形心转录物。在一个实施方案中, 所述装置选自微阵列、 珠阵列、 液体阵列或核酸测序仪。在一个实施方案中, 所述计算分析包括聚类分析。在一个 实施方案中, 所述确定包括所述形心转录物与所述非形心转录物之间的相关性。在一个实 施方案中, 所述方法还包括重复步骤 c) 至 e)。 00。
35、08 在一个实施方案中, 本发明涉及在转录物组内鉴定大约 1000 个预测性转录物的 亚群的方法, 所述方法包括 : a) 提供 : i) 来自第一生物样品集合的代表大于 1000 个不同 转录物的全转录物组 mRNA 表达数据的第一文库, 和 ii) 来自第二生物样品集合的转录物 ; b) 对所述第一文库进行计算分析, 使得建立多个转录物聚类, 其中所述聚类的数量为大约 1000 并且小于所述第一文库中的所有转录物的总数 ; c) 在所述转录物聚类的每一个内鉴 定形心转录物, 所述剩余转录物为非形心转录物 ; d) 处理来自所述第二生物样品集合的转 录物, 以便测量非形心转录物表达水平以建立。
36、第一测量, 和测量形心转录物表达水平以建 立第二测量 ; 和 e) 根据所述第一测量确定哪些形心转录物根据所述第二测量预测所述非 形心转录物水平, 由此在转录物组内鉴定预测性转录物亚群。 在一个实施方案中, 所述方法 还包括能测量所述形心转录物表达水平的装置。在一个实施方案中, 所述装置能测量大约 1000 所述形心转录物的表达水平。在一个实施方案中, 所述计算分析包括聚类分析。在一 个实施方案中, 所述确定包括所述形心转录物与所述非形心转录物之间的相关性。在一个 实施方案中, 所述方法还包括重复步骤 c) 至 e)。 0009 在一个实施方案中, 本发明涉及通过测量第二转录物群的表达水平来预。
37、测第一转 录物群表达水平的方法, 所述方法包括 : a) 提供 : i) 包含第二转录物异质群的第一转录 物异质群, 所述第二群构成所述第一群的亚组, ii) 能预测不在所述第二群内的所述第一 群内的转录物表达水平的算法, 所述预测基于在所述第二群内所测量的转录物表达水平 ; b) 在建立仅代表所述第二转录物群的多个不同模板的条件下处理所述第一转录物异质 群 ; c) 测量所述不同模板的每一个的量以建立多个测量 ; 和 d) 将所述算法用于所述多个 测量, 由此预测不在所述第二群内的所述第一群内的转录物表达水平。 在一个实施方案中, 所述第一转录物异质群包括多个非形心转录物。在一个实施方案中,。
38、 所述第二转录物异质 群包括多个形心转录物。在一个实施方案中, 所述方法还包括能测量大约 1000 所述不同模 板的量的装置。 在一个实施方案中, 所述装置选自微阵列、 珠阵列、 液体阵列或核酸测序仪。 说 明 书 CN 103168118 A 9 4/84 页 10 在一个实施方案中, 所述算法包括相关性矩阵 (dependency matrix)。 0010 在一个实施方案中, 本发明涉及测定基因表达的方法, 所述方法包括 : a) 提供 : i) 大约 1000 个不同条形码序列 ; ii) 大约 1000 个珠, 每珠包含同质核酸探针组, 每一组 与所述大约 1000 个条形码序列的不。
39、同条形码序列互补 ; iii) 超过 1000 个不同转录物的 群, 每个转录物都包含基因特异性序列 ; iv) 能预测未经测量的转录物表达水平的算法 ; b) 处理所述转录物群以建立大约 1000 个不同模板, 每一模板都包含与不同基因特异性 序列有效连接的 (operably associated) 所述大约 1000 个条形码序列中的一个, 其中所 述大约 1000 个不同模板代表小于所述群内的转录物总数 ; c) 测量所述大约 1000 个不同 模板的每一个的量以建立多个测量 ; 和 d) 将所述算法用于所述多个测量, 由此预测所述 群内未经测量的转录物表达水平。在一个实施方案中, 所。
40、述方法还包括能测定所述大约 1000 个不同模板的每一个的量的装置。在一个实施方案中, 所述珠是光寻址的 (optically addressed)。在一个实施方案中, 所述处理包括连接介导的扩增。在一个实施方案中, 所述 测量包括检测所述光寻址珠。在一个实施方案中, 所述测量包括通过与所述大约 1000 个条 形码序列互补的所述核酸探针使所述大约 1000 个不同模板与所述大约 1000 个珠杂交。在 一个实施方案中, 所述测量包括流式细胞仪。在一个实施方案中, 所述算法包括相关性矩 阵。 0011 在一个实施方案中, 本发明涉及包含扩增的核酸序列的组合物, 其中所述序列包 括至少一部分聚类。
41、形心转录物序列和条形码序列, 其中所述组合物还包含光寻址珠, 并且 其中所述珠包含与所述条形码杂交的捕获探针核酸序列。在一个实施方案中, 所述条形码 序列与所述捕获探针核酸至少部分互补。在一个实施方案中, 所述扩增的核酸序列被生物 素化。在一个实施方案中, 所述光寻址珠可用流式细胞术系统检测。在一个实施方案中, 所 述流式细胞术系统辨别大约 500 - 1000 光寻址珠。 0012 在一个实施方案中, 本发明涉及建立全基因组表达概况的方法, 所述方法包括 : a) 提供 : i) 源自生物样品的多个基因组转录物 ; ii) 构成至少一部分所述基因组转录物的 多个形心转录物, 所述剩余基因组转。
42、录物为非形心转录物 ; b) 测量所述多个形心转录物表 达水平 ; c) 根据所述形心转录物表达水平来推断所述非形心转录物表达水平, 由此建立全 基因组表达概况。在一个实施方案中, 所述多个形心转录物包括大约 1,000 个转录物。在 一个实施方案中, 所述测量包括选自以下的装置 : 微阵列、 珠阵列、 液体阵列或核酸测序仪。 在一个实施方案中, 所述推断包括相关性矩阵。所述全基因组表达概况将所述生物样品鉴 定为患病。在一个实施方案中, 所述全基因组表达概况将所述生物样品鉴定为健康。在一 个实施方案中, 所述全基因组表达概况提供干扰物作用的功能性读出。 在一个实施方案中, 所述全基因组表达概况。
43、包括适用于连通图的表达概况。在一个实施方案中, 比较所述表达 概况与查询标记的相似性。在一个实施方案中, 所述全基因组表达概况包括适合连通图的 查询标记。在一个实施方案中, 比较所述查询标记与已知全基因组表达概况的相似性。 0013 在一个实施方案中, 本发明涉及试剂盒, 所述试剂盒包括 : a) 包含源自转录物组 的多个形心转录物的第一容器 ; b) 包含适合在生物样品内测量所述多个形心转录物表达 水平的缓冲剂和试剂的第二容器 ; c) 用于根据所述多个形心转录物表达水平在所述生物 样品内推断非形心转录物表达水平的一组使用说明。在一个实施方案中, 所述多个形心转 录物为大约 1,000 个转。
44、录物。 说 明 书 CN 103168118 A 10 5/84 页 11 0014 在一个实施方案中, 本发明涉及制备全转录物组 mRNA 表达概况的方法, 所述方 法包括 : a) 提供 : i) 数量实质上小于所有转录物总数的经验证的形心转录物的组合物 ; ii) 能测量所述经验证的形心转录物表达水平的装置 ; iii) 根据通过所述装置测量的所 述经验证的形心转录物表达水平和建立自生物样品集合的全转录物组 mRNA 表达数据文库 的转录物聚类信息, 能实质上计算不在所述经验证的形心转录物组中的转录物表达水平的 算法 ; 和 iv) 生物样品 ; b) 将所述生物样品用于所述装置, 由此。
45、测量所述生物样品中的所 述经验证的形心转录物表达水平 ; 和 c) 将所述算法用于所述测量, 由此建立全转录物组 mRNA表达概况。 在一个实施方案中, 所述经验证的形心转录物包括大约1,000个转录物。 在 一个实施方案中, 所述装置选自微阵列、 珠阵列、 液体阵列或核酸测序仪。在一个实施方案 中, 在所述生物样品中还测量实质上不变的转录物组的表达水平。 在一个实施方案中, 相对 于所述不变的转录物的所述表达水平, 对所述经验证的形心转录物表达水平进行标准化。 0015 在一个实施方案中, 本发明涉及制备全转录物组 mRNA 表达概况分析平台的方法, 所述方法包括 : a) 提供 : i) 。
46、来自第一生物样品集合的全转录物组 mRNA 表达数据的第一文 库 ; ii) 来自第二生物样品集合的全转录物组 mRNA 表达数据的第二文库 ; iii) 能测量转 录物表达水平的装置 ; b) 对所述第一文库进行计算分析, 使得建立多个转录物聚类, 其中 所述聚类的数量实质上小于所有转录物的总数 ; c) 在所述多个转录物聚类的每一个内鉴 定形心转录物, 由此建立多个形心转录物 ; d) 鉴定来自所述第一文库的实质上不变的转录 物组 ; e) 用所述装置测量来自所述第二生物样品集合的至少一部分转录物表达水平, 其中 所述部分的转录物包括来自所述第一文库的鉴定为所述形心转录物的转录物和所述不变。
47、 的转录物 ; f) 确定所述多个形心转录物表达水平的所述测量用以推断来自所述第二文库 的至少一部分非形心转录物水平的能力。在一个实施方案中, 所述多个形心转录物为大约 1000 个形心转录物。在一个实施方案中, 所述装置包括全基因组微阵列。在一个实施方案 中, 所述方法还包括重复步骤 c 至 f 直到所述多个转录物聚类的每一个的经验证的形心转 录物被鉴定。在一个实施方案中, 所述多个转录物聚类是正交的。在一个实施方案中, 所述 多个转录物聚类为非重叠的。 0016 在一个实施方案中, 本发明涉及在转录物组内预测转录物水平的方法, 所述方法 包括 : a) 提供 : i) 来自第一生物样品集合。
48、的全转录物组 mRNA 表达数据的第一文库 ; ii) 来自第二生物样品集合的全转录物组 mRNA 表达数据的第二文库 ; iii) 能测量转录物表达 水平的装置 ; b) 对所述第一文库进行计算分析, 使得建立多个转录物聚类, 其中所述聚类 的数量小于所述第一文库中所有转录物的总数 ; c) 在所述转录物聚类的每一个内鉴定形 心转录物, 由此建立多个形心转录物, 所述剩余转录物为非形心转录物 ; d) 在所述装置上 处理所述第二文库转录物以测量所述形心转录物表达水平, 和 e) 确定在所述装置上测量 的所述多个形心转录物中预测全转录物组数据的所述第二文库中的所述非形心转录物水 平的转录物。在。
49、一个实施方案中, 所述多个形心转录物为大约 1000 个形心转录物。在一个 实施方案中, 所述装置选自微阵列、 珠阵列或液体阵列。在一个实施方案中, 所述计算分析 包括聚类分析。在一个实施方案中, 所述鉴定包括重复步骤 c) 至 e)。在一个实施方案中, 所述处理使用流式细胞仪。在一个实施方案中, 所述测定鉴定所述形心转录物与所述非形 心转录物之间的相关性。 0017 在一个实施方案中, 本发明涉及制备全转录物组 mRNA 表达概况分析平台的方法, 说 明 书 CN 103168118 A 11 6/84 页 12 所述方法包括 : a) 提供 : i) 来自第一生物样品集合的全转录物组 mRNA 表达数据的第一文 库 ; ii) 第二生物样品集合 ; iii) 来自所述第二生物样品集合的全转录物组 mRNA 表达数 据的第二文库 ; iv) 能测量转录物表达水平的装置 ; b) 对所述第一文库进行计算分析, 使 得建立多个转录物聚类, 其中所述聚类的数量实质上小于所有转录物的总数 ; c) 在所述多 个转录物聚类的每一个内鉴定形心转录物, 由此建立多个形心转录物 ; d) 用所述装置测量 来自所述第二生物样品集合的至少一部分转录物表达水平, 其中所述部分的转录物包括经 鉴定为来自所述第一文库的所述形心转录物。