近日,西湖大学俞晓春教授和团队获得了迄今为止最完整的小鼠参考基因组。
他们通过整合多种测序技术,针对小鼠单倍体胚胎干细胞(mhaESC)进行全面测序,组装了 C57BL/6 小鼠的从端粒到端粒的完整基因组(T2T-mhaESC,Telomere-to-Telomere mhaESC),填补了先前参考基因组大约 7.7% 的空白。
图 | 俞晓春(来源:俞晓春)
首先,本次研究实现了新基因的鉴定。课题组在 T2T-mhaESC 中注释了 22113 个蛋白编码基因,其中 639 个是额外注释的蛋白编码基因,同时还包含 140 个首次得到鉴定的基因,这些新基因有望为基因多样性研究提供重要依据。
其次,本次研究实现了结构变异的解析。研究中该团队发现了多个结构变异,包括一个 1.3Mb 的缺失和 X 染色体上的 30 个倒位,这些变异对于基因表达和基因功能具有潜在影响,为进一步研究基因组结构与基因组功能的关系提供了新视角。
再次,本次研究实现了 rDNA 阵列的解析。期间,他们解析了 rDNA 阵列的结构和分布,借此发现相比人类 rDNA 单元,小鼠 rDNA 单元的长度和组织方式有着较大不同,即后者存在三种不同长度的 rDNA 单元,这一发现有望为理解 rDNA 的转录调控机制提供参考。
最后,本次研究实现了着丝粒结构的解析,即详细解析了小鼠基因组中着丝粒的结构,进而发现染色体间 miSats 和 maSats 的长度存在一定差异。
同时在 maSats 中,他们发现散在分布着一些基因和转座子,这表明这些区域可能进行着活跃的转座事件和转录事件,而这或能帮助着丝粒区域进行适应性变化,从而维持细胞分裂过程中的染色体稳态。
(来源:Science)
总的来说,本次研究展示了对于源自 C57BL/6 品系的单倍体胚胎干细胞的完整端粒到端粒基因组的测序和组装。
这些新揭示的序列包括多个未表征的区域:比如 rDNA 阵列、着丝粒和亚端粒区域以及 140 个新鉴定的蛋白质编码基因。
同时,该团队还详细描述了大量的片段重复和着丝粒序列的特征,能为小鼠遗传学和基因组学的研究提供宝贵资源。
(来源:Science)
在应用前景上:
首先,对于遗传学研究领域来说,完整的基因组图谱以及新发现的基因,有助于深入解析基因功能及其与遗传疾病之间的关系。
其次,对于功能基因组学来说,本次新发现的基因和功能元件将为功能基因组学研究提供新靶点,促进人们对于基因表达调控机制的进一步理解。
再次,对于比较基因组学研究来说,完整的小鼠基因组图谱将为多物种的比较基因组学研究提供重要参考,有助于揭示物种间的进化关系以及基因功能的保守性。
最后,对于生物医学研究来说,小鼠是一种重要的模式生物,针对其绘制的完整基因组图谱,有助于开发新的疾病模型和治疗策略。
(来源:Science)
迄今为止最完整的小鼠参考基因组
据俞晓春介绍,此前针对多种遗传性疾病,人们始终没能找到相应的致病突变,这引发了该团队的猜想:这些致病突变是否可能位于基因组中尚未解析的区域?
之所以这么猜测,是因为使用现有参考基因组进行基因突变分析时,并未找到相应的致病基因。
小鼠,是最被广泛使用的疾病模型之一。针对其基因组进行解析,对于解答上述问题具有重要意义。
因此,本次研究旨在进一步提升小鼠参考基因组的完整性和准确性,以便为相关研究提供更多理论基础。
具体而言,课题组基于以下两方面开展本次研究。
第一,现有参考基因组仍旧存在一些局限。
尽管当前的小鼠参考基因组(GRCm39)已经相当完整和精确,但是仍然存在一些缺陷和大量未被解析的区域,并主要集中在以下几个区域:
其一是异染色质区域,异染色质区域是基因组中高度压缩的 DNA 序列,通常富含重复序列和异染色质标志,由于复杂性较高导致其在基因组组装中难以得到解析。
其二是核糖体 DNA(rDNA)区域,核糖体 RNA(rRNA)是 rDNA 区域编码核糖体的重要组分,其能以串联重复的方式存在于基因组中,具有极高的 GC 含量和丰富的重复序列,这些特性导致其在测序和组装过程中极具挑战性(GC 含量,指的是在 DNA 4 种碱基中鸟嘌呤和胞嘧啶所占的比率)。
其三,其他复杂重复区域比如卫星 DNA 区域和片段重复区域,这些区域的复杂性和重复性较高,这进一步增加了基因组解析的难度。
其四,基因注释错误或未注释的基因区域,由于所参考基因组 DNA 序列存在缺陷,导致一些基因结构被注释错误或未能被成功注释到基因组上,这些错误和遗漏可能会影响对于基因功能和疾病机制的理解。
第二,技术进步为开展本次研究带来了更多可行性。
即长读长测序技术的发展,为克服传统的测序技术的局限性带来了可能。
该类技术能够生成较长的读长,从而可以更好地解析复杂重复区域,进而能够实现从端粒到端粒的完整基因组组装。
要想研究上述问题,揭示小鼠现有参考基因组的未解析区域是必须迈出的第一步。
同时,如前所述他们注意到以三代测序技术为代表的多项基因组测序技术,可以为本次研究提供技术保障。
而由于二倍体样本存在母源遗传物质和父源遗传物质的杂合性,这可能会给基因组组装带来困难,因此课题组选择小鼠单倍体胚胎干细胞进行测序。
通过使用 BioNano 光学图谱技术、三维基因组技术(Hi-C,Chromosome conformation capture)、PacBio 公司的 DNA 测序技术 HiFi(High-Fidelity Sequencing)以及 Oxford Nanopore 公司的超长测序技术、下一代测序技术(NGS,Next Generation Sequencing)等技术,该团队获得了一些数据,最终实现了端粒到端粒的基因组组装,进而获得了迄今为止最完整的小鼠参考基因组。
日前,相关论文以《完整的小鼠基因组端粒到端粒序列》(The complete telomere-to-telomere sequence of a mouse genome)为题发在 Science[1]。
西湖实验室助理研究员刘俊丽博士是第一作者,西湖实验室助理研究员李麒麟博士是共同一作,俞晓春担任通讯作者。
图 | 相关论文(来源:Science)
为探索复杂基因组提供新工具
审稿人表示,该团队展示了小鼠基因组的端粒到端粒组装,这一进展在小鼠基因组学中具有重要意义,对于此前的参考基因组来说,它们的着丝粒周围和亚端粒区域存在明显的不完整性。
之前针对人类基因组端粒到端粒组装的研究表明,通过这种高精度的组装方法可以揭示大量先前未被发现的遗传信息。
而该课题组将端粒到端粒组装技术用于小鼠基因组,这进一步拓展了基因组学研究的深度和广度,为探索复杂基因组的结构和功能提供了新工具。
值得注意的是,这也是首个基于 C57BL/6 衍生的单倍体胚胎干细胞的完整组装的小鼠基因组。该基因组与当前的小鼠参考基因组 GRCm39 均代表着最常用的实验室品系。
审稿人表示:“通过借鉴人类端粒到端粒基因组的组装方法,课题组成功创建了本次基因组,该基因组不仅质量非常高,而且也比较完整。”
俞晓春补充称:“在本项目中我们组装了核糖体 DNA 区域,并观察到其编码区域存在序列差异,这些序列差异可能导致细胞内产生具有异质性的核糖体,进而可能在 mRNA 的特异性选择和蛋白质翻译过程中发挥重要作用。”
为进一步探究上述现象,他和团队计划深入探究核糖体异质性在相关生物学过程中的关键作用,特别是解析其在特定疾病分子机制中的潜在影响。
值得注意的是,俞晓春也是圣域生物医药科技有限公司的科学创始人,该公司主要研发抗肿瘤创新药,目前该公司的 poltheta 抑制剂已经获得美国食品和药品监督局以及中国药监局的临床试验批件,未来将用于患有晚期实体瘤的患者。
参考资料:
1.Liu,J. Li,Q. et al. The complete telomere-to-telomere sequence of a mouse genome. Science 6,386,6726,1141-1146(2024). https://doi.org/10.1126/science.adq8191
运营/排版:何晨龙
01/
02/
03/
04/
05/