随着人工智能技术的快速发展,大规模语言模型(Foundation Models)在自然语言处理、图像识别等领域取得了突破性进展。近年来,科学家们将这一理念延伸至生物领域,特别是DNA序列的建模与预测,催生了DNA基础模型这一前沿技术。DNA基础模型不仅能够大规模生成DNA序列,掌握DNA"语法",还可以在极少量额外数据支持下,精准预测基因组复杂特性,为基因组学研究注入强劲动力。人类基因组中仅约2%的区域编码蛋白质,其余98%的非编码区内容尚未被充分理解。蛋白质结构模型如AlphaFold等虽已在蛋白质研究中大放异彩,但DNA基础模型填补了对庞大非编码区域理解的空白,使我们能够深度挖掘基因组中的潜在信息。与蛋白质数据相比,DNA序列数据量巨大,单日新增基因组测序数据数量惊人,且随着测序成本持续下降,数据规模将进一步加速扩张。
充足且多样化的数据为DNA基础模型提供了坚实基础,使模型能够学习隐含的复杂生物学规律。当前DNA基础模型领域由多个领先团队积极贡献,其中Arc Institute的Evo2和DeepMind的AlphaGenome代表了技术前沿。Evo2采用了带有卷积和注意力层融合的StrippedHyena2架构,具备40亿参数,能处理百万核苷酸的上下文信息,训练数据覆盖全生命域,将生成与特定表观遗传性质相关的基因序列作为目标。AlphaGenome采用4500万参数的编码器 - 解码器架构,并融合RNA测序、DNA序列及基因组三维结构联系等多模态数据,具备跨物种(人类与小鼠)预测多种基因功能图谱的能力。除此之外,还有如JanusDNA、Caduceus、NucleotideTransformer、GENErator、DNA-BERT2和LucaOne等多个模型,各自采用不同的编码方法、不同的训练规模及策略,形成了多样化的研究生态。DNA序列的生成技术也呈多元发展态势,传统的自回归采样方法(类似GPT的方式)是目前主流,如Evo2即采用此法,另外扩散采样与Dirichlet流匹配方法(DFM)也逐步得到关注。
DFM方法采用平滑扩散过程,能够指导全序列的约束优化,适合在约束条件下的精准序列设计,未来被认为是实现高效序列设计的重要方向。DNA基础模型面临的技术挑战主要体现在数据质量、模型结构和优化环境等多个方面。高质量的训练数据是提高模型泛化能力和性能的关键,因此如何获取更加丰富、准确、且涵盖多模态信息的数据成为焦点。例如最近发布的Variant-EFFECTS测定技术,可以为每一段调控DNA提供精细的基因表达影响数据,为模型赋能。模型设计方面,如何在保持局部短程序列模式的同时捕获百万碱基的长距离依赖,是当前算法研究的难点。扩展上下文长度至数千万碱基有望捕捉全染色体尺度的作用,但面临计算资源和内存消耗的巨大压力。
基于DNA双链互补的生物学特性,实现逆互补对称性(reverse complement equivariance)以及序列双向学习策略,也是促进模型提升的生物先验方向之一。此外,如何将模型的内部表示映射至具体生物过程,提高可解释性,辅助科研决策,也是探索的重点。优化环境方面,DNA基础模型可结合强化学习,实现以目标功能为导向的序列生成,正在构建更为复杂的生物学仿真和设计生态。应用层面,DNA基础模型正逐步展露显著价值。设计组织特异性的启动子序列是其中之一。基因治疗技术如AAV载体系统,存在强烈的组织特异性表达需求,设计出有效且高效的启动子对于疗法的安全性和效率至关重要。
DNA基础模型能够整合细胞特异的染色质可及性、启动子标记和转录起始信息,生成符合特定组织需求的调控元素,促进CAR-T疗法、RNA干扰药物等的靶向表达。此外,基础模型支持通过体外或计算机模拟的突变扫描,挖掘潜在致病基因靶点。通过预测变异对染色质状态与基因表达的影响,能更早识别疾病相关突变,为罕见病诊断和新靶标药物开发指明方向。例如对Wilson病中某一错义变异对剪接造成影响的发现,为精准治疗提供了新思路。另一方面,DNA基础模型对变异不确定意义(Variants of Uncertain Significance,VUS)的解析,有望解决临床上的一大难题。多数靶向治疗需依赖判定致病突变方可入组,而大量基因检测结果包含VUS,限制了患者享受精准治疗的机会。
DNA模型可基于多模态信息辅助判定这些VUS的致病性,为临床决策提供更科学依据,从而扩大适用患者范围,提高医疗效果,同时带来可观的经济价值。生物安全领域亦日益受到DNA基础模型的关注。随着合成生物学发展,恶意合成致病性DNA序列的风险逐步提升,传统规则基序检测方式存在漏检隐患。利用经过专业调优的DNA基础模型,可以更有效地识别潜在威胁序列,加强生物安全管理和合规检测,为政策制定和产业监管带来技术保障。未来,随着算法进步和数据资源积累,DNA基础模型将在个性化医疗、精准药物设计、农业基因组优化以及环境生物技术等方面发挥更大作用。结合跨学科的高质量多模态数据,将是推动模型从实验走向实际应用的关键。
整体而言,DNA基础模型融合了人工智能和生命科学的前沿力量,已然在基因组学的探索和应用中开辟新天地,推动生命科学步入数字化智能化的未来新时代。 。