RNA结构预测长期以来被视为生物信息学与计算生物学中的难题。近年来深度学习与大型模型在蛋白质结构预测上取得突破,随之引发的一个常见问询是:RNA问题是不是也快要被"解决"了?答案并不简单。RNA的生物物理特性、实验数据稀缺性和结构功能关系的特殊性,决定了RNA结构预测既具有理论挑战,也有现实价值的权衡。本文从科学原理、技术瓶颈、应用场景和未来前景四个维度,系统梳理为何RNA结构预测如此难,以及它到底有多重要。 从分子本身讲,RNA比蛋白质更"柔软"。每个核苷酸拥有更多的可旋转键角,且缺乏像氨基酸那样体积感强烈的侧链,因而主链容易发生大幅度构象改变。
RNA并非无序,而是往往存在多个能量接近的构象态,在生理条件下频繁翻转。这种高度的构象异质性使得传统的结构解析方法难以发挥作用。X射线晶体学要求样品在晶体中保持统一而有序的构象,RNA的柔性使其难以结晶;冷冻电镜在解析小且高度异质的RNA分子时也面临信噪比和重构困难;核磁共振在核酸长度超过几十个核苷酸时,信号重叠与解析复杂度迅速增加。 因此,可用于训练机器学习模型的高质量三维RNA结构数据非常有限。与蛋白质数十万计的实验结构相比,公开数据库中可用的RNA三维结构少得多,且常常集中在少数家族内。这种数据分布偏差使得基于大规模监督学习的模型难以泛化到结构多样性高的RNA序列。
即便AlphaFold系列的最新扩展尝试兼顾核酸结构预测,其在RNA任务上的表现也呈现出明显的依赖训练集相似性的特征:当目标结构与训练集中已知结构相似时,预测结果较好;遇到全新折叠或高度独特的构象,其准确性显著下降。 在结构层级上,RNA的二级结构与三级结构在实用价值上有显著差别。二级结构指的是碱基对配对模式,如瓦特森-克里克配对和唾手可得的茎环结构。三级结构涉及碱基之间的非经典配对、堆叠作用以及远程序列相互作用,决定了复杂的三维口袋与催化中心。对临床开发与生物技术公司而言,二级结构通常才是更"有用"的信息。例如外源mRNA疫苗优化关注的是编码区与5′/3′非翻译区的局部二级结构是否会阻碍翻译起始或引发免疫反应;反义寡核苷酸和siRNA的设计重点在于目标位点的可及性,即能否与目标序列形成稳定的碱基配对,而这主要由二级结构决定。
相比之下,真正依赖精确三级结构的RNA疗法相对有限。适配体和核酶是典型需要高精度三维构象以形成特异性结合口袋或催化位点的分子,但到目前为止获批的药物案例并不多。核糖体RNA却是一个特殊而重要的例外。作为细胞内的催化核心,rRNA的三级构象决定了肽转移酶活性位点,许多抗生素就是通过与rRNA的三维口袋结合来阻断蛋白质合成。尽管rRNA的结构信息较为丰富,但对新型抗生素的发现仍然面临抗性演化与经济回报不足的双重挑战。 数据限制之外,RNA生物化学修饰进一步复杂化了结构预测问题。
临床用mRNA通常会将尿苷替换为修饰核苷以降低免疫原性和提高稳定性,最常见的修饰之一是1-甲基假尿苷(m1Ψ)。这种化学修饰会改变碱基配对稳定性和局部堆叠能量,从而影响二级乃至三级折叠。现有的公开结构数据库几乎没有包含大量带修饰核苷的高分辨率三维结构,因此基于天然核苷训练的预测模型在处理修饰核苷时往往失准,必须依赖实验验证或针对性数据增强。 在技术进展方面,机器学习尤其是深度学习仍然带来显著改进机会。近年来几项工作显示,端到端学习框架、图神经网络和能量逼近模型在特定RNA家族或在有限长度分子上可以得到可用的三级预测。AlphaFold3等跨分子类型的模型带来的启发在于融合物理先验、序列对齐信息和多模态输入(如化学修饰标签、蛋白质复合物信息)可以提升稳定性和物理合理性。
然而RNA的共进化信号通常比蛋白弱很多,多个核酸功能单元的协同进化难以用传统MSA(多序列比对)策略高效捕捉,这就需要新的表示学习和数据合成方法来弥补实验结构的不足。 实验方法的改进也不容忽视。冷冻电镜的分辨率与图像处理算法正在进步,使得解析大型RNA复合物和RNA-蛋白质复合体成为可能。核磁共振仍然是解决小RNA和验证局部接近性的重要工具。结合低分辨率实验数据与计算结构预测的混合策略,诸如用小范围NMR约束修正模型或用化学探针(如SHAPE、DMS)获得二级结构约束,再将这些信息输入ML模型,已经在实践中证明能显著提升预测质量。 从应用角度看,问题的"重要性"取决于具体的研发目标。
对于绝大多数依赖RNA的现代药物开发场景,二级结构的准确预测就足够解决关键问题。外源mRNA疫苗和治疗性mRNA的优化、ASO与siRNA靶点选择、RNA-蛋白相互作用位点的局部可及性评估,均更仰赖二级结构工具。相比之下,若目标是设计全新的适配体或工程核酶,或是寻找能深入结合病毒或癌症相关rRNA/mRNA的三维口袋以便小分子干预,那么高精度三级结构预测便有明确且直接的价值。 产业视角上,RNA结构预测的进步既会催生实际产品,也会改变研发流程。对制药公司与初创企业而言,短期内提升二级结构预测准确性能带来最大的成本与时间收益,例如减少高通量筛选中的假阳性、提高ASO命中率、加速mRNA序列优化。长期看,若三级结构预测达到可靠的工程化水平,便可能催生高价值的适配体药物、RNA靶向小分子以及更复杂的RNA工程方案。
但需要注意的是,单纯的技术突破并不能自动转化为商业成功。抗生素领域的案例表明,科学可行性并非唯一障碍,监管、临床开发成本和商业模式同样决定了技术的市场化潜力。 在研究与投资上,有几个务实的路线值得关注。首先,关注数据策略比盲目追求更复杂模型更重要。扩大带修饰核苷的结构数据库、系统性地测量关键RNA家族的结构变体、以及公开更多RNA-小分子结合复合物,将显著提升模型泛化能力。其次,混合实验-计算工作流具有较高的边际回报。
用低成本化学探针获得二级结构约束,再结合模型预测进行迭代优化,可以以较低成本实现功能化设计目标。第三,专注于明确有临床或商业需求的细分应用,例如rRNA靶向抗生素、可替代抗体的适配体、或circRNA领域中依赖IRES机制的翻译调控,能够更快看到技术落地。 展望未来,几个趋势可能重塑RNA结构预测的格局。高通量结构测定和化学探针技术如果能进一步普及,将大幅缓解数据瓶颈。跨模态学习框架若能有效整合序列、化学修饰、二级结构约束与低分辨率实验数据,或将弥合现有模型在未知结构空间的泛化缺口。还有一个被低估的方向是功能导向的预测:不是追求绝对精确的原子级三维复刻,而是预测能否形成特定功能性结构特征(如结合口袋、金属离子结合位点、翻译启动子易位),这类预测在药物发现中往往更有直接价值。
总结来说,RNA结构预测之所以艰难,是多重因素叠加的结果:分子本身的柔性与构象异质性、实验结构数据的稀缺与偏倚、化学修饰的普遍存在以及共进化信号较弱。然而"难"并不等于"无用"。在许多关键的应用场景中,尤其是那些关注局部可及性和二级结构的方向,现有方法已经足够实用并能带来显著价值。对于需要高精度三级结构的应用,例如适配体设计与某些抗生素研发,提升预测能力仍具有重大意义,但这条路更依赖数据积累、实验与计算的协同以及跨学科创新。 对于研究人员与创业者而言,务实的策略是将精力聚焦在可直接产生价值的环节:改进二级结构预测与可及性评估、构建针对修饰核苷的验证流程、以及采用混合实验计算的工程化方法。同时也应该继续支持基础研究,包括高质量结构测定、方法学创新与跨模态数据整合。
RNA世界充满复杂性,但也蕴含巨大的机遇:在这个交叉学科迅速发展的时代,结构预测的进步无疑会成为推动RNA疗法与生物技术产业化的重要一环。 。