蛋白质折叠一直是生物物理与计算生物学领域的中心问题之一。尽管现实世界中的蛋白质具有复杂的连续构象空间,格点模型作为一种简化抽象,长期被用来理解折叠动力学、能量地形和设计原则。在格点模型中,蛋白链被限制在离散的格点上,残基间的相互作用和不可穿透性产生复杂的约束,使得即使在简化情形下寻找最低能量构象也成为一个难解的组合优化问题。把问题进一步极端化为"极小网格"情形,即将蛋白链完全填满一个没有自由空位的最小格网,其困难性显著增加,但同时也为研究致密系统中的几何与能量竞争提供了清晰的测试床。将这类问题转化为适合量子与量子启发式方法处理的形式,尤其是二次无约束二进制优化问题 QUBO,是当前跨学科研究的一个热点方向。近年来出现的工作表明,在某些规模下,经典模拟退火与量子-经典混合退火器均能高效地求解这类映射后的问题,展示了量子编码在实际计算生物学问题上的潜在价值和挑战。
格点蛋白与极小网格的物理与计算意义在于它们把折叠问题的几何约束和能量竞争放在一个最紧密的环境中考察。当网格为极小尺寸时,链上的每个位置都被占据,没有松弛自由度来缓解冲突或重新排列局部结构,这会放大碰撞排斥和相互作用能量对全局构象的影响。传统的显式链方法需要在满足链连续性和排斥约束的前提下不断探索构象空间,面对极高的约束密度时搜索成本陡增。另一方面,将问题映射到 QUBO 形式意味着用二进制变量来表示构象决策,能量函数在二进制变量之间是二次的。这一映射的核心在于如何用有限的一组二进制变量恰当地表达链的拓扑结构、相邻残基连接、不可穿透性以及残基间的配对能量,同时通过惩罚项确保物理有效性。成功的编码能够把原本的几何约束转化为代价函数中的高权重项,从而使求解器在优化过程中倾向于满足物理约束并寻找低能解。
把格点蛋白折叠问题写成 QUBO 需要若干关键步骤。首先要定义变量集合,每个变量通常对应于某种局部决策,例如某个残基是否占据某一格点、某一键的方向选择或局部折叠片段的构象类型。接着构造能量函数,其中一部分来自于残基之间的配对能量或接触能,这些能量被表达为变量之间的线性或二次项;另一部分则是惩罚项,用于强制链的连续性、避免自交以及保证占位一致性。惩罚项通常具有较大的权重,以确保物理解空间被优先满足。最后,将整个二次项矩阵和线性项组织为标准的 QUBO 矩阵,供经典或量子优化器使用。这个过程看似直接,但在实际操作中面临变量数目和二次项密度快速增长的问题,尤其是当编码细化到逐格表示时,变量数量会随网格大小和链长呈倍数增长,从而增加了求解难度和硬件嵌入负担。
将问题提交给求解器时,有多种路径可供选择。经典模拟退火是一个成熟且可靠的基线方法,通过在解空间上进行温度驱动的随机扰动来寻优,能处理相当大的 QUBO 实例并利用现代硬件实现并行加速。量子退火机,尤其是 D-Wave 的量子-经典混合退火平台,提供了一种不同的求解范式,其核心利用量子隧穿和量子涨落来跨越能量屏障,从而在某些能量景观上潜在地更快到达全局极小点。研究表明,对于链长达 48 的极小网格格点蛋白问题,经过合适 QUBO 编码后,经典模拟退火和 D-Wave 的混合退火均能稳定并快速地找到最低能解,其中在混合退火平台上的部分计算耗时极短,仅约十秒。这类结果具有重要意义,因为它们表明在受限、致密的折叠问题上,量子启发或量子辅助的方法可以与经典算法形成互补,并在现实可运行的规模上展示可行性。 尽管取得了这些成果,仍有若干挑战需要正视。
首先是可扩展性问题。随着链长或网格复杂度增加,QUBO 模型的变量数和耦合数将呈非线性增长。当前量子硬件的物理 qubit 数量和连通性限制了直接嵌入大型 QUBO 的能力,这通常需要使用图嵌入技术将逻辑变量映射到物理 qubit 上,进而引入额外的链化惩罚和资源开销。混合求解策略可以缓解这一问题,但如何高效地划分子问题、减少映射开销和保证全局最优收敛仍然是开放问题。其次是噪声与误差容忍度问题。量子设备和某些混合算法在运行时会受到噪声、参数漂移和控制精度限制的影响,需要设计稳健的编码和冗余机制来保证所得解的物理合理性。
第三是模型本身的表述效率。过多的惩罚项或不合理的变量选择会使可行解空间稀释,导致求解器花费大量时间在不可行解上,而非直接搜索低能可行结构。 线性与二次规划方法在处理类似问题时表现不一。对于可以被视为格点气体的问题,即不涉及链约束或链约束相对宽松的场景,线性或二次规划技术往往能高效求解,因为这些方法能够利用凸优化的性质快速收敛到最优解。然而,一旦引入严格的链约束和不可穿透性条件,问题的可行域变为高度非凸和组合性的集合,线性与二次规划工具的优势就大打折扣。它们在满足链约束方面缺乏天然的表达能力,常常需要复杂的整数变换或大规模的离散化,从而使得求解过程代价昂贵。
因此,将链式格点蛋白问题转化为 QUBO 后,基于黑箱的整数线性或二次规划方法未必总是最优选择,而混合优化框架和专门为二进制变量设计的启发式算法更具应用前景。 为了推动更大尺度问题的求解,研究者们在编码策略和算法设计上提出了若干改进方向。变量压缩是一项关键技术,通过识别构象空间中的对称性和冗余,可以显著减少需要表示的二进制变量。例如,把局部可互换的片段或重复的构象图案视为单一的抽象单元,或采用块状编码代替逐格编码。另一条可行路径是利用层次化分解,把大规模问题分解为多个相互关联的子问题,先在较粗糙的尺度上寻找候选解,再逐步精化到更高分辨率。混合算法的设计也在不断发展,将量子退火器用于全局探索,把经典局部搜索器用于细化和修正,可以发挥两类求解器的互补优势。
最后,基于机器学习的引导策略正在成为热门,例如用深度学习模型预测高概率的接触模式或局部折叠片段,从而为 QUBO 编码提供有价值的先验,显著缩小搜索空间。 从应用角度看,极小网格格点蛋白问题尽管是高度理想化的模型,但它对于理解在高度致密环境中蛋白行为具有启示意义。在细胞胞内拥挤环境、膜蛋白或抗体结合位点等实际生物情境中,空间受限和高局部密度是普遍现象。通过在受限模型中研究能量竞争和构象可行性,研究者可以获得关于序列-结构关系和致密折叠驱动因素的洞见。此外,方法论上的进步也有助于其他离散优化任务,例如材料设计中的晶格排列优化、纳米自组装结构的构象设计以及某些类型的调度和分配问题。在这些领域中,类似的 QUBO 映射和量子或混合求解思路均可能带来性能提升。
总结当前态势,量子编码为探索格点蛋白在极小网格等高约束条件下的折叠问题提供了新的技术路径。通过将物理约束和配对能量嵌入到 QUBO 框架中,研究者可以利用成熟的经典模拟退火和新兴的量子或混合退火平台来求解具有高难度的组合优化问题。尽管在可扩展性、硬件嵌入与鲁棒性方面存在挑战,已有的结果证明在可管理的规模上这些方法是可行且高效的。未来的工作应聚焦于更紧凑高效的编码策略、智能化的分解和混合求解框架,以及与机器学习方法的深度结合,以便将这类方法扩展到更大、更接近生物现实的问题规模。随着量子硬件能力的逐步增强和经典算法的持续演进,量子编码在计算蛋白质折叠和相关离散优化问题上的应用前景值得期待。 。