随着生物医药领域的飞速发展,小分子与蛋白质的结合预测成为药物发现中至关重要的一环。传统上,研究人员依赖复杂的计算模型和结构信息,试图预测小分子与靶蛋白之间的相互作用位置和亲和力。然而,受限于公开数据集的规模和质量,许多先进模型的性能提升缓慢且受限。近日,Leash团队的研究成果打破了这一瓶颈,通过大规模生成真实、高密度的结合数据,结合一个极为简约却高效的模型架构,使小分子-蛋白质结合预测达到并超越了现有的先进水平。该突破不仅重新定义了数据在生物医药AI中的核心地位,也为未来小分子药物的发现和设计指明了新的方向。 Leash团队的创新之处在于全面重构了小分子筛选流程,利用DNA编码化学库技术(DEL)和自动化蛋白质表达纯化系统,实现了前所未有的屏幕规模和数据密度。
他们设计并表达了数百种蛋白构建体,针对每一种蛋白质筛选650万以上的Leash设计分子,累计完成了两千多次独立筛选实验。如此庞大的实验数据量使得模型训练基础异常坚实,超越了传统依赖公开数据库稀疏且嘈杂数据的局限性。 在模型设计方面,Leash打造了Hermes,一种轻量级的Transformer架构。Hermes仅利用氨基酸序列和小分子SMILES结构作为输入,实现对结合可能性的预测。与那些依赖复杂结构信息和位点预测的模型不同,Hermes放弃了结构预测的复杂度,大幅提升了计算速度,同时依靠高质量数据作为根基维持卓越的预测能力。实验表明,Hermes比起Boltz-2模型在Leash独有的难度较大的验证集合上表现优异,还能以200至500倍的速度完成预测,极大地提升了药物筛选的效率。
Hermes的表现不仅仅体现在Leash内部数据上,对外公开的数据验证集Papyrus同样显示出色的泛化能力。尽管Hermes未曾在公开数据上进行直接训练,其依旧能够准确预测多样化的蛋白目标与小分子结合。这种跨数据集的强稳健性,进一步证明了Leash数据集的代表性和丰富性,也暗示了未来真实世界药物发现中模型迁移和创新应用的巨大潜力。 Leash的成功在于其扎实的实验设计和数据策略。通过互相配对不同蛋白构建体与小分子,重复测量和系统校验,有效降低了DNA编码化学库数据所普遍存在的嘈杂和误差问题。海量数据不仅带来了信息的丰富性,同时由于深入系统的质控流程,数据的准确性和可重复性得到了保证。
这种数据质量和数量的双重提升,成为Hermes模型性能的基石。 该研究也印证了机器学习领域著名的“苦涩经验”(Bitter Lesson)——依赖于海量数据和高性能计算的通用方法,最终胜过那些过分依赖架构微调的复杂模型。Leash的实践表明,对于小分子-蛋白质结合预测这一复杂的生命科学问题,前沿的破解路径并非在于构建更深更复杂的神经网络,而是要投入资源生产规模宏大且高质量的真实测量数据。 未来展望方面,Hermes的轻量且高效特性,为药物发现引入了全新的可能性。它可以作为初筛工具快速过滤数以百万计的小分子-蛋白质对,筛选出高潜力候选化合物后,再交由计算强度更大的结构基模型进行详尽分析和优化。这样的分层筛选策略不仅提高了计算资源利用率,也加速了从筛选到临床候选药物的筛选进程。
此外,Leash团队也提出将来有望借助这种规模化高质量数据驱动的模型基础框架,去针对更复杂的生物系统进行少量样本的快速微调。比如通过few-shot学习推广到毒性预测、药代动力学(ADMET)等更高层次的药物性质预测中。这种跨任务的转移学习和泛化能力将极大促进精准医疗发展,为个性化药物设计提供数据和算法的强力支撑。 总体来说,Leash的研究证明了在生物医药AI领域,优质且规模巨大的结合数据是实现突破的关键驱动力。舍弃单纯依赖细致架构调整的思路,转而通过大规模、高通量的实验获取可靠数据,再用简洁高效的模型充分利用这些数据,将成为未来药物发现和设计的必由之路。这种数据驱动范式不仅能提升预测准确率,还能显著降低运算成本,加快新药研发周期。
对于研发人员、医药企业和科研机构而言,借鉴Leash经验,投资高密度数据生成平台、精细实验流程和可靠质控体系,将是抢占AI+药物研发红利的先决条件。未来的竞争格局,将更多依赖数据质量和量级而非仅仅模型创新。 凭借对小分子-蛋白质生物物理结合的全面理解,结合人工智能的进步,小分子药物设计正迎来更加高效、精准的新时代。Leash团队的实践不仅是对当前技术壁垒的突破,更是对未来跨领域协同创新的积极探索。展望未来,数据量的持续攀升和计算算法的不断完善,将助力人类攻克更多生命科学难题,推动药物研发走向个性化和智能化的全新阶段。