位于瑞士洛桑的EPFL(洛桑联邦理工学院)Bitbol实验室,将计算生物学与理论生物物理学紧密结合,以定量和可验证的方式研究生物进化和序列功能关系。实验室的研究核心围绕如何从海量的蛋白质序列数据中提取功能信息,理解进化历史对序列模式的影响,并构建能够指导实验与工程应用的物理学与统计学模型。通过发展物理驱动的模型、机器学习方法与数值模拟,Bitbol团队在解释蛋白质相互作用、预测配对关系以及解析群体进化动力学方面取得了显著进展。 在分子层面,蛋白质的氨基酸序列决定着其结构与功能,而进化过程通过随机突变与自然选择共同塑造了序列空间。Bitbol实验室关注的关键问题是如何在序列对齐(multiple sequence alignments, MSA)中识别出功能相关的位点相关性,以及区分功能约束与系统发育(phylogeny)带来的共变信号。实验室的研究表明,序列之间的相关性既承载着功能性约束的信息,也包含了共同祖先与谱系演化的痕迹。
正确理解这两类信息的来源和相对贡献,对于从序列预测结构、相互作用伙伴以及功能位点至关重要。 近年蛋白质语言模型(protein language models)的兴起,为解析序列-功能映射带来了新的数据驱动工具。Bitbol团队探索了在MSA上训练的语言模型如何捕捉序列间的系统发育关系以及功能性特征。他们的研究发现,这类模型不仅能生成与自然序列相似的变体,还能够学习到隐含的进化拓扑与共变模式,为进一步的配对预测与功能注释提供了可能性。通过对模型生成能力与推断能力的系统评估,实验室在理解模型如何代表生物学信息方面贡献了重要见解。 另一个研究方向聚焦于蛋白质相互作用的预测。
在细胞内,多蛋白复合体的正确配对对于生物功能至关重要。Bitbol实验室发展了基于掩码语言建模(masked language modeling)的配对预测方法,能够在没有显式结构信息的情况下,从序列中推断出潜在的相互作用伙伴。这类方法对理解共进化信号的解读与利用有直接帮助,并可用于识别跨物种或同源家族中的功能保守配对,为实验设计提供优先级指引。 在宏观层面,实验室也致力于构建可解释的定量进化模型,应用于微生物群体和抗生素耐药性研究。抗生素耐药性问题是全球公共卫生的重大挑战,理解耐药性如何在群体中产生、传播并被选择,是制定干预策略的关键。Bitbol团队通过结合生物物理学模型与群体遗传学框架,模拟了在不同环境压力下微生物种群的进化轨迹,并利用统计推断方法从实验数据中反推选择强度与适应路径。
这些模型不仅可以解释实验观察到的耐药性进化现象,还能用于预测可能的进化趋势,从而为临床与公共卫生决策提供定量依据。 方法学上,Bitbol实验室偏好将分析性的理论推导与高效的数值模拟相结合。理论推导帮助揭示模型的普适性质与解析界限,而数值模拟则用于处理高维非线性系统中难以解析的行为。同时,实验室积极采用与发展机器学习方法,尤其是那些结合物理先验或可解释性约束的混合方法,以便在保持预测能力的同时增强模型的生物学可理解性。这种跨学科的方法论使得他们能够在面对复杂的序列数据时,既能提出合理的生物学假设,又能通过数据验证这些假设。 实验室的研究高度重视与实验团队的合作。
理论与计算模型只有在与真实数据不断交互的过程中,才能得到验证、修正并最终用于指导实验设计。Bitbol Lab喜欢与实验室合作伙伴一同设计测序实验、功能测定或进化实验,通过闭环的理论-实验流程快速迭代模型与假设。这样的协作既提高了研究的生物学相关性,也加速了模型在实际问题中的应用,例如在蛋白质工程、抗菌策略优化与生物系统设计等领域。 公开发表的研究工作覆盖了多个核心主题,包括蛋白质语言模型在MSA上的表现、模型生成能力的评估、用掩码语言模型配对相互作用蛋白序列、以及系统发育对功能信号推断的影响等。这些成果不仅丰富了序列分析与进化建模的理论基础,也推动了相关方法在实际问题中的应用。研究论文中对模型的严格基准测试、对系统发育偏差的定量评估以及对生成模型能力的讨论,为学术界提供了可复现的范例和方法论指引。
在教育与人才培养方面,Bitbol实验室也承担着培养下一代跨学科研究者的重要角色。学生与博士后在这里学习如何把物理学的定量思维应用到生物问题上,学习如何设计可解释的模型以及如何进行严格的数据分析。实验室的环境鼓励开放科学、代码与数据的共享,以及跨学科交流,这些都是推动领域长期进步的重要因素。 面向未来,Bitbol实验室关注若干挑战性方向。其一是进一步分辨功能约束与谱系信号的混合影响,以便更准确地从自然序列中推断功能相关的位点与相互作用。其二是提升蛋白质语言模型的可解释性,使得模型不仅能给出预测,还能提供生物学上可理解的机制说明。
其三是在群体与生态尺度上更好地建模多种选择压力交织下的进化动力学,尤其是在临床和环境场景中耐药性和适应性的演化。 这些研究方向对生物工程、药物发现和公共卫生具有直接且深远的影响。在蛋白质工程中,更精确的序列-功能映射能够指导设计有特定活性或稳定性的蛋白质变体;在药物发现中,理解配对与相互作用网络可以帮助识别新靶点并预测药物的系统级影响;在公共卫生领域,对抗生素耐药性演化的量化理解可以支持更合理的用药策略与干预措施。 总结来说,EPFL的Bitbol实验室通过将物理学的洞见、统计推断与现代机器学习工具相结合,正在推动我们对蛋白质序列-功能关系以及进化过程的理解向前迈进。实验室的跨尺度研究既具有理论深度,也紧密联系实际问题,展现出在基础科学与应用科学之间架设桥梁的能力。对于关注蛋白质科学、进化生物学或抗生素耐药性研究的学者与从业者而言,Bitbol实验室的研究成果与方法论提供了有价值的资源与启发。
。