近年来,蛋白质结构预测领域迎来了革命性的进展。AlphaFold2和ESMFold两大前沿算法的问世,大幅提升了蛋白质三维结构预测的速度和准确性,推动了蛋白质科学迈入全新的阶段。特别是在宏基因组学数据的支撑下,蛋白质结构预测不仅仅局限于已知生物体,还深度挖掘了未培养微生物中的丰富蛋白质结构资源。AlphaFold Protein Structure Database现已收录超过两亿个蛋白质结构模型,而ESM Metagenomic Atlas则囊括超过六亿条来自环境微生物的预测结构。在此背景下,科学家们将这两大数据库合并,形成了涵盖八亿多蛋白质结构的大型数据集——AFESM,并应用先进的聚类方法对其进行系统分类和分析,探索蛋白质结构宇宙的广阔边界和潜在规律。分析中采用了两步聚类策略,首先基于蛋白质序列的相似性进行粗筛,接着利用结构比对工具细化分组,从而将数据集划分为超过五百万个非单例的结构簇。
这些结构簇不仅代表了蛋白质的多样性,更反映了其进化祖先的关联性和在自然界不同生境中的分布特征。研究重点挖掘了蛋白质结构域的组合变化,尤其关注多结构域蛋白的架构创新。尽管ESMFold初步预测未发现全新折叠类型,随后利用AlphaFold2重新预测230万蛋白质亦仅鉴定出单一新折叠,表明目前蛋白质折叠空间接近饱和,这也揭示出预测技术本身的局限性。然而,研究并未止步于结构域折叠的新发现,而是揭露了数万种前所未见的多结构域组合。超过一万一千种独特的多结构域拓扑结构首次被识别,充分体现了宏基因组数据在拓展蛋白质结构知识边界中的关键作用。多结构域蛋白作为其功能多样性的重要载体,其结构创新为理解生命复杂性和适应性提供了新的视角。
除了结构组学的进展外,基于这些庞大的蛋白质结构数据,研究人员结合生物地理信息进行了环境生物群落的探索。不同生态系统中的蛋白质结构分布反映了生物多样性与生态功能的复杂交织,助力科学界更好地解码自然环境下蛋白质的演化动态。此外,AFESM项目通过开放的网络平台(afesm.foldseek.com)向全球研究者共享数据和分析工具,促进跨学科合作和资源整合,推动生物信息学、结构生物学、生态学及生物技术的深度融合。此举不仅加速了蛋白质结构领域的科学发现,也为新药开发、合成生物学以及环境生物技术等应用领域提供了数据支持。虽然当前的蛋白质折叠空间趋于饱和,但结构域组合的丰富性和创新性仍为未来探索提供了广阔空间。结合机器学习与实验验证的多维度研究策略,或将解锁蛋白质结构的新功能及其潜在应用价值。
未来,随着计算能力和预测算法的持续优化,蛋白质结构数据库内容将更加全面和精细,为揭示生命的本质和推动生命科学进步贡献力量。总之,宏基因组规模的蛋白质结构预测与分析,正在重塑我们对蛋白质宇宙的认知视野,不仅反映了技术革新的飞跃,也展示了生物多样性的浩瀚海洋。通过持续挖掘和整合,这一领域必将引领蛋白质科学迈向新的高峰。