近几年人工智能迅猛发展,尤其是大语言模型(如ChatGPT)和生成式模型在文本、图像、蛋白质预测等领域展现出强大能力,引发了广泛关于AI是否会主导未来科学发现的讨论。然而,Hugging Face 联合创始人 Thomas Wolf 等业内专家指出,当前主流AI模型在实现真正的、诺贝尔级别的科学突破方面很难独立完成。要理解这一结论,需要从模型的目标、训练数据、推理机制以及科学发现本身的特殊要求出发,全面审视AI现有能力与局限,并思考如何构建更有希望推动科学进展的系统与协作方式。\n\n首先要明确的是,当前大多数语言模型的核心训练目标并非发现新知识,而是基于大规模文本数据预测"下一个最可能的词"或"最可能的令牌"。这一目标驱动了模型在语言生成、文本补全、翻译等任务上的成功,但它天生偏向于复制训练数据中常见的模式与共识。当一个问题在训练语料中已有大量讨论时,模型擅长总结与整合现有观点;当一个问题需要提出与主流认知明显不一致且概率极低的全新理论时,模型的倾向是趋向训练语料中更高概率的答案,而不是选择低概率但可能正确的反直觉假设。
科学史上许多重大突破往往恰恰来自于反直觉的思考:例如哥白尼提出日心说,挑战当时主流地心观念;这些发现并非"最可能下一个词",而是远离主流分布的创见。\n\n另一个核心问题是所谓的"趋同性"或"迎合性"。许多对话式AI设计时引入了对齐(alignment)策略,使模型在与人类互动时更容易接受、礼貌并与用户观点保持一致。这在产品层面有益于用户体验,但在科学探索中却可能抑制必要的反驳与怀疑精神。真正推动科学进步的往往是质疑现有假设、提出苛刻反例并冒险验证非主流假设的态度。如果模型倾向于"赞同并扩展用户的观点",它可能不会主动提出具有颠覆性潜力的争议性假设,或者即便提出也缺乏必要的严谨性与可测试性。
\n\n此外,科学发现不仅仅依赖于概念上的构想,还依赖于可重复的实验验证、复杂的因果推理与长期的实验迭代。当前大语言模型在符号处理、因果推理与抽象变量之间的机制理解方面仍有限。语言模型可以在文本层面做出合乎逻辑的推论,但在真正理解物理或生物系统的因果结构、设计可操作的实验来验证一个假设、并从实验噪声和失败中提取可靠信号方面还远不能替代人类科学家。比如在生物医药领域,提出一个药物靶点只是第一步,后续需要分子设计、体外实验、动物实验,最终进入临床试验,每一步都包含复杂的变量与不可预见的副作用。现有AI在模拟这些多尺度生物过程的因果链条方面存在显著缺口。\n\n数据质量与样本偏差也是限制AI产生真正新发现的重要因素。
大模型依赖于海量公开文本、论文与网络内容进行训练,而这些数据集中存在的偏见、重复、错误以及发表偏倚(即正结果更容易发表)会影响模型输出的方向。科学创新往往需要对"负结果"与失败进行学习,这类信息在公开文献中严重缺失。如果训练数据偏向已知的、可发表的结果,模型更容易重复已知事实而非发掘被忽略的异常或反常信号。有效的科学发现还依赖于高质量、原始的实验数据和观测,单纯依赖文本语料难以提供这种深度与多模态信息。\n\n可验证性问题也是一个关键障碍。科学发现必须能够被社区验证和重复,才能成为可靠知识。
AI生成的"新理论"如果无法被清晰地形式化为可测试的假设、并通过实验/观测检验,就难以进入科学共同体的主流。当前一些生成式模型会出现"幻觉"问题,即输出具备表面合理性但事实不准确或不可验证的内容。在科学语境下,这种幻觉可能误导实验资源的配置,浪费时间与资金,甚至在敏感领域带来严重风险。要将AI提出的想法转化为可信的科学贡献,需要可解释性和可审计性的重大改进,以便科学家理解模型为何提出某一假设,并设计合理的验证路径。\n\n不过,承认当前AI模型在独立实现重大科学突破方面存在局限,并不意味着AI对科学的价值被夸大或无关紧要。事实相反,许多狭义或结构化任务中AI已经显示出助推科学效率的巨大潜力。
DeepMind 的 AlphaFold 是典型例子:凭借对蛋白质结构数据的系统学习,AlphaFold 在蛋白质折叠预测上取得了突破性进展,为生物学研究和药物发现提供了新的工具。这类成功之所以可能,是因为问题具有明确的数学和物理结构,并且存在大量高质量标签数据供模型学习。AlphaFold 并没有"替代"假设生成与科学判断,而是在人类科学家与实验室之间搭建了一个高效的桥梁,显著减少了重复性工作并加速了下游验证过程。\n\n要让AI在更广泛领域真正助力甚至催生重大科学突破,需要在模型架构、训练目标、数据收集与实验闭环等方面做出系统性改变。首先,训练目标需要超越简单的下一个令牌预测,引入能够奖励原创性、可测试性与因果发现的目标。比如可以通过增强学习设定发现奖励,将模型在提出可被实验验证、且实验结果能够区分其假设与基线假设方面的能力作为评价标准。
其次,训练数据必须更多包含原始实验数据、负结果、未发表研究以及跨学科的多模态信息(文本、图像、实验序列、传感器数据等),以减少发表偏倚并提供更丰富的学习信号。再次,模型应具备更强的因果推理能力与符号推理模块,通过混合神经网络与符号AI的方法改善其在抽象理论构建与数学演绎上的表现。\n\n实验自动化与闭环系统也是关键。一套能提出假设、设计实验、执行自动化实验并将结果反馈回模型的闭环系统,比单纯的语言模型更有希望实现发现自动化。例如将生成式模型与实验机器人、液体处理自动化平台、合成生物学工具结合,可以在受控环境中快速测试大量候选假设,从而更快地筛选出具有突破潜力的方向。这样的系统不仅能加速验证,还能为模型提供宝贵的训练信号,实现真正的"主动学习"。
不过要做到这一点,需要大量投资、跨学科合作与严格的安全监管,尤其是在涉及病原体或有潜在生物安全风险的实验场景中。\n\n模型可解释性与可审计性也需并重。科学实践强调透明、可重复与可审查。若AI提出的假设难以解释其推理路径,科学社区很难接受。因此发展可解释的模型结构、记录模型决策过程、并发展标准化的AI科学输出评估方法,对于让AI提案被科学界接受至关重要。评估标准应关注假设的可测试性、可重复性、理论清晰度与与现有证据的兼容性,而非仅仅语言上的新颖性或表面吸引力。
\n\n人机协作仍将是最现实的路径。当前更合理的预期不是AI完全替代人类科学家去实现突破,而是AI成为研究者的"联合发现者"或"超级助理"。在这一模式下,人类科学家保留对目标设定、实验设计与伦理判断的主导权,而AI负责高速处理大量文献、生成可测试假设、优化实验参数组合、执行初步数据分析与模拟,从而将人类从繁琐重复工作中解放出来,使其能将精力集中于更高层次的创造性思考与价值判断。这样的协作可以显著提高科研效率,缩短发现周期,但仍依赖人类对结果的最终审查与验证。\n\n在政策与科研资助方面,需要鼓励对跨学科、跨团队的长期投资,支持建立可共享的实验数据集、失败数据库与自动化实验平台,同时制定严格的伦理与安全规范。科研资助机构可以设立专门奖项或项目,资助那些尝试将生成式模型与实验自动化闭环结合、并致力于提高模型可解释性与可验证性的研究。
学术界与工业界应共同制定关于AI提出的科学主张如何公开化、如何记录与验证的行业标准,防止未经验证的声称扰乱科学交流与资源分配。\n\n最后需要强调的是,对AI能力的现实评估既要警惕过度乐观的炒作,也要避免彻底否定其潜在贡献。当前AI模型在生成文本与整合已有知识方面提供了前所未有的工具,使得研究者能更快速地检索、归纳与模拟理论假设;与此同时,真正的原创性发现通常需要反直觉思维、严谨的因果验证和长期的实验积累,这些恰恰是当前模型的薄弱环节。真正具有变革性的路径很可能不是简单地把现有大模型放在实验台前,而是重构训练目标、丰富训练数据、与实验自动化结合,并通过可解释性与验证机制将AI的建议转化为可重复的科学成果。\n\n综合来看,当下主流AI模型独立实现诺贝尔级科学突破的可能性很低,但AI作为科学研究的助力者与加速器的角色不可小觑。通过有针对性的技术改进、跨学科协作、实验闭环搭建以及负责任的治理,我们可以让AI在未来更有效地为科学发现贡献力量,同时保留人类科学家的判断力与创造力,共同推动人类知识的边界向前扩展。
。