近年来,人工智能特别是大语言模型(LLMs)的崛起,正在深刻改变多个学科领域,包括极富挑战性的化学科学。大语言模型依托海量文本数据的训练,展现出了对复杂语言任务的卓越处理能力,甚至在专业考试中取得了令人瞩目的成绩。相比之下,化学专家凭借多年的学习和实践积累了深厚的专业知识和丰富的经验。那么,现代大语言模型在化学知识掌握和推理能力方面能否超越甚至替代人类专家?这成为当前科学界和产业界的热门话题。为探讨这一问题,德国内外多位顶尖科学家合作创建了名为ChemBench的自动化评测框架,通过近2800个涵盖本科及研究生课程多样话题的问题,系统测评了多款领先开源及闭源大语言模型,并与化学专家进行直接对比。 在评测结果中,部分顶尖模型在整体表现上远超参与测评的化学专家,他们能够正确回答大多数问题,显示出极强的知识记忆和基本推理能力。
然而,模型在处理部分基础题目时仍显薄弱,尤其是在严谨的化学推理和结构分析方面存在不足。例如,模型难以准确评估分子结构中对称性对核磁共振信号数量的影响,这类题目不仅考查对化学反应的理解,还涉及分子拓扑的推演,人类专家则普遍表现更优。此外,模型在某些安全性和毒性相关问题上表现落后,甚至在自我置信度判断中出现严重偏差,错误答案往往伴随着过高的置信度,这给实际应用带来了潜在风险。 值得关注的是,测评显示模型表现与其规模呈正相关,即参数越多,回答问题的准确率往往更高。这一趋势与计算机视觉等领域研究类似,表明进一步扩展模型规模或结合更专业化的化学数据库训练,可能提升模型在高难度化学推理上的表现。当前大多数模型的训练数据主要来自公开文献和通用数据库,缺乏对某些专业数据库如PubChem和Gestis的充分利用,导致对某些专门知识掌握不足。
此外,ChemBench框架不局限于选择题,还包括大量开放式问题以及体现化学直觉和偏好判断的任务。令人意外的是,尽管大语言模型能够迅速提供合理答案,但在模拟化学家的偏好选择方面表现接近随机水平,表明当前模型尚难以捕捉人类专家在经验和直觉驱动决策中的细微差异。研究者们认为,提高模型对人类偏好和兴趣的理解能力,将大幅推动其在药物设计及材料科学中的应用前景。 大语言模型在自然语言处理领域的快速进步,促使化学教育模式也出现转变的呼声。传统的死记硬背和机械计算技能,正越来越被机器轻松取代,因此未来化学教学将更加重视培养学生的批判性思维和复杂推理能力。与此同时,模型虽表现优异,但也暴露出部分知识推理断层,提示人类专家仍不可替代,特别是在新颖问题解决和安全谨慎判断上。
此外,模型的过度自信和错误信息传播,要求使用者能够具备一定的专业素养,理性对待和验证AI给出的答案,避免潜在的误导。 针对模型评估的不足,ChemBench提供了包括问题主题、所需技能(如计算、知识、推理和直觉)及难度等级等多维度标注,帮助更细粒度地分析模型性能。该框架还支持对模型不同输出模式的兼容,如SMILES分子编码的特殊标注,使评估更贴合科学场景实际需求。值得一提的是,ChemBench设计了一个精简子集ChemBench-Mini,便于研究人员高效、经济地进行快速测试,助力模型持续改进。 从应用角度看,融合外部工具(诸如文献检索、代码执行器等)的辅助手段,增强了大语言模型的化学任务能力。例如PaperQA2这样的系统,利用文献检索结合生成能力,在专业问答领域表现尤为突出,体现了未来化学copilot系统的发展方向。
然而,现有模型技术仍受限于获取外部数据库和安全过滤策略,部分涉及危险化学品的问题会被模型拒绝回答,限制了其完整能力的发挥。 可以预见,随着模型架构优化、规模扩展和更丰富语料引入,未来大语言模型在化学领域的推理和知识储备将持续提升,有望承担更多科研辅助任务,例如自动化设计实验、数据分析及创新假设生成。同时,基于模型的化学知识图谱构建和人机协同系统,将极大推动科研效率和发现速度。为此,建立完善的开放评测平台、促进跨界合作和推动模型数据透明、可复现,成为科研界的重要使命。 总结来看,大语言模型已展现出超越一般化学专家的潜能,尤其在大量基础及中级层次的问题上表现突出,表明AI在化学领域的应用前景光明。但它仍面临知识掌握不均、推理深度不足、置信度估计不准确及复杂偏好判断能力欠缺等重大挑战。
科学界必须结合专家智慧,完善数据和模型,提升安全性和可解释性,使其真正成为化学家们的强大伙伴。未来,化学教育和研究也将因此迎来根本变革,智能系统和人类才智的结合,有望催生更多创新与突破。