味觉作为人类感知食物风味的核心要素,一直以来都是食品研究和开发领域的关键课题。传统的味觉鉴定依赖于人类感官测试或昂贵的电子舌,但这些方法不仅耗时耗力,还受制于个体差异与实验环境的限制。近年来,人工智能技术的飞速发展为味觉预测带来了新的可能性。通过对分子结构进行深度学习建模,科学家们正逐步突破味觉预测的瓶颈。化学语言模型作为连接分子结构与味觉感知的桥梁,凭借其高度的表达能力和广泛的适用性,正成为食品化学领域的研究热点。Flavor Analysis and Recognition Transformer(简称FART)是该领域的里程碑式成果,该模型基于transformer架构,使用文本表示的化学分子结构(SMILES)作为输入,实现对甜、苦、酸、鲜四种基本味觉的平行预测,且准确率超过91%。
FART模型的开发离不开高质量的数据支撑。研究团队整合了多个权威数据库,构建了迄今为止最大规模的公开分子味觉数据集,涵盖15025个分子及其对应的味觉标签。此数据集涵盖广泛的化学空间,体现了多样化的分子结构特征,为模型训练提供了坚实基础。基于该数据,FART采用预训练加微调策略——初期在大规模化学结构语料(如ChemBERTa)中学习分子编码特征,再通过味觉数据集细化训练,让模型更精准捕捉结构与味觉的关联性。 在模型架构方面,transformer凭借多头自注意力机制,能有效捕获分子中远距离原子间的关联,解决传统方法难以应对的分子复杂性问题。FART通过将SMILES序列视作“化学语言”进行处理,实现对分子味觉的多任务学习,能够同时输出多个味觉类别的预测概率,打破了以往只能独立预测某一味觉的局限性。
同时,研究团队利用SMILES枚举技术进行数据增强,扩大训练数据的表示多样性,增强模型对非标准输入的适应能力,并引入基于多个SMILES版本一致性的置信度评估,提升预测结果的可靠性与用户信心。 相比传统的二分类器和基于指纹的机器学习模型,FART不仅在综合性能上表现出明显优势,更具备解释性。通过集成梯度等可解释性方法,研究者能够直观展示分子中影响味觉预测的关键原子或功能基团,为味觉机理的研究提供了新的视角。示例分子的分析显示,酸味预测中酸性官能团的权重最大,甜味预测则显现出酯基和特定芳香团的积极贡献,展现了模型较高的化学合理性与生物学依据。 现代食品研发越来越依赖计算工具以提升效率和准确度。FART的发布不仅为味觉判别提供了自动化、快速且精准的手段,还可能推动天然风味物质的筛选与合成设计。
通过大规模化合物虚拟筛查,研发人员可快速锁定潜在的风味分子,缩短研发周期,降低实验成本。此外,模型的可解释性使其在配方优化、感官研究等环节具备广泛应用潜力,支持个性化味觉调控及创新口味的开发。 尽管FART取得了显著进展,但研究者也坦诚模型仍面临挑战。首先,数据集中呈现的分布不均,以甜味分子占主导,鲜味样本稀少,影响模型对特定味觉类别的泛化能力。其次,模型对于具有多重味觉属性的化合物的多标签识别能力有限,现实食品多味复合的特点需更精细的建模策略来捕捉。此外,FART对分子的立体化学(如手性)缺乏敏感性,影响了对某些味觉敏感分子的判别精确度。
研究团队正在探索更丰富的数据采集手段与模型架构改进方案,以提升预测能力和应用深度。 未来,借助高通量实验技术与自动化味觉检测设备,更大规模且多维度的味觉数据将陆续出现,为模型训练与验证提供坚实数据保障。与此同时,结合分子动力学模拟与受体结合机制研究,有望将味觉预测的理论基础推向更深层次。作为食品科学与人工智能的交叉前沿,分子味觉预测正开启食品设计的新纪元,为满足消费者多样化味觉需求、推动健康食品开发提供了强大技术支持。 FART模型的成功开发标志着化学语言模型在味觉预测领域迈出了关键一步,其高效、准确与解释性的结合,为未来食品化学智能化奠定了坚实基础。随着技术的不断演进,结合大数据与深度学习,科学家与食品开发者将能够更深入理解味觉的分子机制,探索全新的风味空间,创造出更丰富、更健康、更具个性化需求的食品体验。
化学语言模型必将成为推动食品科技创新的重要引擎,助力人类更好地享受美味生活。