味觉作为人类基本的感官体验之一,长期以来一直是食品科学研究的重点。然而,确定单个分子的味觉特性是一项复杂且耗时的工作,传统上依赖于人工感官测试或者昂贵的电子舌技术。随着机器学习和深度学习的兴起,科学家尝试将计算机模型应用于味觉预测领域,以期快速、准确地识别和设计符合口味偏好的分子。近年来,一种基于化学语言模型的新兴方法正在引起广泛关注,该方法不仅提高了预测的覆盖面,还在准确率和模型解释性方面取得了显著突破。化学语言模型利用分子的SMILES(简化分子线性输入系统)作为输入,类似于自然语言处理中的文本序列,借助Transformer架构捕捉分子结构中的语义和上下文关系,从而实现对味觉属性的准确预测。这种创新的模型称为FART(Flavor Analysis and Recognition Transformer,风味分析与识别变换器),其基于大型公开味觉数据集进行训练,能够同步预测甜、苦、酸、鲜(又称“旨味”)四种基本味觉类别。
FART在多类别预测任务中展现了超过91%的整体准确率,显著优于以往只能实现单一味觉二分类的模型。以往味觉预测模型往往局限于甜味或苦味等单一类别,不仅限制了实际应用范围,也难以应对味觉复合特征分子的挑战。FART通过深度学习的多标签学习策略,提升了对味觉多样性的解析能力,同时通过梯度可视化技术,实现了对模型决策过程的解释,帮助研究人员理解哪些分子结构特征主导某种味觉。模型的可解释性对于食品化学家来说尤为重要,因为它不仅增强了模型可信度,还为风味化合物的设计和优化指明了方向。例如,FART在预测酸味分子时准确聚焦于酸性官能团,甜味预测中对酯类结构表现出了敏感,苦味预测则强调了多酚类结构,这些结果高度契合食品化学的经验认知。口味的多样性及复杂性,一方面来源于分子结构的细微差异,另一方面也受到浓度、环境及个体差异的影响。
FART通过整合多个数据源,构建了一部涵盖超过15000个分子及其味觉标签的公开数据库,极大丰富了样本多样性并遵守了FAIR数据原则,确保数据的查找、访问、共享和再利用成为可能。该数据库的公开不仅为味觉预测模型的训练打下坚实基础,也为食品科学领域的后续研究提供了宝贵资源。得益于SMILES的文本特性,FART采用了数据增强技术,通过生成同一分子的多种非规范SMILES表达,提升模型对输入多样性的鲁棒性,同时引入置信度指标,确保预测结果的可靠性。实验对比显示,使用数据增强版本的FART在小众且数据稀缺的鲜味类别上F1值提升了整整一倍,体现出该策略在改善模型泛化能力上的优势。与此同时,FART与多种传统机器学习模型进行了比较,包括基于Morgan指纹及分子描述符的XGBoost和随机森林模型,以及基于消息传递神经网络的Chemprop,结果表明FART在多类味觉预测上整体表现领先,特别是在同时处理多标签分子时具有明显优势。虽然FART目前主要针对小分子,并且对分子立体化学的敏感性有限,例如无法区分L-谷氨酸和D-谷氨酸的味觉差异,但其框架为未来引入更多空间结构信息和更复杂分子类型提供了良好扩展性。
未来的研究方向包括扩大数据库覆盖范围,尤其是提高对鲜味及多标签味觉分子的识别能力,同时结合实验验证进一步提升模型的实用性。此外,将FART应用于高通量虚拟筛选,有望加速新型风味分子的发现与开发,推动从食品设计到药物制剂的多领域创新。人工智能技术与食品科学的深度融合预示着味觉预测正步入精准化和自动化新时代。借助化学语言模型,食品科学家能够更快速地筛选和优化分子配方,减少实验成本与时间,并辅助揭示复杂味觉机制,促进天然与合成风味化合物的科学开发。尽管模型无法完全取代人工感官与实验检测,但已成为味觉研究与应用不可或缺的高效工具。总之,以FART为代表的化学语言味觉预测模型不仅实现了高精度、多类别的味觉判别,还提供了关键结构的解释性视角,极大拓展了味觉分子设计和食品创新的可能性。
面向未来,随着数据集不断丰富及深度学习技术的进步,味觉预测模型将在精准营养、个性化饮食以及食品安全领域发挥更大作用,引领食品科学迈向数据驱动的新时代。