随着人工智能技术的快速发展,尤其是大规模语言模型(LLM)如ChatGPT的广泛应用,人们越来越关注这些模型是否能够像人类一样理解世界,特别是在感知领域。颜色作为人类视觉体验的重要组成部分,关于ChatGPT是否能够“看见”红色的讨论引发了广泛兴趣。近期由加州大学圣地亚哥分校、斯坦福大学、蒙特利尔大学和谷歌DeepMind等机构联合开展的一项跨学科研究,带来了更加细致入微的回答。本文将深入剖析这项研究的发现,探讨人工智能在颜色理解方面的表现及其背后的机制,同时展望未来结合感官输入的AI发展潜力。 ChatGPT的工作原理基于大量文本数据,通过统计语言模式预测下一步最可能的词汇,从而生成类人回答。颜色隐喻如“感觉蓝色”“看到红色”是英语中常见表达,这些隐喻也构成了训练ChatGPT数据集的重要部分。
然而,与人类直接通过视觉感受红色的方式不同,ChatGPT的“理解”仅限于语言文本中出现的关联和用法。研究提出关键问题:仅通过语言统计真的足够理解颜色的丰富含义和隐喻吗?还是人类通过具身经验积累的视觉感知为颜色理解注入了独特维度? 这项刊载于《认知科学》杂志的研究由南加州大学神经科学与具身认知中心主任Lisa Aziz-Zadeh教授牵头,结合心理学、神经科学、社会科学、计算机科学和天体物理学领域专家的力量,设计了一套大规模在线调查。调查对象涵盖不同人群——拥有正常色觉的成年人、色盲者、经常使用颜料的画家,及人工智能ChatGPT模型。各组被要求为抽象词如“物理”关联颜色,解读熟悉的颜色隐喻(如“处于红色警戒”),以及新颖或陌生隐喻(如“这是个非常粉红的派对”)。 调查结果揭示多个有趣现象。首先,正常色觉者与色盲者在颜色联想上出奇地相似,这表明视觉感知本身并非理解颜色隐喻的绝对必要条件。
其次,画家凭借长期的颜料调配实践表现出更加准确和深入的新隐喻解读,暗示实际动手经验能激发对颜色语言更深层的认知和联想。ChatGPT在颜色联想中表现出高度一致性,且在理由说明中善于依托情感和文化色彩,如解释“粉红色派对”带有快乐、爱与善意等正面情绪。然而,模型在运用具身认知式解释时明显较少,自创新隐喻或颜色逆向思考时的表现也较为薄弱,如“会议让他变成了勃艮第红”这一不常见表达,ChatGPT往往难以准确解释。 Aziz-Zadeh教授指出,AI模型深度依赖统计语言数据,而人与AI的最大差异在于人类拥有具身体验能力。人类通过视觉、触觉等多种感官讯息交织形成语言认知基础,而当前基于文本的大语言模型缺乏真实的感官经验,使其理解始终存在局限。团队认为,未来若能将视觉、触觉等感官数据与语言模型相结合,人工智能在颜色及其它复杂概念的理解上将更接近人类水平。
这项研究还由谷歌的Faculty Gift部分资助,且得到了加州大学伯克利分校的Barbara and Gerson Bakar Faculty Fellowship与Haas商学院的支持。值得注意的是,谷歌并未参与研究设计、数据分析及成果发布,确保了研究的独立性与学术公正。 此次研究让我们重新思考AI认知的本质。尽管ChatGPT和类似模型能通过巨量语言数据模拟出许多复杂的人类语言习惯与文化隐喻,但缺乏真实感官输入的先天不足限制了其对颜色这样的感知类概念的深刻理解。色彩不仅仅是词汇,更与个体情感、文化背景及生理机制密切相关,这是当前纯语言模型难以逾越的鸿沟。不过,画家群体的表现提醒我们,通过与材料和视觉体验的亲密接触,人的颜色认知可以更为立体和丰富。
未来的人工智能研究方向可能将重点放在如何将感官信号(图像、触觉反馈等)与语言理解有机结合。这不仅有助于突破现有AI对抽象概念的理解瓶颈,也将促进更具人性化、更具有情感深度的机器交互方式诞生。同时,从认知科学层面,进一步探明体感经验与语言学习如何相互促进,将为脑科学和人工智能融合奠定坚实基础。 总之,ChatGPT“看不见”红色,但它通过语言可以描述红色的含义及情感联想,并在一定程度上模拟人类对颜色隐喻的反应。作为目前最为先进的语言模型之一,ChatGPT的表现说明了纯语言信息处理的强大潜力,也暴露了它在感知融合上的局限。跨学科研究深化了我们对语言、感知及认知三者交织关系的理解,为未来智能系统如何更好地模拟和拓展人类认知提供了宝贵方向。
随着技术不断进步,人工智能或有望超越单纯的语言统计,真正走向具有具身认知的智能新时代。