强化学习作为人工智能和认知科学中的核心机制,揭示了个体如何通过经验和反馈调整行为,以实现最大化奖励。人类强化学习过程中,价值的表现并非简单的绝对量化,而是受到环境上下文强烈影响,即所谓的价值归一化。准确理解价值归一化的功能形式,能够帮助揭示人脑如何高效编码和处理不同情境下的奖励信息,进而深化对决策机制的认知。近年来,关于人类强化学习价值归一化的本质,主流观点主要围绕两种归一化机制展开:除法归一化和区间归一化。本文将详细解析这两种归一化模型的原理与区别,通过最新的行为实验和计算建模结果,探讨其在实际强化学习场景中的适用性与局限性,进而为认知神经科学和神经经济学领域提供深刻见解。首先,认识到奖励的上下文依赖性是价值归一化问题的起点。
大量实验证据表明,无论是人类还是其他动物,所感知和估计的奖励价值往往不是从绝对价值出发,而是会根据同时存在或近期经历的其他选项而变化,这种现象跨越了实验范畴和物种边界,反映了神经决策系统在行为表现和神经资源限制间的权衡。除法归一化模型受感知神经科学中归一化过程的启发,假设主观价值通过除以环境中所有选项奖励之和进行缩放。这种模型暗示,在拥有更多选项的情况下,单个选项的相对价值会被压缩,体现出明显的"选项集大小效应"。其优势在于与生物学上的匹配定律和神经响应调控机制高度一致,是当前神经经济学领域中较为流行的模型之一。然而,尽管除法归一化在描述基于项目直接呈现(如描述型选择任务)中的价值编码表现出一定优势,针对经验型强化学习场景的实证支持却较为有限。相反,区间归一化模型则基于奖励的最大值和最小值进行线性尺度变换,主张不论选项数量多少,奖励价值都是以其在当前环境区间中的相对位置来表示。
这意味着奖励的表征更多强调区间范围而非所有选项的总和,因此避免了因"选项数量"变化带来的价值压缩问题。区间归一化的逻辑源自感知心理学领域,对于评估和感知过程的动态适应性有深厚理论基础。为明确区分除法归一化与区间归一化在人类强化学习过程中的适用性,研究团队设计了一种新颖的实验范式。通过交叉操控学习环境中选项数量(如二选与三选)与奖励区间范围(窄与宽),任务使得两种模型在行为预测上出现显著分歧。实验采用在线招募的被试,结合带有真实货币激励的多轮选择学习,配合转移阶段(新组合选项选择)和显式价值评估,全面检视价值归一化的表现模式。结果显示,被试在学习阶段均表现出超越随机选择的能力,证明任务有效且参与度良好。
更重要的是,转移阶段中,选项的选择频率和主观价值评估不符合除法归一化对选项数量的敏感预测,反而更符合区间归一化模型的预期。具体而言,高价值选项在三选和二选环境中的选择率相当或三选环境略高,违背了除法归一化下三选环境中价值应被稀释的预期。同时,对中等价值选项的评价显示出对区间的位置敏感,但并非简单的线性归一,暗示存在非线性加权机制。基于这些发现,研究进一步提出改进版的区间归一化模型,引入了幂指数变换参数,对归一化后的奖励进行非线性调整。该增强模型不仅大幅提升了对行为数据的拟合度,也更准确地捕捉了中间价值选项被系统性低估的现象。这一结果提示人类强化学习中的奖励估计过程可能伴随注意力的动态分配与调整,即对已选择和未选择结果的不同加工权重。
为了验证这一假设,后续实验设计了条件性选择限制,使得中间选项在一定比例的试次中被迫选择。结果证实,增强选择频率的中间选项,其客观价值和行为偏好得到了修正,从而支撑了注意调节是价值非线性处理的重要驱动因素。模型进一步细化,包括针对已选和未选奖励分别设定独立的非线性权重参数,揭示选择确认效应显著,体现了强化学习过程中的认知偏差与注意资源分配。除了基于行为选择的评估,研究团队还引入了显式价值评分,要求参与者直接对各选项给出价值估计。评价结果高度一致于选择驱动的隐性价值推断,强化了价值归一化是多层次表征机制的共性。从理论角度看,价值归一化反映了大脑在面对有限神经资源和变化环境时的高效编码策略。
区间归一化通过跟踪奖励区间动态调节,使得奖励信号在不同背景下均衡展开,避免信息过载且提升决策灵活性。相比于除法归一化依赖选项总和值,区间归一化更具稳定性和生物学合理性。尽管如此,区间归一化模型尚存在局限,特别是在中间价值处理上的一系列偏离,提示未来研究需结合神经影像和认知模型更深入揭示潜在机制。此次系统性的实验和模型比较,挑战了当前神经经济学主流使用除法归一化诠释价值编码的趋势,提出新的范式判断价值归一化功能形式,为强化学习机制的神经基础提供重要指导。基于强化学习范式的任务设计,也有助于跨物种研究和临床应用的拓展,为解码大脑决策过程中的价值计算提供坚实基础。未来工作可结合眼动追踪、神经调控和更丰富的奖励属性辨析,如概率和多属性决策,系统探究价值归一化的普适性和机制多样性。
总之,价值归一化是人类强化学习核心的认知计算问题。区间归一化及其非线性交互机制为理解人类如何在复杂环境中实现灵活、稳定和高效的价值表征提供了关键线索。持续探索其生物学实现和行为表现,有望推动认知神经科学、人工智能和经济学的深度融合,推动未来智能系统和脑机接口的设计与优化。 。