类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

2025年12月30号 05点21分23秒

人类强化学习中的价值归一化功能形式深度解析

首次代币发行 (ICO) 和代币销售

钱财 qian.cx

探讨人类强化学习中价值归一化的计算机制,重点比较和评估区间归一化与除法归一化两大主流模型,揭示人类如何在不同决策环境中实现价值的灵活表征与调整。

强化学习作为人工智能和认知科学中的核心机制,揭示了个体如何通过经验和反馈调整行为,以实现最大化奖励。人类强化学习过程中,价值的表现并非简单的绝对量化,而是受到环境上下文强烈影响,即所谓的价值归一化。准确理解价值归一化的功能形式,能够帮助揭示人脑如何高效编码和处理不同情境下的奖励信息,进而深化对决策机制的认知。近年来,关于人类强化学习价值归一化的本质,主流观点主要围绕两种归一化机制展开:除法归一化和区间归一化。本文将详细解析这两种归一化模型的原理与区别,通过最新的行为实验和计算建模结果,探讨其在实际强化学习场景中的适用性与局限性,进而为认知神经科学和神经经济学领域提供深刻见解。首先,认识到奖励的上下文依赖性是价值归一化问题的起点。

大量实验证据表明,无论是人类还是其他动物,所感知和估计的奖励价值往往不是从绝对价值出发,而是会根据同时存在或近期经历的其他选项而变化,这种现象跨越了实验范畴和物种边界,反映了神经决策系统在行为表现和神经资源限制间的权衡。除法归一化模型受感知神经科学中归一化过程的启发,假设主观价值通过除以环境中所有选项奖励之和进行缩放。这种模型暗示,在拥有更多选项的情况下,单个选项的相对价值会被压缩,体现出明显的"选项集大小效应"。其优势在于与生物学上的匹配定律和神经响应调控机制高度一致,是当前神经经济学领域中较为流行的模型之一。然而,尽管除法归一化在描述基于项目直接呈现(如描述型选择任务)中的价值编码表现出一定优势,针对经验型强化学习场景的实证支持却较为有限。相反,区间归一化模型则基于奖励的最大值和最小值进行线性尺度变换,主张不论选项数量多少,奖励价值都是以其在当前环境区间中的相对位置来表示。

这意味着奖励的表征更多强调区间范围而非所有选项的总和,因此避免了因"选项数量"变化带来的价值压缩问题。区间归一化的逻辑源自感知心理学领域,对于评估和感知过程的动态适应性有深厚理论基础。为明确区分除法归一化与区间归一化在人类强化学习过程中的适用性,研究团队设计了一种新颖的实验范式。通过交叉操控学习环境中选项数量(如二选与三选)与奖励区间范围(窄与宽),任务使得两种模型在行为预测上出现显著分歧。实验采用在线招募的被试,结合带有真实货币激励的多轮选择学习,配合转移阶段(新组合选项选择)和显式价值评估,全面检视价值归一化的表现模式。结果显示,被试在学习阶段均表现出超越随机选择的能力,证明任务有效且参与度良好。

更重要的是,转移阶段中,选项的选择频率和主观价值评估不符合除法归一化对选项数量的敏感预测,反而更符合区间归一化模型的预期。具体而言,高价值选项在三选和二选环境中的选择率相当或三选环境略高,违背了除法归一化下三选环境中价值应被稀释的预期。同时,对中等价值选项的评价显示出对区间的位置敏感,但并非简单的线性归一,暗示存在非线性加权机制。基于这些发现,研究进一步提出改进版的区间归一化模型,引入了幂指数变换参数,对归一化后的奖励进行非线性调整。该增强模型不仅大幅提升了对行为数据的拟合度,也更准确地捕捉了中间价值选项被系统性低估的现象。这一结果提示人类强化学习中的奖励估计过程可能伴随注意力的动态分配与调整,即对已选择和未选择结果的不同加工权重。

为了验证这一假设,后续实验设计了条件性选择限制,使得中间选项在一定比例的试次中被迫选择。结果证实,增强选择频率的中间选项,其客观价值和行为偏好得到了修正,从而支撑了注意调节是价值非线性处理的重要驱动因素。模型进一步细化,包括针对已选和未选奖励分别设定独立的非线性权重参数,揭示选择确认效应显著,体现了强化学习过程中的认知偏差与注意资源分配。除了基于行为选择的评估,研究团队还引入了显式价值评分,要求参与者直接对各选项给出价值估计。评价结果高度一致于选择驱动的隐性价值推断,强化了价值归一化是多层次表征机制的共性。从理论角度看,价值归一化反映了大脑在面对有限神经资源和变化环境时的高效编码策略。

区间归一化通过跟踪奖励区间动态调节,使得奖励信号在不同背景下均衡展开,避免信息过载且提升决策灵活性。相比于除法归一化依赖选项总和值,区间归一化更具稳定性和生物学合理性。尽管如此,区间归一化模型尚存在局限,特别是在中间价值处理上的一系列偏离,提示未来研究需结合神经影像和认知模型更深入揭示潜在机制。此次系统性的实验和模型比较,挑战了当前神经经济学主流使用除法归一化诠释价值编码的趋势,提出新的范式判断价值归一化功能形式,为强化学习机制的神经基础提供重要指导。基于强化学习范式的任务设计,也有助于跨物种研究和临床应用的拓展,为解码大脑决策过程中的价值计算提供坚实基础。未来工作可结合眼动追踪、神经调控和更丰富的奖励属性辨析,如概率和多属性决策,系统探究价值归一化的普适性和机制多样性。

总之,价值归一化是人类强化学习核心的认知计算问题。区间归一化及其非线性交互机制为理解人类如何在复杂环境中实现灵活、稳定和高效的价值表征提供了关键线索。持续探索其生物学实现和行为表现,有望推动认知神经科学、人工智能和经济学的深度融合,推动未来智能系统和脑机接口的设计与优化。。

下一步

2025年12月30号 05点23分01秒科学家也是普通人:人性化科学如何重建公众信任

探讨科学家作为普通人的一面,以及通过人性化视角如何消除公众对科学的不信任,促进科学与社会的和谐发展,深化对科学家的理解和尊重。

2025年12月30号 05点23分42秒美国NASA限制中国籍人员参与太空项目的深远影响

探讨美国国家航空航天局(NASA)限制中国籍人员参与太空计划的背景、目标及其在中美太空竞赛中的战略意义,分析此举对科技合作、国际空间探索以及全球太空格局的潜在影响。

2025年12月30号 05点24分11秒揭秘维基百科中的疑似AI生成文章现象及其影响

探讨维基百科中疑似人工智能生成文章的现象,分析其对信息真实性、编辑社区及平台发展的影响,并阐述未来应对策略。

2025年12月30号 05点24分46秒利用PageIndex MCP实现长PDF无缝对话:提升Cursor与Claude Desktop的长文档处理能力

随着人工智能应用的快速发展,处理超长PDF文档成为用户迫切需求。借助PageIndex MCP,用户可以在Cursor和Claude Desktop等主流大语言模型平台上实现对长PDF的流畅聊天和智能解析,极大提升工作效率和文档理解能力。了解PageIndex MCP的配置方法和实用技巧是掌握未来长文档智能交互的关键。

2025年12月30号 05点25分27秒三万亿美元人工智能投资热潮如果泡沫破裂会怎样?

随着全球在人工智能领域投入达到三万亿美元,投资热潮带来的风险和潜在危机逐渐显现。探讨人工智能投资泡沫破裂可能对科技行业、经济和社会产生的深远影响,以及应对挑战的策略。

2025年12月30号 05点26分32秒高音谱号的演变:音乐符号背后的历史与文化

探索高音谱号从起源到现代的发展历程,揭示其在西方音乐书写体系中的重要地位,以及手写乐谱时代如何促成了这一符号的独特形态。

2025年12月30号 05点27分17秒让森林自由流淌,守护其独有的森林之灵

探索赋予森林、河流与天空权利的新思维,这不仅重新定义了人与自然的关系,更推动生态保护法律的革新,实现人与自然的和谐共生。本文深入探讨了"更多-than-human"权利运动的起源、意义及其对全球环境治理的深远影响。