随着人工智能技术的迅猛发展,尤其是在自然语言处理和高级推理领域,如何有效地提升模型的推理能力和训练效率已成为研究热点。Polaris作为一套最新发布的后训练强化学习(RL)方案,专注于解决高级推理模型在规模和复杂度上面临的诸多挑战,在保持高性能的同时实现了卓越的资源利用效率。Polaris-4B-Preview和Polaris-7B-Preview两个预览版本不仅显著超越了同等规模的商业模型,还成功挑战了以往只能由超大参数量模型完成的任务,成为当前公开领域最强大的推理模型方案之一。Polaris的核心创新离不开其对数据难度的深刻洞察以及推理推断过程中的多样性和长度调控。首先,Polaris团队认识到高级推理模型的训练效果往往受到训练数据难度分布的极大影响。传统训练集中存在大量过于简单或过于复杂的样本,导致模型无法获得充分的学习动力或者难以收敛。
通过对40,000个样本的Pass率分析,Polaris揭示了不同规模模型对数据难度的截然不同响应机制。1.5B模型的数据分布表现为“镜像J型”(多数问题极难),而7B模型则表现为标准J型(绝大多数问题极易),这表明在训练7B模型时,原始数据集中的简单样本过多,限制了模型的提升潜力。基于此,团队开发了一套针对模型规模量身定制的数据过滤和难度校准策略,旨在维护数据难度的“镜像J型”分布,确保训练过程中既有足够的挑战性题目激励模型成长,又避免完全由难度极高样本构成导致的训练停滞。更为巧妙的是,Polaris采用动态难度调整机制,随着模型的迭代学习,逐步剔除那些已完全掌握的样本,保持数据难度结构与模型能力的同步进化,极大提升了训练效率与效果。除了数据难度管理外,Polaris在多样化采样策略上的创新也为训练质量提供了保障。在强化学习过程中,样本轨迹的多样性直接影响模型探索能力和对优秀解答路径的学习效果。
Polaris通过深入研究采样温度这一关键超参数,明确区分了采样温度对性能和多样性的影响区间,定义了鲁棒生成区(RGZ)、受控探索区(CEZ)和性能崩溃区(PCZ)等温度带。不同规模模型对应不同的温度最优区间,Polaris创新性地选择在控制探索区内初始化采样温度,使模型在保证性能稳定的同时,最大化推理路径的多样性。随着训练的深入,模型趋向于收敛,网络熵逐渐降低,探测空间收窄。针对这一现象,Polaris动态提升采样温度,保持轨迹多样性避免过早陷入局部最优,使得强化学习过程持续产出高质量、多样性的推理策略。Polaris还大胆挑战了推理长度的传统限制。长链式思维(Chain-of-Thought,CoT)是推动复杂推理性能提升的关键因素,但直接训练模型以适应超长上下文会带来极高的计算和内存成本,训练效率低下甚至性能下降。
Polaris提出“训练短而推理长”的推断时长扩展方法,基于旋转位置编码(RoPE)的长度外推技术,实现模型在无须额外再训练的情况下,稳定生成远超训练上下文长度的推理链路。其中采用的Yarn方法经实证测试,显著提升了超过预训练长度响应的准确率,从26%提升至50%以上,充分释放了模型在长上下文推理的潜力。此外,Polaris多阶段训练框架进一步优化了探索效率。在训练之初,针对不同模型的token效率采用合适的初始推理长度。对部分模型而言,直接从较长的推理长度开始训练能够避免性能不可逆的下降,保证模型充分利用训练资源,获得更深度的推理能力。同时,团队设计了Rollout Rescue机制和批内信息置换技术,轻量化解决训练过程中零奖励样本带来的信号稀缺问题,有效提升了训练稳定性和收敛速度。
Polaris还汲取了DAPO和GRPO+等先进训练方法的精髓,取消了熵损失和KL损失项,避免训练过程中的不稳定和受限,采用更为激进的损失剪裁策略促进模型探索更优策略空间。这些改良在保证训练稳定性的前提下,最大程度地释放了强化学习的潜力。最后,Polaris在多项国际权威数学竞赛数据集上的表现令人瞩目。以仅4B和7B参数规模的模型在AIME24和AIME25测试中分别实现81.2%和79.4%的Pass@1准确率,甚至在某些指标上超越了规模远超自身的商业巨头模型,证明了高效的后训练强化学习方案在提升高级推理模型性能上的巨大潜力。Polaris的开源精神及资源共享策略进一步助力全球研究社区推动强化学习及推理模型的发展。综上所述,Polaris代表了当前后训练强化学习领域的领先水平。
其通过面向高级模型的精准数据难度校准、多样化采样温度动态调节及训练短推理长的推断长度扩展等创新机制,成功破解了强化学习在推理模型大规模化过程中的多重瓶颈。Polaris不仅为学术界提供了宝贵的实验和理论支持,更为工业界落地实用高级推理系统提供了具有参考价值的解决方案。未来,基于Polaris的研究将极大推动强化学习技术在更大规模、多领域复杂任务上的广泛应用,进一步促进人工智能系统的智能化和实用化进程。