IT之家 4 月 12 日消息,字节跳动于 4 月 8 日发布博文,其 Seed 研究团队推出 VAPO 强化学习训练框架,目标提升大型语言模型在复杂、冗长任务中的推理能力。
现有挑战
在大型语言模型(LLM)的强化学习(RL)训练中,价值导向方法(Value-based reinforcement learning methods)因能精确追溯每个动作对后续回报的影响,展现出巨大潜力。然而,应用于长链式推理(CoT)任务时,价值模型面临三大挑战。
首先,价值模型初始化会引入偏差;其次,传统方法难以适应复杂任务中的序列长度差异;最后,验证任务中奖励信号稀疏,优化过程面临探索与利用的权衡,这些问题限制了价值导向方法的实际效果。
VAPO简介
字节跳动最新推出的 VAPO 框架全称为 Value Augmented Proximal Policy Optimizationd(增强价值的近端政策优化),基于 PPO 框架,通过三项创新技术应对上述挑战。
首先,VAPO 模型构建了细致的价值训练框架,增强模型对复杂任务的理解。其次,引入长度自适应广义优势估计(GAE)机制,能根据响应长度动态调整参数,优化长短序列的训练效果。最后,VAPO 整合了多项先前研究技术,形成协同增效的系统。
在不依赖特定监督微调(SFT)数据的情况下,Qwen2.5-32B 模型通过VAPO优化后,在 AIME24 基准测试中将得分从 5 分提升至 60.4 分,超越 DeepSeek R1 的 47 分, 超过此前SOTA方式 DAPO(50 分)10分 ,仅用 60% 的更新步骤即达成业界领先。
相较于传统 Proximal Policy Optimization(PPO)算法,VAPO 改进了数学推理能力,训练曲线更为平滑,优化过程更稳定。
测试显示,归因于其价值模型提供的细粒度信号,VAPO 在长序列任务中表现出色,得分增长更快。尽管后期训练熵值降低可能限制探索,VAPO 通过平衡设计确保了稳定性和可重复性。
VAPO 的成功源于其综合优化设计。消融研究验证了七项技术的有效性:价值预训练防止崩溃,解耦 GAE 支持长回答优化,自适应 GAE 平衡短长回答,剪裁策略鼓励探索,词级损失增加长回答权重,正例语言模型损失提升 6 分,分组采样贡献 5 分。
这些改进使 VAPO 在探索与利用间找到最佳平衡,显著优于无价值导向的 GRPO 和 DAPO 方法。VAPO 不仅提升了数学推理能力,还为 LLM 在复杂推理任务中的应用提供了新方向。
mogu3.tv蘑菇成人入口 | 1天前 |
舞蹈老师怀孕了摔到了肚子视频 |
旧草莓视频成人app❤免费 | 8天前 |
glow官网1.6版本 |
女人扒㊙️给男人看 | 8天前 |
骇爪裸装泳装 |
张津瑜艳照全套无删减94 | 9天前 |
真人头受伤图片 |
两男一女两根同进去的 | 7天前 |
舒淇饮食有多自律啊 |
3d女性自慰✅免费网站 | 6天前 |
极品馒头泬66p无码播放 |
被三个黑人玩成了烂货的小说 | 1天前 |
美女扒开屁股猛进视频 |
小鲜肉GayGay✅免费视频 | 4天前 |
蜜桃传媒㊙️免费观看 |
50岁大妈荒野大镖客 | 1天前 |
中国少妇果冻传媒 |
www.色😍涩涩.com视频 | 7天前 |
外国无遮挡性动态图 |