FIFA世界杯官方合作指定网站当SFT遇上RL：基于样本学习阶段的动态战略优化机制

发布时间：2026-05-15 18:15 来源：未知作者：admin 浏览：123

畴昔一段时候里，在围绕大模子推理才略增强的征询中，SFT 和 RL 是两类中枢后查验范式 —— 前者矫健敛迹快，能高效摄取高质地推理数据；后者更具探索性，有望推动模子收场复杂推理和踱步外泛化。

但在本色查验中，这两种信号却难以有用会通，现存责任大多仅停留在 "把两个 loss 混在一皆" 的层面。

为搪塞这一挑战，征询团队建议了DYPO（Dynamic Policy Optimization）动态战略优化要津。

中枢念念考在于：既然 SFT 和 RL 的学习信号统计性质自然不同，谐和优化要若何作念，才能既保留监督学习的矫健性，又不糟跶强化学习的探索才略？

△ 图 1：DYPO 的举座框架

如图 1，模子会先说明一组 rollout 的着力判断样本所处的学习阶段，再决定它应该走监督旅途、强化学习旅途，照旧暂时跳过。

SFT 和 RL 为什么很难信得过协同

若是把大模子后查验比作"教悔生作念题"，SFT 和 RL 的特质各异便一目了然。

SFT更像老诚径直讲口头谜底。它的优点是学得快、过程稳、敛迹也更容易限度，但问题在于，学生很容易学成"会按套路作念题"，一朝题目稍稍变形，就可能枯竭泛化才略。

RL更像让学生我方反复尝试，再说明得分不竭修正战略。它的优点是更有探索性，更可能逼着模子从"记取解法"走向"学会推理"，但错误相同赫然：查验过程中波动更大，奖励一朝寥落，模子就很容易学偏，以致不矫健。

从表面层面看，这背后对应着典型的偏差—方差矛盾：

SFT：低方差，但高偏差。SFT 的梯度来自静态高质地数据，更新矫健、噪声小，却自然偏向拟合示范踱步，压缩模子探索空间；

RL：低偏差，但高方差。RL 通过奖励启动试错，更接近 "有用战略优化"，但受采样赶紧性和奖励寥落性影响，梯度方差高、查验易波动。

问题也正出在这里。许多谐和查验要津固然同期用了 SFT 和 RL，但默许统共样本都值得用合并种形势行止理。

但本色情况中，不相同本的学习信号存在显耀各异：有些问题模子依然会了，屡次 rollout 都能答对，这类样本赓续查验，收益往往很有限；有些问题模子面前十足不会，屡次 rollout 全部失败，这时径直作念 RL 时时也拿不到什么有用奖励；

信得过最值得优化的，反而是那些"依然会少量，但还不矫健"的样本。它们既证明模子依然摸到了门槛，又保留了区分正确轨迹和造作轨迹的空间。

因此，这项责任想处置的，并不是"要不要把 SFT 和 RL 放在一皆"，而是更进一步：不同学习阶段的样本，到底应该奈何被优化，才能在矫健和探索之间找到更合理的均衡。

△ 图 2：SFT 与 RL 的偏差—方差矛盾

SFT 更稳，但偏差更大；RL 偏差更低，但查验波动赫然更强。

DYPO 若何同期处理偏差和方差问题

基于上述念念考，本文建议了Dynamic Policy Optimization ( DYPO ) 。它的中枢念念想并不是再堆一个更复杂的查验过程，而是先说明 rollout 着力判断样本所处的学习阶段，再去匹配最合适的优化旅途。

具体而言，DYPO 会让面前战略为每个问题生成一组 rollout，然后说明这些 rollout 的成败情况，把样本折柳红三类：

Easy 样本：一组 rollout 全部收效，证明模子已掌执这类问题，径直跳过以减少无效更新；

Hard 样本：一组 rollout 全部失败，证明模子枯竭填塞常识基础，径直作念 RL 难获矫健正向信号。对此选拔多老师蒸馏（Multi-Teacher Distillation），引入多个 teacher 让 student 学习多种合理推理轨迹的共通部分，减少单一 teacher 的特定偏差，先开采可靠先验，再去道后续探索；

Mid 样本：一组 rollout 有收效也有失败，是最有价值的"学习前沿"。这类样本合适 RL 优化。但为处置口头 RL 的高方差问题，团队在 GRPO 的基础上引入了Group Alignment Loss，也即是GAL，来对皆耗损。

GAL 的中枢念念路是愚弄合并组 rollout 中的成败轨迹各异，显式将模子拉向正确轨迹、推离造作轨迹。这让 RL 更新不再仅依赖高噪声奖励信号，而是迥殊得到了一层更矫健的相对对皆治理。

换句话说，GAL 的作用并不是浮浅"再加一个 loss "，而是在 RL 更新过程中充任一个动态的方差阻止项。

若是从表面上转头 DYPO 的策画逻辑，它其实是在分别处理 SFT 和 RL 的两个中枢颓势：

多老师蒸馏针对Hard 样本，缓解 SFT 的高偏差问题。多个 teacher 的组合可对消个体偏差，2026世界杯官网入口使举座监督偏差随 teacher 数目加多而下跌；

GAL 针对Mid 样本，处置 RL 的高方差问题。搀杂方针的梯度方差严格小于纯 GRPO，且随模子区分轨迹才略的擢升，GAL 自己的方差还会进一步自然衰减。

由此可见，DYPO 并不是浮浅把 SFT 和 RL 拼起来，而是在结构上把"高偏差监督"和"高方差强化学习"分别放到最合适的样本上处理。也正因为如斯，它更像是一种从头组织后查验过程的形势，而不单是是一个新的查验手段。

△ 图 3：GAL 的直不雅机制

如图 3，它愚弄合并组 rollout 中依然出现的正负样本，把模子往正确轨迹标的拉近，同期把造作轨迹往外推开。

施行着力

征询团队在数学和逻辑推理场景开展施行，基础模子包括Qwen2.5-Math-7B 和 Qwen3-4B-Base，评测任务消除 AIME 2024/2025、AMC、MATH-500、Minerva，以及更偏踱步外泛化的 ARC-c 和 GPQA-Diamond。

对这类责任来说，分数自然蹙迫，但若是只看最终着力，很容易把 DYPO 矫健成"又一个作念得更高的查验手段"。真恰巧得看的，其实是它到底赢在什么场地。

在Qwen2.5-Math-7B上，和传统SFT → RL规章 pipeline 比拟，DYPO：

五个复杂推理 benchmark 上的对等分从47.7擢升到52.5，对应4.8个点的擢升

在 OOD 任务上，对等分从48.3擢升到61.6，对应13.3个点的擢升

这一擢升并非依赖单一任务冲高，而是举座发达更矫健。尤其是在GPQA-Diamond这种更垂青移动推理才略的任务上，DYPO 取得了表中最佳的着力，这证明它学到的并不单是更靠拢查验踱步的模板。

△ 图 4：Qwen2.5-Math-7B 上的举座着力对比

如图自满，DYPO 在复杂推理和踱步外任务上都发达出较强的轮廓上风。

在Qwen3-4B-Base上，访佛的趋势依然存在。DYPO：

在 ID 任务上的对等分达到66.9，赫然高于SFT → RL的56.1；

在 OOD 任务上，对等分达到68.5，也高于后者的 52.6。

这证明它的收益并不单依赖某一个特定 backbone，而更像来自这套动态分流机制自己。

此外，消融施行进一步考证了要津有用性。

许多时候，一个要津看起来更强，偶然是因为要津自己，也可能只是 teacher 更强、数据更好。

但在这项责任里，即便把第二个 teacher 换成比原老师 deepseek-R1 更弱的 Qwen3-8B 模子，DYPO 依然能把AIME 25从22.0擢升到27.8，把GPQA-Diamond从30.8擢升到39.4。

这意味着它的擢升并不单是来自"多喂了一些更强 teacher 的数据"，而是背面这套动态路由与低方差优化自己确乎阐扬了作用。

除了最终着力，征询还考证了 DYPO 的查验矫健性。

作家分析了查验过程中离线数据占比、reward 和战略熵的变化。

一个很有道理的表象是，DYPO 并不是一上来就把模子推向更强的探索，而是跟着才略擢升，渐渐缩短对监督信号的依赖，让查验自然从"更靠 teacher 扶着走"过渡到"更依赖战略我方探索"。

这个过程有点像一种自稳健课程学习：先把基础稳住，再把探索空间逐渐放出来。

△ 图 5：查验动态分析

如图，跟着查验鼓吹，DYPO 会渐渐减少对离线监督的依赖，同期保持相对健康的战略各样性。

再看梯度范数。

口头 GRPO 的梯度弧线会有比较赫然的剧烈颤动，而 DYPO 的弧线要平滑得多。这种各异看起来像是查验细节，但背后对应的其实是一个很本色的问题：若是梯度一直在大幅舞动，查验就更容易发散，也更难把学习率和优化战略设得积极。

DYPO 在这里发达出的矫健性，正好证明它对 RL 那部分高方差更新作念了有用治理。

△ 图 6：梯度范数对比

如图 6，和口头 GRPO 比拟，DYPO 的更新轨迹更平滑，也更容易保持可控。

转头

DYPO 不是在解释 SFT 和 RL 不错一皆用，而是在修起它们到底应该奈何一皆用。它提供的，是一种更像"查验组织形势"的念念路。

星空体育(中国)官方网站

过往征询已顽强到，单纯依赖监督粗略单纯依赖强化学习，都不及以把大模子推理才略往前再推一大步。但中枢难点并非策画方针函数，而是不同阶段、不相同本暴显现来的学习信号自己就不一样。

DYPO 的中枢孝敬，是将优化逻辑前移：先判断样本学习阶段，再匹配优化旅途。这么一来，SFT 庄重把模子扶稳，RL 庄重让模子赓续往外探索，而非无别离地搀杂两种信号。

自然，这项责任也有其施行领域。

当今主要考证的是数学与逻辑推理场景，对洞开式对话、创作类任务是否相同有用，还需要进一步不雅察；同期，为了矫健忖度样本难度，查验时每个 prompt 需要生成 8 条 rollout，这也意味着迥殊算力支出。

关于大模子推理才略增强来说，这也许不是至极，但 DYPO 无疑提供了一个值得连接鼓吹的新标的。

Arxiv Link: https://arxiv.org/pdf/2604.08926

Github Link: https://github.com/Tocci-Zhu/DYPO

一键三连「点赞」「转发」「堤防心」

谅解在褒贬区留住你的主张！

— 完 —

咱们正在招聘别称眼疾手快、体恤 AI 的学术剪辑实习生 � �

感趣味的小伙伴谅解体恤 � � 了解细目

� � 点亮星标 � �

科技前沿进展逐日见FIFA世界杯官方合作指定网站

2026FIFA世界杯中国官网

FIFA世界杯官方合作指定网站当SFT遇上RL：基于样本学习阶段的动态战略优化机制

世界杯官网

世界杯赛程

世界杯积分榜

世界杯直播

世界杯最新消息

友情链接

FIFA世界杯官方合作指定网站 当SFT遇上RL：基于样本学习阶段的动态战略优化机制

世界杯官网

世界杯赛程

世界杯积分榜

世界杯直播

世界杯最新消息

友情链接

FIFA世界杯官方合作指定网站当SFT遇上RL：基于样本学习阶段的动态战略优化机制