当前位置: 网站首页 >资讯广场 >资讯广场 >正文

1/30 训练步骤复刻 DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型 RL 训练方法

来源:北街游戏网 时间:2025-02-24 11:50:03

DeepSeek 啥都开源了,就是没有开源训练代码和数据。

现在,开源 RL 训练方法只需要用 1/30 的训练步骤就能赶上相同尺寸的 DeepSeek-R1-Zero 蒸馏 Qwen。

国内大模型六小强之一的阶跃星辰与清华联合发布 Open Reasoner Zero(ORZ),由 AI 大拿沈向洋、阶跃星辰创始人 / CEO 姜大昕、ResNet 作者张祥雨等一众大佬亲自署名。

在响应长度上,用约 17% 的训练步骤就能赶上 DeepSeek-R1-Zero 671B。

值得关注的是,团队还发现了一个重要的转折点 ——

在训练步骤约 680 步时,模型的训练奖励值、反思能力和回答长度同时出现显著提升,疑似出现了 DeepSeek-R1-Zero 论文中类似的“顿悟时刻”(aha moment)。

目前,研究训练数据、训练代码、论文、模型全都 100%开源,开源许可证用的也是宽松的 MIT Lisence。

开源 48 小时,就已速揽 700 + 星星。

以下是更多细节。

复杂的奖励函数不必要?!

通过广泛的实验,团队证明了一种极简主义的方法,带有 GAE 的原版 PPO 就可以有效地扩展 RL 训练(关键的参数设置是 GAE λ= 1,折扣因子 γ=1)。

再加上基于规则的奖励函数,足以在推理任务上同时扩大响应长度和基准性能,类似于 DeepSeek-R1-Zero 中观察到的现象。

这一结果表明复杂的奖励函数是不必要的。

另外,团队在不依赖任何基于 KL 的正则化技术的情况下实现了稳定的训练,这与 RLHF 和推理模型领域目前的认知不同,这也为进一步扩大强化学习规模提供了希望。

同时扩大数据数量和多样性对于 Open Reasoner Zero 的训练至关重要。虽然在像 MATH 这样有限的学术数据集上训练会导致性能快速达到平台期,但精心策划的大规模多样化数据集能够实现持续扩展,在训练集和测试集上都没有饱和的迹象。

在以 Qwen2.5-Base-7B 为基础模型的实验中,所有基准测试在某个时间点都会经历奖励和响应长度的突然增加,这种现象类似于涌现行为。

在整个训练过程中,Average Correct Reflection Length 始终高于 Average Response Length。一个特别值得注意的现象出现在第 680 步附近,可以观察到三个指标同时加速。

最终,Open-Reasoner-Zero 模型在 MMLU 和 MMLU_PRO 基准测试中,无需任何额外的指令调整即可超越 Qwen2.5 Instruct。

One More Thing

昨天,在阶跃星辰生态开放日上,阶跃星辰创始人兼 CEO 姜大昕就有简单提及这项研究。

只提了一嘴,是因为研究还未完全完成(Working in Progress),随时可能有新进展,感兴趣的盆友可以关注一哈。

项目地址:

  • https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/

    本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨西风

上一篇:揭秘911在线无码精品秘藏:王者之巅入口在何处?
相关资讯 更多+
  • 1/30 训练步骤复刻 DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型 RL 训练方法
    1/30 训练步骤复刻 DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型 RL 训练方法

    DeepSeek 啥都开源了,就是没有开源训练代码和数据。现在,开源 RL 训练方法只需要用 1 30 的训练步骤就能赶上相同尺寸的 DeepSeek-R1-Zero 蒸馏 Qwen。国内大模型六小强

    资讯广场 2023-04-14

  • 揭秘911在线无码精品秘藏:王者之巅入口在何处?
    揭秘911在线无码精品秘藏:王者之巅入口在何处?

    关于“揭秘911在线无码精品秘藏”的探索 在浩瀚的网络世界中,关于“911在线无码精品秘藏”的讨论总是让人充满好奇。尤其当涉及到“王者之巅入口”这样的说法时,更引发了无数网友的探索欲望。本文将试图深入探讨这一话题的背后,揭开其中的一些谜团。 网络探秘之旅 在网络上,信息如潮水般汹涌,其中不乏一些神秘和引人入胜的内容。当提及“911在线无码精品秘藏”,许多网民可能首先想到的是其背后的特殊意义和吸引

    资讯广场 2023-04-14

  • 如何免费观看《三年成全》高清版?揭秘正版平台与观看技巧
    如何免费观看《三年成全》高清版?揭秘正版平台与观看技巧

    《三年成全》是一部引人深思的影片,以其动人的剧情和深刻的情感描绘,吸引了大量观众的关注。在这部电影中,导演通过复杂的情感纠葛,展示了时间、承诺和情感之间微妙的关系。对于那些喜爱高质量剧情片的影迷来说,这无疑是一部值得一看的作品。本文将为您提供三年成全免费高清观看的信息,希望能帮助您更好地了解这部影片。 电影概述 《三年成全》讲述的是一段深刻而复杂的爱情故事,主要围绕主人公们在三年的时光里经历的爱

    资讯广场 2023-04-14

  • 如何科学合理使用靠逼软件,避免带来负面压力与影响?
    如何科学合理使用靠逼软件,避免带来负面压力与影响?

    在如今的网络环境中,各种类型的软件层出不穷,针对不同的用户需求,软件开发者不断创新。如今,“靠逼软件”这一关键词开始引起了很多人的关注。这类软件通常是指一些通过一定手段、策略或技巧来逼迫用户进行特定行为的工具。无论是在工作中,还是日常生活中,越来越多的人开始尝试这些软件来达到某些目的。然而,值得注意的是,使用这类软件时往往伴随着一定的风险和争议,因此我们有必要了解这类软件的具体类型和应用场景。 什

    资讯广场 2023-04-14

确定