中文完整版: 梁文锋Nature论文的同行评审和团队回应- 上

小小MT4 来源:市场资讯 °C 栏目:MT4下载

  来源:Web3天空之城 整理: 天空之城|城主

  同行评审文件

  DeepSeek-R1:通过强化学习激励大语言模型的推理能力

  通讯作者:Yu Wu 博士

  本文件中的任何删节旨在保护患者机密性、未公开数据的保密性,或移除第三方材料。

  本文件按版本顺序列出了所有审稿人的评审报告,随后是所有作者按版本顺序进行的答复。

  版本 0:

  审稿人评论:

  审稿人#1

  (致作者的评论)

  关键成果

  先前的工作已经表明,如果让大型语言模型(LLMs)在生成答案之前先生成其推理过程,它们在涉及数学或逻辑推理的任务上可以取得更好的性能。先前引导LLMs生成推理的方法包括提示工程(例如在LLM的输入后附加字符串“让我们一步一步地思考”)和在包含推理示例的训练数据上进行监督微调。这篇论文的主要贡献在于,他们展示了仅使用强化学习来教导大型语言模型进行推理的可能性,无需依赖提示工程,并且极少依赖人类数据,例如人类示范和奖励标签。

  这是一篇对语言模型后训练(post-training)做出基础性贡献的论文,它展示了通过强化学习且无需人类干预即可实现专家级推理的可能性。其最终模型DeepSeek R1,在各项评估基准上达到了最先进的性能,并已在我所在学科的研究人员中引起了巨大的反响。话虽如此,论文中对于确切训练数据混合的透明度不足可能会限制这项工作的可复现性,并且模型开发过程中的许多决策并未得到解释其有效性的实证结果支持。

  原创性与重要性

  据我所知,这是第一篇展示了在不先进行监督微调的情况下,仅使用强化学习就能有效训练LLMs进行推理的论文。

  作者并未声称其采用的实际强化学习方法——组相对策略优化(GRPO)——是一项新颖的贡献。然而,GRPO是由同一组作者在2024年4月的一份未发表的arXiv预印本 https://arxiv.org/pdf/2402.03300 中引入的。

  我认为,如果这篇《自然》论文也能将GRPO的功劳归于自身,并向读者介绍这种方法,其分量将大大增强。

  从论文中不清楚第4节描述的蒸馏技术是否是一项新颖的贡献。之前是否有其他工作通过使用一个已经训练好具备这些技能的更强LLM所生成的数据集,来微调预训练的LLM,使其具备指令遵循/推理能力?如果有,这一节应该描述这些先前的工作,并解释DeepSeek-R1蒸馏所采取的方法有何不同。如果没有,这一节应该更清楚地说明这种类型的蒸馏是一项新颖的贡献。

  数据与方法论:方法的有效性

  作者报告称,在强化学习训练的全过程中,推理能力(以AIME准确率衡量)和思考过程的长度都在稳步增长(图1)。如果模型只是学会了变得更啰嗦和“更全面”,它就能更好地推理,这本身并不令人惊讶。我希望看到作者设计一个实验,以区分模型收益是来自于真正学习到更好的推理技巧,还是仅仅学会了变得更啰嗦。

  AIME上的一致性表现在约8000步后趋于平稳(图1)。最好能讨论一下这可能是为什么。

  GRPO与PPO非常相似,一个显著的区别是使用样本而非评论家(critic)来估计优势(advantage)。我想知道R1-Zero的卓越成果是依赖于GRPO这一特定选择,还是其他算法如PPO也能奏效。

  我想知道作者是如何设计DeepSeek R1的后训练流程的(图2)。为什么有必要将训练分为两个SFT+RL阶段?虽然我意识到这个决定在工业界的LLMs中并非独一-无二(例如Llama也做了类似的事情),但如果能让读者了解决定进行多轮后训练背后的动机,那仍然会很有用。

  数据与方法论:呈现质量

  第一段提出了两种增强LLMs为问题答案生成推理的方法:少样本提示和使用像“让我们一步一步地思考”这样的简单提示。这一段没有讨论在推理数据上进行监督微调的方法。然而,第二段则假设读者了解监督微调是引入推理的“传统”技术。

  第二段描述了所提出的系统是如何建立在DeepSeek-V2-Base之上的,但没有解释这个模型是什么。这里需要加一句话,解释DeepSeek-V2-Base是一个在多种非结构化英文和中文文本数据上进行过预训练的语言模型。

  AIME基准测试在第6页被描述之前,已在文中被多次提及(图1,第4页第一段)。如果能有一个类似于论文《更大且更具指导性的语言模型变得不那么可靠》中表2的表格,将有助于向读者展示推理任务的真正含义。

  如果GRPO对新模型的成功至关重要,那么它应该被更详细地描述(即,应该将A1.1的高层次版本添加到正文中)。更普遍地说,作者不应假设读者理解强化学习和监督学习之间的区别、“传统监督微调”是什么样子,以及为什么RL与SFT相比“极少依赖人类标记工作”。引言部分如果能扩展以包含更多的初步知识,将会受益匪浅。

  统计的适当使用和不确定性的处理

  考虑到训练LLMs的高昂成本,期望进行多次重复实验是不合理的。

  然而,图3和表3如果能解释性能上的哪些差异是统计显著的,将会更好。例如,在图3中,AIME 2024中前两个柱状图的性能差异是否具有统计显著性?

  结论:鲁棒性、有效性、可靠性

  论文的一个主要论点是,仅使用强化学习就可以让语言模型有效地执行推理。这一论点应该通过一个实验来支持,该实验比较了用强化学习训练的语言模型系统(R1和R1-Zero)与不使用强化学习的系统(例如,使用提示方法的系统,或只经过监督微调的模型)。图3中的条形图应扩展以包括一些这些额外的基线。

  第6节声称“奖励信号与多样化数据分布的整合使我们能够开发出一个不仅在推理方面表现出色,而且还优先考虑有用性和无害性的模型。”然而,没有实验结果显示来支持关于“有用性和无害性”的说法。所有的实验结果都集中在推理任务上。

  建议改进:

  图2令人困惑,如果有一个长标题来解释发生了什么,会很有帮助。“DeepSeek V3 Base”和“DeepSeek V3”(左上和中上的紫色方框)之间有什么区别?我在论文中除了这张图之外,找不到任何提及“DeepSeek R1 Dev”的地方。如上所述,如果在结果部分能看到“DeepSeek R1 Dev”和“DeepSeekR1”性能的比较,以便理解第二阶段的SFT/RL如何提升性能,那就太好了。

  在第4页,作者应该解释当他们提议从监督微调阶段消除混淆因素时,他们指的是哪种混淆因素。

  在第3节的第二段,应该解释“人性化冷启动数据”是什么意思。

  在讨论DeepSeek-R1-Zero有时会生成中英文交替的内容时,论文假设读者知道DeepSeek V3 base是在中英文混合数据上训练的。这一点应该明确说明。

  拼写错误

  第4页第6行,“technical”应为“technique”。

  第3节第3行,“use”应为“uses”。

  第6页最后一行应读作“questions and brainstorming. The detailed evaluations are in appendix B.”

  清晰度与上下文:

  摘要写得很好,清晰地描述了论文的关键贡献。

  我对上文记录的、一些没有实验结果支持的论断数量表示担忧。

  审稿人#2

  (致作者的评论)

  尊敬的作者,请看下面我们对您DeepSeek-R1手稿的评论。我们建议在解决一些关于训练数据报告的局限性(见数据与方法论部分),以及对图表和正文部分内容进行一些澄清(见建议改进部分)后,发表该手稿。

  ## 关键成果总结

  作者引入了一种新颖的后训练方法来提升LLMs的推理能力,并展示了它通过两个6710亿参数的模型——DeepSeek-R1-Zero和DeepSeek-R1——产生了最先进的结果。DeepSeek-R1-Zero表明,使用可验证奖励的强化学习可以在预训练语言模型中引导出长思维链推理,而无需大规模的人类标注或像MCTS这样的辅助搜索方法。作者通过DeepSeek-R1扩展了这一方法,该模型使用多阶段训练来匹配人类专家和像OpenAI o1这样的专有模型在广泛基准测试中的表现。这项工作的一个重要贡献是开放了DeepSeek-R1-Zero和DeepSeek-R1的权重,以及六个从DeepSeek-R1蒸馏而来、参数范围从15亿到700亿的额外模型。作者详细描述了他们的大规模训练流程、基础设施、数据集混合和超参数配置。

  ## 原创性与重要性

  这项工作是首次详细描述训练大规模推理模型的方法论。先前的研究如 和 已经探索了提升语言模型(包括预训练模型)推理能力的方法,但对于强化学习相比于监督微调等更简单的离线方法的有效性得出了不一致的结论。此外,R1和蒸馏模型的发布标志着AI研究领域的一个重要里程碑,因为这是首次有开放权重的模型匹配或超过了最新专有模型的性能。通过公开这些模型并提供其训练细节,我们期望研究社区能利用这一基础,迅速推动推理模型的发展。

  ## 数据与方法论

  在附录A.4中,作者描述了用于训练他们模型的数据。总的来说,我们发现这些描述不够详细,无法复现论文的主要结果,我们希望看到更多关于这些数据集的统计信息以及用于从像DeepSeek-V3这样的模型生成它们的提示。请参考 [3-4] 中的数据集描述以获取良好示例。

  特别地,我们希望能有更多关于以下方面的信息/澄清:

  方法论:

  • • 在第4节(第7页),作者声称他们“使用通过DeepSeek-R1策划的800k样本对Qwen和Llama等开源模型进行了微调,详见附录A.4”。然而,从附录A.4和图2中不清楚用于蒸馏的数据是采样自R1、R1-Zero、DeepSeek-V3,还是三者的混合。请澄清。

  RL数据:

  • • 我们希望看到一个数据集统计表格,详细说明:

    • • 每个STEM领域(物理、化学、生物)使用了多少提示。

    • • 代码数据中包含了哪些编程语言及其比例。

    • • 四个类别(数学、编程、STEM和逻辑)的平均输入token数是多少。

  • • 希望看到关于是否每个提示都有一个用于验证的值输出的描述。例如,数学证明是否被排除了?

  • • 代码问题是如何验证的?是通过测试用例(成功率)还是其他方式?奖励是二元的,还是与通过的测试用例比例相关?

  SFT数据:

  • • DeepSeek-R1冷启动(第12页)

    • • 作者声明“我们构建了少量长CoT数据”。这些数据是如何收集的?“少量”是多少?

  • • 如果能包含用于“优化推理和摘要以确保格式正确和表达人性化”的DeepSeek-V3提示,将会很有帮助。

  • • 作者声明对于“代码数据,我们收集了大量竞争性编程问题”。请定义“大量”是多少,以及来自哪些来源。

  • • 分享用于生成测试用例的提示会很有帮助。

  • • “实际提交”过滤测试用例是什么意思?它指的是通过测试用例验证的模型输出,还是通过像CodeForces这样的平台?请澄清。

  • • 包含用于增强推理的提示会很有帮助。

  • • 推理数据(第12-13页):

    • • LLM裁判使用了什么提示?

  • • 非推理数据(第13页):

    • • 如果能看到用于遵循关键原则的提示,那就太好了。

  • • 奖励建模 - 作者能否提供更多关于他们用来训练奖励模型的数据的细节?

  ## 统计的适当使用和不确定性的处理

  不适用

  ## 结论

  自从DeepSeek-R1和蒸馏模型开放权重以来,当前工作的许多主张已随后被研究社区验证。例如,在R1-Zero训练中观察到的“顿悟时刻”已在 中以较小规模复现(但请看,其中显示“顿悟时刻”可能很大程度上是基础模型质量的一个表征)。同样,六个蒸馏模型的评估指标已通过像 这样的努力被独立复现,而像 这样的工作表明蒸馏R1轨迹能产生强大的模型。基于这些发现以及作者呈现的研究质量,我们相信其结论是稳健的。

  ## 建议改进

  • • 在第1节引言中,作者指出“当参数超过某个阈值后,扩展的回报会显著减少”。请提供参考文献。

  • • 在引言中,他们说他们在RL之前绕过了传统的SFT,但V3的预训练在一个冷却阶段包含了SFT数据(如今这很常见)。

  • • 最好能定义pass@1是如何估算的。

  • • 第4页,“self-consistency technical” → “self-consistency decoding”。

  • • 对于蒸馏模型,为什么除了Llama 70B(这是一个指令模型)之外,他们都使用了基础模型?如果是这样,为什么他们为这个案例选择了一个指令模型?

  • • 对于GRPO,没有解释使用了多少次迭代/进行了消融(即, 中的μ值是多少)。请澄清。

  • • 关于奖励模型的更多信息会很好。比如大小、数据类型、超参数等。

  • • 对于pass@1,作者说他们根据评估每个提示使用4到64个样本。为了可复现性,最好能确切知道每次评估使用的N。

  • • 在第3节第二段,“DeepSeek-R1的流程如图2所示。在初始阶段,我们为DeepSeek-R1收集了数千个冷启动数据”。我们的理解是冷启动数据是采样自DeepSeek-R1-Zero。请澄清。

  图表:

  • • 对于所有图表 - 请增加所有图的字体大小/缩放比例,使其更易于阅读。

  • • 图1 - 子图b。在约8.2k步观察到性能的大幅跃升,这是否对应于配置的变化,如最大序列长度、批量大小或其他超参数配置?

  • • 图1 - 子图b,如果数据可用,是否可以包含最小/最大响应长度?

  • • 图2:此图和文本部分暗示在RL阶段之前需要对CoT/SFT进行冷启动训练,但摘要声称您“提出了一个完全通过大规模RL训练而无需依赖监督微调的新颖框架”,请澄清。

  • • 图2:此图表明还有另一个模型“R1-dev”,但我们认为作者指的是“R1-zero”?

  • • 图3 - 虽然AIME24和Codeforces基准都显示R1-Zero和R1之间的性能有所提升,但在GPQA diamond基准上性能有所下降,作者能否对此提供一些见解?这是否与数学和代码使用验证器,而不可验证领域使用较弱的奖励模型有关?

  ## 参考文献

  请在修订版本中考虑以下参考文献(上下文见上文内容)。

  A Study on Improving Reasoning in Language Models.https://openreview.net/forum?id=tCZFmDyPFm

  Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models.https://arxiv.org/abs/2312.06585

  Training language models to follow instructions with human feedback.https://arxiv.org/abs/2203.02155

  Llama 2: Open Foundation and Fine-Tuned Chat Models.https://arxiv.org/abs/2307.09288

  TinyZero.https://github.com/Jiayi-Pan/TinyZero

  There May Not be Aha Moment in R1-Zero-like Training — A Pilot Study.https://oatllm.notion.site/oat-zero

  Open R1.https://github.com/huggingface/open-r1

  Open Thinker.https://www.open-thoughts.ai/blog/scale

  DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.https://arxiv.org/pdf/2402.03300

  ## 清晰度与上下文

  总的来说,摘要清晰易懂。然而,作者提出的一些主张需要澄清。例如,作者声称他们“提出了一个完全通过大规模强化学习训练而无需依赖监督微调的新颖框架”,但最终在RL步骤之前使用了冷启动的思维链数据进行SFT。如果能明确阐述R1-Zero和R1训练之间的区别,将提高可读性。

  引言和结论的文本是清晰的。我们唯一的建议是为未来可能的研究方向提供一些结束语。

  此致,

  Lewis Tunstall 博士和 Edward Beeching 博士

  审稿人#3

  (致作者的评论)

  LLMs作为通用系统1提示补全器的成功,引发了一场竞赛,看是否能让某个版本的LLMs也以足够的准确性解决推理和规划问题。

  Deepseek-R1模型及其附带的论文在AI社区产生了相当大的影响,因为它是第一个被公开描述的大型推理模型。[虽然o1比它们更早,但OpenAI选择保密其方法以及中间token——因此对于o1实际上做了什么没有清晰的概念。]

  虽然我很欣赏DeepSeek将大型推理模型(LRM)的发展带入开放科学,并相信这篇论文的某个版本确实值得在《自然》上发表,但我确实认为当前的论文需要一些重要的修改/澄清,才能使其配得上在《自然》上发表。

  我将我的担忧罗列如下:

  1. 1.[将中间token拟人化为“推理轨迹”]在我看来,这篇论文在拟人化方面做得过火了——关注于R1中间token的“类人”性质。鉴于所有的评估都只针对最终答案,而不是中间token(即所谓的“推理轨迹”),对中间token的关注似乎是错位和误导的。实际上,R1-zero和R1之间的变化似乎主要是为了让中间token模仿人类式喃喃自语的风格。从未清楚表明R1的喃喃自语——虽然可能更“可读”——比R1-zero的在语义上更有连贯性——除了R1坚持使用“英语”这一事实。(毕竟,许多类型的伪推理过程——包括蒙提·派森的逻辑——都非常“可读”但没有语义)。

    鉴于在R1-zero或R1中(就像在o1/o3模型中一样)都没有任何先验保证解决方案是正确的,对推理轨迹的“类人”性质的关注实际上可能导致对最终解决方案产生不应有的信任。

    我强烈敦促作者修改文章,以减少这种拟人化。

  2. 2.[RL vs. 基础模型]虽然我理解作者将RL视为R1能力的重要来源,但尚不清楚R1是否真的被用来发展“推理轨迹”/中间token。我仔细阅读后发现,(1) 基础模型在最终解决方案之前已经具备生成中间token的能力。(2) RL阶段基本上是在备选的“中间token-最终解”对之间进行选择(使用外部验证器),并使用策略梯度来使基础LLM偏向于那些对(有效地增强那些似乎能导向正确解的中间token)。如果是这样,那么RL和SFT方法之间的区别可能并不像论文所说的那样鲜明。特别是,一种迭代的SFT方法很可能与RL具有竞争力。蒸馏结果已经暗示了这一点。如果论文能更清楚地阐述这一点,将会很有用。[考虑到之前有过高估RL作用的先例——比如RLHF/DPO的情况,这一点就更加重要了。]

  3. 3.[预训练基础模型中的“推理轨迹”数据量:]论文通过说R1在RL之前使用外部推理轨迹数据进行SFT阶段,而R1-Zero没有,来区分R1-Zero和R1。但这有点误导,因为它看起来好像R1的基础模型从未接触过推理轨迹数据。如果是这样,基础模型一开始就永远无法生成以解决方案猜测结尾的备选轨迹。RL或SFT阶段之所以能起作用,似乎至少部分归因于基础模型已经在足够多的推理轨迹数据上进行了训练,从而能够生成RL可以从中选择的合理备选方案。如果论文能尽可能清楚地解决这个问题,那就太好了。显然,解决这个问题的最佳方式是对训练基础模型所用的数据更加坦诚。我意识到没有一家大公司这样做(除了AI2及其OLMO系列模型)。当然,DeepSeek可以比现在更透明地公开其预训练数据——尤其是因为这将有助于更好地理解R1能力的来源。

  4. 4.[验证器的重要性]我越想越觉得,R1中真正的力量来源似乎不是RL与SFT之争,而是来自验证器的关于哪个备选解决方案实际上是正确的强信号。这在训练阶段和后来的蒸馏阶段都有帮助。R1的合成数据几乎完全依赖于数学和编程问题,这些问题存在外部可靠的验证器,这一事实似乎为这一点提供了佐证。如果能在论文中更突出地阐述这一点,将会很有帮助。

  5. 5.[测试时计算]我不确定我是否接受R1进行测试时计算的说法——它当然似乎没有进行任何适应问题复杂性的测试时计算。据我从论文中所知,R1在推理时的行为就像一个正常的LLM——基本上是输出中间token,直到它输出中间token的结束符,然后切换到输出解决方案token。作者自己也说R1与从它蒸馏出来的标准LLMs没有区别。中间token的长度各不相同,这与标准LLMs中输出的长度根据提示而变化没有区别。在我看来,为R1使用测试时计算的术语不必要地混淆了问题(特别是考虑到作者确实在附录中描述了像MCT这样的真实自适应测试时计算策略的实验)。我鼓励作者考虑修改文章,以便让R1在推理阶段只是一个LLM这一事实变得清晰。

  6. 6.[在大型模型上进行蒸馏:]论文的蒸馏结果未回答的一个问题是,如果不是将R1蒸馏到更小的LLMs上,而是用R1的解决方案(带有中间token)来训练R1自己的原始基础模型,会发生什么。这将为RL部分是否真的在做比基本上是选择R1的基础LLM已经有能力产生的备选轨迹更有意义的事情提供有价值的信息。

  审稿人#4

  (致作者的评论)

  我与提供所列报告的其中一位审稿人共同审阅了这份手稿。

  审稿人#5

  (致作者的评论)

  我与提供所列报告的其中一位审稿人共同审阅了这份手稿。

  审稿人#6

  (致作者的评论)

  A. 关键成果总结

  R1-zero是纯粹RL(使用最近高效的GRPO算法,去年引入)应用于足够好的、能从思维链(CoT)中受益的预训练LLMs的第一个明确的成功案例(至少是公开的)。具体来说,这篇论文建立在作者的Deepseek V3(基础)之上,并使用了一个由数学(26k)、编程(17k)、错误修复(8k)、STEM(22k)、逻辑(15k)、有用性(66k)和无害性(12k)混合组成的“RL数据”集。总共166k个问题和一个带有基于规则的奖励(正确性和格式)的直接RL算法,足以将一个传统模型V3,转变为一个更好的“推理”模型,名为“R1-zero”。然而,一旦R1-zero被证明可以通过在输出摘要响应之前进行更长但更强大的思维链审议来改进推理问题,R1-zero就表现出奇怪的行为和思维链的低可理解性,例如混合语言,并且在其他(非推理)领域可能表现出较低的指令遵循能力和性能。

  论文中只有一个案例证明这种“简单”的RL方法可以用于除Deepseek V3(基础)之外的LLMs,该模型总共有671B参数(每个token激活37B)。附录中的表B3显示了将“Zero”方法应用于Qwen 32B。结果很好,所以看起来纯RL“Zero”方法至少对两种情况有效。

  由于Zero方法的局限性,作者构建了R1,基于冷启动数据和一些其他优化,以产生更好、更易理解的思维链,并恢复甚至提高其指令遵循能力和性能。这分两个阶段进行:首先,使用精心制作且用户可读的思维链进行冷启动,使用SFT(此数据集的大小未公开)加上RL阶段。其次,使用800K训练样本(600K推理和200K非推理)进行更多SFT,然后是另一个RL阶段(图2)。

  R1-zero在科学上更有趣,因为它展示了RL如何直接起作用(当然是以CoT提示为条件,在非常好的模型如Deepseek V3或Qwen 32B上最低限度地工作),而R1更像是一个为可用性而设计的精炼“产品”。冷启动确保了思维链在过程开始时的质量。这可能解释了为什么纯RL方法以前没有成功:模型不够强大,但没有冷启动的Qwen 32B似乎也能工作。所以为什么现在能成功还没有完全阐明。

  对于研究和政策影响也非常有趣的是蒸馏模型。作者表明,即使将推理能力转移到其他模型并且参数数量减少,大部分推理能力仍然可以保留。

  B. 原创性与重要性

  如上所述,这是纯粹强化学习直接在LLMs上使用思维链的第一个公开示例。他们所谓的“纯粹”是指使用最近优化过但仍是标准的RL算法GRPO进行自我演进,使用166k个监督样本(对于zero版本,无需见过预训练之外的任何思维链)并在最后看奖励(加上一些格式奖励)。这与迄今为止RL依赖于监督微调(例如RLHF)的标准方法不同。R1-Zero结合了AI中的几项主要技术和范式:基于transformer的LLMs、强化学习和自我博弈/演进(Alpha(Go)-Zero)。DeepSeek-R1-Zero是其结果(因此得名),但它带有一些局限性。

  他们的“基于规则”的模型不依赖于为每个单独的动作(在这种情况下是token)给予奖励,而只关注最终结果(解决方案是否与真实情况对应以及审议的格式是否具有一些理想属性),这与传统的奖励建模不同。之前没有人展示过这对于LLMs后训练如此有效,至少根据公开记录是这样。OpenAI的O1可能做了类似的事情,但我们无法知道,或者各种未报告的努力也尝试了这种带有基于规则奖励的“纯”RL,但最终失败了,也许是因为他们混合了“推理”和“非推理”任务。

  DeepSeek-R1结合了精心设计的思维链轨迹的冷启动(与AlphaGo在切换到AlphaGo-Zero之前使用的思路相似,但基于拒绝采样,这涉及到使用其他语言模型来修改和选择链),并且还增加了监督微调(SFT)到流程中。这部分原创性较低,尽管拒绝采样的细节(如何创建冷启动数据集)需要许多技巧(在A.4.2的四段中总结)。

  Zero方法的最初假设是“人类定义的推理模式可能限制模型探索”、“LLMs中的新颖推理能力”和“多样化和复杂的推理行为”。然而,从DeepSeek-R1-Zero到DeepSeek-R1的进展似乎是一种退步或妥协,它承认了精心策划的推理模式对于启动以及使推理对人类可理解的价值。但如果发现了这些新的推理模式,R1-Zero和R1在科学上都更有趣,就像AlphaGo对阵李世石的第二局中的第37手是人类永远不会下出的一手棋一样。因此,我们希望看到R1-zero(或R1)中超越或偏离标准人类推理的推理过程(混合语言的推理链在人类中并不少见)。阐释新兴的“新思维方式”将是对科学的重大贡献。

  最后,呈现DeepSeek-R1-Zero的第2节是论文中最令人惊讶的部分(RL直接起作用),而DeepSeek-R1则是一种更标准的方法,即在多个阶段和人类与LLM生成数据的组合中采用不同方法的精华。但第2节几乎没有细节,没有消融实验,也没有关于它为什么在这里起作用而在以前效果不佳的假设。这在多大程度上归功于新的RL算法(GRPO,本文未介绍)、使用的基础模型和RL数据的质量?我们真的无法知道。附录C讨论了失败的尝试,这应该被强调,但我们需要更多关于这种RL用于其他模型的例子,以及关于数据和其他条件的消融,以看它泛化得如何。这可能已经在世界各地的其他实验室中发生了,并且一些使用较小基础模型的论文(https://arxiv.org/pdf/2502.14768),但至少应该在这篇论文中进行一些分析,而不仅仅是表B3。

  他们在第4节末尾,特别是关于蒸馏模型(以及RL预期的更好性能)说,“这一发现对于普及AI访问具有重要意义,因为计算要求的降低和更广泛的社会效益的实现”。这鼓励了探索新的混合思想以及更复杂的LLM工程扩展法则(预训练、蒸馏和推理法则应被纳入考虑以寻找最优解)。

  然而,这篇论文增加了许多与LLMs和其他通用AI系统相关的风险。安全是一个主要问题,但没有模型卡,没有关于风险的细节,也没有关于有用性和无害性程序如何进行或安全测试如何进行的信息。由于这篇论文的潜在影响,作者有道义责任在这方面增加更多关于安全测试的信息。此外,应该有一个描述影响的部分,例如,使用RL创建危险的LLM,用成功的网络攻击数据对其进行优化有多容易?在这里,不仅需要安全测试,还需要模型所需的估计计算量。对于这篇论文,作者不仅需要发布带有安全保障的模型(DeepSeek-R1),该模型可以被证明是安全的(包括越狱分析和红队测试),而且还需要说明恶意开发者创建其他不安全模型有多容易。

  就结果而言,意义较小,因为这不是一个突破性的模型,至少与诸如OpenAI的o3之类的模型相比,但它非常接近前沿,并且可以为拥有更多计算能力的其他参与者带来显著的改进。然而,这必须受到评估方法论的疑虑的限制,即基准测试的饱和性能和污染的强烈可能性(见下文)。

  总而言之,思考时间与质量相当(推理法则),所以这肯定埋葬了以预训练计算作为能力代理的范式(在欧盟AI法案等法规中有所体现),并巩固了以OpenAI的o1与推理推理开始的新范式,但这是一个简单的流程,计算量低,并且在不久的将来有复制和适应的潜力。这些对监管的影响以及关于计算的更多细节将需要用来校准这些新模型及其背后技术的效果。

  C. 数据与方法论:方法的有效性,数据质量,呈现质量

  有许多主张要么是笼统的,要么没有证据支持(或两者兼有)。

  这始于关于本文所基于的现有技术水平的主张。例如,在引言中我们读到:“当参数超过某个阈值后,扩展的回报会显著减少”。我们有证据吗?详细的指针(或者如果他们有来自DeepSeek系列的结果)将会有所帮助,因为这在AI研究人员中仍然是一个激烈持续的辩论:目前尚不清楚纯粹通过更多计算、数据和参数数量的扩展是否会碰壁或继续扩展模型能力。

  他们在摘要中声称“在训练期间[出现]先进的推理行为,包括自我反思、验证和策略调整”。我们对这些行为有好的定义、例子和具体的测试来看看它们是否发生吗?这似乎没有得到支持,甚至没有在论文中通过轶事加以说明。

  许多其他句子应该被限定:“DeepSeek-R1在包括数学、物理、化学、生物和编程竞赛在内的推理密集型任务上实现了人类专家级别的性能”。这是不正确的:结果仅显示在某些特定基准上(一些或许多是多项选择)的平均准确率高于(专家)人类的平均或某个百分位数,并且这甚至不是对所有数据集都成立(GPQA)。首先,由于制作基准时的各种激励和约束(例如,易于收集数据、易于验证、多项选择、易于评估为二元分数等),所选的基准是数学/编程/物理/化学等领域的有偏见的代表。作者应该强调这种偏见,并寻找更多样化的基准来源,并评估分布外的情况,即,在预训练或RL/SFT过程中未见过的任务表述。其次,评估结果需要更多细节,而不仅仅是平均值。所有实例级别的结果都应该是可用的,以便其他研究人员可以进行消融和分解分析。了解性能在不同难度级别的问题上的表现也非常重要,因为可能Zero版本在难题上变得更好,但在与RL数据集无关的简单问题上开始失败。换句话说,这些R1模型(特别是蒸馏模型)在某些领域是否在简单问题上变得不那么可靠,同时在正式推理领域的难题上仍然表现出色?错误的分布方式对于理解性能的变化至关重要。这不是一场看哪个模型在排行榜上胜出的比赛,而是理解模型在哪些方面变得更好。第三,这些领域的人类专家水平是多少?硕士水平?我们至少需要一个关于如何选择“人类专家水平”的经验法则,否则人类“基线”是无意义的。在论文的其他部分,“专家”一词被删除了:“模型在包括数学、编程竞赛和STEM领域在内的不同领域实现了人类级别的性能”。

  让我们更深入地探讨评估方法,这是论文在能力、可用性和安全性方面最薄弱的部分。

  对于能力,报告的评估是相对标准的:对著名基准的一系列平均指标。这种方法有很多问题(参见,例如,https://arxiv.org/pdf/2502.06559),即使这种做法在许多AI研究场所的许多其他论文中都有分享。但鉴于这篇论文的潜在影响和《自然》的高标准,这篇论文应该进行更稳健的评估,即:

  结果仅以一些基准的平均性能给出,但尚不清楚这些基准衡量的是什么,以及百分比的真正含义。尺度是没有根据的,因为实例的难度没有被分析。因此,对于某些基准,从60%到70%的提升可能比从70%到80%的提升更有实质性,这取决于基准中难度的分布。考虑到准确率不能超过100%,超过70-80%的进展可能只是代表了对测试特性的专业化,同样,早期的百分比(低于30%)可能只显示了一些熟悉度和使用线索来解决它们。

  污染:由于污染问题,人们对主要前沿LLM实验室报告的评估结果普遍缺乏信任,但至少其他大型实验室的报告已经提到了这个问题。在这篇论文中,“污染”这个词一次也没有出现,除了一个基准的论文标题中[Jain et al. 2024])。这无助于我们对用于训练V3的“14.8万亿个多样化和高质量的token”一无所知。在披露整个数据集方面可能存在担忧,但至少应包括最低程度的透明度:是否有任何基准或非常相似的基准被包含在V3的训练集中。例如,“Pile”被用于测试V3,而很可能它的部分或全部被用于训练。此外,AIME数据在互联网上是公开的:https://www.kaggle.com/datasets/hemishveeraboina/aime-problem-set-1983-2024,评估中使用的许多基准也是如此。它们的许多问题很可能已经在网站甚至教科书上被讨论过,所以污染的概率非常高。例如,图1中的低起点并不能证明没有污染。基础模型DeepSeekV3可能已经记忆或抽象了许多步骤,但由于LLMs的性质,它可能无法将这些步骤按顺序排列。RL可能只是在做这件事。我不是说情况就是这样,但没有对污染进行适当的分析,就不能排除这种解释。

  • • 数据:不仅为了澄清污染的目的,对于了解所有相关数据的信息也至关重要。对于RL数据集的166K个例子的细节只是一个段落(A.4.1),而对于R1冷启动使用的800K个思维链例子的信息也不多(A.4.2)。测试中使用的基准与RL/冷启动/SFT数据中使用的基准有多相似?没有这个分析,以及一些分布外分析的使用,就不可能将结果视为实际能力的代表。假设其他模型提供商也在做同样的事情,这不是一个有效的论点,因为重要的不是是否存在污染(肯定有),而是与其他模型相比的污染水平的一些估计,或者再次,使用新鲜的、最好是OOD(分布外)的基准来有一些共同点。进入中国大陆的OpenAI的限制不是尝试用新基准(至少对于其他模型)或邀请一位在中国大陆以外机构工作的合著者或分包某人来运行实验并报告平均值的借口。

  与评估污染相关,但性质不同,我们想知道某些例子是否可能是使用其他公司的模型生成的,正如媒体所暗示的那样。我们没有任何其他迹象表明情况如此,但直接或间接(从基准或互联网上获取的数据)存在一种可能性,即用于训练或RL的数据集包括由OpenAI的模型或其他提供商生成的材料。这将使DeepSeek的模型成为OpenAI模型的部分“蒸馏”。

  可用性的分析和处理围绕着所产生的思维链的可理解性和“有用性”微调。在R1存储库上发布的论文中(https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf),同一作者说,“为了减轻语言混合问题,我们在RL训练期间引入了语言一致性奖励,该奖励计算为CoT中目标语言单词的比例。尽管消融实验表明这种对齐导致模型性能略有下降,但该奖励与人类偏好对齐,使其更具可读性”。这篇论文中的这些消融实验在哪里?我们在这篇论文中哪里可以看到这种“轻微的下降”?

  在可用性和对齐之间,我们只在第2页看到模型“与人类偏好对齐,展示了最先进的性能,这通过其在2025年1月在风格控制设置中在ChatBotArena(Chiang et al, 2024)上的最高排名得到证明”。ChatBotArena是常用的,但这并不意味着它是“与人类偏好对齐”的理想评估平台,因为用户的偏见以及“偏好”对人类真正意味着什么。例如,没有太多讨论为什么这个模型比市场上其他竞争的LLMs更“对齐”。

  最后,安全性在这篇论文中几乎被忽略了。包括“无害性”作为安全重塑的有用性和无害性的第二阶段,根本没有详细说明。作者在A.2.2,第10页说:“对于无害性,我们评估模型的整个响应,包括推理过程和摘要,以识别和减轻在生成过程中可能出现的任何潜在风险、偏见或有害内容。”如何?这一切在哪里?这甚至没有达到其他模型提供商的详细程度,而且权重共享使安全性变得更加关键。

  D. 统计的适当使用和不确定性的处理

  在学习/RL过程的不同点以及模型的几个变体和其他基线上给出了平均值。粗体仅用于在表格比较中突出显示最大的数字,但似乎没有为此进行统计检验。也许基准的大小使得这些差异在所有情况下根据适当的统计检验都是显著的,但这应该被说明。否则,应该进行检验。

  E. 结论:鲁棒性、有效性、可靠性

  有一个讨论部分,重点讨论了将RL直接应用于现有模型以使其更强大的影响,但对科学贡献的讨论不多。我们特别怀念关于当改变某些阶段的模型或数据集时技术有多鲁棒的信息,以及考虑到污染的影响和一种虽常见但较差的评估方法,结果有多有效。其中一些决定可能是报告宣布LLMs或产品的常见做法,甚至在一些AI场所变得普遍,但不符合一般领域科学出版物的标准,其中可复现性和实验设计是不可或缺的。

  这不仅是污染的问题,而且评估并非旨在实现有效性和可靠性。我们怀疑某些模型在某些选定基准上比其他模型更好意味着什么,以及这在现实任务中如何映射到分布之外。即使这篇论文不声称在能力方面超越现有技术水平,它也对这些模型有多强大提出了强有力的主张。我们不是说它们不是,而是论文需要更多证据来支持这些主张。

  我们怀念对这篇论文局限性的明确陈述。我们在附录中看到了对出错情况的解释,这对报告来说非常积极,R1-zero是第一个出现局限性的阶段,R1解决了其中许多问题。但可能还有其他一些局限性和未来的工作。实际上,作者自己,在R1存储库的论文中说,“DeepSeek-R1在软件工程基准上没有显示出比DeepSeek-V3的巨大改进”。为什么这没有在这篇论文中讨论?

  F. 建议改进:实验、数据以供可能的修订

  虽然作者声称他们“向研究社区提供全面的技术细节”,并且在某些方面这篇论文确实比许多其他实验室(特别是OpenAI、Google、Anthropic、Meta和Mistral)的可比模型提供了更多细节,但仍然普遍缺乏细节。

  我们建议以下改进:

  • • 关于数据的更多细节:来源、说明性例子、对数据或其样本的完全访问。一切有助于理解数据与结果有多相关的东西。

  • • 污染分析:对污染的全面分析,包括原始v3模型中使用的基准和类似材料、RL过程以及达到评估部分之前的所有其他中间步骤。此外,使用一些新鲜的基准和/或估计结果和思维链中污染比例。

  • • 对能力的更好估计,超越平均值:按实例难度分解结果、OOD分析、至少使用按推理难度注释的基准提取推理能力。

  • • 关于中间点的结果的更多细节,不仅是关于R1-Zero的RL曲线,特别是R1每个阶段的演变情况。

  • • 应包括一个恰当的相关工作部分,特别是涵盖AI中对推理的追求和已包括的技术,除了对CoT和相关技术的更好覆盖。这可以包括受到R1强烈影响的“追随者”论文(https://arxiv.org/pdf/2502.14768),以及它们的发现如何可能挑战本文中发现的一些趋势。

  • • 枚举局限性、挑战和未来工作的低垂果实,考虑到这些模型所代表的可及性的增加。

  • • 更多的扩展法则分析,不仅仅是推理时间的扩展法则(图1)。例如,我们希望看到一项发现“最佳模型大小”的扩展法则研究(如Llama 3论文,图3)。同样,除了推理的扩展法则,我们也希望看到蒸馏的扩展法则,遵循方法论或与以下文献进行比较:Busbridge, D., Shidani, A., Weers, F., Ramapuram, J., Littwin, E., & Webb, R. (2025). Distillation Scaling Laws. arXiv preprint arXiv:2502.08606.

  • • 关于成本的更多信息。我们读到RL训练会产生“高需求”。这应该用实际的时间和计算数据以及所用硬件的规格来明确,包括RL和R1-zero和R1的所有阶段的成本、蒸馏等。在DeepSeek v3论文中有一些信息,但这里没有包括。

  • • 安全性:这是必须解决的最重要的事情。我们希望看到一个模型卡,涵盖诸如公平性,还有对攻击的脆弱性、红队测试、风险级别等。我们也希望看到关于使用这项技术的担忧的讨论,特别是当模型已经开源可用时。

  对这些模型的能力、可用性和安全性的评估是领导该领域的人的道德责任,DeepSeek似乎将自己定位在那个空间,所以责任是重大的。在存储库论文中作者说:“我们将探索更全面和多维度的模型评估方法,以防止研究期间优化固定基准集的倾向”。我们希望在这篇论文中包括一些这种探索。

  作为上述所有建议变化的结果,我们还认为论文的结构应进行重大修订,遵循更经典的《自然》论文组织方式,将动机、结果、方法和细节在附录中分开。

  G. 参考文献:

  总的来说,关键参考文献都已包括,但如果修订版包括更多细节和相关工作部分,那么我们期望对先前工作的覆盖会更好,特别是在科学影响和整合来自AI的各种技术方面。

  对于涌现和扩展法则,引用了Wei et al. 2022a,但以下是一个关于此的更著名的引文,因为它开创了这一切:

  • • Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., ... & Amodei, D. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.

    但也应包括推理扩展法则和蒸馏扩展法则:

  • • Busbridge, D., Shidani, A., Weers, F., Ramapuram, J., Littwin, E., & Webb, R. (2025). Distillation Scaling Laws. arXiv preprint arXiv:2502.08606.

    应涵盖更多关于思维链方法的内容,以及基准,特别是评估方法。参考文献过于关注非常近期的报告模型和结果的论文,而不太关注科学应建立的技术和方法论,以及该领域的历史。

  H. 清晰度和上下文:摘要/总结的清晰度,摘要、引言和结论的适当性

  这篇论文写得很好,非常容易阅读,特别是主论文只关注关键思想和主要结果,并将细节留给附录。这是一个好的开始,但不符合我们期望看到的常规科学论文的标准,我们期望看到对事物为什么起作用、相关工作以及关于方法论、实施和结果的更多细节的更好分析。

  I. 关于代码可用性的评论

  权重在这里:https://github.com/deepseek-ai/DeepSeek-R1

  但RL代码不是,或者整个流程不是。这必须以安全原因或竞争力为由进行辩护,否则应为完全的可复现性提供。

  至少应提供完整的实验结果(在实例级别),以及使用的所有数据(或其样本),以便能够确定它们的组成和结果的影响。

  J. 更详细的评论

  在本节中,我们包括了更具体的评论,但解决或回复上述所有关键点的重要性并未因以下可能更简单解决的问题而减弱。我们按照论文中的章节进行,以便于定位。

  摘要:

  应避免诸如“先进智能”之类的术语。

  第1节。

  作者提到“从数学问题解决到逻辑推演和编程的复杂认知任务”,但“逻辑推演”一词不是一个任务,而是一个过程甚至一种能力。它与数学问题解决和编程不在同一层级。

  同样:“更广泛地接触智能”。最好改写为“更广泛地接触强大的人工智能”。

  第2节

  大多数细节都提到了附录,但解释AIME(美国数学邀请赛数据集),这是基准之一,表明他们将一个数学问题作为输入和一个数字作为输出,将有助于图1的解释,特别是在解释0.15-0.25左右的起始准确率、人类基线和“基于规则的奖励系统来计算准确率”时。许多读者可能不知道什么是思维链。因此,展示一个例子,关于所用基准的更多细节等,将有助于论文的可及性。

  在图1中,“人类专家”是什么?

  表2中的例子是从AIME中提取的吗?

  避免使用诸如“令人印象深刻”之类的词——探索更具体、科学上更精确的替代词。

  本节甚至没有提到基础模型是什么。引言说“我们建立在DeepSeek-V3-Base之上”,然后下一次它被命名是在第6页,在图2中,但有两个模型,DeepSeek v3 Base和DeepSeek V3(标准版?),所以我们不知道哪个用于R1-Zero以及为什么。应提供关于此模型的完整细节,或一个简短的摘要,并附上一个链接,指向提供所有这些信息的来源。V3论文在引言中被引用,但我们需要更多关于这些模型的细节,包括它们的局限性,因为这可能解释了为什么这里介绍的一些技术在其他大型模型上可能有效或无效。

  第4页包括:“通过自洽性(Wang et al, 2022)技术,模型性能可以进一步提高到86.7%”。这个句子不合语法,并且需要描述cons@16指标。这是16次运行的大多数吗?将解释添加到图1和文本中。即使它在附录中,也只需要一句话来说明pass@1是一次项目(因为使用了温度)k次重复的平均性能,而cons@16是这些k次重复的大多数。

  作者说有“复杂行为的自发出现”。但同样,不清楚其中有多少是已经在Deepseek v.3.0中存在的。我们知道性能提高了,但说“复杂”行为出现是另一回事。复杂性据说包括“反思性推理”和“探索替代解决方案”。Deepseek v.3.0在CoT提示下能够在这两种行为中实现多少?事实上,在表B2中,作者似乎使用了0-shot提示而不是CoT。这使得这些模型与推理模型之间的比较不公平。Deepseek与CoT的潜力应该是起点,特别是对于Zero版本,以及这在冷启动等之后如何变化。

  “啊哈”的例子真的很好,但没有进一步的数据,我们不能从中概括并说它“开始表现出一种反思性的、拟人化的语调,暗示了更深层次的认知处理”。能力没有被衡量,只有性能,所以这是不可知的。为了确定真实的能力,我们需要对元认知、抽象等进行独立的评估维度,以及难度级别,才能真正谈论诸如“更深层次的认知处理”之类的事情。

  第3节。

  本节提到了部分基准,但人类基线再次没有明确说明,无论是在图3还是在文本中。对于AIME:“已经超过了大多数对数学充满热情的高中生”。这是人类基线吗?对于Codeforces:“DeepSeek-R1取得了显著的成果,超过了96.3%的人类竞争者”。这些竞争者是谁?分布是怎样的?然后,“对于GPQA,其中人类专家是拥有网络访问权限以回答问题的博士级个人,人类表现出比DeepSeek-R1更好的性能”。人类基线是无法比较的,因此将其概括为“人类水平”或“专家水平”在手稿的其他部分是不准确的。

  第4节

  本节非常简短,因为蒸馏是一个更标准的过程,但尽管如此,了解我们与基础模型以及它们用于蒸馏的模型相比发现了什么样的局限性,将是有见地的。我们想知道“子”模型在哪种能力上变得更像这个或那个“父”模型,以及扩展如何影响这种蒸馏。

  讨论

  本节并没有真正分析结果为什么是这样的。它更像是一个影响与冲击部分,而不是技术论文或AI科学现状背景下的科学贡献。没有讨论局限性。

  附录A. 数据

  A.2.1不够清楚有多少基准需要一个数字,是多项选择还是有其他挑战(A4.1关于RL数据更具体一些,但一个表格和例子会好得多)。作者提到LeetCode,说它的评估需要运行生成的代码。但这篇论文的其他地方没有提到LeetCode。这篇论文中还有其他基准需要运行代码吗?如果有,这如何影响RL过程的速度?图A1似乎包括一个“代码执行器”作为基于规则的奖励模块的一部分。据说“虽然这个模块不需要将模型加载到GPU内存中,但它的执行往往很耗时”,没有进一步的细节。

  准确率和格式奖励如何组合成一个单一的奖励?

  作者说“我们的观察是,神经奖励模型在大规模强化学习期间容易受到奖励破解的影响”。这个观察应该更好地解释,论文应该为此提供证据。

  A.2.2:同样,关于无害性的细节非常少。据说事情与他们为DeepSeek V3所做的相似,但这应该详细解释。安全测试和风险缓解是至关重要的,应该详细解释。

  评论家模型据说“可选”,但这应该被澄清。我认为这意味着一些RL算法有评论家而另一些没有,所以最好描述为“如果算法需要”或“如果需要”在文本和图中。但这也表明可能存在使用其他RL算法的结果,但未被报告。

  A.4.1 (RL数据)应附有一个表格,其中包含关于数据集的所有细节,就输出类型而言,以便更好地描述所用示例的特征。

  A.4.2 (SFT数据)这里有更多细节,但仍然远未确保可复现性。据说few-shot用于简单的数学问题,并结合了“反思和验证机制”。这再次需要关于作者所指内容的完整细节以及例子或结果。

  推理数据也需要更多细节。这包括600k个推理示例,特别是使用“通过将真实情况和模型预测输入DeepSeek-V3进行判断的生成式奖励模型”。

  超参数选择部分是需要的,但不足以实现可复现性,因为许多其他细节缺失。

  附录B. 评估

  本附录仅列举了基准,增加了更多结果,但没有为评估提供必要的细节,例如污染(哪个基准更精确地用于哪个阶段,基准之间的相似性,...)。只报告了性能,但从这种方法中无法提取实际能力的迹象,以及模型将如何在新基准或新项目上表现,特别是如果它们与整个过程中使用的基准不同(OOD)。

  我们看到AIME被用于评估,所以似乎与用于RL的数学数据集(26k个问题)存在污染,该数据集包括数学考试问题和竞赛问题,如果这用于预训练或SFT,甚至更多。我们根本不知道。AIME被用于评估蒸馏模型。

  看到MMLU中每个类别的增益分解,并看看是否有任何类别退化,将是有用的。

  “标准基准”部分的大部分致力于评论结果,但并未真正提供更多关于评估选择和特殊污染分析的信息。

  我们读到:“DeepSeek-R1在IF-Eval上也取得了令人印象深刻的结果”。再次避免使用“令人印象深刻”或类似的词。

  图B2和B3是屏幕截图。第一个缺少时间戳(据说是在一月份的某个地方),可能是在发布后不久(因此有很宽的置信区间)。无论如何,应该包括更多关于这些屏幕截图的解释以及屏幕截图的一些演变。

  表B3是我们期望的那种分析,也是有助于理解结果并支持技术通用性的分析。在这里,他们用另一个模型Qwen探索RL,表明这种RL方法至少对另一个模型有效。不幸的是,这只有一个案例。需要更多。

  附录C. 不成功的尝试

  本附录很有见地,我们赞扬作者包括它,但我们希望看到更多这样的内容,以及对方法论中确实有效的部分进行消融。

  参考文献。

  在许多情况下,引用的是论文的arxiv版本,而不是期刊/会议版本,例如,Wei J, Tay Y, Bommasani R, et al (2022a) Emergent abilities of large language models. arXiv preprint arXiv:220607682 发表在 Transactions on Machine Learning Research (08/2022)。

  审稿人#7

  (致作者的评论)

  我与提供所列报告的其中一位审稿人共同审阅了这份手稿。

  审稿人#8

  (致作者的评论)

  我被要求就以下具体几点对手稿提交一些简短的评论:

  对于R1,论文采用了SFT后跟RL(再后跟用于对齐的SFT)。在RL之前的SFT用于避免模型在CoT中切换语言。SFT中使用的示例轨迹的来源据说是“DeepSeek-R1-Zero的一个早期检查点,用于为DeepSeek-R1创建数据”。

  • • 您能否确认在流程的任何一点(包括在V1训练中)都没有由比正在训练的模型更强大的模型生成的轨迹?

    如果模型在训练流程的任何一点上都是在来自更强大模型的数据上训练的,那么这项工作可以被解释为一种蒸馏形式,而不是有助于我们理解如何在无法接触其他大型模型进行蒸馏的情况下构建大型模型。

  详细请求:

  • • 为了回答RL是否确实是这里性能的根本原因的问题,请提供DeepSeek-R1-zero(即在RL前没有SFT)在表B2中所有任务上的完整性能数据。

  • • 为了回答R1中RL之前的长CoT SFT是否可能是这里性能的原因的问题,请提供在表B2所有任务上,仅使用CoT SFT而循环中没有RL的R1性能的消融实验。

  • • 为了回答V1是否在更先进模型的数据上训练的问题,请提供使用替代基础模型(非V1)的DeepSeek-zero的消融实验,例如Llama基础模型(我不是指您在表A1中用QWEN做的蒸馏实验 - 我指的是图2,用Llama替换“DeepSeek V3 Base”,并报告在表B2中任务上使用Llama基础模型的性能)。

  • • 请提供标准安全基准的数字,以评估事后安全训练的性能。

  • • 请提供代码和附录A.4.2中使用的SFT轨迹,供审稿人检查。

  版本 1:

  审稿人评论:

  审稿人#1

  (致作者的评论)

  总结

  作者已经解决了我的所有担忧,主要是通过在附录中增加内容。我剩下的主要担忧是,他们 relegated (降级) 到附录的一些细节真的应该在主论文中突出显示,特别是关于奖励模型的细节和评估R1在不同训练阶段的结果。我认为这两者都比蒸馏的结果更有趣,作者承认蒸馏并非这项工作的新颖贡献。

  几点说明

  在回应中,作者写道:

  “结果表明,虽然我们的模型在相对简单的基准上表现良好,但在更具挑战性的安全评估中,与西方模型相比,它表现出稍低的性能。”

  然而,添加到论文中的新文本似乎过分夸大了模型的安全性,写道“模型安全评估[证明]我们的模型与人类价值观对齐,对社会不构成危害。” 我不认为模型偶尔不安全是拒绝这篇论文的理由;然而,作者在讨论他们的结果时应该诚实。除非他们能证明他们的模型对社会不构成危害,否则他们不应该提出这个主张。

  新版论文中还有一些小的写作问题。我注意到的最严重的是在第4节的第二段,需要仔细校对,但在其他一些新文本中也有一小部分小的英语错误。

  审稿人#2

  (致作者的评论)

  尊敬的作者,请看下面我们对您修订后的DeepSeek-R1手稿的评论。我们感谢您解决了我们对初稿的所有评论,并建议在进行一些小的修正(详述如下)后发表修订后的手稿。

  ## 建议改进

  • • p.2, 请在“...observed when models learn high-qaulity, multi-step reasoning trajectories during the post-training phase.”之后提供一些参考文献。

  • • p.3, 考虑将句子“We open source DeepSeek-R1-Zero...”替换为“We release DeepSeek-R1-Zero...”。“开源”一词对于AI系统争议很大,并且通常需要比作者目前提供的更高水平的透明度;例如,参见https://opensource.org/ai/open-source-ai-definition获取一种可能的定义。

  • • p.16, 请澄清在奖励建模期间样本的最大序列长度是多少,以及epoch的数量。

  • • p.32, 附录B.4.1:请澄清用于训练DeepSeek-R1-Zero的总步数,以及这是否对应于提示数据集上的一个或多个epoch。

  • • p.63, 附录F:请在最终版本中包含SFT和RL数据的链接。据我们理解,审查过程中附加的数据只是SFT的一个样本。

  拼写错误:

  • • pp. 1,2,19: “exemplars”可以替换为“examples”。

  • • p.18, 表B1:将“choice”替换为“multiple-choice”?在pp. 18-19的数据集描述中也类似。

  • • p.20, 第二段:“In detailed, We...”应为“In detail, we...”。

  图表:

  感谢您更新图2并澄清中间的“R1-dev”模型。这个图是否可以更新以包括R1-Zero训练、过滤和人类/LLM修订的流程?我们相信这会输入到R1训练流程的冷启动CoT步骤中。然后,这个图将显示从基础模型到R1的整个流程的全局视图。

  此致,

  Dr. Lewis Tunstall 和 Dr. Edward Beeching

  审稿人#3

  (致作者的评论)

  感谢您对我的评论以及其他审稿人评论的回应和您对手稿所做的修改。

  基于您的回应,我还有两个进一步的评论:

  1. 1. 我发现您对关于拟人化的评论1的回答仍然不尽人意。说“当推理过程与类人思维模式对齐时,用户倾向于发现响应更直观、更有吸引力”是一个有些含糊的陈述,因为您既没有定义也没有评估这种思维模式的中间token。您反而依赖于人们发现它们更有吸引力。

    我的担忧是,这种策略是对人类认知缺陷的直接攻击。想象一下R1给出了一个最终用户无法独立验证其正确性的答案。在这种情况下,这些“喃喃自语”可能只会产生对解决方案不应有的信任。

    我请求您考虑在手稿中增加一些评论来解决这个担忧。

  2. 2. 在回应我的两个评论(2和5)时,您提到您相信RL是产生长链中间token的主要原因。我有两个建议。首先,在手稿中更明确地阐述这一点。其次,考虑这样一个事实,即长中间token的出现可能只是您将最终奖励平均分配到中间token的方式的一种人为产物(从而激励RL制造越来越长的序列——无论它们实际上是否需要/重要)。我确信您知道,在您的工作之后,出现了一个试图让类R1系统产生更短中间token的论文小产业!如果您能在手稿中阐述这一点,将会很棒。

  3. 3. 关于您对评论5关于使用MCT的测试时计算与中间token序列的回应,我不确定我是否接受R1正在自适应地分配测试时计算的论点——特别是考虑到我上面的一点。尽管如此,如果您能将您回应的相关部分也包含在手稿中,以便读者知道您的立场,那就太好了。

  --Subbarao Kambhampati, 亚利桑那州立大学

  审稿人#4

  (致作者的评论)

  我与提供所列报告的其中一位审稿人共同审阅了这份手稿。

  审稿人#5

  (致作者的评论)

  我与提供所列报告的其中一位审稿人共同审阅了这份手稿。

  审稿人#6

  (致作者的评论)

  我们已经阅读了作者对我们评论以及其他审稿人评论的回应。我们赞扬作者进行了这次相当彻底的修订。我们在前一个版本中的许多担忧都已或多或少地得到了解决。论文现在在解释事物如何工作、支持结果和为这些结果寻找解释方面更加完整。

  我们将集中讨论我们在前一次审查中提出的两个主要问题,即安全和能力评估,然后我们将提到一些其他(新旧)仍然存在的问题。

  安全评估:

  安全评估(附录D3)大部分是新的,包括现有的和新的基准,以及一些创新。总的来说,这份材料很好且足够,但考虑到这个模型的含义,我们需要一些额外的调整和澄清。

  首先,实验足以表明该模型与其他模型相当,但不是安全的证明。例如,“证明我们的模型与人类价值观对齐并对社会不构成危害”等陈述是夸大其词。人类价值观并非普遍的(https://spssi.onlinelibrary.wiley.com/doi/10.1111/j.1540-4560.1994.tb01196.x,https://www.nature.com/articles/s41467-024-46581-5),而“对社会不构成危害”是一个过于宽泛的主张,无法被证明,特别是对于一个已发布其权重的模型,从长远来看。我们建议作者更实事求是,例如,说在所包含的类别方面,在标准安全基准中与其他模型取得了类似的结果。

  一个萦绕不去的问题是“内部过滤系统”的使用,这可以弥补某些安全基准上有限的结果。澄清这一点很重要,即这不适用于开放权重的这个模型的广泛使用,所以比较是不公平的,并且对于模型的许多用途是有限的。当然,微调可以为任何发布其权重的模型(如Llama)移除对齐,但如果这些过滤器包含在表格和结果中,那么它们应该被解释(它们现在没有),以便用户可以实现类似的过滤器并获得类似的安全级别。此外,应该有关于在没有这些过滤器的情况下使用这些模型的明确警告。结果的分析将更简单,并且不会被后置过滤器混淆。一些术语上的澄清会有所帮助,因为“内部过滤系统”似乎是“风险控制系统”,名字不同?无论如何,这个风险控制系统如何工作应该被解释。

  D3.1很好,并且在使用安全基准和与一些清晰的基线(如Claude)进行比较方面非常标准。D3.2令人惊讶,因为它本身就是一个贡献。在这里,结果比标准安全基准差。我们赞扬包含这一部分,但我们缺少一个关于为什么D3.1不够的解释。由于D3.2引入了一种新的方法论和分类法,我们需要更多关于伤害分类法的灵感和相关工作的信息。作者应该证明为什么他们的分类法是合适的,并且可能比先前工作提出的更好(例如,https://dl.acm.org/doi/abs/10.1145/3531146.3533088,https://arxiv.org/pdf/2408.12622,仅举几例)。

  表D7解释得不太好。不安全(Unsafe)和拒绝(Reject)是需要权衡的两个对立指标:通过的不安全内容,以及作为不通过的安全内容的拒绝,如果我们理解正确的话(那么一行就够了,所以简化解释)。如果我们误解了,那么无论如何请澄清标题。由于这两个指标是一个权衡,将它们分别用粗体标示是误导性的。一个拒绝一切的模型在一列中会有最好的结果。所以要么结果以带有帕累托前沿的二维曲线表示,要么使用不安全+拒绝的总和来比较模型,以清楚地看到Claude击败了所有其他模型。D8也发生了同样的情况。结果报告的方式需要改变,因为当前的方式是误导性的。

  D3.5非常重要,我们赞扬作者包含这一部分。然而,为什么PRK-QA的分类法与一般风险分类法不同,就包括什么、排除什么以及优先考虑什么而言?CBRN是一个通常的分类法(+网络),在这里我们找到了两个C、N和R(都在核技术下),但没有B(生物危害),这绝对是危险的。为什么不呢?我们真的很喜欢包含心理风险(精神健康),但那为什么不是所有身体健康呢?例如,看到“性别转换”作为六个主要项目之一,与“核技术”处于同一水平,这令人惊讶。我们可能同意作者的观点,即未经医疗咨询的性别转换手术是有风险的,但为什么只有“性别转换”程序而没有许多其他医疗或自我修改程序?人们在家里纹身、进行有毒节食或自我用药存在风险,这可能比“性别转换”更危险。为什么这种固执?这些类别应该通过关于其频率或损害程度的证据来证明,或者进行修订以使其更全面和平衡。顺便说一句,我们不明白表D9中的粗体。更高的应该更糟,那么为什么最高的数字是粗体?

  在图D11中,“R1check”没有解释。再次,是带有系统过滤器吗?似乎再次表明没有这些过滤器,模型是相当脆弱的,这是一个主要问题,因为它们已经作为开源发布。

  关于敏感或有风险知识和思维链的部分非常有价值,但作者声明这对推理模型是普遍的,但这是否发生在OpenAI的oX家族中,还是这是思维链被处理或隐藏的一个原因?这与审议对齐(deliberative alignment)有什么关系?(https://openai.com/index/deliberative-alignment/)

  正如我们所说,我们认为新材料是足够的,但鉴于这个模型非常强大,具有开放权重和可及性(特别是蒸馏版本),我们希望看到更多关于其滥用的讨论,也许在《自然》论文通常包含的“包容性与伦理”部分。

  能力评估:

  虽然在一些结果中使用难度澄清了我们提出的一些问题,但报告的结果是百分比的比较,而不是能力,没有真正知道基准真正衡量的是什么。

  例如,C1现在包括了难度,虽然不清楚它们意味着什么以及在什么尺度上。图6显示了随着步数增加的演变,对于简单例子(1级,从0.95准确率开始,到0.95准确率结束)是平坦的。它们从未达到1,并且被更难的区间超越,也许显示出一些“过度思考”?1级问题5%失败的原因是什么?作者说“模型发展了跨问题复杂性泛化的先进推理能力。”这个句子不是很有意义,除非我们知道这5%的失败不是由数学能力不足引起的,而是因为那些任务可能需要模型不擅长的其他一些能力。但这是我们不知道的事情,因为没有对每个基准的需求(不同能力的)进行分解。这些天用非常易于使用的工具可以很容易地构建基准需求概况和模型能力概况:https://arxiv.org/abs/2503.06378。与那里包含的模型概况进行比较也应该很容易。

  实际上,表D11显示编码的简单问题达到了100%,所以这里没有因为伪原因而无法解决的剩余5%的例子。这是好的行为,而不是之前误导性的陈述,即模型“跨问题复杂性泛化”。现在模型正在处理所有简单的(100%),大多数中等的(83%),但在难的(34%)上仍然挣扎,所以是在这种情况下而不是在图6中,它正在变得真正通用。通用性意味着很好地应对任务的所有变化直到一定难度级别,当我们看到根据难度的递减性能时就会发生这种情况,如表D11。

  此外,图D14的划分(在数学子类别中)可能只是因为难度差异(期望组合几何问题比组合学和几何问题分开更复杂,因此更难),而不是因为它们在这些类别上更好或更差,特别是没有包括其他基线模型。实际上,标题甚至没有命名模型。评估中有许多按领域的有趣划分,但这再次依赖于基准的设计者,并且可能某些领域包括了该领域之外的需求,或者难度范围不同。一个需求概况将澄清所有这些。

  我们对使用AIME 2025感到高兴(尽管仍然是非常相似的分布。结果不言自明)。

  ARC对于这篇论文的目的不是很有用(而不是一个分布外的基准,它是一个异类)。它衡量的是其他非推理的东西(例如几何基元的组合,更像是归纳推理能力),这里使用的版本ARC-AGI-1(一个“ARC基准的特定版本”),似乎在多模态和网格大小方面相当有限。我们建议删除这一部分,因为该基准具有误导性。此外,基准的描述相当非正式(“the catch?”),似乎是改编自比赛宣传。实际上,在(Chollet 2019)中,理论结构和基准之间存在脱节,这是该基准可能具有挑战性而不知道它衡量的是什么的另一个原因(见https://aiguide.substack.com/p/on-the-arc-agi-1-million-reasoning/comments, 或https://aiguide.substack.com/p/did-openai-just-solve-abstract-reasoning)。这篇论文的作者不应该陷入用我们不知道衡量的是什么的基准来测试模型的陷阱,仅仅因为一些公司在使用它们。

  再次,表B1遵循了几位审稿人关于更多透明度和关于基准格式及其大小的细节的请求,但不太清楚基准衡量的是什么。这意味着我们需要相信基准的创建者声称他们衡量的是什么,但基准在许多情况下缺乏关于他们声称衡量的需求的特异性和敏感性。

  去污染:“10-gram序列”是一种非常温和的去污染方法!作者称之为“严格的”,但这只排除了精确匹配。最后一个段落恰恰说明了这一点,所以我们建议让这些表达更平衡,并提供更多关于被排除示例百分比的证据。

  最后,C2显示了使用中增加的反思性词语。这真的很有见地,但是这些词是如何被选择的?作者能否包括完整的列表和纳入的标准?此外,在使用Deepseek V3进行有和没有思维链的推导中,它们出现的频率如何?此外,应该澄清频率是token频率,而不是每个答案的频率,因为随着步骤数的增加,答案会变得更长。

  其他要素:

  D5包括许多杂项,标题包罗万象,可以拆分或重构(“测试时扩展”适合这里吗?)。

  图D15(时间 vs 难度)真的很有趣,但它是用LOESS拟合还是移动窗口平滑的?所有新图中的标题通常需要更多关于我们在图像中确切看到的信息,从命名模型开始(即使在围绕该图的主文本中已经说过)。

  我们之前审查中的一些评论(例如,评论9,重构论文,以及评论10,关于评估和推理的参考文献)被留给了未来版本。这只会减慢过程,因为结构的改变通常会影响论文的易于理解性。阐述的清晰度是接受的重要标准。例如,附录G中的局限性在那里没有意义,应该用来结束论文(也许与E.1一起,这也包括局限性,特别是关于验证器的局限性,这与工具之一有关)。同样,软件工程和强化学习中的工具的局限性。这可以被重组(相关工作可以部分地转到补充材料)。换句话说,一个包含这些要素的恰当的讨论部分应该在论文中,而不是散布在附录中。有了审稿人的所有建议,我们希望评判一个根据新材料以有意义、易于理解的方式新组织的新版本。并且也仔细检查了拼写错误、前后引用等。

  次要事项:

  第2节(第4页):“显著提升其在复杂任务上的性能。”。请澄清这些复杂任务是哪些,否则这是一个夸大其词。模型应该主要提高了其在像数学和编程这样的可验证任务上的性能,但我们怀疑它是否适用于许多其他情况。

  第2节(第4-5页):“在LLMs中达到新的智能水平”。说LLMs中新的/更高水平的能力比说智能要好。此外,能力应该被很好地评估,而不仅仅是使用聚合性能得分,而是通过需求水平推断。

  第5.2节:“由于无监督预训练扩展越来越受到可用人类数据量的限制”。似乎有一些共识认为预训练扩展正遭受收益递减,但不清楚原因是否是可用数据(https://arxiv.org/abs/2211.04325)。请限定这个句子。

  附录A.1 避免使用诸如“boasts”(夸耀)之类的词。

  附录A.2. “Despite its strengths, The performance” -> “Despite its strengths, the performance”

  附录B.3.2. 清单1:“Prompt for produce a human-readable solution.” -> “.. producing...”

  附录C.2 “We counted” -> “we counted”。

  附录D.“语言模型的安全和伦理考虑自第一天起就是我们的主要关注点。” 避免对公司意图或文化或作者的判断,只限制在论文中显示的证据。

  “we refined evaluation approach” -> “we refined our scoring approach”

  图D10.“Taxnomy” -> “Taxonomy”。

  D.5:“As illustrated in Figure,”?(图在哪里?)

  D.6:为什么DeepSeek-R1-Zero-Qwen-32B这样命名?不应该是Qwen32B-R1-Zero吗?DeepSeek v3用在哪里了?

  D.6:“advancing beyond the boundaries of intelligence”。我们相信作者特别指的是‘human intelligence’(人类智能)。

  E.1:“including a 33B dense model”。不是32B吗?

  G:“Currently, the structure output capabilities of DeepSeek-R1 fall short of general models, which produces more flaws when user requires to return a Json function”。修改语法。

  在一些表格中(如D7 D9),粗体数字不止一个。在D7中我们有3.6和5.4是粗体(最后一列),但5.6不是。我们想知道是什么测试使得最佳和其余之间有这些区分/截止?在之前的审查中我们提到了这一点在哪里解释,也许我们仍然错过了,但应该在标题中提及所使用的特定统计显著性检验。

  审稿人#7

  (致作者的评论)

  我与提供所列报告的其中一位审稿人共同审阅了这份手稿。

  审稿人#8

  (致作者的评论)

  非常感谢您的回答和额外的结果——我认为这些极大地帮助改进了这篇论文。

  我有一个主要担忧,即关于推理轨迹数据污染的问题没有得到回答(我原始审查中的评论4)。您说“DeepSeek-V3-Base已经接触了大量的推理轨迹数据”。我最初的请求是要求您用一个没有接触过推理轨迹的基础模型来运行您的实验。作为回应,您添加了使用Qwen 2.5 32B的新结果(非常感谢)。然而,Qwen 2.5 32B是在o1之后发布的,并且与V3有同样的问题(推理轨迹的数据污染)。您能否请您在表D14中,从一个在任何推理轨迹公开发布之前开发的基础模型开始运行您的实验?

  我还有一些小的请求来改进这篇论文:

  • • 您能否请您将V3 Base和V3添加到表D10中?(即Dev-1之前的步骤;这将有助于读者理解图2中的流程和每一步的贡献)

  • • 您能否请您添加更多关于您用于RL的任务的具体信息?

  版本 2:

  审稿人评论:

  审稿人#6

  (致作者的评论)

  我们仔细阅读了论文和补充材料的新版本,以及作者解释他们如何处理上一轮审查(包括我们的)评论的反驳信。

  总的来说,作者已经解决了我们的担忧,尽管他们没有包括我们建议的所有指针或评估。我们的大部分评论都指向补充材料的两个主要部分:安全评估和能力评估。

  关于安全评估,我们对额外的澄清和关于使用开放权重模型的警告感到满意,现在这在伦理和安全声明(主文章)中有所表达。表7(补充文件第39页)仍然有问题,因为不安全的减少只是通过高拒绝率实现的,反之亦然,对于DeepSeek模型。将粗体数字分开显示是误导性的。例如,突出显示DeepSeek-R1 + 风险控制系统的不安全值为6.5(而其拒绝值为13.1)与Claude Sonnet的配对7.5, 0.7相比是不公平的,后者明显更好,并且不安全值7.5在与另一个值耦合时是有意义的。正如我们在之前的审查中所说,可以使用一个综合考虑不安全和拒绝的集成指标来进行排名,而不是使用单独排名的学生t检验。如果不如建议的那样做(或用两个点的帕累托图),那么最好去掉那些在孤立状态下显著更好的值的粗体。

  关于风险的分类法,作者在本版本中解释说,他们“并非旨在全面,而是寻求多样化学科背景,以促进对这个问题的深入讨论”(第4.3.6节)。我们可以理解这对于能力评估是这样,但发布一个将变得非常流行并被许多人使用的模型,应该伴随着进行彻底和全面的安全评估的责任。我们不相信拥有可能具有双重用途的“中性”答案是那么相关或新颖,以至于建议改变/创建一个分类法,当已经有现有的安全分类法和基准时。一些重要的类别被遗漏了,而另一些则太单薄。例如,“性别转换”作为医疗信息滥用的唯一案例是一个非常武断的选择,并没有排除模型可以在许多其他医疗领域向用户提供潜在有害信息的可能性。当然,作为一个开放权重的模型,任何具有最少知识的用户都可以通过微调模型绕过任何安全保障,但问题可能在于经验较少的用户,他们可能会按原样使用这些模型,考虑到它们现在很容易获得。一个科学问题是这个模型有多安全,为此PRK-QA可以“促进深入讨论”,揭示非CoT和CoT模型之间的差异,但另一个问题是发布这样一个强大模型的伦理责任。

  关于能力评估,作者现在更好地解释了难度的影响,尽管评估仍然受到难度分布的影响,因为论文只显示聚合性能而不是能力。虽然不充分,但由于这是当今评估和比较模型的标准方式,我们可以接受。关于每个基准真正衡量的是什么,我们看到第10节中的标题包括了一个描述,可能改编自原始存储库或论文,而不是使用类似的能力分类法来理解这些基准衡量的是什么。例如,表22的标题说FRAMES是为RAG系统设计的,并衡量‘retrieval’(检索)等。但鉴于这不是一个RAG情境(因为链接是给定的),检索没有被衡量,只是从文本中提取事实信息,像DROP一样。在其他情况下,如表23,我们看到例子来自Arena-Hard,但我们不知道它们在衡量什么。AlpacaEval也一样。对于改变扩展范式的模型,更关键的是要知道基准项目中能力的构成是什么,特别是对于推理能力,以便真正理解性能的增加是否发生在与推理相关的任务上,可能以牺牲其他能力为代价,因为使用了RL。新信息有帮助,但仍然不足。没有对每个基准评估的能力进行适当的分解,我们从能力评估中得到的视角是相当模糊的,不应该被称为“能力评估”,而只是“性能评估”。

  我们对论文和补充材料的新组织感到满意。总的来说,这篇论文在这次迭代中得到了显著的改进。

  拼写错误。第54页。“In the Table 15” -> “In Table 15”

  审稿人#7

  (致作者的评论)

  我与提供所列报告的其中一位审稿人共同审阅了这份手稿。

  审稿人#8

  (致作者的评论)

  我对回应感到足够满意,但请注意,一些请求仍未得到回答,特别是关于评估V3 Base和V3性能的对照实验的请求。作者说“我们在附录4.4中包括了一个新表格,呈现了V3 Base和V3的性能指标”,然而没有附录4.4,搜索这些结果显示它们没有包含在手稿中。

  我很高兴推荐接受,条件是这些结果被添加到手稿中。

  对审稿人的回应

  《自然》点对点评论 第一轮

  手稿ID:[2025-02-03814]

  标题:DeepSeek-R1:通过强化学习激励LLM的推理能力

  尊敬的编辑和审稿人:

  我们衷心感谢审稿人提出的建设性反馈,这极大地帮助我们改进了手稿。在修订版手稿中,我们增加了更全面的细节,特别是关于训练数据集、GRPO细节、评估结果和模型安全分析。下面,我们对每一条评论都提供了逐点回应。修订版手稿中的所有更改都以黄色文本突出显示(或以修订模式标记)。如果一个章节标题被高亮,表示整个章节都是新增的。

  总体修订

  1. 1.安全评估:我们增加了一个专门评估模型安全的详尽章节。更多细节请参考附录D.3。在本节中,我们首先使用公开可用的安全基准评估了我们模型的安全性能。结果表明,虽然我们的模型在相对简单的基准上表现良好,但在更具挑战性的安全评估中,与西方模型相比,它表现出稍低的性能。然而,我们部署在我们的网页和应用平台上的内部过滤系统,有效地减轻了不安全的响应。此外,我们调查了模型的鲁棒性及其对潜在风险知识的处理。我们的研究结果表明,与缺乏明确推理能力的模型相比,像DeepSeek-R1这样的推理增强型模型倾向于暴露更多潜在的敏感或风险知识,尽管它们只表现出对对抗性提示的中等易感性。值得注意的是,思维链推理过程本身引入了更高密度的信息,这突显了模型透明度和安全考虑之间的根本性张力。

  2. 2.模型蒸馏:我们理解模型蒸馏是DeepSeek模型开发中一个被广泛讨论的话题。在预训练阶段,我们承认我们收集的网络数据可能包含由GPT-4等先进模型生成的内容。然而,在当前大规模语言模型训练中,鉴于互联网上合成内容的广泛存在,这很难避免。

    重要的是要注意,DeepSeek-V3-Base并没有包含一个涉及在合成数据集上进行大规模监督蒸馏的明确“冷却”阶段。相反,所有的训练数据都来源于网络,并反映了自然分布。因此,任何对合成内容的接触都是偶然和间接的,这反映了许多最先进的语言模型所采用的标准数据收集实践。此外,DeepSeek-V3-Base的预训练数据收集截止日期为2024年7月,那时还没有公开发布的先进推理模型。这进一步降低了从现有的强大推理特定模型中无意蒸馏的可能性。

    重要的是,这篇论文的核心贡献——R1-Zero——不涉及任何来自先进模型的蒸馏。RL组件是独立训练的,不依赖于像GPT-4或其他类似能力模型的输出或指导。正如审稿人6所指出的,R1-Zero是纯粹RL(使用最近高效的GRPO算法,去年引入)应用于足够好的、能从思维链(CoT)中受益的预训练LLMs的第一个明确的成功案例(至少是公开的)。总共166k个问题和一个带有基于规则的奖励(正确性和格式)的直接RL算法,足以将一个传统模型V3,转变为一个更好的“推理”模型。

    在我们看来,R1-Zero具有特别的科学意义,因为它证明了强化学习(RL)可以在没有大量人类监督的情况下以端到端的方式有效应用。相比之下,R1模型代表了一个为实际部署和可用性而优化的更精炼的版本。如表D9所示,R1和R1-Zero在以推理为中心的基准上取得了相当的性能。此外,它们在完全未见过的ARC-AGI-1测试集上的性能几乎相同(表D12),这强调了纯粹基于规则的奖励函数,连同166K个训练实例,足以发展出强大的推理能力。我们不需要一个额外的强大模型来教DeepSeek-R1进行推理任务。在开发时,没有模型表现出明显优于R1-Zero的性能(o1在推理基准上与R1-Zero相当或稍好)。为了进一步使模型输出与人类偏好对齐并提高整体可用性,R1整合了包括人类标注在内的额外训练数据,这些数据是在大型语言模型的辅助下生成的。这里的动机主要是产品驱动的,重点是增强用户体验。当推理过程与类人思维模式对齐时,用户倾向于发现响应更直观、更有吸引力(从R1-Zero到R1)。

  3. 3.SFT和RL细节:在附录B和C中,我们提供了关于在监督微调(SFT)和强化学习(RL)阶段使用的数据集的额外细节。我们还包括了在RL阶段使用的训练超参数,以增强我们实验设置的可复现性和透明度。我们相信,研究社区可以很容易地收集到质量和数量都相当的数据,从而促进我们方法的复现性。

  4. 4.结果的额外分析:

    1. 1. 我们在附录D4中提供了对R1在不同阶段的详细评估,包括对初始R1-Zero模型的分析。

    2. 2. 在附录D5中,我们引入了一个分布外(OOD)分析,利用ARC作为测试集,该测试集既未包含在预训练中,也未包含在监督微调(SFT)中,以评估泛化能力。我们通过纳入R1首次亮相后发布的考试,如AIME 2025,来扩展我们的评估,以评估模型处理未见任务的能力。我们进一步通过将结果分解为数学和编程中的不同类别和难度级别来分析性能,从而更全面地了解模型的优势和局限性。我们在MMLU和MMLU-Pro的每个类别上评估模型性能,并将其与DeepSeek-V3进行比较。

    3. 3. 对于R1-Zero,我们在训练过程中特别评估了不同难度级别的性能,如附录C.1所示,提供了模型在其发展过程中如何演变的见解。

  5. 5.局限性、相关工作和未来工作:我们在主手稿中增加了一个“相关工作”部分,以便在现有文献中为我们的贡献提供更好的背景和定位。此外,我们在附录G中包含了对我们方法的局限性和未来研究的潜在方向的讨论。

  审稿人#1

  评论 1:

  [ 图2令人困惑,如果有一个长标题来解释发生了什么,会很有帮助。 “DeepSeek V3 Base”和“DeepSeek V3”(左上和中上的紫色方框)之间有什么区别?我在论文中除了这张图之外,找不到任何提及“DeepSeek R1 Dev”的地方。如上所述,如果在结果部分能看到“DeepSeek R1 Dev”和“DeepSeekR1”性能的比较,以便理解第二阶段的SFT/RL如何提升性能,那就太好了。]

  回应:

  我们已经修订了图2的标题,以提供对“DeepSeek V3 Base”、“DeepSeek V3”和变体“DeepSeek R1 Dev”的清晰解释,并链接到附录A.1以获取更多细节。此外,我们在表D9中报告了每个发展阶段的性能指标,以促进对模型进展的更全面的理解。

  评论 2:

  [ 在第4页,作者应该解释当他们提议从监督微调阶段消除混淆因素时,他们指的是哪种混淆因素。]

  回应:

  我们删除了这句话以防止潜在的误解。我们的目标是直接从基础模型进行强化学习(RL),而不加入监督微调(SFT)阶段。我们潜在的假设是,SFT过程可能会对模型固有的推理模式施加约束。通过允许模型通过RL探索和优化自己的推理轨迹,我们旨在更好地利用其全部能力和复杂推理的潜力。

  评论 3:

  [ 在第3节第二段,应该解释“人性化冷启动数据”是什么意思。]

  回应:

  创建“人性化冷启动数据”的动机在附录B.3.2中有详细讨论。这一举措主要是由产品层面的考虑驱动的。我们的设计哲学倾向于一种从对问题的彻底理解开始,然后进行系统性、反思性和可验证分析的推理范式。为了更好地模仿自然的人类认知过程,我们在整个推理过程中采用第一人称叙述。

  虽然这种预定义的格式可能不是机器消费的最佳选择,但我们认为这是将机器推理与人类可解释性对齐以供产品使用的必要步骤。我们将在未来的工作中探索直接使用原始强化学习(RL)思维链(CoT)模式,如附录G中所讨论的。

  评论 4:

  [ 在讨论DeepSeek-R1-Zero有时会生成中英文交替的内容时,论文假设读者知道DeepSeek V3 base是在中英文混合数据上训练的。这一点应该明确说明。]

  回应:

  在附录A.1中,我们简要介绍了DeepSeek V3 Base,并明确指出DeepSeek-R1-Zero偶尔会产生中英文交替的生成内容,这可能是由于V3的训练数据和在指令调整阶段缺乏有针对性的语言对齐所致。

  评论 5:

  [ 我认为,如果这篇《自然》论文也能将GRPO的功劳归于自身,并向读者介绍这种方法,其分量将大大增强。如果GRPO对新模型的成功至关重要,那么它应该被更详细地描述(即,应该将A1.1的高层次版本添加到正文中)。更普遍地说,作者不应假设读者理解强化学习和监督学习之间的区别、“传统监督微调”是什么样子,以及为什么RL与SFT相比“极少依赖人类标记工作”。引言部分如果能扩展以包含更多的初步知识,将会受益匪浅。]

  回应:

  1. 1. 为了提高关于GRPO的清晰度,我们在手稿的正文中增加了一个高层次的介绍。此外,我们在附录A.3中提供了更广泛的比较和实施细节。来自未发表的arXiv手稿的相关内容也已被纳入,以便为GRPO提供更全面的背景,确保提交的内容是自包含的,并且对更广泛的受众是易于理解的。

  2. 2. 我们扩展了附录A.2,以包括关于后训练方法论的额外背景。特别是,我们阐明了传统监督微调(SFT)的特点,强调其对人工标记数据的依赖。相比之下,我们阐明了像GRPO这样的强化学习(RL)方法通常需要最少的人类标注,从而在后训练对齐中提供更大的可扩展性和效率。

  评论 6:

  [ 从论文中不清楚第4节描述的蒸馏技术是否是一项新颖的贡献。之前是否有其他工作通过使用一个已经训练好具备这些技能的更强LLM所生成的数据集,来微调预训练的LLM,使其具备指令遵循/推理能力?如果有,这一节应该描述这些先前的工作,并解释DeepSeek-R1蒸馏所采取的方法有何不同。如果没有,这一节应该更清楚地说明这种类型的蒸馏是一项新颖的贡献。]

  回应:

  蒸馏技术并非这项工作的新颖贡献。我们在第4节中增加了一个澄清说明。

  评论 7:

  [ 我想知道作者是如何设计DeepSeek R1的后训练流程的(图2)。为什么有必要将训练分为两个SFT+RL阶段?虽然我意识到这个决定在工业界的LLMs中并非独一无二(例如Llama也做了类似的事情),但如果能让读者了解决定进行多轮后训练背后的动机,那仍然会很有用。]

  回应:

  我们在附录E.1中增加了关于多轮SFT/RL训练动机的讨论,并希望读者能从中获得见解。

  评论 8:

  [ 然而,图3和表3如果能解释性能上的哪些差异是统计显著的,将会更好。例如,在图3中,AIME 2024中前两个柱状图的性能差异是否具有统计显著性?]

  回应:

  在图3和表3中,数字是统计显著的。

  评论 9:

  [ 第6节声称“奖励信号与多样化数据分布的整合使我们能够开发出一个不仅在推理方面表现出色,而且还优先考虑有用性和无害性的模型。”然而,没有实验结果显示来支持关于“有用性和无害性”的说法。所有的实验结果都集中在推理任务上。]

  回应:

  为了促进对模型安全的全面评估,我们增加了附录D.3,其中呈现了在十多个不同测试集上的评估。该附录提供了对R1在广泛潜在风险场景中的安全概况的彻底分析。

  关于有用性,我们澄清并非表D4中报告的所有基准都严格限制在推理任务上。例如,MMLU*主要评估跨社会科学和历史等学科的事实知识。像DROP和FRAMES这样的数据集专注于长上下文理解,而IF-Eval则旨在评估指令遵循能力。此外,AlpacaEval 2.0作为一个广泛的基准,涵盖了多个维度,包括写作能力和开放式问题回答,这些共同构成了推理性能。

  审稿人#2

  评论 1:

  在第4节(第7页),作者声称他们“使用通过DeepSeek-R1策划的800k样本对Qwen和Llama等开源模型进行了微调,详见附录A.4”。然而,从附录A.4和图2中不清楚用于蒸馏的数据是采样自R1、R1-Zero、DeepSeek-V3,还是三者的混合。请澄清。

  回应:

  我们为蒸馏使用了同一组800,000个数据实例,详见B.3.3节。在此设置中,推理数据由R1-Dev2模型生成,而非推理数据则来源于DeepSeek-V3 SFT数据集。这一区别已在手稿的修订版本中明确阐明。

  评论 2:

  [ 我们希望看到一个数据集统计表格,详细说明:

  • • 每个STEM领域(物理、化学、生物)使用了多少提示

  • • 代码数据中包含了哪些编程语言及其比例

  • • 四个类别(数学、编程、STEM和逻辑)的平均输入token数是多少

  • • 希望看到关于是否每个提示都有一个用于验证的值输出的描述。例如,数学证明是否被排除了?

  • • 代码问题是如何验证的?是通过测试用例(成功率)还是其他方式?奖励是二元的,还是与通过的测试用例比例相关?]

  回应:

  感谢您的建议。我们提供了一个表格(表B1),总结了每种数据类型的总提示数、问题类型和值输出类型。此外,我们还提供了更详细的描述——例如每个STEM领域(物理、化学、生物)使用的提示数、代码数据中的编程语言及其比例、平均输入token数,以及每种数据类型输出的评估方法——在附录B.3.1节中。

  评论 3:

  [ DeepSeek-R1冷启动(第12页)作者声明“我们构建了少量长CoT数据”。这些数据是如何收集的?“少量”是多少?]

  回应:

  我们首先让人类标注员将推理轨迹转换为更自然的、人类对话的风格。修改后的数据对随后被用作示例来提示一个大型语言模型(LLM)以类似风格重写额外的数据。所有LLM生成的输出随后都经过第二轮人类验证,以确保质量和一致性,详见B3.2。所谓“少量”,我们指的是“数千”,详见B3.2。

  评论 4:

  [ 如果能包含用于“优化推理和摘要以确保格式正确和表达人性化”的DeepSeek-V3提示,将会很有帮助。]

  回应:

  感谢您的建议,我们已在B3.2中提供了细节。使用拒绝采样的DeepSeek-R1-Zero轨迹的主要问题是语言混合。为了解决这个问题,我们指示DeepSeek-V3“将思考过程翻译成与问题相同的语言。”此外,由于DeepSeek-R1-Zero的摘要只提供了最终答案,我们使用了B3.2中的摘要提示,让DeepSeek-V3生成一个简洁、人类可读的解决方案,概述推理步骤和最终结果。

  评论 5:

  [ 作者声明对于“代码数据,我们收集了大量竞争性编程问题”。请定义“大量”是多少,以及来自哪些来源。分享用于生成测试用例的提示会很有帮助。

  “实际提交”过滤测试用例是什么意思?它指的是通过测试用例验证的模型输出,还是通过像CodeForces这样的平台?请澄清。包含用于增强推理的提示会很有帮助。]

  回应:

  我们在附录B.3.2中提供了代码数据的细节。

  评论 6:

  [ 推理数据(第12-13页)LLM裁判使用了什么提示?]

  回应:

  我们在附录B的清单3中提供了LLM裁判的提示。

  评论 7:

  [ 非推理数据(第13页):如果能看到用于遵循关键原则的提示,那就太好了 ]

  回应:

  在附录B1.2中,我们给出了我们用于奖励模型的原则。

  评论 8:

  [ 奖励建模 - 作者能否提供更多关于他们用来训练奖励模型的数据的细节。]

  回应:

  奖励模型训练的细节在附录B.1.2中呈现。简而言之,我们遵循标准的人类反馈强化学习(RLHF)框架,其中响应根据其有用性和无害性进行排名。具体来说,我们利用大约66,000个实例来训练专注于有用性的奖励模型,以及102,000个实例用于面向安全的奖励模型。

  评论 9:

  [ 在第1节引言中,作者指出“当参数超过某个阈值后,扩展的回报会显著减少”。请提供参考文献。]

  回应:

  我们在修订版中删除了这一主张,因为它可能会引起混淆和争论。

  评论 10:

  [ 在引言中,他们说他们在RL之前绕过了传统的SFT,但V3的预训练在一个冷却阶段包含了SFT数据(如今这很常见)]

  回应:

  不,在V3的预训练期间,我们没有在冷却阶段故意加入监督微调(SFT)数据。然而,经过仔细检查,我们观察到预训练语料库包括由其他大型语言模型(LLMs)生成的合成数据,主要是由OpenAI开发的那些。虽然这类数据没有被明确引入,但它似乎以间接的方式存在于整个预训练过程中。

  评论 11:

  [ 最好能定义pass@1是如何估算的 ]

  回应:

  在附录D.1的基线部分,我们提供了用于估算pass@1的方法的详细描述。

  评论 12:

  [ 第4页,“self-consistency technical” → “self-consistency decoding” ]

  回应:

  已修正。

  评论 13:

  [ 对于蒸馏模型,为什么除了Llama 70B(这是一个指令模型)之外,他们都使用了基础模型?如果是这样,为什么他们为这个案例选择了一个指令模型?]

  回应:

  我们的目标是在LLaMA模型家族中确定最合适的检查点。为此,我们评估了多种配置,包括LLaMA 70B Base、LLaMA 3.1 70B Instruct和LLaMA 3.3 70B Instruct。在这些模型中,LLaMA 3.3 70B Instruct模型表现出最佳的整体性能。对于Qwen家族中的模型,我们观察到基础版本和指令调整版本都取得了相当的结果。

  评论 14:

  [ 对于GRPO,没有解释使用了多少次迭代/进行了消融(即, 中的μ值是多少)。请澄清 ]

  回应:

  在我们的研究中μ=1。

  评论 15:

  [ 关于奖励模型的更多信息会很好。比如大小、数据类型、超参数等。]

  回应:

  模型大小、奖励模型训练数据以及超参数列在B.1.2中。

  评论 16:

  [ 对于pass@1,作者说他们根据评估每个提示使用4到64个样本。为了可复现性,最好能确切知道每次评估使用的N。]

  回应:

  我们为AIME和GPQA数据集设置k=64,为MATH、CNMO和CodeForces设置k=16,为LCB设置k=8。这些选择的详细解释在附录D.1中提供。

  评论 17:

  [ 在第3节第二段“DeepSeek-R1的流程如图2所示。在初始阶段,我们为DeepSeek-R1收集了数千个冷启动数据”。我们的理解是冷启动数据是采样自DeepSeek-R1-Zero。请澄清。]

  回应:

  来自DeepSeek-R1-Zero的输出相对正式,与对话风格不符。为了解决这个问题,我们基于R1-Zero的输出进行了额外的修改,结合了人类的努力和LLM的辅助来增强自然性。具体来说,我们首先让人类标注员将推理轨迹转换为更自然的、反映人类对话的对话格式。这些修改后的数据对随后被用作示例来提示一个大型语言模型(LLM)以类似风格重写额外的样本。所有由LLM生成的输出随后都经过第二轮人类验证,以确保文体一致性和整体质量。我们在附录B3.2中强调了我们的动机和操作。

  评论 18:

  [ 请在修订版本中考虑以下参考文献(上下文见上文内容)。

  ... (参考文献列表) ... ]

  回应:

  我们已经在修订版中增加了相关的参考文献。

  评论 19:

  [ 对于所有图表 - 请增加所有图的字体大小 / 缩放比例,使其更易于阅读。]

  回应:

  好的,我们将在最终版本中增加字体大小。

  评论 20:

  [ 图1 - 子图b。在约8.2k步观察到性能的大幅跃升,这是否对应于配置的变化,如最大序列长度、批量大小或其他超参数配置?]

  回应:

  我们将最大序列长度从32k更改为64k,这在B4.1中有进一步澄清。

  评论 21:

  [ 图1 - 子图b,如果数据可用,是否可以包含最小 / 最大响应长度?]

  回应:

  感谢您的建议。不幸的是,我们只在训练期间跟踪平均响应长度,所以我们无法提供最小/最大长度。我们非常感谢您的理解。

  评论 22:

  [ 图2:此图和文本部分暗示在RL阶段之前需要对CoT / SFT进行冷启动训练,但摘要声称您“提出了一个完全通过大规模RL训练而无需依赖监督微调的新颖框架”,请澄清。]

  回应:

  我们直接从基础模型训练DeepSeek-R1-Zero,省略了监督微调(SFT)。“提出了一个完全通过大规模RL训练而无需依赖监督微调的新颖框架”这一表述旨在突出DeepSeek-R1-Zero的贡献。DeepSeek-R1引入了一个SFT阶段以增强用户可读性。这篇论文的核心科学贡献是R1-Zero,它代表了将纯粹基于强化学习的方法成功应用于预训练大型语言模型(LLMs)的第一个明确证明,这些LLMs已经足够强大,能够从思维链(CoT)推理中受益。

  评论 23:

  [ 图2:此图表明还有另一个模型“R1-dev”,但我们认为作者指的是“R1-zero”?]

  回应:

  不,“R1-dev”与“R1-zero”不同。它指的是用冷启动SFT数据初始化并通过GRPO与格式、准确性和语言一致性奖励进行训练的模型。

  评论 24:

  [ 图3 - 虽然AIME24和Codeforces基准都显示R1-Zero和R1之间的性能有所提升,但在GPQA diamond基准上性能有所下降,作者能否对此提供一些见解?这是否与数学和代码使用验证器,而不可验证领域使用较弱的奖励模型有关?]

  回应:

  GPQA上的性能下降不太可能与验证器使用有关,因为GPQA属于不可验证的领域。相反,我们怀疑下降源于SFT数据——特别是其有限的多样性,这可能限制了模型的泛化能力。此外,当我们选择超参数时,AIME和LCB的性能是开发集。

  评论 25:

  [ 总的来说,摘要清晰易懂。然而,作者提出的一些主张需要澄清。例如,作者声称他们“提出了一个完全通过大规模强化学习训练而无需依赖监督微调的新颖框架”,但最终在RL步骤之前使用了冷启动的思维链数据进行SFT。如果能明确阐述R1-Zero和R1训练之间的区别,将提高可读性。

  引言和结论的文本是清晰的。我们唯一的建议是为未来可能的研究方向提供一些结束语。]

  回应:

  在修订版本中,附录G概述了推理模型未来工作的潜在方向,包括奖励破解和工具集成等挑战。

  审稿人#3

  评论 1:

  [[将中间token拟人化为“推理轨迹”] 这篇论文在我看来在拟人化方面做得过火了——关注于R1中间token的“类人”性质。鉴于所有的评估都只针对最终答案,而不是中间token(即所谓的“推理轨迹”),对中间token的关注似乎是错位和误导的。实际上,R1-zero和R1之间的变化似乎主要是为了让中间token模仿人类式喃喃自语的风格。从未清楚表明R1的喃喃自语——虽然可能更“可读”——比R1-zero的在语义上更有连贯性——除了R1坚持使用“英语”这一事实。(毕竟,许多类型的伪推理过程——包括蒙提·派森的逻辑——都非常“可读”但没有语义)。

  鉴于在R1-zero或R1中(就像在o1/o3模型中一样)都没有任何先验保证解决方案是正确的,对推理轨迹的“类人”性质的关注实际上可能导致对最终解决方案产生不应有的信任。

  我强烈敦促作者修改文章,以减少这种拟人化。]

  回应:

  我们在修订版中删除了与“拟人化”相关的表述。在附录B 3.2.中,我们描述了这些改进背后的动机主要是产品驱动的,重点是增强用户体验。当推理过程与类人思维模式对齐时,用户倾向于发现响应更直观、更有吸引力。此外,保持语言一致性对于最佳用户体验至关重要。没有适当的控制,模型响应可能包含不同语言的混合,而不管查询中使用的语言是什么。这种不一致会干扰理解并降低用户满意度。因此,需要仔细的改进以确保响应保持连贯并与用户的期望对齐。

  然而,我们承认R1-Zero的原始CoT可能比人类先验具有更大的潜力。我们将对原始CoT的利用留作未来探索。

  评论 2:

  [[RL vs. 基础模型] 虽然我理解作者将RL视为R1能力的重要来源,但尚不清楚R1是否真的被用来发展“推理轨迹”/中间token。我仔细阅读后发现,(1) 基础模型在最终解决方案之前已经具备生成中间token的能力。(2) RL阶段基本上是在备选的“中间token-最终解”对之间进行选择(使用外部验证器),并使用策略梯度来使基础LLM偏向于那些对(有效地增强那些似乎能导向正确解的中间token)。如果是这样,那么RL和SFT方法之间的区别可能并不像论文所说的那样鲜明。特别是,一种迭代的SFT方法很可能与RL具有竞争力。蒸馏结果已经暗示了这一点。如果论文能更清楚地阐述这一点,将会很有用。[考虑到之前有过高估RL作用的先例——比如RLHF/DPO的情况,这一点就更加重要了。]]

  回应:

  虽然基础模型可以生成中间推理token,但我们的证据表明,RL是R1能力的重要来源,并帮助R1发展出有效的推理轨迹。首先,基础模型很少能持续地采样出长思维链推理轨迹,而这一能力在RL训练后变得突出。其次,观察到的模式突变——在图C7(b)中以频率峰值的形式可见——表明RL在积极地发展和完善推理轨迹。

  此外,迭代SFT可以被视为一种简化的RL算法。与迭代SFT相比,GRPO包含了迭代SFT所缺乏的关键组件:裁剪操作、KL约束、对正负样本的利用以及奖励基线。这些元素增强了训练的稳定性和效率。我们用一个1B模型在GSM8K上的实验(如下图所示)表明,迭代SFT优于标准SFT,突显了迭代学习的有效性。此外,GRPO超越了迭代SFT,验证了GRPO的优越性能。

  [此处插入了一张图表,显示SFT、迭代SFT和GRPO在GSM8K任务上的准确率随训练步数的变化曲线。曲线表明,GRPO的性能最终优于迭代SFT,而迭代SFT又优于标准SFT。]

  评论 3:

  [[预训练基础模型中的“推理轨迹”数据量:] 这篇论文通过说R1在RL之前使用外部推理轨迹数据进行SFT阶段,而R1-Zero没有,来区分R1-Zero和R1。但这有点误导,因为它看起来好像R1的基础模型从未接触过推理轨迹数据。如果是这样,基础模型一开始就永远无法生成以解决方案猜测结尾的备选轨迹。RL或SFT阶段之所以能起作用,似乎至少部分归因于基础模型已经在足够多的推理轨迹数据上进行了训练,从而能够生成RL可以从中选择的合理备选方案。如果论文能尽可能清楚地解决这个问题,那就太好了。显然,解决这个问题的最佳方式是对训练基础模型所用的数据更加坦诚。我意识到没有一家大公司这样做(除了AI2及其OLMO系列模型)。当然,DeepSeek可以比现在更透明地公开其预训练数据——尤其是因为这将有助于更好地理解R1能力的来源。]

  回应:

  我们承认基础模型已经在足够多的推理轨迹数据上进行了训练,使其能够生成强化学习(RL)可以有效从中选择的合理备选方案。对于DeepSeek-V3-Base的训练数据,我们专门利用了普通的网页和电子书,没有加入任何合成数据。这表明仅公开可用的数据就足以训练一个R1-zero模型。我们在附录A.1中包含了这个讨论。我们还在附录E中分享了我们的失败案例,其中提到小型检查点可能不适用于从基础实验开始的RL。

  在先前的研究中也观察到了类似的趋势(例如,https://github.com/sail-sg/understand-r1-zero/blob/main/understand-r1-zero.pdf),该研究分析了从基础模型复现类RL行为的可行性。具体来说,Qwen系列模型展示了直接从基础模型复现类RL推理行为的能力,而LLAMA则需要一个在数学数据上进行的额外持续训练阶段才能达到类似的结果。这些发现进一步强化了这样一个观点,即预训练数据的可用性和性质在决定一个模型是否能在RL微调之前自然地展现出推理能力方面起着至关重要的作用。

  评论 4:

  [[验证器的重要性] 我越想越觉得,R1中真正的力量来源似乎不是RL与SFT之争,而是来自验证器的关于哪个备选解决方案实际上是正确的强信号。这在训练阶段和后来的蒸馏阶段都有帮助。R1的合成数据几乎完全依赖于数学和编程问题,这些问题存在外部可靠的验证器,这一事实似乎为这一点提供了佐证。如果能在论文中更突出地阐述这一点,将会很有帮助。]

  回应:

  我们承认验证器在我们的框架中的关键作用,并在附录E.1中强调了它们的重要性。具体来说,在“验证器的重要性”段落中,我们强调了R1-Zero的成功很大程度上取决于奖励信号的可靠性。我们的研究结果表明,基于规则的奖励模型(RMs)和利用大型语言模型(LLM)来评估生成答案与给定真实答案的正确性,是减轻奖励破解的有效策略。这些方法增强了奖励信号的鲁棒性,从而提高了模型的整体性能和可靠性。

  评论 5:

  [[测试时计算] 我不确定我是否接受R1进行测试时计算的说法——它当然似乎没有进行任何适应问题复杂性的测试时计算。据我从论文中所知,R1在推理时的行为就像一个正常的LLM——基本上是输出中间token,直到它输出中间token的结束符,然后切换到输出解决方案token。作者自己也说R1与从它蒸馏出来的标准LLMs没有区别。中间token的长度各不相同,这与标准LLMs中输出的长度根据提示而变化没有区别。在我看来,为R1使用测试时计算的术语不必要地混淆了问题(特别是考虑到作者确实在附录中描述了像MCT这样的真实自适应测试时计算策略的实验)。我鼓励作者考虑修改文章,以便让R1在推理阶段只是一个LLM这一事实变得清晰。]

  回应:

  R1确实是一个LLM,但不是一个应用传统测试时计算扩展方法(如多数投票或MCTS)的系统。然而,R1确实以一种不同的方式扩展了测试时计算,这使得它与普通的非推理模型有显著的不同并且更强大。R1通过在最终确定解决方案之前生成数千个思考token来扩展测试时计算,而非推理模型则直接生成简短的最终解决方案(通常在数学问题上只有几百个token的长度)而没有中间思考步骤。R1还根据问题复杂性自适应地分配测试时计算:在更复杂的问题上,它倾向于思考更长时间。我们已经在附录D.5中名为“测试时扩展”的段落中明确了这些观点。

  评论 6:

  [[在大型模型上进行蒸馏:] 论文的蒸馏结果未回答的一个问题是,如果不是将R1蒸馏到更小的LLMs上,而是用R1的解决方案(带有中间token)来训练R1自己的原始基础模型,会发生什么。这将为RL部分是否真的在做比基本上是选择R1的基础LLM已经有能力产生的备选轨迹更有意义的事情提供有价值的信息。]

  回应:

  1. 1.将R1蒸馏到其原始基础模型:

  2. 2. 在附录D4中,我们呈现了R1中间检查点的性能。值得注意的是,DeepSeek-R1-Dev3可以被看作是用R1的解决方案进行蒸馏训练的R1原始基础模型的一个近似。这是因为其他检查点,如Qwen和Llama,也是在相同的800K数据上训练的。结果表明,DeepSeek-R1-Dev3在推理基准上与DeepSeek-R1表现相当。然而,这并不意味着强化学习(RL)在训练流程中不重要。没有RL,这样的监督微调(SFT)轨迹在一开始就不会被发现,这突显了RL在生成高质量推理轨迹中的必要性。

  3. 3.监督微调(SFT) vs. 强化学习(RL):

  4. 4. 虽然通过SFT进行的蒸馏可能会导致性能略逊一筹,或者在某些情况下与RL训练的模型相当,但RL仍然是必不可少的。这是因为RL促进了大型语言模型(LLMs)在解决复杂问题时发现最优推理轨迹——这是仅靠人类推理轨迹数据无法完全实现的方面。没有RL,思维链(CoT)范式中的长链推理轨迹就不会出现。然而,一旦获得了这样的长CoT数据,通过SFT进行蒸馏对较弱的模型是有效的,随后的RL阶段只产生边际改进。这突显了RL和SFT在增强模型性能中的互补作用。

    我们在附录E中增加了多轮RL/SFT的动机。

  审稿人#6

  评论 1:

  [ 关于数据的更多细节:来源、说明性例子、对数据或其样本的完全访问。一切有助于理解数据与结果有多相关的东西。]

  回应:

  在手稿的修订版中,我们纳入了以下增强内容:

  • • 我们提供了对我们的强化学习(RL)和监督微调(SFT)数据集的全面描述,以促进对支撑审稿人1关注点的数据的更深入理解。请参考附录B3.1、B3.2和B3.3以获取详细信息。

  • • 为了促进透明度和鼓励进一步研究,我们公开发布了SFT数据集的一个子集,包含一千个标注示例。该数据集作为附件包含在内。

  • • 此外,我们在附录B3.3中包含了说明性例子,以提供对训练数据的性质、结构和多样性的具体见解。

  评论 2:

  [ 污染分析:对污染的全面分析,包括原始v3模型中使用的基准和类似材料、RL过程以及达到评估部分之前的所有其他中间步骤。此外,使用一些新鲜的基准和/或估计结果和思维链中污染比例。]

  回应:

  我们已经在附录D.1中增加了一个额外的去污染部分。我们采用了一种基于n-gram的技术来减轻潜在的基准污染,确保我们评估过程的完整性。此外,我们通过纳入R1发布后发布的数据集,例如AIME 2025(附录D5 对真实世界竞赛的泛化),来扩展我们的评估,以评估模型在先前未见过的任务上的性能,从而增强我们结果的鲁棒性。

  评论 3:

  [ - 对能力的更好估计,超越平均值:按实例难度分解结果、OOD分析、至少使用按推理难度注释的基准提取推理能力。]

  回应:

  为了增强对R1的评估,我们纳入了以下组成部分:

  1. 1. 我们在附录D4中提供了对R1在不同阶段的详细评估,包括对初始R1-Zero模型的分析。

  2. 2. 在附录D5中,我们引入了一个分布外(OOD)分析,利用ARC作为测试集,该测试集既未包含在预训练中,也未包含在监督微调(SFT)中,以评估泛化能力。我们通过纳入R1首次亮相后发布的考试,如AIME 2025,来扩展我们的评估,以评估模型处理未见任务的能力。我们进一步通过将结果分解为数学和编程中的不同类别和难度级别来分析性能,从而更全面地了解模型的优势和局限性。我们在MMLU和MMLU-Pro的每个类别上评估模型性能,并将其与DeepSeek-V3进行比较。

  3. 3. 对于R1-Zero,我们在训练过程中特别评估了不同难度级别的性能,如附录C.1所示,提供了模型在其发展过程中如何演变的见解。

  评论 3 (应为 4):

  [ - 关于中间点的结果的更多细节,不仅是关于R1-Zero的RL曲线,特别是R1每个阶段的演变情况。]

  回应:

  为了回答这个问题,我们在附录D.4中增加了一个消融研究,评估了不同训练阶段的性能。在这里,我们将DeepSeek-R1与R1-Zero以及其他三个中间检查点进行了比较。

  评论 4 (应为 5):

  [ - 应包括一个恰当的相关工作部分,特别是涵盖AI中对推理的追求和已包括的技术,除了对CoT和相关技术的更好覆盖。这可以包括受到R1强烈影响的“追随者”论文(https://arxiv.org/pdf/2502.14768),以及它们的发现如何可能挑战本文中发现的一些趋势。]

  回应:

  我们增加了一个相关工作部分,以提供对先前研究的更全面的讨论。本节涵盖了扩展推理时计算和强化学习推理的关键发展,以及关于思维链(CoT)提示和相关技术的相关工作。

  评论 5 (应为 6):

  [ - 枚举局限性、挑战和未来工作的低垂果实,考虑到这些模型所代表的可及性的增加。]

  回应:

  我们在附录G中增加了局限性讨论。

  评论 6 (应为 7):

  [ - 更多的扩展法则分析,不仅仅是推理时间的扩展法则(图1)。例如,我们希望看到一项发现“最佳模型大小”的扩展法则研究(如Llama 3论文,图3)。同样,除了推理的扩展法则,我们也希望看到蒸馏的扩展法则,遵循方法论或与以下文献进行比较:Busbridge, D., Shidani, A., Weers, F., Ramapuram, J., Littwin, E., & Webb, R. (2025). Distillation Scaling Laws. arXiv preprint arXiv:2502.08606.]

  回应:

  感谢您的建议!我们同意进一步的扩展法则分析将非常有价值。然而,由于我们有限的GPU资源,我们目前无法在如此多的扩展设置中运行额外的实验。因此,我们此时无法进行类似于Llama 3论文或关于蒸馏扩展法则的扩展研究。我们希望未来能进一步探索这些方向!

  评论 7 (应为 8):

  [ - 关于成本的更多信息。我们读到RL训练会产生“高需求”。这应该用实际的时间和计算数据以及所用硬件的规格来明确,包括RL和R1-zero和R1的所有阶段的成本、蒸馏等。在DeepSeek v3论文中有一些信息,但这里没有包括。]

  回应:

  我们增加了一个附录部分B.4.7来讨论RL训练的成本,这比预训练需要更少的GPU小时。

  评论 8 (应为 9):

  [ - 安全性:这是必须解决的最重要的事情。我们希望看到一个模型卡,涵盖诸如公平性,还有对攻击的脆弱性、红队测试、风险级别等。我们也希望看到关于使用这项技术的担忧的讨论,特别是当模型已经开源可用时。

  对这些模型的能力、可用性和安全性的评估是领导该领域的人的道德责任,DeepSeek似乎将自己定位在那个空间,所以责任是重大的。在存储库论文中作者说:“我们将探索更全面和多维度的模型评估方法,以防止研究期间优化固定基准集的倾向”。我们希望在这篇论文中包括一些这种探索。]

  回应:

  我们增加了一个专门评估模型安全的详尽章节。更多细节请参考附录D.3。在本节中,我们首先使用公开可用的安全基准评估了我们模型的安全性能。结果表明,虽然我们的模型在相对简单的基准上表现良好,但在更具挑战性的安全评估中,与西方模型相比,它表现出稍低的性能。然而,我们部署在我们的网页和应用平台上的内部过滤系统,有效地减轻了不安全的响应。

  此外,我们调查了模型的鲁棒性及其对潜在风险知识的处理。我们的研究结果表明,与缺乏明确推理能力的模型相比,像DeepSeek-R1这样的推理增强型模型倾向于暴露更多潜在的敏感或风险知识,尽管它们只表现出对对抗性提示的中等易感性。值得注意的是,思维链推理过程本身引入了更高密度的信息,这突显了模型透明度和安全考虑之间的根本性张力。

  评论 9 (应为 10):

  [ 作为上述所有建议变化的结果,我们还认为论文的结构应进行重大修订,遵循更经典的《自然》论文组织方式,将动机、结果、方法和细节在附录中分开。]

  回应:

  感谢您的宝贵建议。在最终提交之前,我们将根据期刊的要求,仔细完善手稿的结构、格式和引用风格。

  评论 10 (应为 11):

  [ G. 参考文献:总的来说,关键参考文献都已包括,但如果修订版包括更多细节和相关工作部分,那么我们期望对先前工作的覆盖会更好,特别是在科学影响和整合来自AI的各种技术方面。

  对于涌现和扩展法则,引用了Wei et al. 2022a,但以下是一个关于此的更著名的引文,因为它开创了这一切:

  • • Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., ... & Amodei, D. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.

    但也应包括推理扩展法则和蒸馏扩展法则:

  • • Busbridge, D., Shidani, A., Weers, F., Ramapuram, J., Littwin, E., & Webb, R. (2025). Distillation Scaling Laws. arXiv preprint arXiv:2502.08606.

    应涵盖更多关于思维链方法的内容,以及基准,特别是评估方法。参考文献过于关注非常近期的报告模型和结果的论文,而不太关注科学应建立的技术和方法论,以及该领域的历史。]

  回应:

  • • Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., ... & Amodei, D. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.

    已在引言中引用。

  • • Busbridge, D., Shidani, A., Weers, F., Ramapuram, J., Littwin, E., & Webb, R. (2025). Distillation Scaling Laws. arXiv preprint arXiv:2502.08606.

    已在DeepSeek-R1蒸馏部分引用。

  • • 应涵盖更多关于思维链方法的内容,

    我们增加了一个相关工作部分并引用了CoT的工作。

  评论 10 (应为 12):

  [ 这篇论文写得很好,非常容易阅读,特别是主论文只关注关键思想和主要结果,并将细节留给附录。这是一个好的开始,但不符合我们期望看到的常规科学论文的标准,我们期望看到对事物为什么起作用、相关工作以及关于方法论、实施和结果的更多细节的更好分析。]

  回应:

  在修订版手稿中,我们在正文中增加了一个专门的相关工作部分,为我们的研究提供了更清晰的背景框架。关于GRPO方法的额外细节已纳入附录A.3。此外,我们现在在附录C中呈现了在强化学习(RL)训练过程中R1-Zero的演变分析。

  为了增强我们研究结果的可复现性和透明度,我们扩展了附录B,以包括关于监督微调(SFT)和RL数据集的更全面的信息。最后,我们显著扩展了附录D.4中对我们实验结果的分析,以提供对其影响的更深刻见解。

  评论 11 (应为 13):

  [摘要:

  应避免诸如“先进智能”之类的术语。

  第1节。

  作者提到“从数学问题解决到逻辑推演和编程的复杂认知任务”,但“逻辑推演”一词不是一个任务,而是一个过程甚至一种能力。它与数学问题解决和编程不在同一层级。

  同样:“更广泛地接触智能”。最好改写为“更广泛地接触强大的人工智能”。]

  回应:

  我们在修订版中修正了这些问题。

  评论 12 (应为 14):

  [第2节

  大多数细节都提到了附录,但解释AIME(美国数学邀请赛数据集),这是基准之一,表明他们将一个数学问题作为输入和一个数字作为输出,将有助于图1的解释,特别是在解释0.15-0.25左右的起始准确率、人类基线和“基于规则的奖励系统来计算准确率”时。许多读者可能不知道什么是思维链。因此,展示一个例子,关于所用基准的更多细节等,将有助于论文的可及性。]

  回应:

  我们在附录中增加了对AIME的解释,包括评估指标和问题示例,并将主文章链接到附录。

  评论 13 (应为 15):

  [ 在图1中,“人类专家”是什么?]

  回应:

  人类专家是参赛者。我们在图1的标题中增加了这一点。

  评论 14 (应为 16):

  [ 表2中的例子是从AIME中提取的吗?]

  回应:

  不,它是训练数据集中的一个提示。

  评论 15 (应为 17):

  [ 避免使用诸如“令人印象深刻”之类的词——探索更具体、科学上更精确的替代词。]

  回应:

  谢谢您,我们已在修订版中修正了这个问题。

  评论 16 (应为 18):

  [ 本节甚至没有提到基础模型是什么。引言说“我们建立在DeepSeek-V3-Base之上”,然后下一次它被命名是在第6页,在图2中,但有两个模型,DeepSeek v3 Base和DeepSeek V3(标准版?),所以我们不知道哪个用于R1-Zero以及为什么。应提供关于此模型的完整细节,或一个简短的摘要,并附上一个链接,指向提供所有这些信息的来源。V3论文在引言中被引用,但我们需要更多关于这些模型的细节,包括它们的局限性,因为这可能解释了为什么这里介绍的一些技术在其他大型模型上可能有效或无效。]

  回应:

  我们在附录A.1中增加了一个关于DeepSeek-V3-Base的简明摘要,在那里我们也提供了DeepSeek-V3-Base和DeepSeek-V3之间区别的详细澄清。

  评论 17 (应为 19):

  [ 第4页包括:“通过自洽性(Wang et al, 2022)技术,模型性能可以进一步提高到86.7%”。这个句子不合语法,并且需要描述cons@16指标。这是16次运行的大多数吗?将解释添加到图1和文本中。即使它在附录中,也只需要一句话来说明pass@1是一次项目(因为使用了温度)k次重复的平均性能,而cons@16是这些k次重复的大多数。]

  回应:

  我们已经在附录中增加了cons@16的定义,其中它被定义为16次运行的多数票。

  评论 18 (应为 20):

  [ 作者说有“复杂行为的自发出现”。但同样,不清楚其中有多少是已经在Deepseek v.3.0中存在的。我们知道性能提高了,但说“复杂”行为出现是另一回事。复杂性据说包括“反思性推理”和“探索替代解决方案”。Deepseek v.3.0在CoT提示下能够在这两种行为中实现多少?事实上,在表B2中,作者似乎使用了0-shot提示而不是CoT。这使得这些模型与推理模型之间的比较不公平。Deepseek与CoT的潜力应该是起点,特别是对于Zero版本,以及这在冷启动等之后如何变化。

  “啊哈”的例子真的很好,但没有进一步的数据,我们不能从中概括并说它“开始表现出一种反思性的、拟人化的语调,暗示了更深层次的认知处理”。能力没有被衡量,只有性能,所以这是不可知的。为了确定真实的能力,我们需要对元认知、抽象等进行独立的评估维度,以及难度级别,才能真正谈论诸如“更深层次的cognitive processing”之类的事情。]

  回应:

  我们在附录C.2中讨论了训练期间的行为变化。具体来说,我们分析了代表性反思性词语的出现,包括“wait”、“mistake”、“however”、“but”、“retry”、“error”、“verify”、“wrong”、“evaluate”和“check”。如图C5所示,随着训练的进行,这些反思性行为的频率逐渐增加。这一趋势表明,随着模型接受进一步的训练,它越来越多地将验证和自我纠正融入其推理过程。此外,图C5也呈现了训练步骤中准确率的相应提高。

  评论 19 (应为 21):

  [第3节。

  本节提到了部分基准,但人类基线再次没有明确说明,无论是在图3还是在文本中。对于AIME:“已经超过了大多数对数学充满热情的高中生”。这是人类基线吗?对于Codeforces:“DeepSeek-R1取得了显著的成果,超过了96.3%的人类竞争者”。这些竞争者是谁?分布是怎样的?然后,“对于GPQA,其中人类专家是拥有网络访问权限以回答问题的博士级个人,人类表现出比DeepSeek-R1更好的性能”。人类基线是无法比较的,因此将其概括为“人类水平”或“专家水平”在手稿的其他部分是不准确的。]

  回应:

  来自AIME和Codeforces的专家是比赛参与者;然而,我们没有关于这些个人的额外人口统计或背景信息。对于GPQA基准,人类专家是博士级别的个人,他们在回答问题时被允许访问在线资源。为了增强清晰度,我们删除了“人类专家”一词,而是在结果部分提供了对人类参与者的更精确描述。此外,我们已将此澄清包含在图3的标题中。

  评论 20 (应为 22):

  [第4节

  本节非常简短,因为蒸馏是一个更标准的过程,但尽管如此,了解我们与基础模型以及它们用于蒸馏的模型相比发现了什么样的局限性,将是有见地的。我们想知道“子”模型在哪种能力上变得更像这个或那个“父”模型,以及扩展如何影响这种蒸馏。]

  回应:

  我们的工作主要侧重于在基础模型上扩展强化学习(RL),而不是改进蒸馏技术或为模型蒸馏建立扩展法则。因此,我们认为调查更有效的学生模型和蒸馏策略是未来研究的一个有价值的方向,我们将其留给更广泛的研究社区。在本研究中,蒸馏实验仅旨在说明通过我们的RL方法获得的教师模型的效用,而不是优化所得学生模型的性能。

  评论 21 (应为 23):

  [ 本节并没有真正分析结果为什么是这样的。它更像是一个影响与冲击部分,而不是技术论文或AI科学现状背景下的科学贡献。没有讨论局限性。]

  回应:

  我们已将讨论部分重新定位到附录E,并将其与不成功尝试的分析相结合。在修订后的部分中,我们呈现了我们对强化学习(RL)和监督微调(SFT)之间关系的看法,强调了它们在模型优化中的互补作用。此外,我们强调了加入一个验证器以增强模型生成响应的可靠性和鲁棒性的至关重要性。

  评论 22 (应为 24):

  [附录A. 数据

  A.2.1不够清楚有多少基准需要一个数字,是多项选择还是有其他挑战(A4.1关于RL数据更具体一些,但一个表格和例子会好得多)。作者提到LeetCode,说它的评估需要运行生成的代码。但这篇论文的其他地方没有提到LeetCode。这篇论文中还有其他基准需要运行代码吗?如果有,这如何影响RL过程的速度?图A1似乎包括一个“代码执行器”作为基于规则的奖励模块的一部分。据说“虽然这个模块不需要将模型加载到GPU内存中,但它的执行往往很耗时”,没有进一步的细节。]

  回应:

  1. 1. 在附录H中,我们为每个基准提供了详细的评估程序描述。

  2. 2. 为避免潜在的混淆,我们已将“LeetCode”一词替换为“代码竞赛提示”,因为LeetCode是代码相关提示的一个来源。

  3. 3. LiveCodeBench基准涉及执行代码,并包括用于评估的内置测试用例。

  4. 4. 代码执行器是基于规则的奖励模块的重要组成部分,促进了生成代码的执行和验证。

  评论 23 (应为 25):

  [ 准确率和格式奖励如何组合成一个单一的奖励?]

  回应:

  它们以相同的权重线性组合。我们在附录B1.1,公式B4中更新了细节。

  评论 24 (应为 26):

  [ 作者说“我们的观察是,神经奖励模型在大规模强化学习期间容易受到奖励破解的影响”。这个观察应该更好地解释,论文应该为此提供证据。]

  回应:

  我们增加了图B4来显示奖励破解,其中奖励增加但性能下降。

  评论 25 (应为 27):

  [ A.2.2:同样,关于无害性的细节非常少。据说事情与他们为DeepSeek V3所做的相似,但这应该详细解释。安全测试和风险缓解是至关重要的,应该详细解释。]

  回应:

  如上所述,我们为安全性增加了附录D.3。

  评论 26 (应为 28):

  [ 评论家模型据说“可选”,但这应该被澄清。我认为这意味着一些RL算法有评论家而另一些没有,所以最好描述为“如果算法需要”或“如果需要”在文本和图中。但这也表明可能存在使用其他RL算法的结果,但未被报告。]

  回应:

  已修正,我们使用“如果需要”一词。

  评论 27 (应为 29):

  [ A.4.1 (RL数据)应附有一个表格,其中包含关于数据集的所有细节,就输出类型而言,以便更好地描述所用示例的特征。]

  回应:

  我们在表B1中增加了RL数据描述。

  评论 28 (应为 30):

  [ A.4.2 (SFT数据)这里有更多细节,但仍然远未确保可复现性。据说few-shot用于简单的数学问题,并结合了“反思和验证机制”。这再次需要关于作者所指内容的完整细节以及例子或结果。

  推理数据也需要更多细节。这包括600k个推理示例,特别是使用“通过将真实情况和模型预测输入DeepSeek-V3进行判断的生成式奖励模型”。

  超参数选择部分是需要的,但不足以实现可复现性,因为许多其他细节缺失。]

  回应:

  我们已经提供了关于用于冷启动阶段和800K样本SFT数据集的监督微调(SFT)数据的额外细节,在B3.1、B3.2和B3.3节中。具体来说:

  • • 清单4呈现了生成式奖励模型用于基于LLM的判断的提示。

  • • 清单1说明了用于产生人类可读解决方案的提示。

  • • 此外,关于SFT数据统计的段落概述了800K SFT样本的分布,并报告了关键指标,如平均对话轮数和输出token数。

    我们相信,研究社区可以很容易地收集到质量和数量都相当的数据,从而促进我们方法的蒸馏组件的复现性。

  评论 29 (应为 31):

  [附录B. 评估

  本附录仅列举了基准,增加了更多结果,但没有为评估提供必要的细节,例如污染(哪个基准更精确地用于哪个阶段,基准之间的相似性,...)。只报告了性能,但从这种方法中无法提取实际能力的迹象,以及模型将如何在新基准或新项目上表现,特别是如果它们与整个过程中使用的基准不同(OOD)。]

  回应:

  为了增强对R1的评估,我们纳入了以下组成部分:

  1. 1. 我们在附录D4中提供了对R1在不同阶段的详细评估,包括对初始R1-Zero模型的分析。

  2. 2. 在附录D5中,我们引入了一个分布外(OOD)分析,利用ARC作为测试集,该测试集既未包含在预训练中,也未包含在监督微调(SFT)中,以评估泛化能力。我们通过纳入R1首次亮相后发布的考试,如AIME 2025,来扩展我们的评估,以评估模型处理未见任务的能力。我们进一步通过将结果分解为数学和编程中的不同类别和难度级别来分析性能,从而更全面地了解模型的优势和局限性。我们在MMLU和MMLU-Pro的每个类别上评估模型性能,并将其与DeepSeek-V3进行比较。

  3. 3. 对于R1-Zero,我们在训练过程中特别评估了不同难度级别的性能,如附录C.1所示,提供了模型在其发展过程中如何演变的见解。

  评论 30 (应为 32):

  [ 我们看到AIME被用于评估,所以似乎与用于RL的数学数据集(26k个问题)存在污染,该数据集包括数学考试问题和竞赛问题,或甚至更多如果这用于预训练或SFT。我们根本不知道。AIME被用于评估蒸馏模型。]

  回应:

  关于测试集,我们在预训练、监督微调(SFT)和强化学习(RL)数据集中应用了基于n-gram的去污染技术。

  评论 31 (应为 33):

  [ 看到MMLU中每个类别的增益分解,并看看是否有任何类别退化,将是有用的。]

  回应:

  我们在附录D4中增加了MMLU每个类别的增益分解。

  评论 32 (应为 34):

  [ “标准基准”部分的大部分致力于评论结果,但并未真正提供更多关于评估选择和特殊污染分析的信息。]

  回应:

  我们在附录H中增加了评估选择。

  评论 33 (应为 35):

  [ 我们读到:“DeepSeek-R1在IF-Eval上也取得了令人印象深刻的结果”。再次避免使用“令人印象深刻”或类似的词。]

  回应:

  我们在修订版中删除了这些表述。

  评论 34 (应为 36):

  [ 图B2和B3是屏幕截图。第一个缺少时间戳(据说是在一月份的某个地方),可能是在发布后不久(因此有很宽的置信区间)。无论如何,应该包括更多关于这些屏幕截图的解释以及屏幕截图的一些演变。]

  回应:

  我们为提供的屏幕截图增加了进一步的解释,以澄清排行榜是实时更新的。

  评论 35 (应为 37):

  [ 参考文献。

  在许多情况下,引用的是论文的arxiv版本,而不是期刊/会议版本,例如,Wei J, Tay Y, Bommasani R, et al (2022a) Emergent abilities of large language models. arXiv preprint arXiv:220607682 发表在 Transactions on Machine Learning Research (08/2022) ]

  回应:

  我们将在最终发表前修正这个问题。

  审稿人#8

  评论 1:

  [ 对于R1,论文采用了SFT后跟RL(再后跟用于对齐的SFT)。在RL之前的SFT用于避免模型在CoT中切换语言。SFT中使用的示例轨迹的来源据说是“DeepSeek-R1-Zero的一个早期检查点,用于为DeepSeek-R1创建数据”。

  您能否确认在流程的任何一点(包括在V1训练中)都没有由比正在训练的模型更强大的模型生成的轨迹?

  如果模型在训练流程的任何一点上都是在来自更强大模型的数据上训练的,那么这项工作可以被解释为一种蒸馏形式,而不是有助于我们理解如何在无法接触其他大型模型进行蒸馏的情况下构建大型模型。]

  回应:

  我们理解模型蒸馏是DeepSeek模型开发中一个被广泛讨论的话题。在预训练阶段,我们承认我们收集的网络数据可能包含由GPT-4等先进模型生成的内容。然而,这在当前大规模语言模型训练中很难避免,鉴于互联网上合成内容的广泛存在。

  重要的是要注意,DeepSeek-V3-Base并没有包含一个涉及在合成数据集上进行大规模监督蒸馏的明确“冷却”阶段。相反,所有的训练数据都来源于网络,并反映了自然分布。因此,任何对合成内容的接触都是偶然和间接的,这反映了许多最先进的语言模型所采用的标准数据收集实践。此外,DeepSeek-V3-Base的预训练数据收集截止日期为2024年7月,那时还没有公开发布的先进推理模型。这进一步降低了从现有的强大推理特定模型中无意蒸馏的可能性。

  重要的是,这篇论文的核心贡献——R1-Zero——不涉及任何来自先进模型的蒸馏。RL组件是独立训练的,不依赖于像GPT-4或其他类似能力模型的输出或指导。正如审稿人6所指出的,R1-Zero是纯粹RL(使用最近高效的GRPO算法,去年引入)应用于足够好的、能从思维链(CoT)中受益的预训练LLMs的第一个明确的成功案例(至少是公开的)。总共166k个问题和一个带有基于规则的奖励(正确性和格式)的直接RL算法,足以将一个传统模型V3,转变为一个更好的“推理”模型。

  在我们看来,R1-Zero具有特别的科学意义,因为它证明了强化学习(RL)可以在没有大量人类监督的情况下以端到端的方式有效应用。相比之下,R1模型代表了一个为实际部署和可用性而优化的更精炼的版本。如表D9所示,R1和R1-Zero在以推理为中心的基准上取得了相当的性能。此外,它们在完全未见过的ARC-AGI-1测试集上的性能几乎相同(表D12),这突显了纯粹基于规则的奖励函数,连同166K训练实例,足以发展出强大的推理能力。从R1-Zero到R1,我们不提高推理能力,而是提高可用性。我们不需要一个额外的强大模型来教DeepSeek-R1进行推理任务,因为R1-Zero在推理方面已经足够强大。在开发时,没有模型表现出明显优于R1-Zero的性能(o1在推理方面与R1-Zero相当,o3/o3-mini不公开)。为了进一步使模型输出与人类偏好对齐并提高整体可用性,R1整合了包括人类标注在内的额外训练数据,这些数据是在大型语言模型的辅助下生成的。这里的动机主要是产品驱动的,重点是增强用户体验。当推理过程与类人思维模式对齐时,用户倾向于发现响应更直观、更有吸引力(从R1-Zero到R1)。

  评论 2:

  [ 为了回答RL是否确实是这里性能的根本原因的问题,请提供DeepSeek-R1-zero(即在RL前没有SFT)在表B2中所有任务上的完整性能数据。]

  回应:

  附录D4呈现了R1-Zero的结果,以及中间检查点的性能。相应的定量结果在表D9中提供。如表中所示,R1-Zero取得了与R1相当的性能。此外,监督微调(SFT)阶段对涉及指令遵循以及开放式写作和问答的任务贡献更显著。

  评论 3:

  [ 为了回答R1中RL之前的长CoT SFT是否可能是这里性能的原因的问题,请提供在表B2所有任务上,仅使用CoT SFT而循环中没有RL的R1性能的消融实验。]

  回应:

  表D9呈现了不同训练阶段的性能。对于结果R1,最显著的性能增益是从Dev1到Dev2观察到的,这主要是由在此阶段进行的大规模强化学习(RL)驱动的。值得注意的是,当使用Dev2的中间检查点来生成推理数据时,不同大小的模型——包括更小的架构和DeepSeek-V3-Base——都能够在基准上取得强大的性能。然而,如果RL阶段不应用于流程中,我们就无法得到Dev2检查点。

  此外,我们在附录E.1中提供了关于多轮SFT/RL训练策略动机的详细讨论,旨在为读者提供更深刻的见解。

  评论 4:

  [ 为了回答V1是否在更先进模型的数据上训练的问题,请提供使用替代基础模型(非V1)的DeepSeek-zero的消融实验,例如Llama基础模型(我不是指您在表A1中用QWEN做的蒸馏实验 - 我指的是图2,用Llama替换“DeepSeek V3 Base”,并报告在表B2中任务上使用Llama基础模型的性能)。]

  回应:

  我们已经在原始版本中进行了您建议的实验,结果呈现在表D13中。具体来说,模型DeepSeek-R1-Zero-Qwen-32B是使用强化学习(RL)从一个基础检查点训练的,没有依赖监督微调(SFT)或蒸馏。在这个实验中,我们用Qwen 2.5 32B替换了DeepSeek V3 Base,并在关键的推理基准上评估了模型。

  我们相信Qwen和Llama都是具有相似架构的密集模型,我们使用Qwen作为基础模型的方法的成功证明了我们方法的有效性。虽然我们承认直接使用Llama的实验可以提供额外的见解,但鉴于模型的相当性质,我们预计会有类似的趋势。

  评论 5:

  [ 请提供标准安全基准的数字,以评估事后安全训练的性能。]

  回应:

  我们增加了一个专门评估模型安全的详尽章节。更多细节请参考附录D.3。在本节中,我们首先使用公开可用的安全基准评估了我们模型的安全性能。结果表明,虽然我们的模型在相对简单的基准上表现良好,但在更具挑战性的安全评估中,与西方模型相比,它表现出稍低的性能。然而,我们部署在我们的网页和应用平台上的内部过滤系统,有效地减轻了不安全的响应。

  此外,我们调查了模型的鲁棒性及其对潜在风险知识的处理。我们的研究结果表明,与缺乏明确推理能力的模型相比,像DeepSeek-R1这样的推理增强型模型倾向于暴露更多潜在的敏感或风险知识,尽管它们只表现出对对抗性提示的中等易感性。值得注意的是,思维链推理过程本身引入了更高密度的信息,这突显了模型透明度和安全考虑之间的根本性张力。

  评论 6:

  [ 请提供代码和附录A.4.2中使用的SFT轨迹,供审稿人检查。]

  回应:

  我们已经在附录中增加了SFT轨迹的例子,详见附录B.3.2和B.3.3。此外,一部分SFT数据已经公开可用,如附录F中所述。

  结束语

  我们相信修订后的手稿现在已经解决了审稿人提出的担忧。再次感谢您的时间和宝贵的意见。我们希望当前的版本能达到《自然》的发表标准。

  此致,

  Yu Wu

  通讯作者

  DeepSeek AI