当前位置：首页 > Deepseek最新资讯 > 正文内容

DeepSeek梁文锋论文登上Nature封面，AI大模型首次通过同行评审

9个月前 (09-18)Deepseek最新资讯378

　　发表 Editorial 文章称，DeepSeek R1 是首个通过权威学术期刊同行评审的大语言模型，并称此举“意义重大”，是朝着透明度和可重复性迈出的可喜一步。

　　他们写道：“依靠独立研究人员进行同行评审，是应对 AI 行业炒作的一种方式deepseek。鉴于 AI 已经无处不在，未经验证的言论对社会构成了真正的风险。因此，我们希望更多 AI 公司能够效仿。”

　　我们熟悉的 ChatGPT、Gemini、Claude、Grok 等主流大模型，他们背后的科技公司通常采用一套不同于学术界的成果发布方式：开直播，在预印本网站arXiv和官方技术博客上发布突破性成果，同时在基准测试排行榜上拿下高分，最后宣布自己具有领先对手的技术优势。

　　实际上，这篇关于 DeepSeek-R1 的论文早在今年 1 月就以预印本的形式发表在arXiv上。

　　Nature介绍，不同于预印本，权威期刊的同行评审并非单向信息流，而是外部专家可以在由独立第三方（编辑）监督和管理的协作流程中提出问题并请求更多信息。

　　在正式发表前，论文通过了 8 名评审的审查，并在他们的反馈下修改、完善、补充了许多重要的技术内容。论文的清晰度、可信度和完整度都得到了进一步提高。

　　通常来说，提升大语言模型推理能力有两种主要途径：一是在预训练阶段通过大规模计算资源实现，二是通过思维链（CoT，Chain-of-Thought）等提示技术，利用设计好的样本示例或“让我们一步步思考”这样的提示词来引导模型产生中间推理步骤。

　　该方法以纯粹的强化学习（RL，Reinforcement Learning）为核心，显著区别于传统训练范式，摆脱了对人工标注推理轨迹的依赖。

　　他们的核心思路是，完全跳过监督微调，只用强化学习优化最终结果的正确性，让模型在无任何人工示范的环境中自发演化推理策略。

　　DeepSeek 团队选择了 DeepSeek-V3-Base 作为基础模型，并采用群体相对策略优化（GRPO，Group Relative Policy Optimization）作为强化学习框架。训练过程中，仅对模型最终答案的正确性进行奖励，不对推理过程进行显式约束。

　　群体相对策略优化算法可以降低计算开销。其核心思想是：对于每个输入问题，先使用旧策略采样一组响应，然后对这组响应评估奖励（通常是回答正确与否）。基于这组奖励计算优势函数，并对策略参数进行梯度更新。

　　换言之，GRPO 为每个问题形成一个奖励群组，通过提升高评分答案的出现概率来优化模型。相比普通策略梯度算法，群体相对策略优化不需要单独训练一个同等规模的评估器，而是直接利用结果集的平均或中位数等统计量作为基线。

　　在解决推理问题时，由此诞生的 DeepSeek-R1-Zero 倾向于生成更长的回答，在每个回答中融入验证、反思和探索替代方案的过程。尽管研究人员并未明确告诉模型何为推理，也没有任何监督微调（SFT，Supervised Fine-Tuning）作为初始步骤，但模型仍然成功学会了推理策略。

　　在某个时刻，DeepSeek-R1-Zero 突然增加了反思过程中“等一下”的使用频率，似乎出现了自我进化。

　　同时，它开始自发地在面对难题时分配更多的推理时间，生成更长的思维链，并重新评估和修正其最初的解题思路。

　　不过，虽然 DeepSeek-R1-Zero 展现出了强大的推理能力，但它也存在可读性差、语言混用等问题，且在写作和开放域问答等任务上表现较差。

　　为了解决这些挑战，他们开发了 DeepSeek-R1，采用了整合拒绝采样、强化学习和监督微调的多阶段学习框架，使模型既保留了推理能力，又能在非推理任务上表现出色。

　　虽然前文提到不用监督微调也可以学会推理，但实践表明，加入少量冷启动数据可进一步提升迭代推理模型的效果。

　　因此，在多阶段训练的初始阶段，DeepSeek 团队收集了数千个冷启动数据，展示了对话式、人类对齐的思维过程。随后应用强化学习训练，通过对话思维过程和语言一致性来改善模型性能。

　　接下来他们使用了拒绝采样和监督微调，将推理和非推理数据集纳入监督微调过程，使模型掌握了不错的写作能力。

　　为了进一步使模型与人类偏好保持一致，他们还采用了第二阶段强化学习，提高模型的可用性和无害性，同时继续完善其推理能力。

　　最后，我们看到发表在Nature上的论文比预印本包含更多的技术细节和内容，这离不开同行评审的贡献。

　　例如评审指出，群体相对策略优化对于 DeepSeek 的创新方法十分重要，应该更详细地描述该算法；使用未受推理轨迹数据污染的基础模型进行实验，可以让实验结果更令人信服；论文中关于模型安全的描述过于宽泛、绝对，应当进行更多的安全评估且用词更加严谨。

　　针对这些问题，DeepSeek 做出了详细回应，包括新增多个附录内容、利用未受推理影响的 Qwen2-7B 进行实验等等。

　　可以说，DeepSeek-R1 论文发表在Nature上，除了肯定其学术价值外，还开创了一个意义重大的先例。

　　这意味着，AI 基础模型研究正从一个以技术博客和基准测试分数为主要评价标准的领域，迈向以方法论的科学性、可复现性和严谨验证为核心的成熟学科。原文出处：DeepSeek梁文锋论文登上Nature封面，AI大模型首次通过同行评审，感谢原作者，侵权必删！

标签: deepseek

返回列表