当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek梁文锋论文登上Nature封面,AI大模型首次通过同行评审

7个月前 (09-18)Deepseek最新资讯374

  发表 Editorial 文章称,DeepSeek R1 是首个通过权威学术期刊同行评审的大语言模型,并称此举“意义重大”,是朝着透明度和可重复性迈出的可喜一步。

  他们写道:“依靠独立研究人员进行同行评审,是应对 AI 行业炒作的一种方式deepseek。鉴于 AI 已经无处不在,未经验证的言论对社会构成了真正的风险。因此,我们希望更多 AI 公司能够效仿。”

  我们熟悉的 ChatGPT、Gemini、Claude、Grok 等主流大模型,他们背后的科技公司通常采用一套不同于学术界的成果发布方式:开直播,在预印本网站arXiv和官方技术博客上发布突破性成果,同时在基准测试排行榜上拿下高分,最后宣布自己具有领先对手的技术优势。

  实际上,这篇关于 DeepSeek-R1 的论文早在今年 1 月就以预印本的形式发表在arXiv上。

  Nature介绍,不同于预印本,权威期刊的同行评审并非单向信息流,而是外部专家可以在由独立第三方(编辑)监督和管理的协作流程中提出问题并请求更多信息。

  在正式发表前,论文通过了 8 名评审的审查,并在他们的反馈下修改、完善、补充了许多重要的技术内容。论文的清晰度、可信度和完整度都得到了进一步提高。

  通常来说,提升大语言模型推理能力有两种主要途径:一是在预训练阶段通过大规模计算资源实现,二是通过思维链(CoT,Chain-of-Thought)等提示技术,利用设计好的样本示例或“让我们一步步思考”这样的提示词来引导模型产生中间推理步骤。

  该方法以纯粹的强化学习(RL,Reinforcement Learning)为核心,显著区别于传统训练范式,摆脱了对人工标注推理轨迹的依赖。

  他们的核心思路是,完全跳过监督微调,只用强化学习优化最终结果的正确性,让模型在无任何人工示范的环境中自发演化推理策略。

  DeepSeek 团队选择了 DeepSeek-V3-Base 作为基础模型,并采用群体相对策略优化(GRPO,Group Relative Policy Optimization)作为强化学习框架。训练过程中,仅对模型最终答案的正确性进行奖励,不对推理过程进行显式约束。

  群体相对策略优化算法可以降低计算开销。其核心思想是:对于每个输入问题,先使用旧策略采样一组响应,然后对这组响应评估奖励(通常是回答正确与否)。基于这组奖励计算优势函数,并对策略参数进行梯度更新。

  换言之,GRPO 为每个问题形成一个奖励群组,通过提升高评分答案的出现概率来优化模型。相比普通策略梯度算法,群体相对策略优化不需要单独训练一个同等规模的评估器,而是直接利用结果集的平均或中位数等统计量作为基线。

  在解决推理问题时,由此诞生的 DeepSeek-R1-Zero 倾向于生成更长的回答,在每个回答中融入验证、反思和探索替代方案的过程。尽管研究人员并未明确告诉模型何为推理,也没有任何监督微调(SFT,Supervised Fine-Tuning)作为初始步骤,但模型仍然成功学会了推理策略。

  在某个时刻,DeepSeek-R1-Zero 突然增加了反思过程中“等一下”的使用频率,似乎出现了自我进化。

  同时,它开始自发地在面对难题时分配更多的推理时间,生成更长的思维链,并重新评估和修正其最初的解题思路。

  不过,虽然 DeepSeek-R1-Zero 展现出了强大的推理能力,但它也存在可读性差、语言混用等问题,且在写作和开放域问答等任务上表现较差。

  为了解决这些挑战,他们开发了 DeepSeek-R1,采用了整合拒绝采样、强化学习和监督微调的多阶段学习框架,使模型既保留了推理能力,又能在非推理任务上表现出色。

  虽然前文提到不用监督微调也可以学会推理,但实践表明,加入少量冷启动数据可进一步提升迭代推理模型的效果。

  因此,在多阶段训练的初始阶段,DeepSeek 团队收集了数千个冷启动数据,展示了对话式、人类对齐的思维过程。随后应用强化学习训练,通过对话思维过程和语言一致性来改善模型性能。

  接下来他们使用了拒绝采样和监督微调,将推理和非推理数据集纳入监督微调过程,使模型掌握了不错的写作能力。

  为了进一步使模型与人类偏好保持一致,他们还采用了第二阶段强化学习,提高模型的可用性和无害性,同时继续完善其推理能力。

  最后,我们看到发表在Nature上的论文比预印本包含更多的技术细节和内容,这离不开同行评审的贡献。

  例如评审指出,群体相对策略优化对于 DeepSeek 的创新方法十分重要,应该更详细地描述该算法;使用未受推理轨迹数据污染的基础模型进行实验,可以让实验结果更令人信服;论文中关于模型安全的描述过于宽泛、绝对,应当进行更多的安全评估且用词更加严谨。

  针对这些问题,DeepSeek 做出了详细回应,包括新增多个附录内容、利用未受推理影响的 Qwen2-7B 进行实验等等。

  可以说,DeepSeek-R1 论文发表在Nature上,除了肯定其学术价值外,还开创了一个意义重大的先例。

  这意味着,AI 基础模型研究正从一个以技术博客和基准测试分数为主要评价标准的领域,迈向以方法论的科学性、可复现性和严谨验证为核心的成熟学科。原文出处:DeepSeek梁文锋论文登上Nature封面,AI大模型首次通过同行评审,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek梁文锋论文登上Nature封面,AI大模型首次通过同行评审” 的相关文章

百度智能云发布“智慧城轨整体解决方案”,赋能行业智能化升级

百度智能云发布“智慧城轨整体解决方案”,赋能行业智能化升级

  2025年,在中国国际城市轨道交通展览会上,百度智能云正式发布基于大模型的“智慧城轨整体解决方案”。该方案深度融合大模型能力与城市轨道交通核心业务,聚焦运行调度、设备运维、乘客服务与职...

11月20日DeepSeek预测:公牛vs开拓者,夏普对决怀特,客场险胜

11月20日DeepSeek预测:公牛vs开拓者,夏普对决怀特,客场险胜

  NBA常规赛即将迎来一场东西部中游球队的较量,芝加哥公牛将客场挑战波特兰开拓者。两支球队目前都处于季后赛边缘位置,这场比赛对于双方的排名至关重要。   公牛目前以7胜...

仿冒DeepSeek钓鱼网站超2000个

仿冒DeepSeek钓鱼网站超2000个

  【#仿冒DeepSeek钓鱼网站超2000个#】#境外AI软件大量用户银行账户泄露# 从缓存漏洞导致敏感信息“裸奔”,到数据库失护引发外泄,亦或是钓鱼网站层出不穷疯狂收割用户。近年来有...

新年贺词里的中国信心

新年贺词里的中国信心

  “我们要锚定目标任务,坚定信心、乘势而上,扎实推动高质量发展,进一步全面深化改革开放,推进全体人民共同富裕,续写中国奇迹新篇章。”   一个幸福的约定,一份共同的期待...

2月2日DeepSeek预测:国王vs奇才,奇才主场险胜,萨尔与乔治成关键

2月2日DeepSeek预测:国王vs奇才,奇才主场险胜,萨尔与乔治成关键

  北京时间2月2日,NBA常规赛将迎来一场东西部垫底球队的较量,华盛顿奇才队将在主场迎战萨克拉门托国王队。两支球队目前战绩均为12胜,分别排在东部和西部的第15位。这场比赛对于双方来说都...

DeepSeek预测:尤文图斯vs那不勒斯!伊尔迪兹VS霍伊伦,谁将主宰这场意甲

DeepSeek预测:尤文图斯vs那不勒斯!伊尔迪兹VS霍伊伦,谁将主宰这场意甲

  北京时间1月26日凌晨1点,意甲第22轮将迎来一场焦点大战,尤文图斯坐镇主场迎战那不勒斯。目前尤文图斯以39分排名第5,而那不勒斯以43分排名第3,两队都处于欧战区,这场比赛对双方的排...