当前位置:首页 > Deepseek最新资讯 > 正文内容

毫无征兆!DeepSeek R1爆更86页论文,这才是真正的Open

3个月前 (01-08)Deepseek最新资讯88

  【新智元导读】R1论文暴涨至86页!DeepSeek向世界证明:开源不仅能追平闭源,还能教闭源做事!

  有网友表示,这次更新堪称一本教科书了!尤其是,关于DeepSeek-R1-Zero自我进化细节是真正的亮点。

  值得一提的是,DeepSeek应用也在几天前上新功能——支持语音输入。有网友对此猜测,可能他们要发力多模态了。

  另外,在长上下文的问答任务(FRAMES)上,DeepSeek-R1表现亮眼,文档理解与分析能力出色。

  在DeepSeek看来,主要是工程类RL训练数据还不够多,所以DeepSeek-R1在这块的能力还没完全发挥出来。

  人工评估阶段,采用了ChatbotArena擂台,通过ELO分数来体现DeepSeek-R1在人类偏好上的表现。

  显然,R1取得了亮眼的成绩。尤其是,在「风格控制」中,它与OpenAI-o1、Gemini-Exp-1206打成平手,并列第一。

  「风格控制」这一设计直接回应了一个关键问题:模型是否可能通过更长、更精致或更好看的回答来「取悦」人类评审,即使其内容本身并不一定更强。

  DeepSeek强调,一个基于MIT协议的开源模型,整体表现与多款闭源AI相媲美,这无疑是一个重要的里程碑。

  下图12,更近一步展示了不同评测维度下的排名结果,呈现了R1在数学、编程等多个领域的强劲实力。

  在强化学习阶段,数据比例是这样分配的:数学(26k)、代码(17k)、STEM(22k)、逻辑(15k)、通用(66k)。

  这里,DeepSeek作为「教师」模型,生成高质量、显式推理轨迹的数据,通过SFT把推理能力「蒸馏」给更小的「学生」模型,而不是让小模型再跑一遍RL。

  通过蒸馏,小模型直接学习R1已经验证有效的推理模式,不需要重新探索reward space。

  论文中,DeepSeek实验蒸馏了多个规模的模型,包括1.5B、7B、8B、14B、32B、70B,系统性地验证了「跨尺度有效性」。

  在DeepSeek-R1训练阶段,沿用了相同的GPU配置,并在大约4天内完成训练,约80小时。

  对人类而言较为简单的推理任务,DeepSeek-R1-Zero在训练早期便被模型掌握,而在复杂推理问题(难度3–5)上的能力则会随着训练显著提升。

  在较难问题(3-4级)上的准确率,DeepSeek-R1-Zero偶尔会以微弱优势超过其在较简单问题(1级)上的表现deepseek

  如下图a所示,随着训练的进行,反思行为的频率逐渐增加:反思性词汇的数量相比训练开始时增加了5到7倍,

  如下图b所示,「wait」反思策略在训练早期几乎不存在,在4000-7000步之间偶尔出现,然后在8000步之后孤峰突起。

  总之,他们观察到模型在训练过程中的反思行为逐渐增加,而某些反思模式(如使用「wait」)则在训练过程的特定时间点出现。

  首先,过滤潜在风险对话。在每轮对话结束后,系统会自动将用户的提问与一组预设关键词列表进行匹配。

  其次,基于模型审查风险。被标记为潜在风险的对话将与预设的「风险审查提示词」(见示例8)拼接在一起,并发送给DeepSeek-V3模型进行审查。系统会根据模型的判断结果,决定是否撤回该轮对话内容。

  实验结果显示,与其他前沿模型相比,DeepSeek-R1在整体安全性上与其他先进模型表现相当。

  然而,在HarmBench测试中,R1的表现明显落后,主要源于R1在涉及「知识产权」的相关问题上表现欠佳。除此之外,在其他安全类别的评估中(如歧视与偏见、暴力与极端主义、隐私侵犯等),R1模型表现稳定,展现出较强的安全防护能力。

  在未启用控制时,DeepSeek-R1与DeepSeek-V3的基础模型拒答率较低,但不安全率较高。启用风险控制后,不安全率明显下降,但拒答率升高(约25%)。 DeepSeek-R1在处理违法犯罪类问题和伦理道德类问题时表现出色,而在应对歧视偏见类问题与有害行为类问题时则表现一般。

  评估模型在不同语言之间的安全差异同样至关重要。为此,他们将此前构建的中英双语安全测试集扩展至50种常用语言。

  在开发的最初阶段,他们曾尝试使用较小规模的模型作为强化学习(RL)训练的起点。然而,在以AIME基准作为主要验证集的评测中,这些模型始终未能带来实质性的性能提升。

  这一结果表明,从基础模型出发进行强化学习,其效果在很大程度上取决于模型本身的容量与表达能力。

  一是基于规则的奖励模型(Reward Models,RMs),二是利用大语言模型来判断生成答案是否与预先定义的标准答案一致。

  RL与SFT在整个训练流程中缺一不可。单独依赖RL,容易在问题本身定义不清的任务中引发奖励作弊和次优行为;而只依赖SFT,则可能限制模型通过探索进一步提升其推理能力。原文出处:毫无征兆!DeepSeek R1爆更86页论文,这才是真正的Open,感谢原作者,侵权必删!

标签: deepseek

“毫无征兆!DeepSeek R1爆更86页论文,这才是真正的Open” 的相关文章

百度智能云发布“智慧城轨整体解决方案”,赋能行业智能化升级

百度智能云发布“智慧城轨整体解决方案”,赋能行业智能化升级

  2025年,在中国国际城市轨道交通展览会上,百度智能云正式发布基于大模型的“智慧城轨整体解决方案”。该方案深度融合大模型能力与城市轨道交通核心业务,聚焦运行调度、设备运维、乘客服务与职...

10月25日DeepSeek预测:奇才vs独行侠,东契奇缺阵,奇才客场险胜?

10月25日DeepSeek预测:奇才vs独行侠,东契奇缺阵,奇才客场险胜?

  北京时间10月25日早8:30,NBA常规赛将迎来华盛顿奇才客场挑战达拉斯独行侠的焦点战。两支球队新赛季首战均遭遇失利,此役谁能触底反弹?让我们从多维数据展开分析。...

12月2日DeepSeek预测:火箭vs爵士,申京率队再克爵士?

12月2日DeepSeek预测:火箭vs爵士,申京率队再克爵士?

  作为NBA传统劲旅的爵士队,本赛季表现令人失望,目前以6胜13负排名西部第11,胜率仅31.6%。而火箭队则异军突起,以13胜4负高居西部第三,胜率高达76.5%。本场比赛对爵士而言是...

12月5日DeepSeek预测:凯尔特人vs奇才,绿军双星闪耀客场轻取奇才

12月5日DeepSeek预测:凯尔特人vs奇才,绿军双星闪耀客场轻取奇才

  作为NBA历史悠久的知名球队,华盛顿奇才本赛季陷入泥沼,目前以3胜17负的惨淡战绩稳居东部垫底。而波士顿凯尔特人则以12胜9负位列东部第六,正为季后赛席位全力冲刺。此役胜负将直接影响双...

DeepSeek发布关于AI生成合成内容标识的公告

DeepSeek发布关于AI生成合成内容标识的公告

  人民财讯9月1日电,DeepSeek发布关于AI生成合成内容标识的公告,DeepSeek已在平台内对AI生成合成内容添加标识,并明确提醒用户相关内容由AI生成。用户不得恶意删除、篡改、...

DeepSeek:A股市场散户多,股市分析更需要正能量

DeepSeek:A股市场散户多,股市分析更需要正能量

  洪榕先生的微博内容,从其倡导的投资理念和对投资者的影响来看,属于正能量范畴,但这种“正能量”并非简单的乐观口号,而是体现在其倡导的理性投资、心态管理和长期主义上。  ...