当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek上新:开源模型首达IMO金牌水平,AI推理告别“死记硬背”

7个月前 (11-28)Deepseek最新资讯162

  在OpenAI发布GPT-5.1、谷歌推出Gemini 3系列的背景下,国内AI独角兽DeepSeek虽然迟迟未能带来基座模型的大更新,但也于本周三晚间低调发布了其最新的技术成果DeepSeek-Math-V2。

  据官方披露的技术报告显示,DeepSeek-Math-V2拥有685B参数量,专注于提升大语言模型的数学推理与定理证明能力。在多项高难度数学竞赛基准中,该模型交出了一份极具冲击力的成绩单。

  首先是顶尖竞赛表现,在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中,Math-V2均达到了金牌水平。特别是在被称为“数学界炼狱”的普特南(Putnam 2024)数学竞赛中,通过扩展测试计算(Test-time Compute),该模型取得了118分(满分120分)的近乎满分成绩,远超人类选手约90分的历史最高分记录。

  在难度更高的进阶集(Advanced)上,Math-V2得分61.9%,虽然略低于Gemini DeepThink的65.7%,但作为开源模型,其性能已无限接近闭源商用模型的顶尖水平。

  此外,团队在论文中透露,在自主构建的91个CNML(中国国家数学实验室)级别问题测试中,Math-V2在代数、几何、数论、组合学和不等式等所有类别中,均超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表现。

  DeepSeek此次发布的时间点颇为耐人寻味。就在模型开源前不到24小时deepseek,前OpenAI首席科学家、AI教父Ilya Sutskever在一场访谈中直言,当前的AI模型更像是一个只会“死记硬背”的做题机器。DeepSeek Math-V2的发布仿佛是一次跨越时空的回应,其核心技术革新正是为了解决Ilya所担忧的“推理假象”问题,展现出一种不再满足于单纯结果正确的技术自觉。

  传统的AI训练模式往往陷入“结果导向”的陷阱,即只要最终答案正确就给予模型奖励(Reward)。这种机制容易导致AI产生投机行为,为了获取奖励而猜测答案,即便中间逻辑混乱甚至错误。DeepSeek在技术论文中一针见血地指出,正确的答案并不保证正确的推理。为了根除这种“混子”行为,Math-V2采取了严苛的“死磕过程”策略。模型必须展示清晰、严谨的分步推导过程,只要中间步骤出现逻辑断裂,即便最终结果正确,系统也不会给予正向反馈。这一转变逼迫AI必须真正理解题目逻辑,而非依赖概率上的运气。

  为了精准评估这些复杂的推理步骤,DeepSeek独创了一套多层级的“元验证”(Meta-Verification)机制。在以往的训练中,给AI的解题步骤打分是一项极具挑战的任务,单一的AI评判者也容易看走眼。为此,团队设计了一种类似“套娃”的监督架构:在AI“学生”做题、AI“老师”批改的基础上,引入了更高层级的“校长”角色来审查判卷的合理性。如果“老师”出现误判,“校长”会进行纠正。这种层层嵌套的监督体系,直接将评分系统的置信度从0.85提升至0.96,极大地保证了训练数据的质量。

  更引人注目的是,Math-V2展现出了类似人类“三省吾身”的自我反思能力。在处理高难度定理证明时,模型不再是一路狂奔直达终点,而是像一位严谨的数学家一样,在推理过程中通过测试时间计算(Test-time Compute)进行停顿和自省。一旦发现逻辑漏洞,模型会自主推翻重写,直到逻辑链条无懈可击。这种从盲目计算向深思熟虑的进化,表明通往超级智能的路径并非只有算力的堆叠,更需要这种懂得“回头看”的智慧。

  DeepSeek Math-V2的发布在海外开发者社区引发了强烈反响,被舆论称为“鲸鱼回归(The Whale is back)”。市场分析人士认为,DeepSeek以10个百分点的优势在基础基准上击败谷歌获奖模型,打破了顶级推理模型长期被闭源巨头垄断的局面。

  有资深算法工程师对观察者网表示:“DeepSeek验证了‘自验证推理路径’的可行性。数学推理能力是代码生成、科学计算等任务的基石。行业普遍推测,DeepSeek极有可能将这一逻辑验证能力迁移至编程模型(Coding),届时将对现有的代码辅助工具市场产生巨大冲击。”

  目前,全球AI大模型正处于从“文本生成”向“逻辑推理”进化的关键窗口期。DeepSeek此次“亮剑”,不仅证明了国产模型在高端算法领域的竞争力,也为开源社区提供了一条清晰的技术演进路线——即通过构建严谨的验证机制,而非单纯堆砌算力,来实现机器智能的质变。

  目前DeepSeek新模型的代码与权重已在Hugging Face及GitHub平台完全开源,行业期待其后续在通用旗舰模型上的进一步动作。

  /香港大火已致94人遇难78人受伤!遗体照片和遗物辨认程序已开放 专家称大楼维修恐比重建成本高

  /财经早报:收到邀请,中方将组织代表团访美,摩根大通最新!中国股票“超配”丨2025年11月28日

  /“突围”低利率困境,理财行业多策略转型加速,2026年业绩基准预计回升30bp至2.7%原文出处:DeepSeek上新:开源模型首达IMO金牌水平,AI推理告别“死记硬背”,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek上新:开源模型首达IMO金牌水平,AI推理告别“死记硬背”” 的相关文章

DeepSeek预测:AC米兰VS热那亚!红黑军团主场碾压,莱奥+普利西奇双星闪

DeepSeek预测:AC米兰VS热那亚!红黑军团主场碾压,莱奥+普利西奇双星闪

  意甲第19轮即将迎来一场焦点战,排名第2的AC米兰(38分)主场迎战深陷降级区的热那亚(15分)。红黑军团距离榜首国际米兰仅1分,而热那亚仅领先降级区3分,这场比赛的胜负对双方都至关重...

3月11日DeepSeek预测:凯尔特人vs马刺,绿军双星能否攻克文班亚马领衔的

3月11日DeepSeek预测:凯尔特人vs马刺,绿军双星能否攻克文班亚马领衔的

  北京时间3月11日,NBA常规赛将迎来焦点战——东部第二的凯尔特人(43胜21负)客场挑战西部第二的马刺(47胜17负)。两支胜率均超过67%的球队相遇,既是联盟顶级攻防体系的碰撞,更...

1月16日DeepSeek预测:灰熊vs魔术,班凯罗率队捍卫主场,魔术小胜灰熊

1月16日DeepSeek预测:灰熊vs魔术,班凯罗率队捍卫主场,魔术小胜灰熊

  北京时间1月16日凌晨3点,NBA常规赛将迎来一场东西部球队之间的较量,奥兰多魔术将在主场迎战孟菲斯灰熊。魔术目前以22胜18负的战绩排名东部第6,而灰熊则以17胜22负的战绩位列西部...

12月13日DeepSeek预测:爵士vs灰熊,马尔卡宁能否带队终结五连败?

12月13日DeepSeek预测:爵士vs灰熊,马尔卡宁能否带队终结五连败?

  西部两支季后赛边缘球队将在孟菲斯展开较量,爵士(8胜15负,西部第12)挑战灰熊(11胜13负,西部第9)。本赛季双方胜场差3场,此役对季后赛卡位战具有关键意义。  ...

DeepSeek V4要来了?联合北大、清华团队发布智能体推理框架DualPat

DeepSeek V4要来了?联合北大、清华团队发布智能体推理框架DualPat

  #DeepSeek发布智能体推理框架DualPath#【DeepSeek V4要来了?联合北大、清华团队发布智能体推理框架DualPath】#最新科技消息# DeepSeek联合北大、...

2月10日DeepSeek预测:骑士vs掘金,约基奇率队主场复仇?

2月10日DeepSeek预测:骑士vs掘金,约基奇率队主场复仇?

  西部第三的丹佛掘金(34胜19负)将在高原主场迎战东部第四的克利夫兰骑士(32胜21负)。这是两队本赛季第二次交锋,此前骑士在1月3日以113-108主场取胜。作为卫冕冠军,掘金急需用...