当前位置:首页 > Deepseek最新资讯 > 正文内容

不只是“做题家”!DeepSeek最新模型打破数学推理局限,部分性能超越Gemi

7个月前 (11-28)Deepseek最新资讯144

  在一同发布的论文中,DeepSeek方面表示,该模型通过自验证的方式突破了目前AI在深度推理方面的局限,尤其是针对大模型在数学领域“只是做题家,难成数学家”的症结,即,只重视答案却无法保证推理过程的严谨、正确。

  DeepSeek以验证器为奖励模型训练证明生成器,并激励生成器在最终定稿前尽可能多地识别和解决自身证明中的问题,并通过扩展验证计算能力,自动标记新的难以验证的证明,从而创建训练数据以进一步改进验证器。

  DeepSeek称,这款模型展现了强大的定理证明能力。换句话说,与此前大多大模型在数学方面的表现不同,Math-V2不再只是“做题家”,而真正有可能靠自身全面、严谨的数学推理能力对科学研究产生深远影响。

  DeepSeek也列举了多项验证该模型的强大的证据:Math-V2在IMO(国际数学奥林匹克竞赛)2025和CMO(中国数学奥林匹克)2024上都取得了金牌级成绩,在北美大学生数学竞赛Putnam 2024上通过扩展测试计算实现了接近满分的成绩(118/120)。

  此前,今年7月,OpenAI和谷歌都曾宣布其模型在IMO2025中取得了金牌级成绩,一度形成大模型数学能力天花板。相比于二者,DeepSeek的Math-V2不仅是首个开源的IMO金牌级模型,在测试中,也在部分性能上展现出了更大的优势。

  DeepSeek方面表示,尽管仍有许多工作要做,但这些结果表明,自验证数学推理是一个可行的研究方向,可能有助于开发更强大的数学AI系统。

  这款突破性的开源数学模型发布后,再次在社交平台、reddit、Hacker News等评论区deepseek、社区引发热潮。

  由研究人员和工程师组成的跨学科团队Binary Verse AI发文称,一个开源模型悄无声息地发布,却突破了本科数学的瓶颈。该文章作者阿兹马特(Azmat)提到,Math-V2的有趣之处不仅在于竞赛分数,更在于其方法。

  “如果你曾经批改过数学试卷,你就会明白猜对答案的学生和真正推导出答案的学生之间的区别。”阿兹马特认为,此前的大模型多属于前者,只是概率性的猜测者,而Math-V2的出现改变了这一切。

  文章总结称,我们正从“聊天机器人”时代过渡到“推理者”时代。Math-V2证明了可自验证的数学推理是可以解决的。或许,人类不需要通用人工智能(AGI)来获得严谨的数学运算能力,只需要教会模型保持谦逊。

  社交平台上,不少AI领域的KOL和知名专家都在转发消息并表示“DeepSeek强势回归”“这是你无法忽视的力量”。原文出处:不只是“做题家”!DeepSeek最新模型打破数学推理局限,部分性能超越Gemini DeepThink,感谢原作者,侵权必删!

标签: deepseek

“不只是“做题家”!DeepSeek最新模型打破数学推理局限,部分性能超越Gemi” 的相关文章

远光软件:目前公司主要接入或适配了智谱、阿里千问、deepseek、盘古等大模型

远光软件:目前公司主要接入或适配了智谱、阿里千问、deepseek、盘古等大模型

  尊敬的投资者,您好!目前公司主要接入或适配了智谱deepseek、阿里千问、deepseek、盘古等大模型。谢谢!   以上内容为证券之星据公开信息整理,由AI算法生...

用科技守护大国粮仓 中储粮集团科技成果亮相第二十一届中国国际粮油产品及设备技术展

用科技守护大国粮仓 中储粮集团科技成果亮相第二十一届中国国际粮油产品及设备技术展

  2025年10月30日至11月1日,第二十一届中国国际粮油产品及设备技术展示交易会在杭州大会展中心成功举办。展会期间,中储粮集团系统呈现近年来在新仓型、智能化检测仪器设备、自动化仓储作...

何小鹏称小鹏汽车将成中国首家抓住自动驾驶DeepSeek时刻公司

何小鹏称小鹏汽车将成中国首家抓住自动驾驶DeepSeek时刻公司

  【何小鹏:我们有信心成为中国第一家抓住自动驾驶“DeepSeek 时刻”的公司】今日小鹏汽车董事长何小鹏回顾年会,称汽车与 AI 跨域融合,小鹏有信心成中国首家抓住自动驾驶“DeepS...

DeepSeek预测:曼城vs纽卡斯尔!哈兰德22球轰炸喜鹊军团,蓝月亮3-1复

DeepSeek预测:曼城vs纽卡斯尔!哈兰德22球轰炸喜鹊军团,蓝月亮3-1复

  北京时间2月22日凌晨4点,英超第27轮将上演一场焦点对决——领头羊曼城坐镇阿提哈德球场迎战排名第10的纽卡斯尔。目前曼城以53分紧追榜首阿森纳,而纽卡斯尔36分距离欧战区尚有8分差距...

“韧性”“具身智能”“DeepSeek”入选2025年度“青年十大热词”

“韧性”“具身智能”“DeepSeek”入选2025年度“青年十大热词”

  新华财经上海12月25日电(杨子华)25日,上海市青少年研究中心发布“2025年度青年十大热词”,“韧性”“具身智能”“DeepSeek”“情绪消费”“主理人”“爱你老己”“从从容容游...

Deepseek推荐全国旅游百强区第19名:湖南长沙市岳麓区

Deepseek推荐全国旅游百强区第19名:湖南长沙市岳麓区

  日前,全国县镇发展研究课题组、天和经济研究所县镇发展研究院联合发布了2024《全国县镇发展报告》deepseek,报告评价篇对全国县市以及包含乡村人口的市辖区旅游发展水平进行了综合评价...