当前位置:首页 > Deepseek最新资讯 > 正文内容

GPT-5危了!DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌

5个月前 (11-28)Deepseek最新资讯154

  【新智元导读】沉寂许久的DeepSeek又回来了!今天,DeepSeekMath-V2重磅登场,一举夺下IMO 2025金牌,实力媲美甚至超越了谷歌的IMO金牌模型,开源AI再次扳回一局。

  当前,已官宣拿下金牌的两大模型,一款来自谷歌Gemini Deep Think,另一款便来自OpenAI的内部模型。

  论文中,团队训练了一个基于LLM验证器(Verifier)作为奖励函数,并以此训练模型以自主解决问题。

  这不仅让它在最难的数学竞赛中横扫人类顶尖选手,更重要的是,它揭示了通往更高级AI的一条必经之路——学会自我反思。

  在过去,训练AI做数学题的方法很简单:给它一道题,如果它算出的答案和标准答案一致,就给它奖励。

  以前的AI在这里经常是个「大忽悠」,它能胡编乱造一通看起来很专业的数学黑话,最后强行得出一个结论。虽然它可能蒙对了结果,但过程全是漏洞。

  DeepSeekMath-V2决定从根本上改变规则,不仅要奖励正确的答案,更要奖励严谨的「自我找茬」过程。

  为了实现这种「自我反思」,DeepSeek设计了一套精妙的「左右互搏」系统,就像在AI的大脑里住了三个人:

  但与以往不同,它被训练成不仅要写答案,还要写一段「自我评价」。它必须诚实地说:「这步我有点不确定,可能是错的。」

  这是DeepSeek专门训练的一个评分模型。它不看答案对不对,而是专门盯着证明过程挑刺。它会像阅卷老师一样,给证明打分(0分、0.5分、1分),并指出具体的逻辑漏洞。

  于是DeepSeek又引入了一个「元验证」机制,专门检查「判官」是不是在胡乱挑刺。如果「判官」指出了一个不存在的错误,它会被「审计员」打手板。

  用元验证器来评估验证器输出分析的平均质量分数,从0.85提升到了0.96,同时保持了原有的打分准确率。

  在这三者的配合下,DeepSeekMath-V2甚至能做到在没有标准答案的情况下,自己给自己出题、自己做、自己批改、自己重做。

  在最后两轮训练迭代中,这条全自动标注流水线已经完全替代了人工标注。后续的质量检查表明,自动生成的标签与人类专家的判断高度一致。

  这一令人惊叹的成绩背后,是DeepSeekMath-V2在实验中展现出的某种「反直觉」的进化特征。

  如果剥离掉所有复杂的反复思考和验证过程,只看模型的「第一直觉」——也就是所谓的One-Shot能力,DeepSeekMath-V2依然表现出了统治级的实力。

  研究团队构建了一个包含代数、几何、数论、组合和不等式五大类难题的内部测试集CNML(难度对标中国高中数学联赛)。

  在面对IMO候选题(Shortlist)这种级别的难题时,模型往往无法一次性写出完美的证明。

  实验显示,如果允许模型进行「自我验证」——即生成答案后,自己挑毛病,然后带着问题重新生成deepseek,奇迹就发生了:

  更有趣的是,如果让模型从自己生成的32个解法中挑一个最好的(Best@32),它的评分准确度极高,得分直接跃升至0.42。

  前文提到的普特南数学竞赛118分(接近满分)的「神迹」,并非仅靠运气,而是得益于一种「高算力搜索」(High-Compute Search)策略。

  正是这种「千锤百炼」的策略,让模型解决了IMO 2025中6道题里的5道,以及在CMO 2024中拿下金牌水平。

  实验数据还揭示了一个有趣的现象:对于那些它没做出来的题,模型通常能准确地找出自己证明中的漏洞;而对于做出来的题,则是真真切切地通过了所有考验。

  DeepSeekMath-V2的成功告诉我们,AI正在从「模仿人类说话」进化到「模仿人类思考」。

  当我们看到AI开始在输出最终结果前,懂得停下来,对自己说一句「这看起来不太对,我再算一遍」时,那才是它真正超越工具属性的时刻。原文出处:GPT-5危了!DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌,感谢原作者,侵权必删!

标签: deepseek

“GPT-5危了!DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌” 的相关文章

10月31日DeepSeek预测:魔术vs黄蜂,鲍尔三双难救主,班凯罗率队终结连

10月31日DeepSeek预测:魔术vs黄蜂,鲍尔三双难救主,班凯罗率队终结连

  北京时间10月31日早7点,夏洛特光谱中心将迎来一场东部卡位战。目前2胜2负排名东部第8的黄蜂,将迎战1胜4负排名第13的魔术。尽管排名差距明显,但历史交锋呈现一边倒——近5次交手魔术...

DeepSeek更新后被吐槽变傻!网友自发号召给官方提意见:赶快调回来 不然用不

DeepSeek更新后被吐槽变傻!网友自发号召给官方提意见:赶快调回来 不然用不

  快科技2月12日消息,2月11日晚间,DeepSeek不管是网页端还是App端,都悄悄更了新版本,还开启了灰度测试,最亮眼的就是——上下文长度直接拉到1M百万Token,相当于翻了快8...

大豪科技(603025.SH):DeepSeek AI 智算一体机、电信高阶智算

大豪科技(603025.SH):DeepSeek AI 智算一体机、电信高阶智算

  公司主业聚焦智能装备电控系统及相关产品、智能工厂云平台系统,以及网络安全与网络通信硬件的定制开发及平台集成服务。公司旗下兴汉网际已布局相关业务,DeepSeek AI 智算一体机、电信...

2月8日DeepSeek预测:76人vs太阳,杜兰特率队捍卫主场,恩比德伤情成X

2月8日DeepSeek预测:76人vs太阳,杜兰特率队捍卫主场,恩比德伤情成X

  在2月8日的NBA常规赛中,菲尼克斯太阳将在主场迎战费城76人。这场比赛不仅是东西部中游球队的较量,更是两支渴望提升排名的球队之间的关键对决。太阳目前以31胜21负的战绩排名西部第7,...

DeepSeek下一代AI 模型V4有望发布,低费率云计算ETF华夏(51663

DeepSeek下一代AI 模型V4有望发布,低费率云计算ETF华夏(51663

  1月12日,AI+方向集体沸腾,截至13:35,低费率云计算ETF华夏(516630)上涨6.47%,冲击3连涨,持仓股拓尔思、汉得信息、易点天下20cm涨停,万兴科技,中科星图等个股...

【明日主题前瞻】DeepSeek下一代旗舰系统R2预计春节前后问世

【明日主题前瞻】DeepSeek下一代旗舰系统R2预计春节前后问世

  据媒体报道,DeepSeek近日发布论文,阐述了一种更为高效的人工智能开发方法。该论文由创始人梁文锋参与撰写,提出了名为“流形约束超连接”(mHC)的框架。作者称,该框架旨在提升可扩展...