当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek的小更新,暴打了OpenAI,追上了Gemini。

5个月前 (12-03)Deepseek最新资讯132

  前者和 GPT-5 能打的有来有回,后面的高性能版更是直接把 GPT 爆了,开始和闭源模型天花板 —— Gemini 打了个五五开。

  还在IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)等一系列比赛中拿下金牌。

  这东西在之前的 V3.2-EXP 版本里出现过,当时只是测了一下 DSA 会不会影响模型的性能,现在是真的把这玩意给放到了主力模型上。

  这是因为大模型原生的注意力机制导致的问题,在这套老逻辑的影响下,每个 token 出来,都要和前面的每一个 token 互相算在一起做一次计算。

  这就导致了句子增长一倍,模型的计算量就得增加到原来的四倍,如果边长到原来的三倍,计算量就变成了原来的九倍,非常麻烦。

  DeepSeek 想这样不行啊,于是就给大模型里加了固定页数的目录(稀疏注意力),相当于帮模型划重点了。

  而在有了目录之后,以后每次只需要计算这个 token 和这些目录的关系就行了,相当于就是看书先读目录,看完目录,对哪一章感兴趣,再去仔细看这章的内容就好。

  大模型这一套从预训练开始,到考试打分的过程,其实有点像是我们人类从小学开始,一路读书读到高考的过程。

  前面的大规模预训练,相当于从小学到高二,把所有课本、练习册、卷子全过一遍,这一步大家都差不多,不管是闭源模型,还是开源模型,都在老老实实的念书。

  但到了高考冲刺阶段就不一样了,在模型的后训练阶段,闭源模型一般都会请名师,猛刷题,开始搞起各种强化学习,最后让模型来考一个不错的成果。

  但开源模型在这块花的心思就比较少了,按照 DeepSeek 的说法,过去的开源模型在训练后阶段计算投入普遍偏低deepseek

  于是,DeepSeek 决定这次自己也要上名师辅导班,设计了一套新的强化学习协议,在预训练结束后,花了超过总训练算力的 10% 来给模型开小灶,把之前缺的这块给补上。

  过去的大模型因为上下文长度有限制,所以在训练的时候都会做一些标注惩罚的工作,如果模型深度思考的内容太长了,那就会扣分。

  而到了 DeepSeek V3.2 Speciale 这儿,所以 DeepSeek 干脆取消掉了这个扣分项,反而鼓励模型想思考多久就思考多久,想怎么思考就怎么思考。

  一方面,为了提高模型的基础能力,DeepSeek 构建了一个虚拟环境,合成了成千上万条数据来辅助训练。

  模型一旦去调用外部工具,前面那段思考基本就算写完收工了,等工具查完结果再回来,它往往又要重新铺一遍思路。

  这就导致一种很蠢的体验——哪怕只是去查一下“今天几月几号” 这种小事,模型也会从头开始重建整套推理链,非常浪费时间。。。

  现在的规则变成:在一整串工具调用的过程中,模型的“思考过程”会一直保留下来,只有当用户发来一条新的提问时,才会重置这一轮推理;而工具的调用记录和结果,会像聊天记录一样一直留在上下文里。

  通过这修改模型架构,重视后训练,强化 Agent 能力的三板斧,DeepSeek 才终于让自己的新模型,有了能和世界顶尖开源模型再次一战的能力。

  我自己也测试了一下,从“人类的最终考试” 的题库里随便抽了道题目,同时丢给 Gemini 3 Pro 和 DeepSeek V3.2 Speciale 这两个模型。

  而 DeepSeek 的各种节省算力,节约数据的操作,其实让我想到了上个月,一场关于 Ilya Sutskever 的访谈。

  AlexNet只用了两块GPU。Transformer刚出现时的实验规模,大多在8~64块GPU范围内。按今天的标准看,那甚至相当于几块GPU的规模,ResNet也一样。没有哪篇论文靠庞大的集群才能完成。原文出处:DeepSeek的小更新,暴打了OpenAI,追上了Gemini。,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek的小更新,暴打了OpenAI,追上了Gemini。” 的相关文章

DeepSeek或开发AI智能体模型,预计四季度发布

DeepSeek或开发AI智能体模型,预计四季度发布

  日前有消息源透露,DeepSeek方面正在开发一款具备更先进AI智能体(Agent )功能的大模型,意在与OpenAI等竞争对手在技术新前沿展开竞争。据称,DeepSeek正在开发的这...

用科技守护大国粮仓 中储粮集团科技成果亮相第二十一届中国国际粮油产品及设备技术展

用科技守护大国粮仓 中储粮集团科技成果亮相第二十一届中国国际粮油产品及设备技术展

  2025年10月30日至11月1日,第二十一届中国国际粮油产品及设备技术展示交易会在杭州大会展中心成功举办。展会期间,中储粮集团系统呈现近年来在新仓型、智能化检测仪器设备、自动化仓储作...

盘中必读豆包月活超越DeepSeek!字节概念大涨,线上线下20CM封板

盘中必读豆包月活超越DeepSeek!字节概念大涨,线上线下20CM封板

  9月16日,A股市场字节跳动概念股集体走强,其中线上线下早盘快速拉升,20CM封涨停,截至午市收盘,线上线下报单日成交额超6亿元,换手率激增至18%,领涨整个字节生态板块。与此同时,板...

12月30日DeepSeek预测:勇士vs篮网,库里率队客场取胜

12月30日DeepSeek预测:勇士vs篮网,库里率队客场取胜

  北京时间12月30日,NBA常规赛将迎来一场焦点对决,金州勇士客场挑战布鲁克林篮网。目前勇士以16胜16负排名西部第8,篮网则以10胜19负位列东部第13。本场比赛对于两支球队的季后赛...

用AI联通丨当“政务+AI”遇上DeepSeek

用AI联通丨当“政务+AI”遇上DeepSeek

  在数字化浪潮席卷全球的今天,人工智能正以前所未有的速度重塑各行各业的发展格局。今年3月,上海联通携手自贸区临港新片区企业服务中心,依托国内领先的深度求索(DeepSeek)大语言模型,...

年轻人与DeepSeek聊杂技丨吴桥人是不是有杂技DNA?

年轻人与DeepSeek聊杂技丨吴桥人是不是有杂技DNA?

  长城网·冀云客户端讯(孙欣宇)随着第二十届中国吴桥国际杂技艺术节的脚步越来越近,吴桥再度成为世界瞩目的焦点。吴桥杂技历史悠久,村村都有杂技艺人,素有“上至九十九,下到刚会走,吴桥耍杂技...