当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek的小更新,暴打了OpenAI,追上了Gemini。

7个月前 (12-03)Deepseek最新资讯136

  前者和 GPT-5 能打的有来有回,后面的高性能版更是直接把 GPT 爆了,开始和闭源模型天花板 —— Gemini 打了个五五开。

  还在IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)等一系列比赛中拿下金牌。

  这东西在之前的 V3.2-EXP 版本里出现过,当时只是测了一下 DSA 会不会影响模型的性能,现在是真的把这玩意给放到了主力模型上。

  这是因为大模型原生的注意力机制导致的问题,在这套老逻辑的影响下,每个 token 出来,都要和前面的每一个 token 互相算在一起做一次计算。

  这就导致了句子增长一倍,模型的计算量就得增加到原来的四倍,如果边长到原来的三倍,计算量就变成了原来的九倍,非常麻烦。

  DeepSeek 想这样不行啊,于是就给大模型里加了固定页数的目录(稀疏注意力),相当于帮模型划重点了。

  而在有了目录之后,以后每次只需要计算这个 token 和这些目录的关系就行了,相当于就是看书先读目录,看完目录,对哪一章感兴趣,再去仔细看这章的内容就好。

  大模型这一套从预训练开始,到考试打分的过程,其实有点像是我们人类从小学开始,一路读书读到高考的过程。

  前面的大规模预训练,相当于从小学到高二,把所有课本、练习册、卷子全过一遍,这一步大家都差不多,不管是闭源模型,还是开源模型,都在老老实实的念书。

  但到了高考冲刺阶段就不一样了,在模型的后训练阶段,闭源模型一般都会请名师,猛刷题,开始搞起各种强化学习,最后让模型来考一个不错的成果。

  但开源模型在这块花的心思就比较少了,按照 DeepSeek 的说法,过去的开源模型在训练后阶段计算投入普遍偏低deepseek

  于是,DeepSeek 决定这次自己也要上名师辅导班,设计了一套新的强化学习协议,在预训练结束后,花了超过总训练算力的 10% 来给模型开小灶,把之前缺的这块给补上。

  过去的大模型因为上下文长度有限制,所以在训练的时候都会做一些标注惩罚的工作,如果模型深度思考的内容太长了,那就会扣分。

  而到了 DeepSeek V3.2 Speciale 这儿,所以 DeepSeek 干脆取消掉了这个扣分项,反而鼓励模型想思考多久就思考多久,想怎么思考就怎么思考。

  一方面,为了提高模型的基础能力,DeepSeek 构建了一个虚拟环境,合成了成千上万条数据来辅助训练。

  模型一旦去调用外部工具,前面那段思考基本就算写完收工了,等工具查完结果再回来,它往往又要重新铺一遍思路。

  这就导致一种很蠢的体验——哪怕只是去查一下“今天几月几号” 这种小事,模型也会从头开始重建整套推理链,非常浪费时间。。。

  现在的规则变成:在一整串工具调用的过程中,模型的“思考过程”会一直保留下来,只有当用户发来一条新的提问时,才会重置这一轮推理;而工具的调用记录和结果,会像聊天记录一样一直留在上下文里。

  通过这修改模型架构,重视后训练,强化 Agent 能力的三板斧,DeepSeek 才终于让自己的新模型,有了能和世界顶尖开源模型再次一战的能力。

  我自己也测试了一下,从“人类的最终考试” 的题库里随便抽了道题目,同时丢给 Gemini 3 Pro 和 DeepSeek V3.2 Speciale 这两个模型。

  而 DeepSeek 的各种节省算力,节约数据的操作,其实让我想到了上个月,一场关于 Ilya Sutskever 的访谈。

  AlexNet只用了两块GPU。Transformer刚出现时的实验规模,大多在8~64块GPU范围内。按今天的标准看,那甚至相当于几块GPU的规模,ResNet也一样。没有哪篇论文靠庞大的集群才能完成。原文出处:DeepSeek的小更新,暴打了OpenAI,追上了Gemini。,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek的小更新,暴打了OpenAI,追上了Gemini。” 的相关文章

全球竞相打卡 中国好感度持续攀升

全球竞相打卡 中国好感度持续攀升

  从甲亢哥用镜头展示了中国真实、很现代和充满活力的形象,到无语哥身穿中式服装现身故宫,与观众热情互动……   亿万外国网民通过这些镜头,看到了一个现代、友善、和平、进步...

DeepSeek线上模型版本升级至V3.1

DeepSeek线上模型版本升级至V3.1

  8月19日,澎湃新闻记者获悉deepseek,DeepSeek线上模型版本已升级至 V3.1,上下文长度拓展至 128k,用户可前往官方网页、APP、小程序测试,API 接口调用方式保...

中国靠什么成为“创新实验室”(评论员观察)

中国靠什么成为“创新实验室”(评论员观察)

  地月之间的距离约增加3.8厘米,钱塘江约有120个观潮日,小杨树能长0.5米到1米……对于很多事物和现象而言,一年是个常量或慢变量。   对于中国的人工智能产业来说,...

1月9日DeepSeek预测热火vs公牛:阿德巴约率队攻克联合中心

1月9日DeepSeek预测热火vs公牛:阿德巴约率队攻克联合中心

  当芝加哥公牛(17胜20负,东部第10)在联合中心迎战迈阿密热火(20胜17负,东部第8)deepseek,这场涉及季后赛席位的关键战役将充满火药味。两队胜场差仅3场,公牛急需缩小差距...

社保、养老金罕见同时出手,DeepSeek唯一低估大龙头藏不住了,昨天量

社保、养老金罕见同时出手,DeepSeek唯一低估大龙头藏不住了,昨天量

  利润增速仅2%,社保和养老金却同时重仓进驻,存货创下历史新高,现金流入远超营收——这些看似矛盾的数据背后,究竟隐藏着怎样的投资逻辑?   当看到一家公司三季度业绩仅增...

2月21日DeepSeek预测:掘金vs开拓者,约基奇率队客场复仇

2月21日DeepSeek预测:掘金vs开拓者,约基奇率队客场复仇

  西部第四的丹佛掘金(35胜21负)将客场挑战排名第十的波特兰开拓者(27胜29负),这是两队本赛季第三次交锋。前两次交手开拓者均以微弱优势取胜,其中最近一次是2025年11月1日开拓者...