当前位置:首页 > Deepseek最新资讯 > 正文内容

开源和闭源模型的差距在拉大:这是 DeepSeek 论文揭示的残酷真相

7个月前 (12-07)Deepseek最新资讯168

  12月2日,DeepSeek 发布了 V3.2 技术报告。在这篇论文里,他们做了一件罕见的事:明确指出开源大模型与闭源模型的性能差距不是在缩小,而是在扩大。

  2024年,当 DeepSeek、Qwen、GLM 等开源模型接连发布时,社区充满乐观情绪。8个月时间差的说法广为流传,许多人相信开源正在追上闭源。但进入2025年,情况发生了变化。

  DeepSeek 在论文引言部分直言不讳地写道:“过去几个月出现了明显的分化。虽然开源社区持续进步,但闭源专有模型的性能提升速度显著更快deepseek。结果是,两者的差距非但没有缩小,反而在扩大,闭源系统在复杂任务上展现出越来越强的优势。”

  值得注意的是,DeepSeek V3.2 已经是目前最强的开源模型,在大部分开源模型的对比中都处于领先位置。但即便如此,它与顶级闭源模型之间仍然存在明显差距,尤其是在需要深度推理和复杂任务处理的场景中。

  论文通过系统分析,识别出限制开源模型在复杂任务上能力的三个关键缺陷。这些不是表面问题,而是深层次的结构性困境。

  开源模型普遍依赖传统的 vanilla attention 机制,这种机制在处理长序列时效率极低。

  论文指出,这种架构上的依赖严重限制了长序列的效率,对可扩展部署和有效的后训练构成了实质性障碍。当闭源模型已经在探索更高效的注意力机制时,开源模型还在用五年前的技术架构,这本身就是一个巨大的劣势。

  后训练是让模型从会说话变成会思考的关键环节,需要通过强化学习让模型学会推理、工具使用和遵循复杂指令。论文透露,DeepSeek V3.2 的后训练计算预算超过了预训练成本的 10%。要知道,预训练本身就是天价投入,而大部分开源模型的后训练预算可能连 1% 都不到。这种资源投入上的差距,直接导致了性能上的代际差异。

  在真实应用场景中,开源模型的泛化能力和指令理解能力明显落后。论文引用了三个关键的 Agent 测评基准:在 MCP-Mark 中,DeepSeek V3.2 得分 45.9,Gemini 3.0 Pro 是 51.0;在 MCP-Universe 中,前者是 80.3,后者是 87.9;在 Tool-Decathlon 中,差距更加明显。这些数字背后反映的是开源模型在复杂多轮交互、工具调用、长期规划等场景下的能力不足。

  论文总结道:开源模型在泛化能力和指令跟随能力方面展现出明显滞后,这阻碍了它们在实际部署中的有效性。这是一个诚实且残酷的判断。

  认识到问题后,DeepSeek 没有选择简单地堆砌参数或增加数据量,而是在三个核心维度上进行了根本性的技术创新。

  传统注意力机制的计算复杂度是 O(L²),序列长度翻倍,计算量就要翻四倍。DSA 通过闪电索引器(Lightning Indexer)快速计算每个 token 的重要性评分,然后只选择 top-k 个最重要的 token 参与注意力计算(论文中 k=2048),将复杂度从 O(L²) 降至 O(L×k)。

  这个改进不仅仅是理论上的优化。论文通过实测数据表明,在 128K 上下文长度下,DSA 大幅降低了推理成本,而性能几乎没有损失。更令人意外的是,在 AA-LCR(长文本推理基准)和 Fiction.liveBench(小说理解测试)中,V3.2 的表现甚至优于使用传统注意力机制的 V3.1。这证明 DSA 不仅更快,在某些场景下质量还更好。

  论文明确写道:近几个月来,性能提升与扩展的 RL 训练预算持续相关,该预算已超过预训练成本的 10%。这个数字在开源界极为罕见。具体来说,DeepSeek 为数学、编程、推理、Agent 等六大领域分别训练了专家模型,每个都单独进行大规模强化学习训练。在持续预训练阶段,模型经历了 943.7B tokens 的训练(在 128K 上下文长度下),然后采用 GRPO(Group Relative Policy Optimization)算法进行混合训练,整合推理、Agent 和人类对齐三类任务。

  他们合成了超过 1800 个多样化环境和 85,000 条复杂提示,涵盖各种真实场景。具体包括 24,667 个代码 Agent 任务、50,275 个搜索 Agent 任务、4,417 个通用 Agent 任务和 5,908 个代码解释器任务。这些合成数据不是随机生成的,而是通过冷启动阶段学习推理与工具使用的统一模式,然后在规模化阶段系统地生成高质量训练场景。

  效果是显著的。在 Agent 相关的测试中,DeepSeek V3.2 显著缩小了与闭源模型的差距,在 MCP-Universe 上达到了 80.3% 的成功率,虽然仍低于 Gemini 的 87.9%,但已经是开源模型中的最佳表现。论文总结说:“DeepSeek V3.2 成为 Agent 场景中极具成本效益的选择,显著缩小了开源与前沿闭源模型之间的性能差距。”

  论文最后写了一句耐人寻味的话:如果 Gemini 3.0 证明了持续扩展预训练的潜力,DeepSeek V3.2-Speciale 则证明了在大规模上下文环境中强化学习的可扩展性。言下之意很明显:闭源巨头有资源堆预训练,但开源可以找到自己的路——通过更高效的架构和更科学的后训练,用更少的资源实现接近的效果。

  这或许是开源 AI 唯一的生存之道:不是硬碰硬拼资源,而是拼技术路线的创新。至少在这一次,DeepSeek 证明了这条路是走得通的。原文出处:开源和闭源模型的差距在拉大:这是 DeepSeek 论文揭示的残酷真相,感谢原作者,侵权必删!

标签: deepseek

“开源和闭源模型的差距在拉大:这是 DeepSeek 论文揭示的残酷真相” 的相关文章

Deepseek推荐全国旅游百强县市第97名:宁夏贺兰县

Deepseek推荐全国旅游百强县市第97名:宁夏贺兰县

  日前,全国县镇发展研究课题组、天和经济研究所县镇发展研究院联合发布了2024《全国县镇发展报告》,报告评价篇对全国县市以及包含乡村人口的市辖区旅游发展水平进行了综合评价,并发布了天和2...

1月27日DeepSeek预测:开拓者vs凯尔特人,绿军主场复仇,双探花火力全开

1月27日DeepSeek预测:开拓者vs凯尔特人,绿军主场复仇,双探花火力全开

  东部豪强凯尔特人(28胜17负,东部第2)将坐镇TD花园迎战西部第9的开拓者(23胜23负)。绿军近期虽2胜3负略显起伏,但主场胜率高达68%;开拓者近5战4胜状态火热,但客场胜率仅4...

11月19日DeepSeek预测:灰熊vs马刺,文班亚马缺阵或成转折,马刺主场险

11月19日DeepSeek预测:灰熊vs马刺,文班亚马缺阵或成转折,马刺主场险

  西部第五的马刺将在主场迎战排名第11的灰熊,两队本赛季表现迥异——马刺以9胜4负(胜率69.2%)高居西部上半区,而灰熊仅4胜10负(胜率28.6%)深陷泥潭。此役胜负将直接影响马刺冲...

1月11日DeepSeek预测:快船vs活塞,东部霸主能否捍卫主场?伦纳德vs康

1月11日DeepSeek预测:快船vs活塞,东部霸主能否捍卫主场?伦纳德vs康

  作为联盟传统豪强的底特律活塞,目前以28胜9负的骄人战绩高居东部第一,胜率高达75.7%。而洛杉矶快船仅以14胜23负位列西部第11,双方排名形成鲜明对比。此役胜负将直接影响活塞的榜首...

11月20日DeepSeek预测:火箭vs骑士,杜兰特率队客场险胜米切尔

11月20日DeepSeek预测:火箭vs骑士,杜兰特率队客场险胜米切尔

  北京时间11月20日早8点,NBA常规赛将上演一场焦点对决,休斯顿火箭(9胜3负)客场挑战克利夫兰骑士(10胜5负)。作为西部新贵,火箭在杜兰特和申京带领下高居联盟进攻效率榜首;而骑士...

越过 L3 直达 L4,小鹏就是中国智驾的 DeepSeek

越过 L3 直达 L4,小鹏就是中国智驾的 DeepSeek

  3 月 2 日是元宵节的前一天,正月十四,严格来说还在春节里。广州前天下了场雨,早上雾锁珠江,直到下午都没散尽。小鹏科技园里,沿路站着几位手执很多把伞等雨的保安,注视媒体老师们鱼贯进入...