当前位置:首页 > Deepseek最新资讯 > 正文内容

突发!DeepSeek 一口气连发 2 个新模型

5个月前 (12-01)Deepseek最新资讯170

  DeepSeek官微推文中写道,“DeepSeek-V3.2模型在Agent评测中达到了当前开源模型的最高水平”。

  在指令跟随、数学证明、逻辑验证方面,DeepSeek-V3.2-Speciale能力出众,推荐用来完成高度复杂数学推理、编程竞赛、学术研究类任务。

  在高度复杂任务上,Speciale模型大幅优于标准版本,但消耗的Tokens也显著更多,成本更高。

  新的稀疏注意力机制DSA大幅降低计算复杂度,强化学习训练的计算量超过预训练的10%,还有全新的大规模Agent任务合成管线……

  传统的注意力机制在处理长序列时计算复杂度是O(L²),严重制约了模型的部署效率和后续训练的可扩展性。

  闪电索引器负责快速计算查询token和历史token之间的相关性分数,然后只选择top-k个最相关的token进行注意力计算。

  第一阶段是Dense Warm-up,保持密集注意力,只训练lightning indexer,让它学会对齐主注意力的分布。

  第二阶段才引入稀疏机制,每个查询token选择2048个键值对,训练了15000步,总共处理了9437亿个tokens。

  H800集群上的测试显示,当序列长度达到128K时,预填充阶段每百万token的成本从0.7美元降到了0.2美元左右,解码阶段从2.4美元降到了0.8美元。

  DeepSeek在技术报告中提到,开源模型在post-training阶段的计算资源投入不足,限制了其在困难任务上的性能。

  为此,团队开发了稳定、可扩展的RL协议,使训练后阶段的计算预算超过了预训练成本的10%,从而解锁了模型的先进能力。

  在实际训练中,为了提高效率通常会生成大批量的rollout数据,然后分成多个mini-batch进行梯度更新deepseek。这种做法本身就引入了off-policy行为。

  团队通过计算数据采样策略和当前策略之间的KL散度,把那些偏离太远的负样本序列给mask掉,避免它们干扰训练。

  推理框架和训练框架的实现差异可能导致同样的输入激活不同的专家,这会造成参数空间的突变。通过保存推理时的路由路径并在训练时强制使用相同路径,确保了参数优化的一致性。

  先为每个任务训练专门的模型,包括数学、编程、通用逻辑推理、通用Agent任务、Agent编程和Agent搜索这6个领域,每个领域都支持思考和非思考两种模式。

  在思考上下文管理方面,团队发现DeepSeek-R1那种每次开启新对话就丢弃推理内容的策略,实在是太——浪费token了。

  只有在引入新的用户消息时才丢弃历史推理内容,如果只是添加工具相关消息,推理内容会被保留。即使推理痕迹被删除,工具调用历史和结果也会保留在上下文中。

  最硬核的是团队开发了一个自动环境合成pipeline,生成了1827个任务导向的环境和85000个复杂提示。

  以旅行规划为例,模型需要在满足各种约束条件下规划三天的行程,包括不重复城市、根据酒店价格调整餐厅和景点预算等复杂逻辑。

  虽然在巨大的组合空间中找到满足所有约束的方案很困难,但验证给定方案是否满足约束相对简单,这种”难解易验”的特性非常适合RL训练。

  在代码Agent方面,团队从GitHub挖掘了数百万个issue-PR对,经过严格筛选和自动环境构建,成功搭建了数万个可执行的软件问题解决环境,涵盖Python、Java、JavaScript等多种语言。

  搜索Agent则采用多Agentpipeline生成训练数据,先从大规模网络语料中采样长尾实体,再通过问题构建、答案生成和验证等步骤产生高质量数据。

  Token效率也是个挑战。通常情况下,本次上新的两个模型需要生成更长的轨迹,才能达到Gemini-3.0-Pro的输出质量。原文出处:突发!DeepSeek 一口气连发 2 个新模型,感谢原作者,侵权必删!

标签: deepseek

“突发!DeepSeek 一口气连发 2 个新模型” 的相关文章

联通云上线OpenClaw与DeepSeek等大模型全场景部署方案

联通云上线OpenClaw与DeepSeek等大模型全场景部署方案

  马年新春将至,日前,联通云以全场景生态布局,全面上线OpenClaw与DeepSeek等大模型全场景部署方案,打造春节专属灵活办公解决方案deepseek。原文出处:联通云上线Open...

DeepSeek预测:曼城VS埃弗顿!哈兰德9球屠刀出鞘,蓝月主场碾压太妃糖

DeepSeek预测:曼城VS埃弗顿!哈兰德9球屠刀出鞘,蓝月主场碾压太妃糖

  2025赛季英超第8轮即将上演一场焦点对决,曼城坐镇伊蒂哈德球场迎战埃弗顿。目前曼城以13分排名第5,距离欧冠区仅1分之差;埃弗顿则以11分位列第8,同样对欧战区虎视眈眈。这场比赛的胜...

DeepSeek预测:多特蒙德VS国际米兰!劳塔罗能否终结大黄蜂主场不败神话?

DeepSeek预测:多特蒙德VS国际米兰!劳塔罗能否终结大黄蜂主场不败神话?

  欧冠36强联赛第8轮即将迎来德意大战!多特蒙德坐镇伊杜纳信号公园迎战国际米兰,目前阿森纳以21分领跑积分榜,拜仁18分紧随其后,而本场两队分别积11分和12分,距离前八的直接晋级区仅一...

1月30日DeepSeek预测:黄蜂vs独行侠,米勒率队客场掀翻残阵独行侠

1月30日DeepSeek预测:黄蜂vs独行侠,米勒率队客场掀翻残阵独行侠

  北京时间1月30日,NBA常规赛将迎来一场东西部中游球队的较量,夏洛特黄蜂(20胜28负)客场挑战达拉斯独行侠(19胜28负)。两支胜率不足五成的球队狭路相逢,但近期状态火热的黄蜂有望...

12月28日DeepSeek预测:独行侠vs国王,戴维斯率队客场取胜

12月28日DeepSeek预测:独行侠vs国王,戴维斯率队客场取胜

  西部两支挣扎的球队将在12月28日相遇,达拉斯独行侠客场挑战萨克拉门托国王。目前独行侠以12胜20负排名西部第11,而国王则以7胜23负垫底西部。虽然两队本赛季表现都不尽如人意,但这场...

1月28日DeepSeek预测:国王vs尼克斯,布伦森率队主场复仇

1月28日DeepSeek预测:国王vs尼克斯,布伦森率队主场复仇

  西部垫底的萨克拉门托国王将造访麦迪逊广场花园,挑战东部第四的纽约尼克斯。本赛季国王仅取得12胜35负的惨淡战绩,胜率25.5%排名西部第14;而尼克斯则以27胜18负(胜率60%)稳居...