当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek V3.2爆火,Agentic性能暴涨40%解密

7个月前 (12-04)Deepseek最新资讯179

  当你试图用当今最先进的大模型帮你完成一个复杂的长假规划,比如「带全家老小去云南玩七天」时,往往很可能会遭遇一个令人崩溃的时刻:

  但随着对话进行到第十轮,你们为了选酒店修改了五次方案,又为了某顿晚餐争论了半天后,它突然「失智」了。

  在最新的行程表里,它竟然兴致勃勃地建议:「第四天清晨:全家早起徒步攀登玉龙雪山,欣赏日照金山,全程耗时4小时……」

  MiniMax等部分厂商也将其称作Interleaved Thinking(交错思维链),从示意图即可看出,二者本质上是等价的。这是一个更贴近技术的称呼。

  如图所示,交错思维链即模型在推理(thinking)和工具调用(action)之间来回交替,并持续保留和复用每一轮的推理状态,从而实现稳定、可累积的长程规划。

  要理解交错思维链为什么是「神技」,我们得先看看它的前任——早期的ReAct(Reasoning+Acting)范式是如何遇到瓶颈的。

  在很长一段时间里,我们构建AI Agent的逻辑非常线性:观察->思考->行动。

  这看起来很符合直觉,但在实际的工程实现(如OpenAI的Function Calling(函数调用))中,这个过程往往被简化成了「模型直接输出工具调用指令」。

  但当工具执行完毕,返回了数千行的代码或网页内容后,模型进入下一轮生成时,它面临着巨大的环境扰动。

  想象一下,你是一个程序员,每写一行代码,就有人把你打晕,清除你的短期记忆,然后把刚才的运行日志扔给你,让你继续写。

  模型的思考过程隐藏在权重里,一旦被打断(Turn-based interaction),这些思维火花就烟消云散了。

  在每一次调用工具之前,模型必须先输出一段被包裹在reasoning_details(或类似的tag)中的自然语言。

  在常规的SWE-Bench Verified(软件工程)榜单上,开启交错思维链带来了3.3%的提升(从67.2升至69.4)。这个提升虽然不错,但还算温和。

  然而deepseek,在BrowseComp(网页浏览任务)上,提升幅度达到了惊人的40%(从31.4飙升至44.0);在Tau²这种复杂推理任务上,提升了36%。

  模型通过显式的思考,在接收到庞杂的网页信息后,先进行一轮「信息清洗」和「逻辑校准」:「我刚才搜索了X,结果里有很多无关信息,只有第三段是我需要的,接下来我应该根据这个线索去查Y。」

  早期业界普遍认为,只要让模型学会使用更多的工具(Scaling Tools),Agent就泛化了。

  一个模型可能在Claude Code这种脚手架里表现完美,但换到Cline或者命令行里就一塌糊涂。

  即使换了一个陌生的IDE环境,只要「思考-行动」的闭环还在,模型就能通过显式的逻辑推理来适应新环境,而不是依赖死记硬背的提示词模板。

  这也是为什么MiniMax M2能够在xBench、GAIA等多个异构榜单上全面开花的技术根源。

  虽然Anthropic最早提出了Extended Thinking的概念,但由于其闭源特性,社区并未形成统一标准。

  这就导致了一个灾难性的后果:用户在使用M2时,习惯性地把API返回的reasoning_details字段当成垃圾信息丢掉了。

  在过去的一段时间里,MiniMax的工程师们化身开源社区的「包工头」,向全球主流的Agent开发工具和平台发起了密集的PR(Pull Request,合并请求)攻势。

  最近引发轰动的DeepSeek V3.2,其核心特性之一「Thinking in Tool-Use」(使用工具中思考),在本质上与MiniMax倡导的交错思维链是完全一致的。

  DeepSeek的技术文档中明确指出:模型在调用工具时,会保持思维链的连续性,直到收到新的用户消息才会重置。

  虽然两家在具体的API字段命名上可能略有不同(MiniMax使用reasoning_details,DeepSeek使用reasoning_content,Anthropic使用thinking_blocks等),但在系统设计哲学上,大家已经达成了一致:显式的、交错的、持久化的思考,是智能体进化的必经之路。

  它正在从那个只会根据提示词模板机械执行命令的「复读机」(Copilot),进化为能够在复杂的真实世界中,面对无数未知的扰动和噪音,依然能够停下来思考、自我修正、并坚定地执行长链路任务的「思想者」(Autopilot)。原文出处:DeepSeek V3.2爆火,Agentic性能暴涨40%解密,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek V3.2爆火,Agentic性能暴涨40%解密” 的相关文章

12月7日DeepSeek预测:快船vs森林狼,爱德华兹率队主场擒敌

12月7日DeepSeek预测:快船vs森林狼,爱德华兹率队主场擒敌

  北京时间12月7日,NBA常规赛将迎来西部强弱对话,洛杉矶快船客场挑战明尼苏达森林狼。目前快船以6胜17负排名西部第13,森林狼则以14胜8负稳居西部第6。双方近况迥异,快船近5战1胜...

全面认识把握中国经济高质量发展的确定性

全面认识把握中国经济高质量发展的确定性

  当今世界变乱交织,发展环境动荡不安,确定性日益成为全球的稀缺资源。习近平总书记指出,面对复杂的外部环境,要坚定信心,坚定不移办好自己的事,坚定不移扩大高水平对外开放,着力稳就业、稳企业...

年度人才报告:AI岗位量单月暴涨11倍,职场人使用最多的AI工具为Deepsee

年度人才报告:AI岗位量单月暴涨11倍,职场人使用最多的AI工具为Deepsee

  新快报讯12月12日,脉脉高聘发布《2025年度人才迁徙报告》(以下简称《报告》)。《报告》显示,2025年1-10月,人才求职压力增加,新经济行业整体人才供需比升至2.23,相当于2...

DeepSeek预测:曼联VS伯恩茅斯!红魔主场狂轰滥炸,非洲神锋对决引爆梦剧场

DeepSeek预测:曼联VS伯恩茅斯!红魔主场狂轰滥炸,非洲神锋对决引爆梦剧场

  英超第16轮焦点战即将在老特拉福德打响,曼联(6th)将与伯恩茅斯(13th)展开对决。红魔近期状态回暖,近3轮2胜1平保持不败;而伯恩茅斯则遭遇客场5场不胜的尴尬。两队目前同积6球的...

DeepSeek大模型升级至百万级token,处理能力提升8倍

DeepSeek大模型升级至百万级token,处理能力提升8倍

  #DeepSeek更新上下文达百万级token#最近真的是神仙打架,要问中国AI哪家强,一家比一家强!国产AI大模型DeepSeek刚刚迎来了超级重磅的更新,直接把上下文能力拉到了百万...

加速大模型落地,浪潮信息这场沙龙探讨了DeepSeek部署

加速大模型落地,浪潮信息这场沙龙探讨了DeepSeek部署

  近日,浪潮信息在深圳举办“智算无界 探索未来”沙龙活动,10多家互联网行业头部企业的IT技术专家参与。本次沙龙活动还为互联网用户的多样化业务场景提供定制化部署建议,加速大模型技术向产业...