当前位置：首页 > Deepseek最新资讯 > 正文内容

DeepSeek V3.2爆火，Agentic性能暴涨40%解密

5个月前 (12-04)Deepseek最新资讯175

　　当你试图用当今最先进的大模型帮你完成一个复杂的长假规划，比如「带全家老小去云南玩七天」时，往往很可能会遭遇一个令人崩溃的时刻：

　　但随着对话进行到第十轮，你们为了选酒店修改了五次方案，又为了某顿晚餐争论了半天后，它突然「失智」了。

　　在最新的行程表里，它竟然兴致勃勃地建议：「第四天清晨：全家早起徒步攀登玉龙雪山，欣赏日照金山，全程耗时4小时……」

　　MiniMax等部分厂商也将其称作Interleaved Thinking（交错思维链），从示意图即可看出，二者本质上是等价的。这是一个更贴近技术的称呼。

　　如图所示，交错思维链即模型在推理（thinking）和工具调用（action）之间来回交替，并持续保留和复用每一轮的推理状态，从而实现稳定、可累积的长程规划。

　　要理解交错思维链为什么是「神技」，我们得先看看它的前任——早期的ReAct（Reasoning+Acting）范式是如何遇到瓶颈的。

　　在很长一段时间里，我们构建AI Agent的逻辑非常线性：观察->思考->行动。

　　这看起来很符合直觉，但在实际的工程实现（如OpenAI的Function Calling（函数调用））中，这个过程往往被简化成了「模型直接输出工具调用指令」。

　　但当工具执行完毕，返回了数千行的代码或网页内容后，模型进入下一轮生成时，它面临着巨大的环境扰动。

　　想象一下，你是一个程序员，每写一行代码，就有人把你打晕，清除你的短期记忆，然后把刚才的运行日志扔给你，让你继续写。

　　模型的思考过程隐藏在权重里，一旦被打断（Turn-based interaction），这些思维火花就烟消云散了。

　　在每一次调用工具之前，模型必须先输出一段被包裹在reasoning_details（或类似的tag）中的自然语言。

　　在常规的SWE-Bench Verified（软件工程）榜单上，开启交错思维链带来了3.3%的提升（从67.2升至69.4）。这个提升虽然不错，但还算温和。

　　然而deepseek，在BrowseComp（网页浏览任务）上，提升幅度达到了惊人的40%（从31.4飙升至44.0）；在Tau²这种复杂推理任务上，提升了36%。

　　模型通过显式的思考，在接收到庞杂的网页信息后，先进行一轮「信息清洗」和「逻辑校准」：「我刚才搜索了X，结果里有很多无关信息，只有第三段是我需要的，接下来我应该根据这个线索去查Y。」

　　早期业界普遍认为，只要让模型学会使用更多的工具（Scaling Tools），Agent就泛化了。

　　一个模型可能在Claude Code这种脚手架里表现完美，但换到Cline或者命令行里就一塌糊涂。

　　即使换了一个陌生的IDE环境，只要「思考-行动」的闭环还在，模型就能通过显式的逻辑推理来适应新环境，而不是依赖死记硬背的提示词模板。

　　这也是为什么MiniMax M2能够在xBench、GAIA等多个异构榜单上全面开花的技术根源。

　　虽然Anthropic最早提出了Extended Thinking的概念，但由于其闭源特性，社区并未形成统一标准。

　　这就导致了一个灾难性的后果：用户在使用M2时，习惯性地把API返回的reasoning_details字段当成垃圾信息丢掉了。

　　在过去的一段时间里，MiniMax的工程师们化身开源社区的「包工头」，向全球主流的Agent开发工具和平台发起了密集的PR（Pull Request，合并请求）攻势。

　　最近引发轰动的DeepSeek V3.2，其核心特性之一「Thinking in Tool-Use」（使用工具中思考），在本质上与MiniMax倡导的交错思维链是完全一致的。

　　DeepSeek的技术文档中明确指出：模型在调用工具时，会保持思维链的连续性，直到收到新的用户消息才会重置。

　　虽然两家在具体的API字段命名上可能略有不同（MiniMax使用reasoning_details，DeepSeek使用reasoning_content，Anthropic使用thinking_blocks等），但在系统设计哲学上，大家已经达成了一致：显式的、交错的、持久化的思考，是智能体进化的必经之路。

　　它正在从那个只会根据提示词模板机械执行命令的「复读机」（Copilot），进化为能够在复杂的真实世界中，面对无数未知的扰动和噪音，依然能够停下来思考、自我修正、并坚定地执行长链路任务的「思想者」（Autopilot）。原文出处：DeepSeek V3.2爆火，Agentic性能暴涨40%解密，感谢原作者，侵权必删！

标签: deepseek