当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek V3.2爆火,Agentic性能暴涨40%解密

7个月前 (12-04)Deepseek最新资讯180

  当你试图用当今最先进的大模型帮你完成一个复杂的长假规划,比如「带全家老小去云南玩七天」时,往往很可能会遭遇一个令人崩溃的时刻:

  但随着对话进行到第十轮,你们为了选酒店修改了五次方案,又为了某顿晚餐争论了半天后,它突然「失智」了。

  在最新的行程表里,它竟然兴致勃勃地建议:「第四天清晨:全家早起徒步攀登玉龙雪山,欣赏日照金山,全程耗时4小时……」

  MiniMax等部分厂商也将其称作Interleaved Thinking(交错思维链),从示意图即可看出,二者本质上是等价的。这是一个更贴近技术的称呼。

  如图所示,交错思维链即模型在推理(thinking)和工具调用(action)之间来回交替,并持续保留和复用每一轮的推理状态,从而实现稳定、可累积的长程规划。

  要理解交错思维链为什么是「神技」,我们得先看看它的前任——早期的ReAct(Reasoning+Acting)范式是如何遇到瓶颈的。

  在很长一段时间里,我们构建AI Agent的逻辑非常线性:观察->思考->行动。

  这看起来很符合直觉,但在实际的工程实现(如OpenAI的Function Calling(函数调用))中,这个过程往往被简化成了「模型直接输出工具调用指令」。

  但当工具执行完毕,返回了数千行的代码或网页内容后,模型进入下一轮生成时,它面临着巨大的环境扰动。

  想象一下,你是一个程序员,每写一行代码,就有人把你打晕,清除你的短期记忆,然后把刚才的运行日志扔给你,让你继续写。

  模型的思考过程隐藏在权重里,一旦被打断(Turn-based interaction),这些思维火花就烟消云散了。

  在每一次调用工具之前,模型必须先输出一段被包裹在reasoning_details(或类似的tag)中的自然语言。

  在常规的SWE-Bench Verified(软件工程)榜单上,开启交错思维链带来了3.3%的提升(从67.2升至69.4)。这个提升虽然不错,但还算温和。

  然而deepseek,在BrowseComp(网页浏览任务)上,提升幅度达到了惊人的40%(从31.4飙升至44.0);在Tau²这种复杂推理任务上,提升了36%。

  模型通过显式的思考,在接收到庞杂的网页信息后,先进行一轮「信息清洗」和「逻辑校准」:「我刚才搜索了X,结果里有很多无关信息,只有第三段是我需要的,接下来我应该根据这个线索去查Y。」

  早期业界普遍认为,只要让模型学会使用更多的工具(Scaling Tools),Agent就泛化了。

  一个模型可能在Claude Code这种脚手架里表现完美,但换到Cline或者命令行里就一塌糊涂。

  即使换了一个陌生的IDE环境,只要「思考-行动」的闭环还在,模型就能通过显式的逻辑推理来适应新环境,而不是依赖死记硬背的提示词模板。

  这也是为什么MiniMax M2能够在xBench、GAIA等多个异构榜单上全面开花的技术根源。

  虽然Anthropic最早提出了Extended Thinking的概念,但由于其闭源特性,社区并未形成统一标准。

  这就导致了一个灾难性的后果:用户在使用M2时,习惯性地把API返回的reasoning_details字段当成垃圾信息丢掉了。

  在过去的一段时间里,MiniMax的工程师们化身开源社区的「包工头」,向全球主流的Agent开发工具和平台发起了密集的PR(Pull Request,合并请求)攻势。

  最近引发轰动的DeepSeek V3.2,其核心特性之一「Thinking in Tool-Use」(使用工具中思考),在本质上与MiniMax倡导的交错思维链是完全一致的。

  DeepSeek的技术文档中明确指出:模型在调用工具时,会保持思维链的连续性,直到收到新的用户消息才会重置。

  虽然两家在具体的API字段命名上可能略有不同(MiniMax使用reasoning_details,DeepSeek使用reasoning_content,Anthropic使用thinking_blocks等),但在系统设计哲学上,大家已经达成了一致:显式的、交错的、持久化的思考,是智能体进化的必经之路。

  它正在从那个只会根据提示词模板机械执行命令的「复读机」(Copilot),进化为能够在复杂的真实世界中,面对无数未知的扰动和噪音,依然能够停下来思考、自我修正、并坚定地执行长链路任务的「思想者」(Autopilot)。原文出处:DeepSeek V3.2爆火,Agentic性能暴涨40%解密,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek V3.2爆火,Agentic性能暴涨40%解密” 的相关文章

1月18日DeepSeek预测:奇才vs掘金,约基奇缺阵,掘金主场轻取奇才

1月18日DeepSeek预测:奇才vs掘金,约基奇缺阵,掘金主场轻取奇才

  北京时间1月18日,NBA常规赛将迎来一场东西部对决,华盛顿奇才客场挑战丹佛掘金。奇才目前以10胜30负的战绩排名东部第14,而掘金则以28胜13负的战绩高居西部第3。本场比赛,掘金核...

12月3日DeepSeek预测:奇才vs76人,马克西率队主场复仇,奇才双核缺阵

12月3日DeepSeek预测:奇才vs76人,马克西率队主场复仇,奇才双核缺阵

  北京时间12月3日,NBA常规赛将迎来东部弱旅奇才与季后赛卡位战球队76人的对决。尽管76人近期状态起伏,但面对联盟防守最差的奇才,坐镇主场的他们有望延续交锋优势。...

传DeepSeek曝新模型,梁文锋再放“王炸”?

传DeepSeek曝新模型,梁文锋再放“王炸”?

  近日,DeepSeek在FlashMLA代码库更新中意外曝光了一个名为Model1的新模型,这一发现迅速在技术社区引发热议。   神秘的 Model1不仅出现在代码和...

豆包月活1.72亿超DeepSeek,Kimi文小言不足千万

豆包月活1.72亿超DeepSeek,Kimi文小言不足千万

  【报告:#豆包月活超过DeepSeek#,Kimi文小言月活仅百万级】QuestMobile发布2025年三季度AI应用市场情况分析。   数据显示,截止到2025年...

3月17日DeepSeek预测:太阳vs凯尔特人,绿军主场延续统治?布克塔图姆对

3月17日DeepSeek预测:太阳vs凯尔特人,绿军主场延续统治?布克塔图姆对

  3月17日早晨7:30,菲尼克斯太阳将客场挑战波士顿凯尔特人。目前太阳以39胜28负位列西部第7,凯尔特人则以44胜23负高居东部第2。这场跨区对决不仅是季后赛卡位战的关键战役,更是杜...

算力涌动乌镇

算力涌动乌镇

  智绘绿洲以全栈智算方案亮相世界互联网大会原文出处:算力涌动乌镇,感谢原作者,侵权必删!...