当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek V3.2爆火,Agentic性能暴涨40%解密

5个月前 (12-04)Deepseek最新资讯175

  当你试图用当今最先进的大模型帮你完成一个复杂的长假规划,比如「带全家老小去云南玩七天」时,往往很可能会遭遇一个令人崩溃的时刻:

  但随着对话进行到第十轮,你们为了选酒店修改了五次方案,又为了某顿晚餐争论了半天后,它突然「失智」了。

  在最新的行程表里,它竟然兴致勃勃地建议:「第四天清晨:全家早起徒步攀登玉龙雪山,欣赏日照金山,全程耗时4小时……」

  MiniMax等部分厂商也将其称作Interleaved Thinking(交错思维链),从示意图即可看出,二者本质上是等价的。这是一个更贴近技术的称呼。

  如图所示,交错思维链即模型在推理(thinking)和工具调用(action)之间来回交替,并持续保留和复用每一轮的推理状态,从而实现稳定、可累积的长程规划。

  要理解交错思维链为什么是「神技」,我们得先看看它的前任——早期的ReAct(Reasoning+Acting)范式是如何遇到瓶颈的。

  在很长一段时间里,我们构建AI Agent的逻辑非常线性:观察->思考->行动。

  这看起来很符合直觉,但在实际的工程实现(如OpenAI的Function Calling(函数调用))中,这个过程往往被简化成了「模型直接输出工具调用指令」。

  但当工具执行完毕,返回了数千行的代码或网页内容后,模型进入下一轮生成时,它面临着巨大的环境扰动。

  想象一下,你是一个程序员,每写一行代码,就有人把你打晕,清除你的短期记忆,然后把刚才的运行日志扔给你,让你继续写。

  模型的思考过程隐藏在权重里,一旦被打断(Turn-based interaction),这些思维火花就烟消云散了。

  在每一次调用工具之前,模型必须先输出一段被包裹在reasoning_details(或类似的tag)中的自然语言。

  在常规的SWE-Bench Verified(软件工程)榜单上,开启交错思维链带来了3.3%的提升(从67.2升至69.4)。这个提升虽然不错,但还算温和。

  然而deepseek,在BrowseComp(网页浏览任务)上,提升幅度达到了惊人的40%(从31.4飙升至44.0);在Tau²这种复杂推理任务上,提升了36%。

  模型通过显式的思考,在接收到庞杂的网页信息后,先进行一轮「信息清洗」和「逻辑校准」:「我刚才搜索了X,结果里有很多无关信息,只有第三段是我需要的,接下来我应该根据这个线索去查Y。」

  早期业界普遍认为,只要让模型学会使用更多的工具(Scaling Tools),Agent就泛化了。

  一个模型可能在Claude Code这种脚手架里表现完美,但换到Cline或者命令行里就一塌糊涂。

  即使换了一个陌生的IDE环境,只要「思考-行动」的闭环还在,模型就能通过显式的逻辑推理来适应新环境,而不是依赖死记硬背的提示词模板。

  这也是为什么MiniMax M2能够在xBench、GAIA等多个异构榜单上全面开花的技术根源。

  虽然Anthropic最早提出了Extended Thinking的概念,但由于其闭源特性,社区并未形成统一标准。

  这就导致了一个灾难性的后果:用户在使用M2时,习惯性地把API返回的reasoning_details字段当成垃圾信息丢掉了。

  在过去的一段时间里,MiniMax的工程师们化身开源社区的「包工头」,向全球主流的Agent开发工具和平台发起了密集的PR(Pull Request,合并请求)攻势。

  最近引发轰动的DeepSeek V3.2,其核心特性之一「Thinking in Tool-Use」(使用工具中思考),在本质上与MiniMax倡导的交错思维链是完全一致的。

  DeepSeek的技术文档中明确指出:模型在调用工具时,会保持思维链的连续性,直到收到新的用户消息才会重置。

  虽然两家在具体的API字段命名上可能略有不同(MiniMax使用reasoning_details,DeepSeek使用reasoning_content,Anthropic使用thinking_blocks等),但在系统设计哲学上,大家已经达成了一致:显式的、交错的、持久化的思考,是智能体进化的必经之路。

  它正在从那个只会根据提示词模板机械执行命令的「复读机」(Copilot),进化为能够在复杂的真实世界中,面对无数未知的扰动和噪音,依然能够停下来思考、自我修正、并坚定地执行长链路任务的「思想者」(Autopilot)。原文出处:DeepSeek V3.2爆火,Agentic性能暴涨40%解密,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek V3.2爆火,Agentic性能暴涨40%解密” 的相关文章

豆包月活用户超越DeepSeek,登顶8月中国原生AI APP榜首

豆包月活用户超越DeepSeek,登顶8月中国原生AI APP榜首

  同期,腾讯元宝的月活用户规模环比增速最大,高达22.4%,位居原生APP月活用户TOP10第三位,月活规模处于1000万-1亿量级。   月活跃用户规模TOP50AI...

Deepseek-R1 等 AI 模型测试:英伟达 GB200 NVL72 性能

Deepseek-R1 等 AI 模型测试:英伟达 GB200 NVL72 性能

  IT之家 12 月 4 日消息,科技媒体 Wccftech 昨日(12 月 3 日)发布博文,报道称在“混合专家”模型上,   IT之家注:混合专家模型(MoE)是一...

11月21日DeepSeek预测:76人vs雄鹿,字母哥缺阵马克西能否率队破咒?

11月21日DeepSeek预测:76人vs雄鹿,字母哥缺阵马克西能否率队破咒?

  北京时间11月21日09:00,NBA常规赛将上演费城76人客场挑战密尔沃基雄鹿的焦点战。目前76人以8胜6负暂列东部第8,雄鹿8胜7负紧随其后排名第11,这场直接对话将重塑东部季后赛...

科比对队友要求很严格,为什么队友却都说他好话。詹姆斯一派老好人,队友对他的非议却

科比对队友要求很严格,为什么队友却都说他好话。詹姆斯一派老好人,队友对他的非议却

  詹姆斯最好的兄弟韦德、小迷弟帕金斯、小弟查尔莫斯,对詹姆斯的评价却褒贬不一,有时甚至动不动阴阳两句。难道真的就是球迷说的想吃两口詹姆斯流量吗?   詹姆斯最好的兄弟韦...

Deepseek推荐全国旅游百强区第10名:四川乐山市市中区

Deepseek推荐全国旅游百强区第10名:四川乐山市市中区

  日前,全国县镇发展研究课题组、天和经济研究所县镇发展研究院联合发布了2024《全国县镇发展报告》,报告评价篇对全国县市以及包含乡村人口的市辖区旅游发展水平进行了综合评价,并发布了天和2...

DeepSeek登《Nature》封面,梁文锋带队首次回应“蒸馏”争议

DeepSeek登《Nature》封面,梁文锋带队首次回应“蒸馏”争议

  9月18日,属于中国人工智能的又一个高光时刻来到了。DeepSeek再次引发轰动。由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1研究论文,登上了国际权威期刊...