当前位置:首页 > Deepseek最新资讯 > 正文内容

NeurIPS 2025 DynaAct:DeepSeek R1之外,探索大模型

7个月前 (11-29)Deepseek最新资讯152

  针对这个问题,来自蚂蚁和香港大学自然语言组的研究团队(后简称「团队」)给出了 TTS 的另一种思路:

  与传统 token-by-token 式的 CoT 不同,DynaAct 提出以 Action Space Optimization 为核心的 TTS 范式:在每一步推理中动态构建可选动作集合,并通过学习算法从中选择最优动作,从而让推理路径更高效、更具结构化。

  当前主流 TTS 方法通过「更长的思维链」来提升性能,但随之而来的,是搜索空间爆炸与冗余思考。团队认为,推理效率的瓶颈并不在「算得不够多」,而在「选得不够好」。

  DynaAct 将推理过程类比为决策序列:每一步的关键不是「生成什么」,而是「选择什么去执行」。

  DynaAct 核心思想是将动作空间学习问题转化为集合选择问题,并通过子模优化(Submodular Optimization)来实现线性复杂度的算法。

  子模优化的关键在于定义合适的子模函数(Submodular Function)。由于子模函数具备「集合越大,新增元素收益越小」的性质deepseek,因此可以贪心地构建一个子集,实现子集性质近似最优,同时算法复杂度维持在线性。

  具体来说,DynaAct 定义的子模函数包括 utility 和 diversity 两个部分。前者度量动作空间与当前状态的相似度;而后者则刻画动作空间中动作的冗余度:

  这样定义下的子模函数学习等价于学习动作和状态的 embedding。DynaAct 采用 Q-learning 来优化,希望利用学到的子模函数能最终选出最大化推理回报(reward)的动作空间。

  在系统实现层面,团队开源了基于 vLLM 的高性能 MCTS 框架。该实现显著提升了节点扩展、Rollout 与 Reward 计算效率,为后续 TTS 研究提供了通用加速方案。

  在 6 项推理基准上,DynaAct 显著优于 CoT、RAP 与 rStar 等方法,验证了动态动作空间的有效性。原文出处:NeurIPS 2025 DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路,感谢原作者,侵权必删!

标签: deepseek

“NeurIPS 2025 DynaAct:DeepSeek R1之外,探索大模型” 的相关文章

3月10日DeepSeek预测:掘金vs雷霆,约基奇能否率队掀翻西部榜首?

3月10日DeepSeek预测:掘金vs雷霆,约基奇能否率队掀翻西部榜首?

  北京时间3月10日,NBA常规赛将上演西部焦点战,排名第六的丹佛掘金(39胜25负)客场挑战西部领头羊俄克拉荷马雷霆(50胜15负)。本赛季雷霆已两胜掘金,而历史交锋近5场雷霆4胜1负...

如何看待“龙虾冲击”?IBM高管:企业级软件的DeepSeek时刻还没到

如何看待“龙虾冲击”?IBM高管:企业级软件的DeepSeek时刻还没到

  3月12日,IBM在北京召开媒体与分析师沟通会,分享在华战略更新并回应“AI如何冲击软件行业”等热点话题。这场交流的基调,从IBM大中华区董事长、总经理陈旭东开场定下的六个字便已清晰—...

先锋私享会

先锋私享会

  科技,智驭变革的力量——BMW与时代变革者同心同向deepseek,重塑豪华出行范式原文出处:先锋私享会,感谢原作者,侵权必删!...

12月5日DeepSeek预测:爵士vs篮网,马尔卡宁率队客场取胜

12月5日DeepSeek预测:爵士vs篮网,马尔卡宁率队客场取胜

  北京时间12月5日08:30,NBA常规赛将迎来爵士客场挑战篮网的比赛。爵士目前以7胜13负排名西部第11,篮网则以5胜16负排名东部第13。两支球队近期状态都不算理想,但爵士在历史交...

点燃“小火花”,激发“大智慧”

点燃“小火花”,激发“大智慧”

  “我们做的是从日常工作里冒出来的‘金点子’。”在湖北省第四十三次质量提升小组代表大会上,湖北省黄石市烟草专卖局(公司)青年员工杨奡笑着说,手中的那份成果刚刚获得了湖北省质量管理小组活动...

青蓝相继,育才赋能——罗田县烟草专卖局(营销部)构建青年人才成长“新生态”

青蓝相继,育才赋能——罗田县烟草专卖局(营销部)构建青年人才成长“新生态”

  人才是事业发展的基石,青年是队伍活力的源泉。罗田县烟草专卖局(营销部)始终坚持“人才强企”战略,以系统性、前瞻性的育才理念,构建起“思想引领、实践锻炼、数字赋能、机制保障、文化凝聚”多...