当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了

5个月前 (12-04)Deepseek最新资讯189

  DeepSeek 一发布模型,总会引起业内的高度关注与广泛讨论,但也不可避免的暴露出一些小 Bug。

  比如老外用英文询问,它却在思考过程中切回「神秘的东方文字」。当然,DeepSeek 模型对汉字「情有独钟」的情况早已出现,「极」字 Bug 就是典型例子。

  而这一次,随着新模型 DeepSeek-V3.2 的发布,大家又发现了 DeepSeek 需要优化的地方:其长思考版本(Speciale)暴露出一些 Token 使用效率不佳的问题。

  根据多位研究者反馈,DeepSeek-V3.2 Speciale 在处理复杂任务时出现明显的 Token 消耗异常。具体表现为:

  另外,Speciale 版本出现输出内容又长又啰嗦的问题,但最终仍然错的情况,这并不是新问题,而是 GRPO 算法本身的固有缺陷。

  实际上,DeepSeek-V3.2 在 Token 消耗方面的异常表现,已经被不少用户与研究者观察到。有社区网友指出,Speciale 版本的确具备极强的推理能力,但在实际使用中 Token 消耗速度如喝水般迅速,显著高于同类模型。他们评价,如果 DeepSeek-V3.2 Speciale 的生成速度能够从当前的大约 30 tokens/s 提升至 100 tokens/s 左右,那么其综合可用性和使用体验都将获得大幅改善。

  为了降低部署成本并减少推理时延,官方版 DeepSeek-V3.2 的训练过程中施加了更为严格的 token 约束,以期在性能与成本之间取得更优的权衡。DeepSeek 研究者们表示,token 效率仍将是未来一个至关重要的研究方向。

  GRPO 算法随着 DeepSeek 的诞生而成为强化学习的黄金范式,相信读者们早就不陌生了。

  我们对 GRPO 的方法基本原理曾有过系统的介绍,建议读者参考我们的科普文章。科普向:一文解构大模型后训练,GRPO 和它的继任者们的前世今生

  当优势函数为正值时(表示对应的响应是正确的):较短的响应会产生更大的梯度更新幅度,从而使策略在优化过程中更倾向于生成简短的正确答案。

  当优势函数为负值时(表示对应的响应是错误的):较长的错误响应所受到的惩罚反而更弱,从而导致策略在错误样本中偏向于生成更长的回答。

  这解释了:即便不引入任何「显式鼓励长推理链」的机制,GRPO 训练出的模型也会自然呈现出响应长度不断增长的趋势,躲避惩罚,生成又错又长的回复。

  这会导致当某些问题的回报标准差较小,尤其是题目过于困难,几乎所有回报都为 0 的时候,在策略更新过程中将被赋予更大的梯度权重,忽视了那些难度适中的实际问题。

  我们从 DeepSeek-V3.2 的技术报告中发现,难度偏置已经被优化了,而长度偏置仍然被保留。这或许是 DeepSeek-V3.2 Speciale 超级耗 token 的罪魁祸首。

  上述「长度偏置」问题其实由来已久,在 GRPO 的前身 PPO 方法中就早已存在。但是,在 PPO 的损失函数公式中其实并没有「长度偏置」这一项deepseek,而在 PPO 的大多开源实现中,却大都加入了这一项。

  所有 token 会被打包进一个固定长度的上下文窗口,通过对上下文长度进行归一化可以有效提升数值稳定性。

  但在 RL 微调阶段保持相同的实现方式会,按照响应长度对损失进行归一化。但响应长度不是常数且在不同样本之间变化剧烈,从而无意中引入了一个长度偏置。

  由此可见,理论和实际实现之间总有些许的差别。等到 DeepSeek-V4 的上线,这个问题会不会就此解决呢?原文出处:DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了” 的相关文章

11月15日DeepSeek预测:湖人vs鹈鹕,东契奇率队延续统治,鹈鹕难逃连败

11月15日DeepSeek预测:湖人vs鹈鹕,东契奇率队延续统治,鹈鹕难逃连败

  新奥尔良鹈鹕将在冰沙王中心迎战洛杉矶湖人,这是两队本赛季首次交锋。目前湖人以8胜4负排名西部第5,而鹈鹕仅2胜9负位列西部垫底。对于志在季后赛的湖人而言,此战是巩固排名的关键;对重建中...

中国联通于2025世界人工智能大会发布智能热线AICC2.0

中国联通于2025世界人工智能大会发布智能热线AICC2.0

  2025年7月27日,中国联通联合国家发展改革委培训中心、中国科学院自动化研究所,共同主办2025世界人工智能大会“人工智能+”战略领军人才与创新发展论坛,期间重磅发布“中国联通智能热...

新京报2025智慧生活年度案例揭晓,海信空调好空气管家斩获“年度家电智能体创新案

新京报2025智慧生活年度案例揭晓,海信空调好空气管家斩获“年度家电智能体创新案

  1月29日,新京报“2025智慧生活年度榜单颁奖盛典”在北京举行,由海信好空气管家、AI美食管家、AI洗护管家共同组成的海信AI生活管家凭借三大智能体创新与主动服务场景创新,斩获“年度...

2月4日DeepSeek预测:魔术vs雷霆,亚历山大率队捍卫主场,雷霆轻取魔术

2月4日DeepSeek预测:魔术vs雷霆,亚历山大率队捍卫主场,雷霆轻取魔术

  北京时间2月4日,NBA常规赛将迎来一场东西部对决,奥兰多魔术客场挑战俄克拉荷马雷霆。魔术目前以25胜23负排名东部第8,而雷霆则以39胜11负高居西部榜首。两支球队近期状态都不算稳定...

10月27日DeepSeek预测:凯尔特人vs活塞,布朗对决康宁汉姆,绿军客场止

10月27日DeepSeek预测:凯尔特人vs活塞,布朗对决康宁汉姆,绿军客场止

  北京时间10月27日凌晨3:30,NBA常规赛将上演一场东部焦点战,底特律活塞坐镇小凯撒球馆迎战波士顿凯尔特人。尽管活塞目前1胜1负暂列东部第8,而凯尔特人0胜2负排名第13,但历史交...

11月17日DeepSeek预测:开拓者vs独行侠,残阵独行侠难挡开拓者双星?

11月17日DeepSeek预测:开拓者vs独行侠,残阵独行侠难挡开拓者双星?

  北京时间11月17日早8:30,NBA常规赛将迎来一场西部内战——波特兰开拓者客场挑战达拉斯独行侠。作为联盟传统劲旅的独行侠本赛季深陷泥潭,目前以3胜10负排名西部倒数第二,而青年军开...