当前位置：首页 > Deepseek最新资讯 > 正文内容

仅靠5000+样本，全新强化学习范式让30B轻松击败671B的DeepSeek

10个月前 (08-24)Deepseek最新资讯408

　　传统强化学习（RL）在有标准答案的指令遵循任务（如数学、代码）上已趋成熟，但在开放式的创意写作领域却因缺乏客观对错而举步维艰。如何让 RL 突破「可验证奖励」的边界？蚂蚁技术研究院联合浙江大学开源全新强化学习范式 Rubicon，通过构建业界最大规模的 10,000+ 条「评分标尺」，成功将强化学习的应用范围拓展至更广阔的主观任务领域。用 5000 样本即超越 671B 模型，让 AI 告别「机械味」。

　　自 OpenAI o1 系列模型问世以来，基于「可验证奖励」的强化学习（RLVR）已成为提升大模型推理能力的主流。通过海量的数学题、代码题进行训练，AI 在客观对错分明的领域取得了巨大成功。

　　然而，这也暴露了当前技术路线的瓶颈：当面对没有标准答案的开放性、主观性任务时，AI 怎么办？

　　如何让 AI 写出情感充沛的文字，而不是「AI 味」十足的模板？如何让它进行有深度的创意构思，而不是简单的信息罗列？这正是当前 AI 迈向更高层次智能需要破解的「灵魂难题」。

　　基于此，蚂蚁技术研究院联合浙江大学deepseek，正式开源其最新研究成果 ——Rubicon-preview 模型，并推出一套名为「基于评分标尺的强化学习（Rubric-based Reinforcement Learning）」的全新范式，为 AI 的主观创造力提升开辟了一条新路。

　　传统强化学习依赖非黑即白的奖励信号，而团队方法 Rubicon 的核心思想是：放弃寻找客观的「标准答案」，转而教会 AI 理解主观的「评分标准（Rubric）」。「Rubicon」一名源自 RUBrIC aNchOrs (评分标尺构成的锚点)，意在为模型在主观世界中提供稳定、可靠的航向。

　　为了将这一理念落地，尤其是在人文、社科等实用领域的复杂主观任务上，团队构建了业界已知最大规模的 Rubric 知识库，包含了超过 10,000 条精细化评分标准，首次大规模地将人类在创意写作、情感对话中的微妙偏好，转化为 AI 可学习的指导信号。

　　这不仅是数据量的提升，更是为强化学习范式开辟了全新的奖励（Reward）来源，从根本上拓展了其应用边界。

　　这一成果揭示了「规模化评分标准 (Scaling Rubrics)」的巨大潜力，有望在一定程度上缓解 AI 对海量训练数据的依赖。

　　面对同一个情感类问题，传统模型往往会给出「作为 AI，我没有感情」的机械式回答，而基于 rubrics RL 训练的模型则能生成充满共情和故事性的内容。

　　在 AI 训练中，提升创意能力往往会牺牲逻辑推理能力，形成「跷跷板效应」。Rubicon 框架通过巧妙的多阶段训练策略，成功破解了这一难题。

　　模型在主观任务性能大幅提升的同时，在 AIME 等数学推理基准上仍有稳定提升，实现了感性与理性的协同进化。

　　蚂蚁技术研究院与浙江大学团队表示，此次开源不仅是分享一个模型，更是希望将这套全新的、行之有效的强化学习范式与核心基础设施贡献给全球开发者。团队相信，一个能更好地理解人类情感与创造力的 AI 时代正加速到来，并期待与社区共同探索其无限可能。原文出处：仅靠5000+样本，全新强化学习范式让30B轻松击败671B的DeepSeek V3，感谢原作者，侵权必删！

标签: deepseek