当前位置:首页 > Deepseek最新资讯 > 正文内容

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek

10个月前 (08-24)Deepseek最新资讯407

  传统强化学习(RL)在有标准答案的指令遵循任务(如数学、代码)上已趋成熟,但在开放式的创意写作领域却因缺乏客观对错而举步维艰。如何让 RL 突破「可验证奖励」的边界?蚂蚁技术研究院联合浙江大学开源全新强化学习范式 Rubicon,通过构建业界最大规模的 10,000+ 条「评分标尺」,成功将强化学习的应用范围拓展至更广阔的主观任务领域。用 5000 样本即超越 671B 模型,让 AI 告别「机械味」。

  自 OpenAI o1 系列模型问世以来,基于「可验证奖励」的强化学习(RLVR)已成为提升大模型推理能力的主流。通过海量的数学题、代码题进行训练,AI 在客观对错分明的领域取得了巨大成功。

  然而,这也暴露了当前技术路线的瓶颈:当面对没有标准答案的开放性、主观性任务时,AI 怎么办?

  如何让 AI 写出情感充沛的文字,而不是「AI 味」十足的模板?如何让它进行有深度的创意构思,而不是简单的信息罗列?这正是当前 AI 迈向更高层次智能需要破解的「灵魂难题」。

  基于此,蚂蚁技术研究院联合浙江大学deepseek,正式开源其最新研究成果 ——Rubicon-preview 模型,并推出一套名为「基于评分标尺的强化学习(Rubric-based Reinforcement Learning)」的全新范式,为 AI 的主观创造力提升开辟了一条新路。

  传统强化学习依赖非黑即白的奖励信号,而团队方法 Rubicon 的核心思想是:放弃寻找客观的「标准答案」,转而教会 AI 理解主观的「评分标准(Rubric)」。「Rubicon」一名源自 RUBrIC aNchOrs (评分标尺构成的锚点),意在为模型在主观世界中提供稳定、可靠的航向。

  为了将这一理念落地,尤其是在人文、社科等实用领域的复杂主观任务上,团队构建了业界已知最大规模的 Rubric 知识库,包含了超过 10,000 条精细化评分标准,首次大规模地将人类在创意写作、情感对话中的微妙偏好,转化为 AI 可学习的指导信号。

  这不仅是数据量的提升,更是为强化学习范式开辟了全新的奖励(Reward)来源,从根本上拓展了其应用边界。

  这一成果揭示了「规模化评分标准 (Scaling Rubrics)」的巨大潜力,有望在一定程度上缓解 AI 对海量训练数据的依赖。

  面对同一个情感类问题,传统模型往往会给出「作为 AI,我没有感情」的机械式回答,而基于 rubrics RL 训练的模型则能生成充满共情和故事性的内容。

  在 AI 训练中,提升创意能力往往会牺牲逻辑推理能力,形成「跷跷板效应」。Rubicon 框架通过巧妙的多阶段训练策略,成功破解了这一难题。

  模型在主观任务性能大幅提升的同时,在 AIME 等数学推理基准上仍有稳定提升,实现了感性与理性的协同进化。

  蚂蚁技术研究院与浙江大学团队表示,此次开源不仅是分享一个模型,更是希望将这套全新的、行之有效的强化学习范式与核心基础设施贡献给全球开发者。团队相信,一个能更好地理解人类情感与创造力的 AI 时代正加速到来,并期待与社区共同探索其无限可能。原文出处:仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3,感谢原作者,侵权必删!

标签: deepseek

“仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek” 的相关文章

DeepSeek预测:西汉姆联vs利物浦!铁锤帮能否锤爆红军?萨拉赫vs威尔逊谁

DeepSeek预测:西汉姆联vs利物浦!铁锤帮能否锤爆红军?萨拉赫vs威尔逊谁

  英超第13轮即将迎来一场焦点战,西汉姆联坐镇伦敦体育场迎战利物浦。目前西汉姆联排名第17,距离降级区仅一步之遥,而利物浦排名第12,距离欧战区也仅有2分之差。这场比赛对于双方来说都至关...

11月18日DeepSeek预测:雄鹿vs骑士,字母哥带伤出战难敌米切尔火力全开

11月18日DeepSeek预测:雄鹿vs骑士,字母哥带伤出战难敌米切尔火力全开

  北京时间11月18日早8点,NBA常规赛将迎来一场东部焦点战,目前排名东部第7的密尔沃基雄鹿(8胜6负)将客场挑战高居东部第3的克利夫兰骑士(9胜5负)。此役对于双方排名至关重要——若...

DeepSeek预测:曼城VS曼联!哈兰德天神下凡orB费力挽狂澜?3-1蓝月碾

DeepSeek预测:曼城VS曼联!哈兰德天神下凡orB费力挽狂澜?3-1蓝月碾

  英超第4轮即将迎来重磅对决——曼城坐镇伊蒂哈德迎战曼联!目前曼城3战1胜2负积3分排名第13,曼联1胜1平1负积4分位列第9。两队近期状态堪称冰火两重天:蓝月军团近3场狂丢4球,而红魔...

AI APP全球100强:中国应用加速“出海”,DeepSeek冲至全球第4

AI APP全球100强:中国应用加速“出海”,DeepSeek冲至全球第4

  全球100大AI消费应用榜单发布,ChatGPT以9亿周活稳居第一但竞争在加剧。这也是一份中国AI应用的“出海战报”,DeepSeek升至全球第4,Kimi、千问、可灵AI等产品进入前...

1月23日DeepSeek预测:公牛vs森林狼,爱德华兹率队捍卫主场

1月23日DeepSeek预测:公牛vs森林狼,爱德华兹率队捍卫主场

  北京时间1月23日,NBA常规赛将迎来一场东西部中游球队的较量,芝加哥公牛客场挑战明尼苏达森林狼。目前公牛以21胜22负排名东部第9,森林狼则以27胜17负位列西部第7。本场比赛对双方...

上交所副总经理王泊:始终赋能科创板企业加速成长创造“DeepSeek时刻”

上交所副总经理王泊:始终赋能科创板企业加速成长创造“DeepSeek时刻”

  近日,在“硬科硬客”新质生产力行业沙龙2025年会上,上海证券交易所副总经理王泊表示,对上交所以及科创板而言,坚持金融服务实体经济的根本宗旨,提升支持科技创新的能级,充分发挥交易所资本...