当前位置:首页 > DeepSeek技术交流 > 正文内容

月之暗面又开源了!登顶全球第一,还超了新版DeepSeek-R1

2个月前 (06-19)DeepSeek技术交流331

在科技圈最近炸开了一个不大不小的新闻——月之暗面公司昨天凌晨突然扔出个王炸,他们开发的Kimi-Dev-72B代码大模型在专业领域直接干翻了一众行业巨头。

这个参数量只有720亿的AI程序员,在权威的SWE-bench Verified编程测试中拿下了60.4%的高分,硬生生把5月底才发布的6710亿参数的DeepSeek-R1拉下了马。

消息一出,连隔壁工位的程序员小王都凑过来问:"这玩意儿真能帮我写bug-free的代码?"

要说这事为啥这么轰动,得先说说这个SWE-bench测试有多难。打个比方,这就像让AI参加计算机专业的期末考试,不仅要写出正确代码,还得通过单元测试的严苛检验。之前微软、谷歌的模型都只能勉强及格,这次月之暗面直接考了个接近满分的高分,确实让人跌破眼镜。更让人吃惊的是,他们用的模型体积还不到某些竞品的十分之一,这就好比用五菱宏光跑赢了F1赛车。

拆开来看,Kimi-Dev-72B最骚的操作当属它的双核驱动设计。就像医院里的主任医师和护士长各司其职,这个模型里住着两个AI灵魂:专门找bug的BugFixer和负责写测试的TestWriter。这俩模块配合起来就像齿轮咬合般精密,每当发现代码破绽,BugFixer会像外科医生般精准切除病灶,紧接着TestWriter立刻生成配套的"体检报告"。这种设计思路其实暗合了软件开发黄金法则——永远先写测试再改代码。有业内专家调侃:"这模型怕是把《重构》那本书当睡前故事看。"

不过光靠精妙架构还不够,背后的训练方法才是真正的杀手锏。开发团队用了1500亿条真实GitHub数据来喂养这个AI,这些数据可不是随便扒拉的代码垃圾场,而是精心筛选过的优质PR(程序员合并请求)。就像米其林餐厅选食材,他们甚至把SWE-bench测试题库里的题目都提前清空,确保模型不会作弊。这种"题海战术"加上精准辅导,让模型既学会了人类的代码思维,又掌握了实战解题技巧。

当然,真正让同行们倒吸冷气的还是他们的强化学习秘籍。传统训练就像填鸭式教育,Kimi团队却搞起了"实战特训营"。他们搭建了无数个虚拟开发环境,让AI在Docker容器里真刀真枪地修改代码。每次提交修改都要经过自动化测试的严苛审判,只有全部测试通过的补丁才能拿到"毕业证"。这种"一考定终身"的训练方式,硬生生把模型的代码质量逼到了工业级水准。有工程师朋友吐槽:"这哪是训练模型,分明是在培养代码界的特种兵。"

最让人拍案叫绝的是测试时的"左右互搏"机制。当模型生成修复补丁后,会自动生成配套测试用例,然后像围棋AI自我对弈那样反复验证。有时候一个bug能衍生出40种修复方案和40套测试组合,这种穷举式验证简直比强迫症患者还较真。有吃瓜群众担心会不会计算量爆炸,但开发团队透露他们用了独门并行计算架构,效率反而比传统方法提升数倍。

现在这个模型已经开源到Hugging Face和GitHub,相当于把顶级武器库免费开放给全世界开发者。不过也有业内人士担忧:"这么强的模型要是被滥用怎么办?"对此月之暗面表示正在开发企业级安全沙箱,未来还会深度整合到VS Code、GitHub这些开发工具里。想象一下,以后写代码时AI自动在旁边挑刺补漏,这场景堪比给每个程序员配了个24小时待命的技术总监。

不过咱们普通开发者也别高兴太早,毕竟现在还是"别人家的孩子"。有程序员实测发现,这模型生成的代码虽然正确率高,但代码风格还带着点"机器味儿",有时候需要人工润色。好在开发团队承诺会持续迭代,未来可能像智能驾驶一样分阶段开放更多功能。毕竟代码的世界里,没有最好只有更好。

这场AI编程革命才刚刚开始,有人看到的是效率飞跃,有人担忧的是失业潮。但不可否认的是,当720亿参数的模型都能写出漂亮代码时,人类开发者的价值正在向更高维度跃迁——从代码工人进化为代码建筑师。或许不久的将来,我们敲键盘的时间会越来越少,但思考的质量会越来越高。毕竟真正的创新,永远藏在那些AI暂时还写不出来的灵光乍现里。

(你认为AI程序员会取代人类开发者吗?欢迎在评论区分享你的看法)


“月之暗面又开源了!登顶全球第一,还超了新版DeepSeek-R1” 的相关文章

半年盘点|中国创新药迎DeepSeek一刻,对外授权规模激增

半年盘点|中国创新药迎DeepSeek一刻,对外授权规模激增

今年上半年,中国创新药对外授权步伐加速,迎来了生物医药的DeepSeek一刻。据安永的数据显示,上半年,中国公司与美国和欧洲合作伙伴之间达成的许可交易价值超过400亿美元规模。在重磅的对外创新药授权交...

卓易信息:国内对接Qwen及DeepSeek,国外产品接入ChatGPT专线

卓易信息:国内对接Qwen及DeepSeek,国外产品接入ChatGPT专线

投资者提问:请问贵公司AI编程AI IDE产品目前的主要对接模型是哪些?国内国外是否有不同?是否同时聚合了国内外编程能力强的大模型?董秘回答(卓易信息(53.040, 2.10, ...

卡巴斯基曝光黑客山寨 DeepSeek AI 网站进行钓鱼,传播 BrowserVenom 新型恶意木马

卡巴斯基曝光黑客山寨 DeepSeek AI 网站进行钓鱼,传播 BrowserVenom 新型恶意木马

 IT之家 6 月 17 日消息,卡巴斯基旗下 GReAT 团队披露,有黑客通过设置山寨 DeepSeek AI 网站面向海外用户进行钓鱼,传播一种名为 BrowserVenom 的新型恶意木马程序,...

DeepSeek赋能检察融媒的实践 | 法治新闻传播

DeepSeek赋能检察融媒的实践 | 法治新闻传播

“DeepSeek 驱动的‘鄂小检’就是我们检察新闻宣传战线新来的小伙伴,它有一定的能力,但是对具体的工作还不够熟悉,需要我们多带带它,相信未来不可限量。”2025 年春节过后,湖北省检察院即制定De...

当我问DeepSeek,如何与青春期沉迷游戏的女儿相处,DeepSeek的回答让我沉默了

当我问DeepSeek,如何与青春期沉迷游戏的女儿相处,DeepSeek的回答让我沉默了

假期还没到一半,和女儿的关系已水火不相容。女儿每天晚上不睡觉,全世界的生物都沉睡了,她依然活跃在因玩王者激活大脑释放的多巴胺里。每天接近中午,李小姐终于下楼了,穿着一身睡衣、顶着一头鸡窝头睡眼蒙松的、...

如何看待养生?DeepSeek的回答丰富深化了我的认识

如何看待养生?DeepSeek的回答丰富深化了我的认识

昨天就聆听专家一节健康科普,整理出《纠正三伏天晒背、苹果煮水养生误区学习笔记》,并跟三五好友作了私下分享。友人纷纷作了反馈,其中一位忘年交发来的留言,让我陷入了深深的思考。他说:“养生不仅是一个现代生...