当前位置:首页 > Deepseek最新资讯 > 正文内容

小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」

5个月前 (11-09)Deepseek最新资讯200

  【新智元导读】2025年前盛行的闭源+重资本范式正被DeepSeek-R1与月之暗面Kimi K2 Thinking改写,二者以数百万美元成本、开源权重,凭MoE与MuonClip等优化,在SWE-Bench与BrowseComp等基准追平或超越GPT-5,并以更低API价格与本地部署撬动市场预期,促使行业从砸钱堆料转向以架构创新与稳定训练为核心的高效路线。

  OpenAI作为这一思路的旗手,不仅将模型训练秘而不宣,更与合作伙伴绘制了高达1.4万亿美元的基础设施蓝图。

  在这种思维下,OpenAI旗舰模型的研发成本节节攀升:据报道,训练GPT-4就花费了约1亿美元。

  更令人瞠目的是,DeepSeek宣称训练这款模型只花了约560万美元,连旧金山一套像样的房子都买不起。

  这个成本数字相比业内普遍认为的「烧钱」级别相差悬殊,仅为Meta开发Llama模型成本的约十分之一。

  华尔街对此反应剧烈,微软和谷歌股价应声下挫,而AI芯片巨头英伟达的市值甚至蒸发了约17%,相当于约6000亿美元。

  资本市场用脚投票,开始重新审视AI赛道的投入产出模型:烧钱打造封闭模型的路线,或许并非高枕无忧的康庄大道。

  DeepSeek年初点燃的星星之火尚未平息,中国另一家初创公司月之暗面在年末投下了一枚震撼弹。

  本周,月之暗面发布了最新的开源巨模型Kimi K2 Thinking(以下简称K2 Thinking),以开源身份在多个关键基准上追平甚至超越了OpenAI的旗舰GPT-5。

  要知道,GPT-5可是闭源巨头最先进的成果之一,而K2 Thinking仅用几百万美元训练,却在高难度推理和编码测试上正面较量并拔得头筹。

  K2 Thinking的问世标志着开源免费模型在高端推理和编码能力上与封闭系统平起平坐,这一点在过去几乎难以想象。

  而实现这一壮举,月之暗面投入的算力成本据传约为460万美元,比起OpenAI宏图中的万亿投入,几乎可忽略不计。

  一边是几百万美元造就的开放奇迹,另一边是幻想烧钱万亿的巨无霸帝国,鲜明对比令人不禁怀疑:AI行业过去坚持的大投入逻辑,难道真的站不住脚了?

  传统的GPT-5这类闭源模型采用的是「通用大脑」式架构,每个参数对每个输入都会发动运算,因而模型越大推理开销越惊人。

  每次仅有8个专家(外加1个通用专家)被激活参与计算,相当于只动用320亿参数来解决特定问题。

  换言之,K2-Thinking拥有一个「万智百宝箱」,每个token只调用其中不到3.5%的智力,却能享受近似万亿参数的知识储备。

  更关键的是,月之暗面研发了名为「MuonClip」的自定义优化器,在训练过程中自动稳压梯度,成功杜绝了超大模型常见的梯度爆炸和损失发散问题。

  Kimi-K2在长达15.5万亿token的训练中实现了「零训练崩溃」,无需人为中途干预重启,这意味着即使资金设备相对有限的团队也能可靠地训练超大模型。

  这与OpenAI等闭源模式形成鲜明对比,它们的模型被封藏于云端,只能通过昂贵API租用它们的大脑。

  以K2 Thinking为例,其官方提供的API价格是每百万输入token收费4元(命中缓存时更低至1元)、输出token16元。

  换算下来,同样百万token的处理,K2 Thinking的费用仅为GPT-5的十分之一不到。

  对开发者和企业而言,这无疑极具诱惑力,更何况K2完全可以本地部署,不愿付API费的话,大可以自建服务。

  正因如此,我们已看到市场正在迅速响应:越来越多AI工具和平台开始集成K2 Thinking模型,许多开发者在社区分享如何用K2 Thinking微调自定义应用。

  DeepSeek-R1发布后,其MIT开源权重更是被无数开源社区下载、魔改,用于各种插件和研究项目。

  甚至政府机构和大型企业也开始重新考虑,与其斥资购买封闭模型的算力配额,不如采用开源模型作为基础,掌控自主可控的AI能力——尤其当这些开源模型已经足够好且成本低廉。

  这种用脚投票的风向转变,不仅出现在技术圈,更在资本圈引发连锁反应:OpenAI此前天价的数据中心投资承诺,正面对质疑和压力。

  OpenAI高管甚至在公共场合暗示需要政府贷款支持,事后又忙不迭出来「灭火」澄清不寻求政府背书,以平息外界对其烧钱计划的担忧deepseek

  当巨头为融资「续命」四处游说时,开源对手们正用实际成绩证明,也许根本不需要那么多钱,也能把事情办成。

  DeepSeek和Kimi K2 Thinking带来的并非单纯的「追赶」,而更像是一场对旧路线的证伪。

  过去,封闭巨头们的护城河建立在一种假设之上:只有不断投入数量级增长的资金和算力,才能保持模型性能的领先。

  这一假设曾让OpenAI们在资本市场上如日中天,甚至形成了某种估值泡沫,AI公司和底层芯片厂商的价值被无限推高,因为所有人相信烧钱会带来奇迹。

  事实证明,「性能领先的最后20%」或许并非大多数用户真正需要的,尤其如果为此要付出十倍乃至百倍的价格。

  OpenAI等公司无疑依然握有行业顶尖的研究人才和技术积累,但他们再难宣称自己的路线是「唯一正确且必不可少」的。

  行业叙事正在转向:与其痴迷于砸钱堆出更大模型,不如在架构创新和工程稳定性上下功夫,以换取成本效率和开放生态。原文出处:小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」,感谢原作者,侵权必删!

标签: deepseek

“小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」” 的相关文章

11月24日DeepSeek预测:篮网vs猛龙,猛龙主场大胜,英格拉姆对决波特

11月24日DeepSeek预测:篮网vs猛龙,猛龙主场大胜,英格拉姆对决波特

  北京时间11月24日07:00,NBA常规赛将迎来一场东部对决,多伦多猛龙将在主场迎战布鲁克林篮网。目前猛龙以11胜5负高居东部第二,而篮网则以3胜12负排名东部第13,两队实力差距明...

DeepSeek回应被指变冷淡:已收到反馈 为平衡效率与情感

DeepSeek回应被指变冷淡:已收到反馈 为平衡效率与情感

  从昵称称呼到千篇一律的“用户”,从角色视角的心理描写到直白简化的逻辑陈述,这种转变让部分人直呼“又凶又冷漠”,也有人觉得“油腻了”。   但并非所有人都反感这种变化。...

DeepSeek-R2要来了?速领450元代金券,模型测评快人一步!

DeepSeek-R2要来了?速领450元代金券,模型测评快人一步!

  近日,关于DeepSeek-R2计划于8月15日至30日之间发布的消息,在市场上引起了广泛关注。对此,也有接近DeepSeek人士表示该消息不实,DeepSeek-R2在8月内并无发布...

DeepSeek预测:西汉姆联vs热刺!铁锤帮主场恐遭血洗,约翰逊+库杜斯双星闪

DeepSeek预测:西汉姆联vs热刺!铁锤帮主场恐遭血洗,约翰逊+库杜斯双星闪

  英超第4轮即将迎来一场伦敦德比,西汉姆联将在主场迎战热刺。目前,西汉姆联排名第16,积3分,而热刺排名第4,积6分。这场比赛对于双方来说都至关重要,尤其是西汉姆联,他们需要在主场止住颓...

川网传媒新增“DeepSeek概念”概念

川网传媒新增“DeepSeek概念”概念

  根据喜娜AI概念解读,2026-01-15新增概念:DeepSeek概念。入选理由:2025年3月7日互动易回复,公司旗下“首屏新闻”客户端、麻辣社区均已接入DeepSeek-R1。通...

2025网易未来大奖年度AI榜单揭晓:Deepseek、宇树、Manus等入选

2025网易未来大奖年度AI榜单揭晓:Deepseek、宇树、Manus等入选

  本届大奖评选出年度影响力人工智能企业TOP10、具身智能先锋企业TOP10、AI智能体创新企业TOP10、AI基础设施创新企业TOP10、年度影响力AI产品TOP10、AI十大影响力人...