当前位置:首页 > Deepseek最新资讯 > 正文内容

一个模型超了DeepSeek R1、V3,参数671B,成本不到350万美元

9个月前 (08-04)Deepseek最新资讯481

  Deep Cogito,一家鲜为人知的 AI 初创公司,总部位于旧金山,由前谷歌员工创立,如今开源的四款混合推理模型,受到大家广泛关注。

  Deep Cogito 的核心方法是迭代蒸馏与增强(Iterated Distillation and Amplification,简称 IDA),它不依赖手工设计的提示词或静态教师模型,而是利用模型自身不断演化的洞察力来引导训练。

  这是一个全新的扩展范式,使模型逐渐形成更强的直觉,并成为 AI 自我提升(AI 系统自我改进)概念的有力验证deepseek

  由于 Cogito 模型在搜索过程中对推理路径有更好的直觉,其推理链比 DeepSeek R1 缩短了 60%。

  与普遍认为技术创新需要大量基础设施投入的观点相反,这种方法效率极高 —— Cogito 系列模型(总共 8 个,本文是其中的 4 个)的训练总成本不足 350 万美元,其中已包含合成与人工数据生成、超过一千次训练实验的所有成本。

  说到 Deep Cogito,可能许多 AI 从业者近期才刚刚开始接触这家公司,Deep Cogito 实际上已经默默耕耘了一年多的时间。

  它于 2025 年 4 月正式走出隐身状态,并发布了一系列基于 Meta 的 Llama 3.2 训练的开源模型。那些早期发布的模型就已展现出颇具前景的表现。

  当时最小的 Cogito v1 模型(3B 和 8B)在多个评测基准上都超越了同尺寸的 Llama 3 模型,有时差距甚至相当明显。

  Deep Cogito 的联合创始人兼 CEO Drishan Arora,此前是谷歌大语言模型核心工程师。他将公司的长期目标描述为:构建能够像 AlphaGo 那样通过每次迭代不断进行推理和自我提升的模型。

  该研究最主要的目标是:将推理步骤蒸馏回模型的参数中,也就是把推理时的搜索过程转化为模型的直觉,融入其内在能力中。

  今天发布的 Cogito v2 模型在这一研究路径上进一步拓展到了更大规模的系统上,并将重点放在 IDA 的另一个关键部分上 —— 通过蒸馏实现自我改进。

  在多个特定领域(如国际象棋、围棋和扑克),AI 通过两步循环(two-step loop)实现了超人类表现:

  在这一模式下,AlphaGo 是典型代表,LLM 可视为同类系统,其推理时间计算虽比游戏系统更非结构化(通过生成答案前的「思考过程」实现),但要完成智能迭代提升的闭环,同样需要关键的第二步骤 —— 策略迭代优化。

  也就是说,需要将推理过程蒸馏回模型参数中,使模型拥有更强的智能先验。这意味着应当能够以某种方式利用推理阶段的思考过程,使模型本身变得更有能力或更聪明。模型应该能够直接预测出推理的结果(而不是真的执行整个推理过程),并预判自身推理可能产生的结果。

  尽管近期的 LLM 在推理方面取得了一些进展,但这些进展大多是依赖于延长推理链条,而不是增强模型本身的智能先验。因此,LLM 性能的提升主要依赖于给模型更大的思考预算(即更多的推理 token),也就是多试几种可能,而非模型对哪条搜索路径更合适有真正的直觉。同样地,LLM 在非思考模式下的改进,也主要依赖于加入回溯等启发式策略,其本质上与穷举更多路径没有本质区别。

  提升模型本身的智能是一个更加困难的根本性问题,尤其是面对语言模型中那种非结构化的推理路径。要解决这个问题,需要在迭代式策略改进方面取得技术性突破。Cogito v2 就是该研究在这个方向上迈出的下一步。

  该研究相信,在迭代式策略改进方向上持续研究,将有望实现远超单纯增加推理 token 所能带来的模型能力跃升。

  团队公布了一些标准基准测试的评估结果,但特别强调,这些公开基准测试固然有其参考价值,但它们的结果与团队的内部评估时常存在差异。

  在他们的内部评估中,Cogito 模型的表现持续优于大多数开源模型。因此他们相信,自家模型在应对真实世界的应用和评估时会表现出色。

  此外,像 o3 和 Claude 4 Opus 这类前沿的闭源模型,它们的实力也早已超越了这些基准测试所能衡量的范畴。

  报告中还提到了一个有趣的「涌现能力」。尽管 Cogito v2 的训练数据完全是文本,但由于其基座模型具备多模态能力,它似乎通过纯粹的迁移学习,学会了对图像进行复杂的逻辑推理。

  在一个示例中,模型在被要求对比两张风马牛不相及的图片(一张鸭子和一头狮子)时,其内部的「思考」过程清晰地展示了它如何分析图像的构图、色彩、主体、环境乃至情感氛围,并最终给出了条理清晰的对比。

  这种未经专门训练而自发产生的能力,为研究 AI 的泛化与学习机制提供了新的有趣视角。不过团队尚未通过视觉基准测试评估此功能。原文出处:一个模型超了DeepSeek R1、V3,参数671B,成本不到350万美元,感谢原作者,侵权必删!

标签: deepseek

“一个模型超了DeepSeek R1、V3,参数671B,成本不到350万美元” 的相关文章

1月23日DeepSeek预测:马刺vs爵士,文班亚马率队客场轻取残阵爵士

1月23日DeepSeek预测:马刺vs爵士,文班亚马率队客场轻取残阵爵士

  西部第二的马刺将客场挑战排名垫底的爵士,这是两队三天内的第二次交锋。1月20日的对决中,马刺主场123-110轻取爵士,文班亚马狂砍33分10篮板。此番再战,爵士面临更严峻的伤病危机,...

DeepSeek预测:亚特兰大vs切尔西!蓝军新星埃斯特旺能否轰碎真蓝黑防线?

DeepSeek预测:亚特兰大vs切尔西!蓝军新星埃斯特旺能否轰碎真蓝黑防线?

  欧冠新赛制下的第6轮焦点战,意甲劲旅亚特兰大将在蓝色竞技球场迎战英超豪门切尔西。目前亚特兰大以3胜1平1负积10分排名第10,而切尔西同积10分因净胜球优势暂列第7deepseek。两...

11月27日DeepSeek预测:步行者vs猛龙,猛龙主场轻取对手,英格拉姆vs

11月27日DeepSeek预测:步行者vs猛龙,猛龙主场轻取对手,英格拉姆vs

  北京时间11月27日早8:30,NBA常规赛将迎来东部强弱分明的较量——排名东部第2的猛龙坐镇主场迎战联盟垫底球队步行者。以下是本场焦点战的深度分析:   猛龙(13...

DeepSeek预测:切尔西VS富勒姆!蓝军火力全开,内托领衔冲击三连胜!

DeepSeek预测:切尔西VS富勒姆!蓝军火力全开,内托领衔冲击三连胜!

  英超第3轮焦点战即将在斯坦福桥打响!切尔西目前以4分排名第4,而富勒姆2轮平局积2分位列第13。蓝军上轮5-1血洗西汉姆联展现恐怖火力(场均进球2.5),而富勒姆两场1-1暴露锋无力(...

重磅微视频丨总书记擘画中国式现代化新篇章

重磅微视频丨总书记擘画中国式现代化新篇章

  5年前,党的十九届五中全会审议通过《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》。面对加速演进的百年变局、艰巨繁重的改革发展稳定任务,这份在习近平总书...

2月23日DeepSeek预测:猛龙vs雄鹿,字母哥缺阵,猛龙客场险胜?

2月23日DeepSeek预测:猛龙vs雄鹿,字母哥缺阵,猛龙客场险胜?

  北京时间2月23日凌晨4:30,NBA常规赛将迎来一场东部焦点对决,目前排名东部第5的猛龙(33胜23负)客场挑战第11名的雄鹿(24胜30负)。尽管雄鹿作为传统豪强拥有更高知名度,但...