当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek论文上新!下一代大模型实现“记忆分离”,V4不远了?

3个月前 (01-13)Deepseek最新资讯65

  继去年底发布一篇新论文后,1月12日晚,DeepSeek又上新了一篇论文,这次聚焦的是大模型的条件记忆模块,在结论中DeepSeek 认为,这将成为下一代稀疏大模型中不可或缺的核心建模原语。

  此前有爆料称DeepSeek下一代大模型V4将在春节前后发布,结合这几次研究,业内猜测这或许就是DeepSeek V4的研究路线图。

  这篇论文的核心观察是,大模型包含两种性质完全不同的任务,一种是需要深度动态计算的组合推理,另一种则是检索静态知识。而现有的Transformer架构缺乏原生的知识查找机制,只能通过计算低效地模拟检索过程。例如模型查找不变的知识时,得浪费算力重新推导一遍,既费时间又占资源。

  为解决这一问题,DeepSeek团队引入了条件记忆作为补充的稀疏性维度,并通过Engram这一条件记忆模块实现,优化神经计算(MoE)与静态记忆(Engram)之间的权衡关系deepseek

  团队还发现了U型缩放定律,表明 MoE 专家和 Engram 记忆之间的混合稀疏容量分配严格优于纯 MoE 基准模型。值得注意的是,尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益。

  简单来说,现在的MoE 模型处理推理和记固定知识用的是一套方法,效率较低且浪费算力,这篇论文本质是给大模型做了 “分工优化”:让专门的模块干专门的事,例如有“记忆本”管固定知识,而推理模块管复杂思考,再按最佳比例分配资源,最终让模型又快又聪明。

  DeepSeek在论文最后表明,条件记忆将成为下一代稀疏模型不可或缺的建模原语。有行业人士猜测,此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构。

  此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在编程能力上超过了市场上的其他顶级模型。目前DeepSeek并未对此进行任何回应。报道也提及发布计划可能会根据实际情况进行调整。

  自2024年底发布V3模型后,DeepSeek的下一代旗舰模型一直未出,去年底DeepSeek发布了小更新V3.2版本,并提及该版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro。行业一直在观望DeepSeek的旗舰模型,V4的推出或将成为业界关注的焦点。原文出处:DeepSeek论文上新!下一代大模型实现“记忆分离”,V4不远了?,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek论文上新!下一代大模型实现“记忆分离”,V4不远了?” 的相关文章

刚刚,DeepSeek发布更新

刚刚,DeepSeek发布更新

  DeepSeek更新日志显示,deepseek-chat和deepseek-reasoner都已经升级为DeepSeek-V3.1-Terminus。此次更新在保持模型原有能力的基础上...

聆听2025丨听,奋进的脚步

聆听2025丨听,奋进的脚步

  国家发展改革委主任郑栅洁说,“十四五”即将收官。回过头来看,5年前制定的规划《纲要》各项主要指标中,经济增长、全员劳动生产率、全社会研发经费投入等指标进展符合预期;常住人口城镇化率,人...

DeepSeek预测:瓦伦西亚vs皇家马德里!姆巴佩22球屠杀蝙蝠军?

DeepSeek预测:瓦伦西亚vs皇家马德里!姆巴佩22球屠杀蝙蝠军?

  西甲第23轮即将上演一场焦点战,瓦伦西亚坐镇梅斯塔利亚球场迎战皇家马德里。目前瓦伦西亚排名第17,积23分deepseek,距离降级区仅1分优势;而皇家马德里以54分紧随巴萨之后,排名...

中金:DeepSeek的突破是市场重估中国创新能力的触发因素之一

中金:DeepSeek的突破是市场重估中国创新能力的触发因素之一

  中金指出,在新的地缘形势下,以内部循环为主体、内外部循环相互促进的双循环呈现一些新的动向。内循环方面,实体经济供给改善、需求疲弱的态势持续,但股市显著上涨,主要源自风险溢价下降。金融周...

10月25日DeepSeek预测:森林狼vs湖人,东契奇单核难敌爱德华兹爆发

10月25日DeepSeek预测:森林狼vs湖人,东契奇单核难敌爱德华兹爆发

  湖人坐镇加密球馆迎战森林狼,这是两队自上赛季季后赛后的首次交锋。主队湖人开季0胜1负暂列西部第13,而森林狼则以1胜0负排名西部第6。詹姆斯因背伤缺阵让湖人失去关键组织核心,反观森林狼...

外交学院成功举办第二届“国际政治语言学”学术论坛

外交学院成功举办第二届“国际政治语言学”学术论坛

  2025年12月27日,外交学院成功主办第二届“国际政治语言学:中国话语与中国叙事体系构建”学术论坛。本届论坛聚焦人类命运共同体理念的研究与阐释,汇集了中国外文局、中国社会科学院、清华...