当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek论文上新!下一代大模型实现“记忆分离”,V4不远了?

6个月前 (01-13)Deepseek最新资讯67

  继去年底发布一篇新论文后,1月12日晚,DeepSeek又上新了一篇论文,这次聚焦的是大模型的条件记忆模块,在结论中DeepSeek 认为,这将成为下一代稀疏大模型中不可或缺的核心建模原语。

  此前有爆料称DeepSeek下一代大模型V4将在春节前后发布,结合这几次研究,业内猜测这或许就是DeepSeek V4的研究路线图。

  这篇论文的核心观察是,大模型包含两种性质完全不同的任务,一种是需要深度动态计算的组合推理,另一种则是检索静态知识。而现有的Transformer架构缺乏原生的知识查找机制,只能通过计算低效地模拟检索过程。例如模型查找不变的知识时,得浪费算力重新推导一遍,既费时间又占资源。

  为解决这一问题,DeepSeek团队引入了条件记忆作为补充的稀疏性维度,并通过Engram这一条件记忆模块实现,优化神经计算(MoE)与静态记忆(Engram)之间的权衡关系deepseek

  团队还发现了U型缩放定律,表明 MoE 专家和 Engram 记忆之间的混合稀疏容量分配严格优于纯 MoE 基准模型。值得注意的是,尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益。

  简单来说,现在的MoE 模型处理推理和记固定知识用的是一套方法,效率较低且浪费算力,这篇论文本质是给大模型做了 “分工优化”:让专门的模块干专门的事,例如有“记忆本”管固定知识,而推理模块管复杂思考,再按最佳比例分配资源,最终让模型又快又聪明。

  DeepSeek在论文最后表明,条件记忆将成为下一代稀疏模型不可或缺的建模原语。有行业人士猜测,此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构。

  此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在编程能力上超过了市场上的其他顶级模型。目前DeepSeek并未对此进行任何回应。报道也提及发布计划可能会根据实际情况进行调整。

  自2024年底发布V3模型后,DeepSeek的下一代旗舰模型一直未出,去年底DeepSeek发布了小更新V3.2版本,并提及该版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro。行业一直在观望DeepSeek的旗舰模型,V4的推出或将成为业界关注的焦点。原文出处:DeepSeek论文上新!下一代大模型实现“记忆分离”,V4不远了?,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek论文上新!下一代大模型实现“记忆分离”,V4不远了?” 的相关文章

DeepSeek倒逼vLLM升级!芯片内卷、MoE横扫千模,vLLM核心维护者独

DeepSeek倒逼vLLM升级!芯片内卷、MoE横扫千模,vLLM核心维护者独

  vLLM 的故事始于加州大学伯克利分校 Sky Computing Lab 里一群充满热情的学生与研究员。2023 年,他们开源了核心的 PagedAttention 技术,vLLM...

AI Agent元年:从概念突破到商业落地

AI Agent元年:从概念突破到商业落地

  第一阶段的问答式AI,本质上是一个高度智能化的信息检索和生成系统,用户提出问题,AI给出答案,交互模式相对简单直接。这一阶段的局限性在于AI只能在用户明确指令下工作,缺乏主动性和连续性...

疯狂!DeepSeek引爆寒武纪,市值超越中芯国际,股价直逼茅台

疯狂!DeepSeek引爆寒武纪,市值超越中芯国际,股价直逼茅台

  智东西8月22日报道,在DeepSeek-V3.1正式发布并放出“针对即将发布的下一代国产芯片设计”讯息后,今日国内AI芯片概念股一片飘红,   ...

行业最多!海尔3项案例入选2025年度中国轻工业数字化转型“领航者”

行业最多!海尔3项案例入选2025年度中国轻工业数字化转型“领航者”

  近日,以“AI赋能 消费焕新”为主题的第十五届中国轻工业信息化大会在北京召开,大会正式发布《2025年度轻工业数字化转型“领航者”案例名单》,为轻工行业企业深入推进新型工业化建设提供路...

10月26日DeepSeek预测:公牛vs魔术,武切维奇对决班凯罗,魔术主场险胜

10月26日DeepSeek预测:公牛vs魔术,武切维奇对决班凯罗,魔术主场险胜

  北京时间10月26日,NBA常规赛将迎来一场东部焦点战,奥兰多魔术将在主场迎战芝加哥公牛。两支球队新赛季开局表现不俗,魔术1胜1负暂列东部第8,公牛则以1胜0负的战绩高居东部第3。本场...

用AI联通丨当“政务+AI”遇上DeepSeek

用AI联通丨当“政务+AI”遇上DeepSeek

  在数字化浪潮席卷全球的今天,人工智能正以前所未有的速度重塑各行各业的发展格局。今年3月,上海联通携手自贸区临港新片区企业服务中心,依托国内领先的深度求索(DeepSeek)大语言模型,...