当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek开源Engram论文,梁文锋领衔提出条件记忆新机制

3个月前 (01-13)Deepseek最新资讯84

  【#DeepSeek又开源了# 梁文锋署名新论文发布,实习生挑大梁】智东西1月13日报道,昨晚,DeepSeek又开源了,还发布一篇新论文。这次,他们提出了一种全新的“条件记忆”机制——Engram,旨在让MoE模型在保持巨量参数的同时,更高效地处理语言信息。

  DeepSeek创始人兼CEO梁文锋、北大王选计算机研究所的赵东岩和张辉帅教授都在论文中署名。Engram架构的核心优势在于以更低成本实现更优性能。训练计算量较MoE减少18%的情况下,在32768个token的长上下文任务中,Engram在RULER基准测试中反超同参数量MoE模型。

  并且,其浅层部署的记忆模块接管局部依赖与静态知识存储,为注意力机制腾出容量以专注全局推理,1000亿参数记忆表卸载后使H800推理吞吐量降幅不足3%。

  DeepSeek还观察到,增加记忆槽位数量能持续、稳定地降低验证损失,这意味着Engram提供了一个可预测的Scaling新手段:增大记忆容量持续带来收益,而无需增加计算量。

  那这种效果究竟是如何实现的呢?如今的MoE模型虽然在计算层面做到了稀疏化,但是它处理信息的方式仍然很费劲:有些老生常谈的事实性内容,比如常见的名字、公式或固定表达,模型却要重复计算,非常耗时间。

  DeepSeek的做法是,把这些“固定知识”提前整理成一个可以快速查询的表格,这样就能把更多精力放在真正需要深度思考的任务上,比如复杂推理或者理解长段文本deepseek

  值得一提的是,论文的第一作者Xin Cheng(程信)目前在北京大学智能学院攻读博士学位,主要研究大模型的高效参数化方法和机制。他同时也在DeepSeek工作,R1、V3的研究都参与了,很有可能是实习生。

  在论文摘要中,DeepSeek提出,条件记忆(conditional memory)将成为下一代稀疏模型中不可或缺的建模原语。这或许意味着DeepSeek-V4有望整合条件记忆机制,实现知识高效检索与推理能力的飞跃。原文出处:DeepSeek开源Engram论文,梁文锋领衔提出条件记忆新机制,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek开源Engram论文,梁文锋领衔提出条件记忆新机制” 的相关文章

“DeepSeek问世半年影响仍在,改写了业界思维方式”

“DeepSeek问世半年影响仍在,改写了业界思维方式”

  【文/观察者网 柳白】半年多前,中国人工智能应用DeepSeek横空出世,在全球科技界掀起轩然大波。   英国广播公司(BBC)8月10日发文写道,DeepSeek震...

DeepSeek母公司幻方量化曝亿元佣金套取案 招商证券多人卷入调查

DeepSeek母公司幻方量化曝亿元佣金套取案 招商证券多人卷入调查

  量化投资圈传闻已久的“幻方量化员工涉券商返佣被查”事件近日细节浮出水面。DeepSeek母公司幻方量化市场总监李橙与招商证券深南东路营业部原总经理孟鹏飞被曝在2018年至2023年间合...

deepseek公布大语言模型部署方法专利

deepseek公布大语言模型部署方法专利

  天眼查App显示,近日,deepseek关联公司杭州深度求索人工智能基础技术研究有限公司申请的“一种大语言模型的部署方法及系统”专利公布。   摘要显示,该发明涉及人...

米兰体育报:邓弗里斯的解约条款今日到期,没有球队报价,他将留在国际米兰。

米兰体育报:邓弗里斯的解约条款今日到期,没有球队报价,他将留在国际米兰。

  这几年转会市场越来越怪,豪门只买小年轻,德转和年龄挂钩比例太大,不过随着大巴黎的夺冠,好像也没什么问题   这几年转会市场越来越怪,豪门只买小年轻...

DeepSeek服务出现访问异常

DeepSeek服务出现访问异常

  DeepSeek服务今日出现访问异常,大量用户反映其网页端和App提示“服务器繁忙”或无法响应。记者实测发现deepseek,向DeepSeek App提问后,多次反馈“请检查网络后重...

DeepSeek:已在平台内对AI生成合成内容添加标识

DeepSeek:已在平台内对AI生成合成内容添加标识

  9月1日,DeepSeek发布关于AI生成合成内容标识的公告。公告称,为贯彻落实《人工智能生成合成内容标识办法》(2025年9月1日起施行)及《网络安全技术人工智能生成合成内容标识方法...