当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek开源Engram,如何做到推理损失仅3%?

5个月前 (01-13)Deepseek最新资讯100

  该论文共14名作者,DeepSeek创始人、CEO梁文锋的署名列于最后。1月1日,DeepSeek的发布关于mHC架构的论文deepseek,引发广泛关注,梁文锋同样署名,并列于最后。

  两篇论文体现了DeepSeek一直以来的方向:打破算力成本硬约束,通过架构、方法论创新,走出更具性价比的道路。

  根据DeepSeek的研究,Engram是被设计成可微分、可训练、原生嵌入模型结构的组件,其核心是把记忆性负载从主干计算中剥离出去,规避低效的反复计算,通过高速检索模块直接调用稳定存在、高频出现的知识。

  Engram首先会提供确定性检索。模型基于当前token和前文形成的N-gram,通过哈希映射,直接从一个超大规模的静态嵌入表中取出对应向量,无需依赖复杂的神经计算,速度更快、路径稳定。

  此后,Engram会通过引入轻量化门控机制,由当前层的隐藏状态来判断这段记忆是否真的适合当前语境,避免查到就用的生硬注入。

  DeepSeek还称,实验表明,相关机制在时间、专有名词等固定模式下高度活跃,而在自由生成和复杂推理时几乎不介入。这就在强化了记忆功能的同时,避免了不合时宜的幻觉出现。

  首先是决定逻辑与抽象能力的模型深度,其次是以MoE为代表,减少每次激活计算量的计算稀疏性,以MoE为代表,减少每次激活的计算量。而第三维正是存储稀疏性,也就是Engram引入的条件记忆。

  根据论文,DeepSeek通过U型扩展定律解决平衡问题,在总参数和算力预算固定的情况下,研究团队系统性地调整MoE和Engram的比例,得出将20%至25%的稀疏参数分配给Engram的最优平衡点。

  其测试数据称,即便挂载了规模高达千亿参数的Engram记忆库,推理吞吐损失也能控制在3%以内。

  The Information援引知情人士消息称,DeepSeek预计将在今年中国春节前后发布最新的V4模型,核心突破主要在于超长代码提示词的处理、解析能力,以及全流程训练中数据模式的理解力。

  这也意味着,新模型不仅推理性能会大幅提升,还会更擅长处理复杂任务时,而编码能力也是新模型的主打能力。知情人士称,其内部初步测试结果已经超越了Anthorpic的最强编程模型Claude。

  Anthorpic为守护编程能力优势和入口通道,近期已陆续切断Claude Code的第三方平台入口,1月12日,又放出Cowork,主打办公场景的Agent落地,可以自动帮助用户完成制作PPT、整理电子邮件、制定工作计划等各类任务,上手门槛较低。原文出处:DeepSeek开源Engram,如何做到推理损失仅3%?,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek开源Engram,如何做到推理损失仅3%?” 的相关文章

齐鲁软件园联合山东大学、浪潮集团打造开源社区

齐鲁软件园联合山东大学、浪潮集团打造开源社区

  今年以来,DeepSeek在全球掀起一股生成式AI大发展潮流,各行各业纷纷拥抱开源DeepSeek。业内认为,DeepSeek最大的贡献和价值在于通过开源,推动了AI的普惠。2024年...

12月8日DeepSeek预测:雷霆vs爵士——西部霸主能否延续不败神话?亚历山

12月8日DeepSeek预测:雷霆vs爵士——西部霸主能否延续不败神话?亚历山

  当西部第11的爵士在能源方案球馆迎战联盟榜首雷霆时,这看似一场实力悬殊的较量deepseek。但NBA赛场从不缺少奇迹,尤其考虑到爵士近期主场曾爆冷击败国王(128-119),而雷霆则...

2月23日DeepSeek预测:骑士vs雷霆,米切尔率队挑战西部霸主,骑士有望复

2月23日DeepSeek预测:骑士vs雷霆,米切尔率队挑战西部霸主,骑士有望复

  NBA常规赛即将迎来一场东西部强强对话,东部第四的克利夫兰骑士将客场挑战西部第一的俄克拉荷马雷霆。这场比赛不仅是东西部顶级球队的较量,更是骑士队寻求复仇的良机,他们在本赛季首次交锋中以...

1月29日DeepSeek预测森林狼vs独行侠:残阵独行侠难挡爱德华兹火力

1月29日DeepSeek预测森林狼vs独行侠:残阵独行侠难挡爱德华兹火力

  西部季后赛卡位战即将打响,达拉斯独行侠将在主场迎战明尼苏达森林狼。作为NBA传统劲旅,独行侠本赛季饱受伤病困扰,目前以19胜27负排名西部第11;而森林狼则以28胜19负暂列西部第7,...

CMO必修课:GEO优化怎么做?2026年从0到1的AI搜索推荐系统化实施路径

CMO必修课:GEO优化怎么做?2026年从0到1的AI搜索推荐系统化实施路径

  当企业市场负责人发现品牌在传统搜索引擎的排名依然稳定,但来自AI搜索平台的流量却寥寥无几时,一个残酷的事实正在浮现:在豆包、DeepSeek、千问、Kimi等生成式AI平台,用户不再点...

促进人工智能 助力教育变革

促进人工智能 助力教育变革

  盛夏时节,学习正酣。在这个充满生机与活力的暑期,迎来名师培训的第二天,大家依然齐聚在十方院学校一楼报告厅,以饱满的热情和昂扬的斗志,投入到今天学习的浪潮中。   为贯...