当前位置:首页 > Deepseek最新资讯 > 正文内容

传DeepSeek曝新模型,梁文锋再放“王炸”?

3个月前 (01-21)Deepseek最新资讯95

  近日,DeepSeek在FlashMLA代码库更新中意外曝光了一个名为Model1的新模型,这一发现迅速在技术社区引发热议。

  神秘的 Model1不仅出现在代码和注释中,还拥有与 DeepSeek-V3.2 并列的独立文件。这或意味着其并未沿用 V3 系列的参数配置或基础架构,或是一条全新的技术路径。

  需要指出的是,截至目前,DeepSeek 官网及微信公众号尚未披露任何关于Model1 的相关信息,其最新一篇推送仍停留在 2025年12月1日发布的 DeepSeek-V3.2正式版公告。

  在过去一年中,DeepSeek 以“小步快跑”的方式持续推进 V3 模型的迭代,重点围绕复杂推理、编程能力和工具调用等方向进行深度优化与架构创新deepseek,同时将 R1 作为稳定基线持续赋能生态。

  业界之所以猜测DeepSeek会在今天春节复刻去年R1的“核爆”,主要基于两条线索。一是有外媒称,DeepSeek预计将于2月中旬推出其下一代人工智能模型V4。

  二是2025年12月底至2026年1月,DeepSeek团队发表了两篇有梁文锋署名的论文,主要解决大模型基础架构中训练稳定性与知识检索效率这两个瓶颈,为下一代模型的扩展扫清关键技术障碍。

  其中《mHC: Manifold-Constrained Hyper-Connections》提出了“流形约束超连接”(mHC)框架。其核心是通过数学上的流形投影,将HC的残差连接空间约束在特定流形上,从而在保留其强大表达能力的同时,强制恢复网络的恒等映射特性,从根源上保障了训练的稳定性。

  而DeepSeek 与北大合作的论文《Conditional Memory via Scalable Lookup》提出“条件记忆”模块(Engram),将高频静态知识(如固定短语、代码片段)以嵌入表形式注入 Transformer 层。通过解耦知识存储与神经计算,引入一种稀疏性分配定律,并证明用基于哈希的查找表替代约 20% 的混合专家(MoE)参数,可显著提升推理与知识任务性能。

  DeepSeek两篇旨在攻克模型训练稳定性与知识检索效率两大瓶颈的论文,以及Model1悄然现身等线索都指向同一个焦点——DeepSeek的下一代新模型或已箭在弦上。原文出处:传DeepSeek曝新模型,梁文锋再放“王炸”?,感谢原作者,侵权必删!

标签: deepseek

“传DeepSeek曝新模型,梁文锋再放“王炸”?” 的相关文章

DeepSeek预测:马德里竞技VS西班牙人!格列兹曼率队复仇or米拉再演弑旧主

DeepSeek预测:马德里竞技VS西班牙人!格列兹曼率队复仇or米拉再演弑旧主

  床单军团目前以45分排名第4,仅领先第5名贝蒂斯4分。本赛季主场7胜3平2负的战绩虽位列联赛第4,但近期连续被巴列卡诺3球羞辱、欧冠附加赛遭比甲球队逼平,暴露出防线松动问题(近5场丢1...

DeepSeek梁文锋论文登上Nature封面,AI大模型首次通过同行评审

DeepSeek梁文锋论文登上Nature封面,AI大模型首次通过同行评审

  发表 Editorial 文章称,DeepSeek R1 是首个通过权威学术期刊同行评审的大语言模型,并称此举“意义重大”,是朝着透明度和可重复性迈出的可喜一步。  ...

分红债券基金的税收优势和筛选方法——结合DeepSeek及LightGBM模型的

分红债券基金的税收优势和筛选方法——结合DeepSeek及LightGBM模型的

  企业投资者在进行金融投资时需要考虑税务问题,基于政策支持,投资分红的债券基金在税收方面更具优势。当前市场上债券基金数量众多,人工筛选分红标的效率较低。本文紧扣基金数量、分红确定性和分红...

腾讯、抖音、快手、B站、DeepSeek等平台官宣

腾讯、抖音、快手、B站、DeepSeek等平台官宣

  国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局四部门联合发布的《人工智能生成合成内容标识办法》(以下简称《办法》),自9月1日起正式施行。《办法》明确所有AI生成的文字...

涉及下代国产芯片,外媒紧盯DeepSeek新动向

涉及下代国产芯片,外媒紧盯DeepSeek新动向

  据路透社8月21日报道,21日,中国人工智能初创企业深度求索发布其旗舰模型DeepSeek-V3的升级版。该公司表示,新版本采用了一项针对国产芯片而设计的技术,能够实现性能优化,并加快...

刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了

刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了

  :目前大语言模型主要通过混合专家(MoE)来实现稀疏化,这被称为「条件计算」。但是,现有的 Transformer 缺少原生的知识查找机制,只能被迫通过计算过程低效地模拟检索行为。...