当前位置：首页 > Deepseek最新资讯 > 正文内容

传DeepSeek曝新模型，梁文锋再放“王炸”？

3个月前 (01-21)Deepseek最新资讯95

　　近日，DeepSeek在FlashMLA代码库更新中意外曝光了一个名为Model1的新模型，这一发现迅速在技术社区引发热议。

　　神秘的 Model1不仅出现在代码和注释中，还拥有与 DeepSeek-V3.2 并列的独立文件。这或意味着其并未沿用 V3 系列的参数配置或基础架构，或是一条全新的技术路径。

　　需要指出的是，截至目前，DeepSeek 官网及微信公众号尚未披露任何关于Model1 的相关信息，其最新一篇推送仍停留在 2025年12月1日发布的 DeepSeek-V3.2正式版公告。

　　在过去一年中，DeepSeek 以“小步快跑”的方式持续推进 V3 模型的迭代，重点围绕复杂推理、编程能力和工具调用等方向进行深度优化与架构创新deepseek，同时将 R1 作为稳定基线持续赋能生态。

　　业界之所以猜测DeepSeek会在今天春节复刻去年R1的“核爆”，主要基于两条线索。一是有外媒称，DeepSeek预计将于2月中旬推出其下一代人工智能模型V4。

　　二是2025年12月底至2026年1月，DeepSeek团队发表了两篇有梁文锋署名的论文，主要解决大模型基础架构中训练稳定性与知识检索效率这两个瓶颈，为下一代模型的扩展扫清关键技术障碍。

　　其中《mHC： Manifold-Constrained Hyper-Connections》提出了“流形约束超连接”（mHC）框架。其核心是通过数学上的流形投影，将HC的残差连接空间约束在特定流形上，从而在保留其强大表达能力的同时，强制恢复网络的恒等映射特性，从根源上保障了训练的稳定性。

　　而DeepSeek 与北大合作的论文《Conditional Memory via Scalable Lookup》提出“条件记忆”模块（Engram），将高频静态知识（如固定短语、代码片段）以嵌入表形式注入 Transformer 层。通过解耦知识存储与神经计算，引入一种稀疏性分配定律，并证明用基于哈希的查找表替代约 20% 的混合专家（MoE）参数，可显著提升推理与知识任务性能。

　　DeepSeek两篇旨在攻克模型训练稳定性与知识检索效率两大瓶颈的论文，以及Model1悄然现身等线索都指向同一个焦点——DeepSeek的下一代新模型或已箭在弦上。原文出处：传DeepSeek曝新模型，梁文锋再放“王炸”？，感谢原作者，侵权必删！

标签: deepseek