当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek梁文峰发表新论文

4个月前 (01-02)Deepseek最新资讯109

  1月1日,DeepSeek发表论文《Manifold-Constrained Hyper-Connections》,提出一种全新的模型连接结构 mHC(流形约束超连接),直击当前大模型训练领域中长期存在却难以攻克的核心问题:模型越大,训练越不稳定。

  目前主流的大模型,几乎都建立在“残差连接”之上。这种结构的好处是让信息在深层网络中更顺畅地传递,是 Transformer 能够成功的关键之一。

  但随着模型规模不断扩大,研究者们开始尝试更复杂的连接方式,比如 Hyper-Connections(超连接),希望让模型具备更强的表达能力。

  论文指出deepseek,这类结构虽然在理论上更灵活,但在实际训练中容易出现 梯度爆炸、信号失真、训练不稳定 等问题。在部分实验场景中,信号甚至会被放大上千倍,导致模型难以收敛,训练成本急剧上升。

  简单来说,mHC 并不是完全推翻原有结构,而是给超连接增设一道“约束”,将原本自由度极高的连接矩阵,限制在一个数学层面更加稳定的“流形空间”中。

  这一设计带来的效果十分显著:既保留了超连接的强大表达能力,又恢复了类似传统残差结构的训练稳定性,同时还能有效避免信号在层与层之间出现无限制放大的情况。用论文中的表述来讲,就是让模型在“表达能力”与“数值稳定性”之间,重新取得平衡。

  在 27B 参数规模的模型测试中,mHC 结构的表现堪称亮眼。在 BBH、DROP 等多个推理类基准任务中,其性能显著超越传统结构;整个训练过程稳定性拉满,未出现明显的梯度爆炸现象;额外增加的计算开销仅约 6.7%,完全处于工程可接受范围之内。

  论文还指出,在更大规模模型中,mHC的技术优势还会进一步放大,也意味着该结构对未来超大模型的研发具有较强的扩展潜力。

  在外界看来,mHC 并非“看一眼就能用”的功能更新,而是一项偏向底层架构、蕴含先进工程哲学的技术改进。

  在算力、数据逐渐逼近物理与成本极限的当下,如何让模型“跑得稳、跑得久”,已经成为比“堆参数”更重要的核心命题。DeepSeek 此次的技术尝试,或将成为下一阶段模型架构演进的重要方向之一。

  如果说过去几年,行业奋力攻克的是“能不能做大模型”,那么现在,研究者们开始认真思考的是:大模型还能不能继续成长,如何健康地成长。原文出处:DeepSeek梁文峰发表新论文,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek梁文峰发表新论文” 的相关文章

进军智能体?DeepSeek被曝年底或“放大招”,业内怎么看

进军智能体?DeepSeek被曝年底或“放大招”,业内怎么看

  9月5日,据外媒报道,DeepSeek被曝光正在开发具备更先进的AI智能体相关功能的人工智能模型,目的是与OpenAI等头部科技公司在技术新前沿展开竞争。目前DeepSeek创始人梁文...

DeepSeek团队Nature发文,登上封面!

DeepSeek团队Nature发文,登上封面!

  “同行评审”在学术界属于常见且必要的论文审查程序,为何此次《自然》单独将其提出,并以“打破空白”来高度评价DeepSeek?事实上,自ChatGPT起,全球范围内大模型发展就犹如一场“...

DeepSeek更新,增加这项功能!

DeepSeek更新,增加这项功能!

  值得一提的是,近日有市场传言称,国产大模型公司深度求索旗下DeepSeek R2有望在8月15日至30日期间发布。   7月31日,据国际开源社区Hugging-Fa...

从DeepSeek到豆包,中国互联网进入「虎变」纪元

从DeepSeek到豆包,中国互联网进入「虎变」纪元

  回看2025年,中国科技与互联网行业走过了一个真正意义上的“虎变之年”,而这显然只是个开始,2026年以及可预期的未来,中国互联网——特别是BAT 等巨头——必然迎来更加剧烈而宏大的变...

26年春节又热闹了 新论文暗示DeepSeek V4已完成训练

26年春节又热闹了 新论文暗示DeepSeek V4已完成训练

  快科技1月2日消息,刚刚过去的2025年中,万众期待的DeepSeek全新大模型没有问世,但是DeepSeek并没有闲着,这一年中继续打磨了DeepSeek V3.X大模型,还发布了多...

《自然》十大科学人物:DeepSeek梁文锋、潜入深海9000米杜梦然入选

《自然》十大科学人物:DeepSeek梁文锋、潜入深海9000米杜梦然入选

  英国《自然》杂志网站12月8日发布2025年度十大科学人物榜单,今年的评选表彰了那些探索宇宙最深处和海洋最深处的科学家,也将人工智能的创新探索者纳入榜单,其中包括中国人工智能企业深度求...