当前位置:首页 > Deepseek最新资讯 > 正文内容

梁文锋带队DeepSeek,重置深度神经网络最底层的「定海神针」

6个月前 (01-03)Deepseek最新资讯84

  作者列表里,除了三位一作(Zhenda Xie、Yixuan Wei、Huanqi Cao),还出现了神龙见首不见尾的传奇人物

  这篇论文要解决的,其实是一个“基础设施级”的老问题:当网络深度与通道层层加码,系统如何不走向崩塌?

  熟悉神经网络里程碑历史的都知道,残差(Residual / Skip Connection)的发明,是深度神经网络能 work 的关键,从而为深度学习革命打稳了基础。何凯明/张祥雨也因此成名;那篇残差论文的引用数,据说在 AI 历史上是绝对的首屈一指。

  这是一项发生在十多年前、深度学习革命刚刚开启时,他们在微软做出的里程碑工作。后来,它成了深度神经网络的标准 practice:用x+f(x)代替f(x)。这条看似朴素的改动,恰恰是为了保证多达几百、上千层的网络,在不断加深的(函数)转换中不至于“差之毫厘,失之千里”,从结构上兜住训练的稳定性(那条x的直通路径,本质上就是恒等映射的安全绳)。

  我们知道,大模型本质上就是个图灵机:在足够的容量与数据驱动下,它可以规律性地把任何信号输入x变成任何其他信号输出y,也就是实现某个f(x)。这就是所谓的万能函数近似——老母鸡变鸭的魔术:文生图、机器翻译之类,看上去神奇,背后都是“把x变成y”的系统性变换。正是在这个意义上,残差网络(ResNet)里x这条直通连接线,成了大模型的定海神针。

  因此,ResNet 的核心不是某个更复杂的卷积,而是那条看似朴素的“直通线”——让每一层学习 F(x),但输出是 y = x + F(x)。原论文把这种 直通车道(shortcut) 设计解释为“identity mapping”,它让信息可以跨层稳定传递。

  你可以把它当作在深度网络这个“层层加工的工厂”里,额外修了一条不加工作业、直达下一站的传送带。于是深度从几十层堆到几百层、上千层时,也不至于在复合变换里越走越偏,最终训练崩盘。

  ResNet 把每一层从“直接学一个函数”改成“学一个增量”。这就好比雕塑大师把人物雕塑工作,转变为“去除多余的部分”。一块大理石,多余的“残差”去除殆尽,人物自然就成型了。

  这件事的关键在于它把恒等映射(identity mapping)塞进了网络:哪怕F学得一塌糊涂,x这条直通路径也能把信号和梯度比较完整地送到更深处,从而让几百上千层不至于“越算越跑偏”。mHC 论文在引言里也把这点讲得很直白:残差的稳定性,来自恒等映射跨层累积时的结构性保障。

  传统残差是一条残差流(hidden state 的那条“主干通道”)。但当模型越来越大,研究者会自然产生一个念头:

  既然残差流像高速公路的主干,那我能不能把它从1 条车道扩成n 条车道,让信息在不同车道之间更自由地交换、混合,表达力更强?

  这就是 Hyper-Connections(HC)这类工作的出发点:把残差流的宽度从 C 扩到 n×C,并引入一个可学习的混合矩阵,把“各条车道”的信息在每层重新路由。在 HC 原论文里,核心机制就是这种“复制 n 份 residual path、再在它们之间做连接”的宏观结构。

  你至少能保证有一部分信号,不被层内变换“瞎折腾”(带偏)。但 HC 的混合矩阵完全自由学习deepseek、没有任何约束,跨多层之后,实际上是在做一串矩阵连乘。

  mHC 论文直说了:HC 的这种无约束设计在大规模训练时会破坏 identity mapping 作为“conservation mechanism(守恒机制)”的角色,导致平均信号强度无法保持,从而出现无界放大或衰减。

  ●最终就是大家熟悉的两种灾难:信号爆炸 / 梯度爆炸,或者相反:梯度消失。都是模型训练的灾难。

  不是 HC 多车道思路不对,而是它把原残差网络自带的这根“定海神针”,拆成了“自由的放大链路”。

  你可以修立交桥、修多车道;但负责“指挥交通”的矩阵,必须服从一套严格的守恒规则。他们选择的规则是:把残差约束到所谓双随机(doubly stochastic / bistochastic)矩阵集合上——元素非负、每一行和每一列都等于 1(归一化)。

  因为行列和为 1,残差等价于对输入特征做“加权混合”,但权重总量守恒,所以整体更像“搅拌”而不是“放大器”。均值守恒 + 范数被严格规整

  论文明确说:这种约束让特征均值保持、信号范数被严格 regularize,从而缓解 信号爆炸/消失(vanishing/exploding)。跨层复合仍然稳定(乘法封闭性)

  双随机矩阵相乘仍是双随机矩阵(非负性与行列和约束都能传递),因此“多层连乘”不会越乘越野,守恒性可以贯穿整个深度。翻译成咱老百姓的话就是:

  每一层的混合矩阵,本质上像是在“若干种换道方案(置换)”之间做概率意义上的加权选择。这就特别像一个“带守恒约束的交通路由系统”:怎么换道都行,但总车流不能凭空变多或变少。另外,mHC 还对前后残差引入非负约束(论文用 sigmoid 形式实现),避免正负系数复合导致的数值抵消行为。

  “利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上”,这里的核心是这一步:

  行列交替迭代,最终收敛到双随机结构。你可以把所谓 Sinkhorn-Knopp 过程想象成一个“交警训练营”:

  不管你原来学出来的“交警”矩阵多么放飞自我,进训练营一套队列动作做完,它就必须满足“行列守恒”的硬纪律,才能上岗指挥交通。关于“流形”(manifold)这个术语,可以这样理解:

  严格说双随机矩阵集合整体是个凸多胞形(边界有棱角),但在其内部(所有元素严格正)可以视为一个受约束的光滑空间;论文在工程语境里用“manifold”来表达“我们不让参数在整个欧氏空间乱跑,而是限制在一个有几何结构的可行集合里”。

  把残差流扩成 n 倍,直觉上显存与通信都会爆炸。mHC 论文非常明确地把“系统开销”当作同等重要目标:它不仅提出数学约束,也在配套工程上做了 kernel fusion、选择性重计算、以及在 DualPipe 调度里更激进的通信-计算重叠。

  HC 想把残差从单车道升级成立交桥;mHC 做的,是给立交桥加上守恒型交通规则——用双随机约束恢复 identity mapping 的稳定性,同时把工程开销压到可接受范围。原文出处:梁文锋带队DeepSeek,重置深度神经网络最底层的「定海神针」,感谢原作者,侵权必删!

标签: deepseek

“梁文锋带队DeepSeek,重置深度神经网络最底层的「定海神针」” 的相关文章

后R1时代:DeepSeek发展的三大阶段

后R1时代:DeepSeek发展的三大阶段

  ,还是以基础模型 DeepSeek V3-Base 为基座,通过后训练实现了模型能力的提升,弥补了和头部模型之间的差距。   8月21日,Deep在发布V3.1的同时...

DeepSeek预测:赫塔菲vs皇家马德里!姆巴佩伤缺银河战舰恐翻车?

DeepSeek预测:赫塔菲vs皇家马德里!姆巴佩伤缺银河战舰恐翻车?

  西甲第9轮即将上演一场看似强弱分明实则暗藏杀机的对决——排名第11的赫塔菲将在阿方索佩雷斯球场迎战领头羊皇家马德里。主队目前3胜2平3负积11分,距离欧战区仅2分;客队则以7胜1负的强...

DeepSeek“上岗”~沈阳方城文旅服务迎来智能升级

DeepSeek“上岗”~沈阳方城文旅服务迎来智能升级

  “上午,探秘清初皇宫,漫步沈阳古街;下午,登高望远览古城,寻访金融旧时光;傍晚,登临百年钟楼,赏古城夜景……”咋样?这样的沈阳方城一日游路线推荐是不是很靠谱?这还不算,就连旅行前的“实...

DeepSeek发布V3.1终极版

DeepSeek发布V3.1终极版

  南方财经9月23日电,22日晚间,DeepSeek宣布DeepSeek-V3.1 已更新至 DeepSeek-V3.1-Terminus (终极)版本。新版本在保持V3.1模型原有能力...

寒武纪、海光信息领涨,多家AI芯片厂商已适配DeepSeek模型

寒武纪、海光信息领涨,多家AI芯片厂商已适配DeepSeek模型

  22日多只算力领域个股开盘大涨。截至发稿,晶圆代工厂商中芯国际盘中涨6.29%,芯片定制和半导体IP授权服务厂商芯原股份涨5.39%。AI算力相关的个股中,海光信息涨17.19%,中科...

东西问丨DeepSeek不爱人类了?小编实测是这样!

东西问丨DeepSeek不爱人类了?小编实测是这样!

  中新网北京2月14日电(记者 贺劭清 韩禹)近日,国产AI助手深度求索(DeepSeek)因技术升级,原本细腻共情的回答变得文风生硬。   “情感大师”仿佛一夜之间就...