当前位置：首页 > Deepseek最新资讯 > 正文内容

梁文锋带队DeepSeek，重置深度神经网络最底层的「定海神针」

4个月前 (01-03)Deepseek最新资讯81

　　作者列表里，除了三位一作（Zhenda Xie、Yixuan Wei、Huanqi Cao），还出现了神龙见首不见尾的传奇人物

　　这篇论文要解决的，其实是一个“基础设施级”的老问题：当网络深度与通道层层加码，系统如何不走向崩塌？

　　熟悉神经网络里程碑历史的都知道，残差（Residual / Skip Connection）的发明，是深度神经网络能 work 的关键，从而为深度学习革命打稳了基础。何凯明/张祥雨也因此成名；那篇残差论文的引用数，据说在 AI 历史上是绝对的首屈一指。

　　这是一项发生在十多年前、深度学习革命刚刚开启时，他们在微软做出的里程碑工作。后来，它成了深度神经网络的标准 practice：用x+f（x）代替f（x）。这条看似朴素的改动，恰恰是为了保证多达几百、上千层的网络，在不断加深的（函数）转换中不至于“差之毫厘，失之千里”，从结构上兜住训练的稳定性（那条x的直通路径，本质上就是恒等映射的安全绳）。

　　我们知道，大模型本质上就是个图灵机：在足够的容量与数据驱动下，它可以规律性地把任何信号输入x变成任何其他信号输出y，也就是实现某个f（x）。这就是所谓的万能函数近似——老母鸡变鸭的魔术：文生图、机器翻译之类，看上去神奇，背后都是“把x变成y”的系统性变换。正是在这个意义上，残差网络（ResNet）里x这条直通连接线，成了大模型的定海神针。

　　因此，ResNet 的核心不是某个更复杂的卷积，而是那条看似朴素的“直通线”——让每一层学习 F（x），但输出是 y = x + F（x）。原论文把这种直通车道（shortcut）设计解释为“identity mapping”，它让信息可以跨层稳定传递。

　　你可以把它当作在深度网络这个“层层加工的工厂”里，额外修了一条不加工作业、直达下一站的传送带。于是深度从几十层堆到几百层、上千层时，也不至于在复合变换里越走越偏，最终训练崩盘。

　　ResNet 把每一层从“直接学一个函数”改成“学一个增量”。这就好比雕塑大师把人物雕塑工作，转变为“去除多余的部分”。一块大理石，多余的“残差”去除殆尽，人物自然就成型了。

　　这件事的关键在于它把恒等映射（identity mapping）塞进了网络：哪怕F学得一塌糊涂，x这条直通路径也能把信号和梯度比较完整地送到更深处，从而让几百上千层不至于“越算越跑偏”。mHC 论文在引言里也把这点讲得很直白：残差的稳定性，来自恒等映射跨层累积时的结构性保障。

　　传统残差是一条残差流（hidden state 的那条“主干通道”）。但当模型越来越大，研究者会自然产生一个念头：

　　既然残差流像高速公路的主干，那我能不能把它从1 条车道扩成n 条车道，让信息在不同车道之间更自由地交换、混合，表达力更强？

　　这就是 Hyper-Connections（HC）这类工作的出发点：把残差流的宽度从 C 扩到 n×C，并引入一个可学习的混合矩阵，把“各条车道”的信息在每层重新路由。在 HC 原论文里，核心机制就是这种“复制 n 份 residual path、再在它们之间做连接”的宏观结构。

　　你至少能保证有一部分信号，不被层内变换“瞎折腾”（带偏）。但 HC 的混合矩阵完全自由学习deepseek、没有任何约束，跨多层之后，实际上是在做一串矩阵连乘。

　　mHC 论文直说了：HC 的这种无约束设计在大规模训练时会破坏 identity mapping 作为“conservation mechanism（守恒机制）”的角色，导致平均信号强度无法保持，从而出现无界放大或衰减。

　　●最终就是大家熟悉的两种灾难：信号爆炸 / 梯度爆炸，或者相反：梯度消失。都是模型训练的灾难。

　　不是 HC 多车道思路不对，而是它把原残差网络自带的这根“定海神针”，拆成了“自由的放大链路”。

　　你可以修立交桥、修多车道；但负责“指挥交通”的矩阵，必须服从一套严格的守恒规则。他们选择的规则是：把残差约束到所谓双随机（doubly stochastic / bistochastic）矩阵集合上——元素非负、每一行和每一列都等于 1（归一化）。

　　因为行列和为 1，残差等价于对输入特征做“加权混合”，但权重总量守恒，所以整体更像“搅拌”而不是“放大器”。均值守恒 + 范数被严格规整

　　论文明确说：这种约束让特征均值保持、信号范数被严格 regularize，从而缓解信号爆炸/消失（vanishing/exploding）。跨层复合仍然稳定（乘法封闭性）

　　双随机矩阵相乘仍是双随机矩阵（非负性与行列和约束都能传递），因此“多层连乘”不会越乘越野，守恒性可以贯穿整个深度。翻译成咱老百姓的话就是：

　　每一层的混合矩阵，本质上像是在“若干种换道方案（置换）”之间做概率意义上的加权选择。这就特别像一个“带守恒约束的交通路由系统”：怎么换道都行，但总车流不能凭空变多或变少。另外，mHC 还对前后残差引入非负约束（论文用 sigmoid 形式实现），避免正负系数复合导致的数值抵消行为。

　　“利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上”，这里的核心是这一步：

　　行列交替迭代，最终收敛到双随机结构。你可以把所谓 Sinkhorn-Knopp 过程想象成一个“交警训练营”：

　　不管你原来学出来的“交警”矩阵多么放飞自我，进训练营一套队列动作做完，它就必须满足“行列守恒”的硬纪律，才能上岗指挥交通。关于“流形”（manifold）这个术语，可以这样理解：

　　严格说双随机矩阵集合整体是个凸多胞形（边界有棱角），但在其内部（所有元素严格正）可以视为一个受约束的光滑空间；论文在工程语境里用“manifold”来表达“我们不让参数在整个欧氏空间乱跑，而是限制在一个有几何结构的可行集合里”。

　　把残差流扩成 n 倍，直觉上显存与通信都会爆炸。mHC 论文非常明确地把“系统开销”当作同等重要目标：它不仅提出数学约束，也在配套工程上做了 kernel fusion、选择性重计算、以及在 DualPipe 调度里更激进的通信-计算重叠。

　　HC 想把残差从单车道升级成立交桥；mHC 做的，是给立交桥加上守恒型交通规则——用双随机约束恢复 identity mapping 的稳定性，同时把工程开销压到可接受范围。原文出处：梁文锋带队DeepSeek，重置深度神经网络最底层的「定海神针」，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：美媒称要向DeepSeek学习

下一篇：视频丨海外吸引力与好感度持续攀升 “酷中国”圈粉世界

“梁文锋带队DeepSeek，重置深度神经网络最底层的「定海神针」” 的相关文章

梁文锋带队DeepSeek，重置深度神经网络最底层的「定海神针」

“梁文锋带队DeepSeek，重置深度神经网络最底层的「定海神针」” 的相关文章

10月23日DeepSeek预测：猛龙vs老鹰，巴恩斯对决特雷杨，猛龙客场险胜

14B打败671B！微软rStar2-Agent在数学推理上超过DeepSeek

2025年8月读书课：《如何用deepseek做投资》

10月15日DeepSeek预测：雷霆vs雄鹿，字母哥率队主场复仇？

梁文锋署名，DeepSeek论文上新

27个月，被骂骗子的公司成了印度deepseek

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.