当前位置：首页 > Deepseek最新资讯 > 正文内容

梁文锋DeepSeek新论文！接棒何恺明和字节，又稳了稳AI的“地基”

6个月前 (01-02)Deepseek最新资讯166

　　听名字就很抽象，但若简单总结，这是 Transformer最底层组件残差连接（Residual Connection）的一次重要改进。

　　这不只是一个技术细节的优化，如果把它放到更大的背景下，事情会更有意思，残差连接是2015年何恺明提出的，此后十年间几乎没有根本性的改动。DeepSeek这次动的，是Transformer架构中最古老、也最基础的那块砖。

　　2015年，何恺明等人在微软亚洲研究院提出ResNet（残差网络）。在此之前，神经网络越深、训练越困难，梯度消失问题几乎无解。残差连接的核心思想很简单：让信息可以跳过某些层直接传递，用公式表达就是y = x + F(x)deepseek。这个设计使训练上百层甚至上千层的网络成为可能，何恺明因此拿下CVPR 2016最佳论文奖。

　　2024年9月，字节跳动发表Hyper-Connections（超连接）论文。研究者发现，传统残差连接虽然稳定，但信息通道的宽度受限，就像一条单车道公路，路面再平整，通行能力终究有限。他们提出将单一残差流扩展为多流并行架构，让不同深度的特征通过多条通道交换信息。实验显示，这能显著提升模型性能，在MoE模型上甚至实现了1.8倍的收敛加速。但问题随之而来，训练变得不稳定了。

　　就像织毛衣。以前我们只用单股线，容易打结也容易断。现在改用多股线一起织，毛衣更结实、花纹更漂亮。但问题是线太多容易乱成一团。所以我们发明了一个智能理线器，让多股线排列整齐，既保留了多股线的优点，又像单股线一样顺滑好织。

　　翻译一下就是，ResNet是单股线（稳定但通道有限），Hyper-Connections是多股线（性能更强但容易“乱”），mHC就是那个智能理线器。

　　原始残差连接之所以稳定，核心在于保持了“恒等映射”属性，信号通过连接后，能量不会被放大。你输入多少，输出就是多少，像一个能量守恒系统。

　　但Hyper-Connections为了增强表达能力，引入了可学习的连接权重矩阵。这些矩阵打破了恒等映射的约束，导致几个严重问题：

　　这是一个“富人的问题”，只有在训练超大规模模型（比如270亿参数以上）时才会显现。普通研究者可能永远不会遇到，但对DeepSeek这种体量的玩家来说，这是必须解决的工程难题。

　　DeepSeek的解决方案是将连接权重矩阵约束在一个特定的数学空间上，双随机矩阵（Doubly Stochastic Matrix）。

　　为什么这个约束有效？因为当信号通过这样的矩阵变换时，输出实际上是输入各分量的凸组合，可以理解为一种“加权平均”。根据数学性质，凸组合的结果不会超过输入的最大值。换句话说，信号不会被无限放大，能量守恒得到保证。

　　从数学角度看，双随机矩阵的谱范数恒小于等于1，这意味着对应的线性变换是非扩张的——无论前向传播还是反向传播，信号都不会被无限放大。

　　具体实现上，DeepSeek采用了经典的Sinkhorn-Knopp算法：对矩阵交替进行行归一化和列归一化，迭代几次就能收敛到双随机矩阵。论文实验表明，仅需3次迭代就能达到足够精度，而且整个过程可微分，支持端到端训练。

　　没关系，重点是，这个方案的优雅之处在于，它没有引入任何新的超参数需要调节，也没有改变模型的表达能力，只是给原本的权重矩阵套上了一个数学上可证明的安全边界。

　　实验结果验证了这一设计的有效性：在 7B 规模的 Dense 模型训练中，mHC 模型全程没有出现任何 Loss 尖峰。在 MoE 模型上，收敛速度提升了约 1.8 倍。

　　把mHC放到DeepSeek近两年的发展脉络中看，会发现一条主线，在有限资源下，通过架构创新最大化效率。mHC可以说是对此的延续，用数学约束解决工程问题，用架构创新突破资源瓶颈。

　　值得一提的是，Twitter用户@nathancgy4（Kimi研究员）表示，一位DeepSeek研究员在和他的交流中认为2025年最值得关注的两大架构创新是muon和hyper-connections。前者已被Kimi深度探索，而后者正是mHC的技术根基。这意味着mHC可能只是DeepSeek在这条路上的第一步。

　　如果mHC被整合进下一代模型，再结合此前的一系列技术和工程创新，我们可能会看到一个在效率、性能和稳定性上全面升级的架构。

　　法国 AI 研究实验室 Pleias 联合创始人 Alexander Doria 在读完论文后给出了一个评价，这表面上是一篇架构论文，实际上是一篇“秀肌肉”的硬核工程论文。

　　因为理论上完美的数学方案（Sinkhorn-Knopp 迭代），如果直接跑在现有的训练框架上，会带来巨大的计算延迟和显存开销。

　　为了让这个“数学护栏”真正落地，DeepSeek 并没有调用现成的库，而是直接手写了底层的 CUDA 内核代码，利用算子融合（Operator Fusion）技术，把复杂的数学计算硬生生塞进了毫秒级的训练循环里。同时，他们采用了激进的“选择性重计算”策略，并在多卡训练中开辟专用计算流来掩盖通信延迟。

　　这才是前沿实验室（Frontier Lab）的标志——不仅要有算法灵感，还得有能力为了验证这个灵感，把整个训练环境的内核、内存管理、节点通信全部重写一遍。原文出处：梁文锋DeepSeek新论文！接棒何恺明和字节，又稳了稳AI的“地基”，感谢原作者，侵权必删！

标签: deepseek