当前位置：首页 > Deepseek最新资讯 > 正文内容

刚刚，梁文锋署名，DeepSeek元旦新论文要开启架构新篇章

6个月前 (01-01)Deepseek最新资讯87

　　简单来说，DeepSeek 提出的 mHC 通过将传统 Transformer 的单一残差流扩展为多流并行架构，并利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上，成功解决了超连接（HC）在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。

　　这篇论文的第一作者有三位：Zhenda Xie（解振达）、Yixuan Wei（韦毅轩）、Huanqi Cao。值得注意的是，DeepSeek 创始人 & CEO 梁文锋也在作者名单中。

　　传统的残差连接（即 Transformer 中的 x + F （x）结构）凭借‘恒等映射’保证了信号无损传输和训练稳定性。但它的瓶颈在于信息通道的宽度受限于隐藏层维度 C。

　　近期，以 Hyper-Connections （HC）为代表的研究，通过扩展残差流宽度和多样化连接模式，拓展了过去十年中广泛应用的残差连接范式。

　　数值不稳定性：原始的 HC 中，连接矩阵是自由学习的，没有约束。这导致信号在经过多层传播后，数值会‘爆炸’或‘消失’，破坏了恒等映射的特性，模型越深越难训练。

　　系统开销大：通道变宽意味着显存读写（I/O）和通信成本成倍增加，也就是所谓的‘显存墙’问题。

　　从根本上破坏了残差连接固有的恒等映射属性，导致了严重的训练不稳定性和受限的可扩展性，并额外增加了显著的内存访问开销。

　　这是一个通用框架，它将 HC 的残差连接空间投影到一个特定的流形上，以恢复恒等映射属性，同时结合严格的基础设施优化以确保效率。

　　它的核心目的是：在保留‘加宽残差流’带来的性能提升的同时，解决其导致的训练不稳定和显存消耗过大的问题。

　　团队利用Sinkhorn-Knopp 算法将残差连接矩阵投影到 Birkhoff 多胞形（双随机矩阵）上。这使得信号传播变为特征的‘凸组合’，从数学上严格保证了信号范数的稳定性（能量守恒）。为了抵消加宽通道带来的开销，团队实施了内核融合、选择性重计算以及扩展的 DualPipe 通信计算重叠策略。

　　实证表明，mHC 不仅解决了稳定性问题，且在大规模训练中（如 27B 模型）表现出卓越的可扩展性。在 n=4 的扩展倍率下，仅增加了 6.7% 的训练时间开销，却换来了显著的性能提升。mHC 为基础模型的拓扑架构演进指明了方向。

　　来确保稳定性，但它能从根本上阻止残差流内部的信息交换，而这种交换对于最大化多流架构的潜力至关重要。

　　因此，该 DeepSeek 团队提出将残差映射投影到一个流形上，既能保持跨层信号传播的稳定性，又能促进残差流之间的相互作用，以保持模型的表达能力（expressivity）。

　　限制为双拟随机矩阵（Doubly Stochastic Matrix），即具有非负项且行和与列和均为 1 的矩阵。

　　复合封闭性：双拟随机矩阵集对矩阵乘法具有封闭性，确保了跨多层的复合残差映射仍保持双拟随机，从而可在整个模型深度上维持稳定性。

　　几何解释：该集合构成了 Birkhoff 多胞形，是排列矩阵集的凸包。这意味着残差映射充当了排列的凸组合，其重复应用会单调地增加跨流的信息混合，起到鲁棒的特征融合作用。

　　是 Sigmoid 函数。Sinkhorn-Knopp 算子首先通过指数操作确保所有元素为正，然后进行迭代规范化，交替缩放行和列使其和为 1。

　　DeepSeek 还为 mHC 量身定制了基础设施设计，使其在 n=4 时在大模型中的训练开销仅增加 6.7%：

　　为了减轻 n 流设计带来的内存压力，DeepSeek 在前向传播后丢弃 mHC 算子的中间激活，并在反向传播时即时重新计算。

　　扩展了 DualPipe 调度算法，以改善流水线并行阶段边界处的通信与计算重叠在专用高优先级计算流上执行 MLP 层的内核，并避免在注意力层使用持久算子，以防止阻塞通信流并提高设备利用率。

　　研究团队通过语言模型预训练来验证所提方法的有效性，并对基线模型、超连接（HC）以及提出的流形约束超连接（mHC）进行了对比分析。

　　他们采用了受 DeepSeek-V3 启发的 MoE 架构，训练了四种不同的模型变体，以覆盖不同的评估体系。

　　具体而言，HC 和 mHC 的扩展率 n 均设置为 4，主要关注点是一个 27B 参数规模的模型。其训练数据集的大小与其参数量成正比，该模型用于展示系统层面的主要结果。在此基础上，他们通过引入使用成比例数据训练的较小的 3B 和 9B 模型来分析计算扩展性，从而观察不同计算规模下的性能趋势。此外，为了专门研究 Token 规模的影响，他们另外训练了一个独立的 3B 模型，该模型在一个固定的 1T Token 的语料库上进行训练。

　　图 5：流形约束超连接（mHC）的训练稳定性。该图展示了：（a） mHC 和 HC 相对于基线模型的训练损失绝对差值；（b）三种方法在训练过程中的梯度范数。所有实验均基于 27B 参数规模的模型。实验结果表明，mHC 在损失函数和梯度范数两方面均表现出更优的稳定性。

　　研究团队首先考察 27B 模型的训练稳定性和收敛性。如图 5 （a）所示，mHC 有效缓解了在 HC 中观察到的训练不稳定问题，与基线模型相比，最终损失降低了 0.021。图 5 （b）中的梯度范数分析进一步证实了这种稳定性的提升：mHC 表现出明显优于 HC 的行为，保持了与基线模型相当的稳定轮廓。

　　表 4：27B 模型在系统级基准测试上的结果。本表对比了基线模型、HC 以及 mHC 在 8 个不同的下游基准测试中的零样本和少样本性能表现。结果显示，mHC 始终优于基线模型deepseek，并在大多数基准测试中超越了 HC，证明了其在大规模预训练中的有效性。

　　表 4 展示了在多种下游基准测试中的性能表现。mHC 带来了全面的提升，一致性地优于基线模型，并在大多数任务上超过了 HC。值得注意的是，与 HC 相比，mHC 进一步增强了模型的推理能力，在 BBH 和 DROP 任务上分别实现了 2.1% 和 2.3% 的性能增益。

　　图 6：mHC 与基线模型的扩展特性对比。（a）计算扩展曲线：实线描绘了在不同计算预算下的性能差距。每个点代表模型大小与数据集大小的最优计算配置，涵盖了从 3B、9B 到 27B 参数规模的规模扩展过程。（b） Token 扩展曲线：展示了 3B 模型在训练过程中的轨迹。每个点代表模型在不同训练 Token 数量下的性能表现。

　　为了评估该方法的扩展性，研究者报告了在不同规模下 mHC 相对于基线模型的损失改善情况。在图 6 （a）中，他们绘制了涵盖 3B、9B 和 27B 参数规模的计算规模扩展曲线。其轨迹表明，即使在更高的计算预算下，性能优势依然稳健地得以保持，仅表现出轻微的衰减。

　　此外，他们在图 6 （b）中考察了训练过程中的动态变化，展示了 3B 模型的 Token 扩展曲线。总的来看，这些发现验证了 mHC 在大规模场景下的有效性。这一结论在他们内部的大规模训练实验中得到了进一步的证实。原文出处：刚刚，梁文锋署名，DeepSeek元旦新论文要开启架构新篇章，感谢原作者，侵权必删！

标签: deepseek