当前位置：首页 > Deepseek最新资讯 > 正文内容

DeepSeek改造何恺明残差连接！梁文峰亲自署名，十年首次重大升级

6个月前 (01-02)Deepseek最新资讯108

　　其核心机制简洁明了，x𝑙+1 = x𝑙 + F （x𝑙 ，W𝑙），即下一层的输出等于当前层输入加上残差函数的输出。

　　随着Transformer架构的崛起，这一范式已成为GPT、LLaMA等大语言模型的标准配置。

　　近期出现的Hyper-Connections（HC）试图打破这一格局。HC将残差流的宽度从C维扩展到n×C维，并引入三个可学习的映射矩阵来管理信息流动。

　　DeepSeek团队的实验表明，在这三个映射中，负责残差流内部信息交换的Hres矩阵贡献了最显著的性能提升。

　　论文中展示的27B模型训练曲线显示，HC在约12000步时出现了突发的损失激增，梯度范数也表现出剧烈波动。

　　研究团队计算了复合映射对信号的放大倍数：在HC中，这个值的峰值达到了3000，意味着信号在层间传播时可能被放大数千倍，或者相应地被衰减至近乎消失。

　　DeepSeek论文的核心思路是将残差映射矩阵约束到一个特定的流形上，一个由双随机矩阵构成的Birkhoff多面体。

　　第一是范数保持：双随机矩阵的谱范数不超过1，这意味着信号在经过映射后不会被放大，有效防止了梯度爆炸。

　　第二是组合封闭：多个双随机矩阵相乘的结果仍然是双随机矩阵，因此无论网络多深，跨层的复合映射都能保持稳定性。

　　第三是几何解释：Birkhoff多面体是所有排列矩阵的凸包，残差映射实际上是在对特征做凸组合，相当于一种稳健的特征融合机制。

　　为了将任意矩阵投影到这个流形上，论文采用了Sinkhorn-Knopp算法。该算法先对矩阵取指数使所有元素为正，然后交替对行和列进行归一化，迭代收敛到双随机矩阵。

　　实验数据显示，这个近似解已经足够有效：在27B模型中，mHC的复合映射信号增益最大值约为1.6，与HC的3000形成了三个数量级的差距。

　　标准残差连接需要读取2C个元素、写入C个元素，而HC需要读取（5n+1）C + n² + 2n个元素、写入（3n+1）C + n² + 2n个元素。

　　团队为此开发了一系列基础设施优化，他们使用TileLang框架实现了多个融合内核，将原本分散的操作合并执行以减少内存访问次数。

　　针对Sinkhorn-Knopp算法，他们设计了专门的前向和反向内核deepseek，在芯片上重新计算中间结果以避免存储开销。

　　在流水线并行方面，他们扩展了DualPipe调度策略，通过将MLP层的特定内核放在高优先级计算流上执行，实现了计算与通信的重叠。

　　在27B参数的MoE模型上，mHC展现出稳定的训练曲线，最终损失相比基线降低了0.021，同时保持了与baseline相当的梯度范数稳定性。

　　在下游任务评测中，mHC在BBH推理任务上比HC提升2.1%，在DROP阅读理解任务上提升2.3%。mHC在大多数任务上不仅超过基线，还超过了HC。

　　计算缩放曲线显示，mHC的性能优势在更高计算预算下仍然保持，仅出现轻微衰减。对3B模型的token缩放曲线分析表明，mHC的优势贯穿整个训练过程。

　　论文提到，内部的大规模训练实验进一步证实了这些结论，且当扩展率n=4时，mHC仅引入6.7%的额外时间开销。原文出处：DeepSeek改造何恺明残差连接！梁文峰亲自署名，十年首次重大升级，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：DeepSeek新年炸场！梁文锋署名论文发布

下一篇：DeepSeek 要发大招了，梁文锋署名新论文！暴力优化AI架构

“DeepSeek改造何恺明残差连接！梁文峰亲自署名，十年首次重大升级” 的相关文章

DeepSeek预测：莱切vs国际米兰！蓝黑军团碾压小辣椒？劳塔罗剑指射手王！

　　意甲第26轮即将上演一场实力悬殊的较量——排名第17的莱切将在维亚德尔马雷球场迎战榜首国际米兰。主队目前仅领先降级区3分，而客队则以7分优势领跑积分榜deepseek。小辣椒本赛季仅打...

2月28日DeepSeek预测：尼克斯vs雄鹿，字母哥缺阵恐难阻纽约双星

　　北京时间2月28日9:00，NBA常规赛将上演东部焦点战，雄鹿坐镇主场迎战尼克斯。尽管雄鹿坐拥字母哥、利拉德等巨星，但近期伤病潮或将改变比赛走势。　　雄鹿（26胜3...

打造多元AI算力，推动实现算力普惠全栈AI，让AI成为创新生产力

　　8月23日，2025中国算力大会在山西大同举办。联想集团副总裁、中国基础设施业务群总经理陈振宽受邀在主论坛发表《联想全栈AI 让AI成为创新生产力》主旨演讲，分享了联想八年来在智能化转...

2月21日DeepSeek预测骑士vs黄蜂：米切尔率队冲击六连胜，黄蜂主场能否爆

　　NBA常规赛迎来东部焦点战，排名第4的克利夫兰骑士（35胜21负）将客场挑战夏洛特黄蜂（26胜30负）。作为联盟知名青年军，黄蜂急需胜利冲击附加赛席位，而骑士则志在巩固东部前四排名。...

10月28日DeepSeek预测：掘金vs森林狼，约基奇三双难阻狼群五连胜？

　　北京时间10月28日09:30，NBA常规赛将迎来丹佛掘金客场挑战明尼苏达森林狼的焦点战。目前森林狼以2胜1负暂列西部第7，而卫冕冠军掘金1胜1负排名第9。值得注意的是，森林狼近5次交...

“DeepSeek时刻”1年后，市场见证了“Claude冲击”

　　AI初创公司Anthropic本周凭借其企业级产品战略实现关键突破，引发市场对AI竞争格局的重新评估。其工具已在全球股市触发连锁反应，软件、法律、金融数据及地产等多个板块出现显著市值蒸...

DeepSeek改造何恺明残差连接！梁文峰亲自署名，十年首次重大升级

“DeepSeek改造何恺明残差连接！梁文峰亲自署名，十年首次重大升级” 的相关文章

DeepSeek预测：莱切vs国际米兰！蓝黑军团碾压小辣椒？劳塔罗剑指射手王！

2月28日DeepSeek预测：尼克斯vs雄鹿，字母哥缺阵恐难阻纽约双星

打造多元AI算力，推动实现算力普惠全栈AI，让AI成为创新生产力

2月21日DeepSeek预测骑士vs黄蜂：米切尔率队冲击六连胜，黄蜂主场能否爆

10月28日DeepSeek预测：掘金vs森林狼，约基奇三双难阻狼群五连胜？

“DeepSeek时刻”1年后，市场见证了“Claude冲击”

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.

DeepSeek改造何恺明残差连接！梁文峰亲自署名，十年首次重大升级

“DeepSeek改造何恺明残差连接！梁文峰亲自署名，十年首次重大升级” 的相关文章

DeepSeek预测：莱切vs国际米兰！蓝黑军团碾压小辣椒？劳塔罗剑指射手王！

2月28日DeepSeek预测：尼克斯vs雄鹿，字母哥缺阵恐难阻纽约双星

打造多元AI算力，推动实现算力普惠 全栈AI，让AI成为创新生产力

2月21日DeepSeek预测骑士vs黄蜂：米切尔率队冲击六连胜，黄蜂主场能否爆

10月28日DeepSeek预测：掘金vs森林狼，约基奇三双难阻狼群五连胜？

“DeepSeek时刻”1年后，市场见证了“Claude冲击”

Powered By Z-BlogPHP. Theme by TOYEAN.

打造多元AI算力，推动实现算力普惠全栈AI，让AI成为创新生产力