当前位置:首页 > Deepseek最新资讯 > 正文内容

梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”

4个月前 (01-02)Deepseek最新资讯160

  听名字就很抽象,但若简单总结,这是 Transformer最底层组件残差连接(Residual Connection)的一次重要改进。

  这不只是一个技术细节的优化,如果把它放到更大的背景下,事情会更有意思,残差连接是2015年何恺明提出的,此后十年间几乎没有根本性的改动。DeepSeek这次动的,是Transformer架构中最古老、也最基础的那块砖。

  2015年,何恺明等人在微软亚洲研究院提出ResNet(残差网络)。 在此之前,神经网络越深、训练越困难,梯度消失问题几乎无解。残差连接的核心思想很简单:让信息可以跳过某些层直接传递,用公式表达就是y = x + F(x)deepseek。这个设计使训练上百层甚至上千层的网络成为可能,何恺明因此拿下CVPR 2016最佳论文奖。

  2024年9月,字节跳动发表Hyper-Connections(超连接)论文。 研究者发现,传统残差连接虽然稳定,但信息通道的宽度受限,就像一条单车道公路,路面再平整,通行能力终究有限。他们提出将单一残差流扩展为多流并行架构,让不同深度的特征通过多条通道交换信息。实验显示,这能显著提升模型性能,在MoE模型上甚至实现了1.8倍的收敛加速。但问题随之而来,训练变得不稳定了。

  就像织毛衣。以前我们只用单股线,容易打结也容易断。现在改用多股线一起织,毛衣更结实、花纹更漂亮。但问题是线太多容易乱成一团。所以我们发明了一个智能理线器,让多股线排列整齐,既保留了多股线的优点,又像单股线一样顺滑好织。

  翻译一下就是,ResNet是单股线(稳定但通道有限),Hyper-Connections是多股线(性能更强但容易“乱”),mHC就是那个智能理线器。

  原始残差连接之所以稳定,核心在于保持了“恒等映射”属性,信号通过连接后,能量不会被放大。你输入多少,输出就是多少,像一个能量守恒系统。

  但Hyper-Connections为了增强表达能力,引入了可学习的连接权重矩阵。这些矩阵打破了恒等映射的约束,导致几个严重问题:

  这是一个“富人的问题”,只有在训练超大规模模型(比如270亿参数以上)时才会显现。普通研究者可能永远不会遇到,但对DeepSeek这种体量的玩家来说,这是必须解决的工程难题。

  DeepSeek的解决方案是将连接权重矩阵约束在一个特定的数学空间上,双随机矩阵(Doubly Stochastic Matrix)。

  为什么这个约束有效?因为当信号通过这样的矩阵变换时,输出实际上是输入各分量的凸组合,可以理解为一种“加权平均”。根据数学性质,凸组合的结果不会超过输入的最大值。换句话说,信号不会被无限放大,能量守恒得到保证。

  从数学角度看,双随机矩阵的谱范数恒小于等于1,这意味着对应的线性变换是非扩张的——无论前向传播还是反向传播,信号都不会被无限放大。

  具体实现上,DeepSeek采用了经典的Sinkhorn-Knopp算法:对矩阵交替进行行归一化和列归一化,迭代几次就能收敛到双随机矩阵。论文实验表明,仅需3次迭代就能达到足够精度,而且整个过程可微分,支持端到端训练。

  没关系,重点是,这个方案的优雅之处在于,它没有引入任何新的超参数需要调节,也没有改变模型的表达能力,只是给原本的权重矩阵套上了一个数学上可证明的安全边界。

  实验结果验证了这一设计的有效性:在 7B 规模的 Dense 模型训练中,mHC 模型全程没有出现任何 Loss 尖峰。在 MoE 模型上,收敛速度提升了约 1.8 倍。

  把mHC放到DeepSeek近两年的发展脉络中看,会发现一条主线,在有限资源下,通过架构创新最大化效率。mHC可以说是对此的延续,用数学约束解决工程问题,用架构创新突破资源瓶颈。

  值得一提的是,Twitter用户@nathancgy4(Kimi研究员)表示,一位DeepSeek研究员在和他的交流中认为2025年最值得关注的两大架构创新是muon和hyper-connections。前者已被Kimi深度探索,而后者正是mHC的技术根基。这意味着mHC可能只是DeepSeek在这条路上的第一步。

  如果mHC被整合进下一代模型,再结合此前的一系列技术和工程创新,我们可能会看到一个在效率、性能和稳定性上全面升级的架构。

  法国 AI 研究实验室 Pleias 联合创始人 Alexander Doria 在读完论文后给出了一个评价,这表面上是一篇架构论文,实际上是一篇“秀肌肉”的硬核工程论文。

  因为理论上完美的数学方案(Sinkhorn-Knopp 迭代),如果直接跑在现有的训练框架上,会带来巨大的计算延迟和显存开销。

  为了让这个“数学护栏”真正落地,DeepSeek 并没有调用现成的库,而是直接手写了底层的 CUDA 内核代码,利用算子融合(Operator Fusion)技术,把复杂的数学计算硬生生塞进了毫秒级的训练循环里。同时,他们采用了激进的“选择性重计算”策略,并在多卡训练中开辟专用计算流来掩盖通信延迟。

  这才是前沿实验室(Frontier Lab)的标志——不仅要有算法灵感,还得有能力为了验证这个灵感,把整个训练环境的内核、内存管理、节点通信全部重写一遍。原文出处:梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”,感谢原作者,侵权必删!

标签: deepseek

“梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”” 的相关文章

12月28日DeepSeek预测:掘金vs魔术,约基奇三双率队客胜

12月28日DeepSeek预测:掘金vs魔术,约基奇三双率队客胜

  NBA常规赛即将迎来一场东西部强队对话,奥兰多魔术将在主场迎战丹佛掘金。作为东部知名球队,魔术目前以17胜14负排名东部第6,而西部豪强掘金则以22胜8负高居西部第3。...

力压Deepseek!豆包夺原生AI APP月活第一

力压Deepseek!豆包夺原生AI APP月活第一

  依托抖音、剪映等产品的流量入口,豆包实现用户高效转化,其拟人化交互设计与低门槛体验更贴合大众需求——从恋爱攻略到旅游规划deepseek,场景化服务覆盖生活全维度。...

DeepSeek预测:尤文图斯vs国际米兰!弗拉霍维奇VS图拉姆,谁将主宰意大利

DeepSeek预测:尤文图斯vs国际米兰!弗拉霍维奇VS图拉姆,谁将主宰意大利

  北京时间9月14日凌晨,2025赛季意甲第3轮将迎来焦点战——尤文图斯坐镇安联球场迎战国际米兰。目前两队分列积分榜第2和第6位,均保持欧战资格区席位。斑马军团新赛季两战全胜且零封对手,...

DeepSeek预测:罗马vs科莫!红狼主场撕碎黑马?苏莱PK帕斯引爆亚平宁

DeepSeek预测:罗马vs科莫!红狼主场撕碎黑马?苏莱PK帕斯引爆亚平宁

  意甲第15轮即将迎来一场欧冠席位争夺战——排名第四的罗马坐镇奥林匹克球场迎战升班马科莫。前者近期主场三连胜气势如虹,后者则凭借中场核心帕斯的惊艳表现高居第六。这场3分对决或将重塑欧战格...

“十五五”开局之年,全力“拼经济”

“十五五”开局之年,全力“拼经济”

  我国经济基础稳、优势多、韧性强、潜能大,长期向好的支撑条件和基本趋势没有改变。2026年是我国“十五五”开局之年,起步之时当有关键之作为。站在新起点,通过新发展模式,实施更加积极有为的...

DeepSeek预测:富勒姆vs热刺!农场主主场狂轰滥炸,热刺防线崩盘在即?

DeepSeek预测:富勒姆vs热刺!农场主主场狂轰滥炸,热刺防线崩盘在即?

  英超第28轮即将上演一场伦敦德比,富勒姆将在克拉文农场球场迎战热刺。目前富勒姆排名第10,积37分,距离欧战区8分;而热刺仅排名第16,积29分,距离降级区仅有4分之差。这场比赛对于双...