当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布最新论文,破解大模型训练拥堵难题

6个月前 (01-02)Deepseek最新资讯104

  北京时间2026年1月1日,DeepSeek团队在arXiv(预印本)网站和Hugging Face上同步发布了最新论文,名为《mHC: Manifold-Constrained Hyper-Connections》,论文的核心观点是提出一种名为“mHC”(直译为“流形约束超连接”)的框架,该框架改进了此前大模型训练中一种名为“HC(Hyper-Connections,超连接)”的范式,对大规模模型训练提供了切实的性能改进。

  贝壳财经记者注意到,DeepSeek创始人梁文锋的名字出现在了这篇论文署名作者的最后一位上。事实上,虽然DeepSeek在2025年春节因为R1模型的开源发布而全球爆火,但在梁文锋的带领下,这家公司极其低调,团队一直潜心学术,未做过多的商业化尝试,一心扑在基础模型理论研发之上,梁文锋还在近期入选了《自然》2025年影响科学发展十大人物。

  贝壳财经记者梳理发现,DeepSeek团队本次发布的论文瞄准了大模型训练的“地基”——残差连接范式,以及为了升级残差连接范式提出的HC(超连接)范式,是不折不扣的一次基础理论创新。

  DeepSeek团队在论文中以严谨的数学公式解释了mHCdeepseek,若以简单的语言来类比,大致可以理解为,残差连接是AI模型训练的“生命线”——它像一条单车道高速公路,让数据信号可以跳过某些层直接连接,从而解决了在此之前神经网络越大训练越困难的问题。

  但随着大模型参数突破千亿,这条“单车道”越来越不够用,此时超连接(HC)范式登场,其把单车道扩建成多车道,从而显著提升了模型性能。但与此同时,过多的数据信号也导致了“堵车撞车”,就像多车道中没装“交通信号灯”一样,使模型训练变得更加不稳定,容易崩溃。

  此时,DeepSeek提出了一种新算法,给“多车道”增加了一套智能调度系统(即mHC“流行约束”),其要求每个路口的车必须全部分流出去,每个车道接收的车数量固定,从而大大增加了模型训练的稳定性。

  这是因为,残差连接正是2015年由何凯明等人在微软亚洲研究院所提出的,何恺明还因此获得了CVPR 2016最佳论文奖,残差连接之后也成了几乎所有主流大模型的“标配”。

  直到2024年,为了解决残差连接信号通道不够“宽阔”的问题,字节跳动旗下团队提出了HC(超连接)范式,但由此也带来了稳定性不够的问题。而DeepSeek正是在前人的基础上进一步进行了优化。

  2026年的第一天,在诸多大模型公司聚焦商业化和变现之际,DeepSeek此举进一步证实了自己在基础模型领域的战略定力。

  在本次发布论文的文末,DeepSeek团队写道,“我们希望mHC能重振社区对宏观架构设计的兴趣。通过加深对拓扑结构如何影响优化和表示学习的理解,mHC将有助于解决当前的限制,并有可能为下一代基础架构的发展指明新途径。”

  /重复三遍“世界和平”!特朗普许下新年愿望,普京坚信“终将胜利”,泽连斯基:不要乌克兰的终结

  /5.3公里内连摔6次,电瓶车骑车人抢救无效身亡!同事曾多次劝其打车回家,广东交警披露详情

  /港股收评:恒指涨2.76% 科指涨4% 科网股普涨 电力设备股大涨 百度涨超9% 壁仞科技首日一度涨超118%

  /1月2日隔夜要闻:美国对部分跨境汇款征税 星链计划降低卫星轨道高度 瑞士酒吧火灾约40人死亡

  /港股午评:恒指涨2.18%重回26000点 科指涨3.38% 科网股普涨 半导体板块强势 壁仞科技首日涨超72%原文出处:DeepSeek发布最新论文,破解大模型训练拥堵难题,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek发布最新论文,破解大模型训练拥堵难题” 的相关文章

11月6日DeepSeek预测:雷霆vs开拓者,雷霆延续不败神话?亚历山大对决阿

11月6日DeepSeek预测:雷霆vs开拓者,雷霆延续不败神话?亚历山大对决阿

  西部榜首雷霆即将造访波特兰,挑战近期状态起伏的开拓者。这场对决不仅是战绩悬殊的较量(8胜0负 vs 4胜3负),更是两支风格迥异球队的攻防博弈。   作为NBA传统劲...

1月21日DeepSeek预测:太阳vs76人,布克对决马克西,太阳客场险胜

1月21日DeepSeek预测:太阳vs76人,布克对决马克西,太阳客场险胜

  北京时间1月21日,NBA常规赛将迎来一场焦点对决,西部第七的菲尼克斯太阳队客场挑战东部第五的费城76人队。两支球队目前都处于季后赛席位争夺的关键阶段,这场比赛对双方来说都至关重要。...

11月16日DeepSeek预测:雷霆vs黄蜂,亚历山大率队延续连胜

11月16日DeepSeek预测:雷霆vs黄蜂,亚历山大率队延续连胜

  北京时间11月16日,NBA常规赛将迎来西部榜首雷霆与东部弱旅黄蜂的较量。目前雷霆以12胜1负的恐怖战绩领跑全联盟,而黄蜂仅以4胜8负排名东部第12。双方近5次交锋雷霆保持全胜,本赛季...

DeepSeek预测:曼城vs西汉姆联!哈兰德17球屠杀铁锤帮?蓝月军团主场狂飙

DeepSeek预测:曼城vs西汉姆联!哈兰德17球屠杀铁锤帮?蓝月军团主场狂飙

  英超第17轮焦点战即将在伊蒂哈德球场打响,领头羊曼城(34分)将迎战深陷降级区的西汉姆联(13分)。蓝月亮目前仅落后榜首阿森纳2分,而铁锤帮距离安全区还有5分差距。本场比赛堪称英超最锋...

「DeepSeek们」回答位变广告位

「DeepSeek们」回答位变广告位

  AI正在重塑现代职场与当代生活。如果说在过去,人们遇到问题往往会首 选“搜一下”,如今,则变为“问问AI”。或许是ChatGPT和DeepSeek,也可能是豆包和元宝……...

美团大模型来了!开源“长猫”,性能追平DeepSeek V3.1,同样主打“算力

美团大模型来了!开源“长猫”,性能追平DeepSeek V3.1,同样主打“算力

  LongCat-Flash推理速度超过100词元/秒,每处理一百万输出词元的成本仅为0.7美元。该模型不仅在多个方面与DeepSeek V3.1、Qwen3等顶尖模型旗鼓相当,甚至在某...