当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布最新论文,破解大模型训练拥堵难题

4个月前 (01-02)Deepseek最新资讯96

  北京时间2026年1月1日,DeepSeek团队在arXiv(预印本)网站和Hugging Face上同步发布了最新论文,名为《mHC: Manifold-Constrained Hyper-Connections》,论文的核心观点是提出一种名为“mHC”(直译为“流形约束超连接”)的框架,该框架改进了此前大模型训练中一种名为“HC(Hyper-Connections,超连接)”的范式,对大规模模型训练提供了切实的性能改进。

  贝壳财经记者注意到,DeepSeek创始人梁文锋的名字出现在了这篇论文署名作者的最后一位上。事实上,虽然DeepSeek在2025年春节因为R1模型的开源发布而全球爆火,但在梁文锋的带领下,这家公司极其低调,团队一直潜心学术,未做过多的商业化尝试,一心扑在基础模型理论研发之上,梁文锋还在近期入选了《自然》2025年影响科学发展十大人物。

  贝壳财经记者梳理发现,DeepSeek团队本次发布的论文瞄准了大模型训练的“地基”——残差连接范式,以及为了升级残差连接范式提出的HC(超连接)范式,是不折不扣的一次基础理论创新。

  DeepSeek团队在论文中以严谨的数学公式解释了mHCdeepseek,若以简单的语言来类比,大致可以理解为,残差连接是AI模型训练的“生命线”——它像一条单车道高速公路,让数据信号可以跳过某些层直接连接,从而解决了在此之前神经网络越大训练越困难的问题。

  但随着大模型参数突破千亿,这条“单车道”越来越不够用,此时超连接(HC)范式登场,其把单车道扩建成多车道,从而显著提升了模型性能。但与此同时,过多的数据信号也导致了“堵车撞车”,就像多车道中没装“交通信号灯”一样,使模型训练变得更加不稳定,容易崩溃。

  此时,DeepSeek提出了一种新算法,给“多车道”增加了一套智能调度系统(即mHC“流行约束”),其要求每个路口的车必须全部分流出去,每个车道接收的车数量固定,从而大大增加了模型训练的稳定性。

  这是因为,残差连接正是2015年由何凯明等人在微软亚洲研究院所提出的,何恺明还因此获得了CVPR 2016最佳论文奖,残差连接之后也成了几乎所有主流大模型的“标配”。

  直到2024年,为了解决残差连接信号通道不够“宽阔”的问题,字节跳动旗下团队提出了HC(超连接)范式,但由此也带来了稳定性不够的问题。而DeepSeek正是在前人的基础上进一步进行了优化。

  2026年的第一天,在诸多大模型公司聚焦商业化和变现之际,DeepSeek此举进一步证实了自己在基础模型领域的战略定力。

  在本次发布论文的文末,DeepSeek团队写道,“我们希望mHC能重振社区对宏观架构设计的兴趣。通过加深对拓扑结构如何影响优化和表示学习的理解,mHC将有助于解决当前的限制,并有可能为下一代基础架构的发展指明新途径。”

  /重复三遍“世界和平”!特朗普许下新年愿望,普京坚信“终将胜利”,泽连斯基:不要乌克兰的终结

  /5.3公里内连摔6次,电瓶车骑车人抢救无效身亡!同事曾多次劝其打车回家,广东交警披露详情

  /港股收评:恒指涨2.76% 科指涨4% 科网股普涨 电力设备股大涨 百度涨超9% 壁仞科技首日一度涨超118%

  /1月2日隔夜要闻:美国对部分跨境汇款征税 星链计划降低卫星轨道高度 瑞士酒吧火灾约40人死亡

  /港股午评:恒指涨2.18%重回26000点 科指涨3.38% 科网股普涨 半导体板块强势 壁仞科技首日涨超72%原文出处:DeepSeek发布最新论文,破解大模型训练拥堵难题,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek发布最新论文,破解大模型训练拥堵难题” 的相关文章

DeepSeek低调升级,上下文窗口容量由64k扩展至128k,“深度思考(R1

DeepSeek低调升级,上下文窗口容量由64k扩展至128k,“深度思考(R1

  DeepSeek线上模型近日迎来重要升级,官方群于8月19日晚间宣布,其线上版本模型已迭代至DeepSeek V3.1,核心升级点在于上下文窗口容量从原有的64k扩展至128k,这一调...

和讯投顾李景峰:Deepseek又有大动作!

和讯投顾李景峰:Deepseek又有大动作!

  9月30日,和讯投顾李景峰表示,Deepseek又有大动作了,v3.2发布了,大家还记不记得前段时间发布了v3.1,当时v3.1曾经刺激一个板块出现了上涨deepseek,什么来着?国...

【行业资讯】汇丰中国研讨会洞见:中国的人工智能-DeepSeek时刻之后

【行业资讯】汇丰中国研讨会洞见:中国的人工智能-DeepSeek时刻之后

  在人工智能(AI)这项关键性技术上,中国正处于时代前沿地位。无论是强有力的政策支持、深厚的人才储备,还是风险资本的充足供给,都构成了我们的竞争优势。   2025年初...

DeepSeek时刻已过去快一年,为何现在才做千问app?阿里千问团队回应

DeepSeek时刻已过去快一年,为何现在才做千问app?阿里千问团队回应

  在科技公司大建 AI 的叙事里,阿里之前更像美国的亚马逊、微软 —— 没有微信、抖音那样的全民流量入口,AI 投入选择偏向企业客户,不断买卡建算力中心,以云计算业务抓住千行百业对 AI...

微云全息(NASDAQ: HOLO)推出Holo DeepSeek模型:基于自然

微云全息(NASDAQ: HOLO)推出Holo DeepSeek模型:基于自然

  在当今数字化时代,互联网已成为信息传播与交流的核心平台,而数字媒体在其中占据着主导地位deepseek,视频和图像更是构成了互联网内容的庞大主体。随着信息技术的飞速发展,像素已然成为互...

取代英伟达,寒武纪靠DeepSeek卖爆“中国芯”

取代英伟达,寒武纪靠DeepSeek卖爆“中国芯”

  翻看寒武纪的客户名单,DeepSeek、商汤科技、腾讯等巨头均位列其中,在华为没有全面走上自主研发道路时,其合作对象也是寒武纪。   作为专注于人工智能芯片产品研发与...