当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek 开年发布新论文:提出全新 mHC 架构,梁文锋现身作者名单

6个月前 (01-01)Deepseek最新资讯94

  IT之家 1 月 1 日消息,北京时间今天下午,DeepSeek 公布了一篇新论文,提出名为 mHC (流形约束超连接)的新架构。根据介绍,该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。

  这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得一提的是,DeepSeek 创始人兼 CEO 梁文锋也在作者名单之列。

  最近,以超连接(HC)为例的研究通过扩展残差流宽度和多样化连接模式,扩展了过去十年建立的无处不在的残差连接范式deepseek。虽然产生了显著的性能提升,但这种多样化从根本上损害了残差连接固有的恒等映射属性,从而导致严重的训练不稳定性和受限的可扩展性,并且还会产生显著的内存访问开销。

  为了应对这些挑战,我们提出了流形约束超连接(mHC),这是一个通用框架,可将 HC 的残差连接空间投影到特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率。

  经验实验表明,mHC 对于大规模训练是有效的,可提供切实的性能改进和卓越的可扩展性。我们预计,mHC 作为 HC 的灵活且实用的扩展,将有助于更深入地理解拓扑架构设计,并为基础模型的演进提出有希望的方向。原文出处:DeepSeek 开年发布新论文:提出全新 mHC 架构,梁文锋现身作者名单,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek 开年发布新论文:提出全新 mHC 架构,梁文锋现身作者名单” 的相关文章

11月27日DeepSeek预测:马刺vs开拓者——文班亚马缺阵,马刺客场险胜开

11月27日DeepSeek预测:马刺vs开拓者——文班亚马缺阵,马刺客场险胜开

  北京时间11月27日11:00,NBA常规赛将迎来西部焦点对决——排名第5的马刺客场挑战第9的开拓者。马刺目前11胜5负高居西部第五,而开拓者8胜10负仍在季后赛门槛徘徊。此役胜负将直...

10月27日DeepSeek预测:篮网vs马刺,文班亚马率队延续不败金身

10月27日DeepSeek预测:篮网vs马刺,文班亚马率队延续不败金身

  北京时间10月27日凌晨2点,NBA常规赛将迎来一场东西部两极对决——0胜2负的篮网客场挑战2胜0负的马刺。圣安东尼奥人目前高居西部第二,而布鲁克林球队则深陷东部倒数第三的泥潭。...

DeepSeek与智谱将分别发布新模型

DeepSeek与智谱将分别发布新模型

  9月29日,AI从业者发现DeepSeek-V3.2新模型已被上传至社区平台HuggingFace,随后被删除deepseek。另据记者了解,智谱新模型GLM-4.6也将于近日发布,目...

老板电器荣膺第一财经“历久出新典范”奖,以AI烹饪伙伴引领行业革新

老板电器荣膺第一财经“历久出新典范”奖,以AI烹饪伙伴引领行业革新

  当“历久弥新”成为企业穿越周期的核心命题,总有品牌能在坚守与突破中找到平衡——近日,在《第一财经》举办的“未来商业秀年度盛典”上,中国高端厨电品牌老板电器凭借其深厚的品牌积淀、卓越的创...

破解 AI “安全与性能” 难题!DeepSeek-R1-Safe 基础大模型在

破解 AI “安全与性能” 难题!DeepSeek-R1-Safe 基础大模型在

  9 月 18 日,华为全联接大会 2025 在上海盛大开幕。会上,华为技术有限公司与浙江大学联合发布了国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型。在中国工...

DeepSeek预测:帕尔马VS AC米兰!红黑军团客场碾压?莱奥+普利西奇双星

DeepSeek预测:帕尔马VS AC米兰!红黑军团客场碾压?莱奥+普利西奇双星

  意甲第11轮即将迎来一场看似悬殊的对决——排名第16的帕尔马主场迎战第3的AC米兰。主队目前仅领先降级区1分(积分7),而客队则与榜首仅差1分(积分21)。帕尔马本赛季场均仅0.5个进...