当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek 开年发布新论文:提出全新 mHC 架构,梁文锋现身作者名单

6个月前 (01-01)Deepseek最新资讯95

  IT之家 1 月 1 日消息,北京时间今天下午,DeepSeek 公布了一篇新论文,提出名为 mHC (流形约束超连接)的新架构。根据介绍,该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。

  这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得一提的是,DeepSeek 创始人兼 CEO 梁文锋也在作者名单之列。

  最近,以超连接(HC)为例的研究通过扩展残差流宽度和多样化连接模式,扩展了过去十年建立的无处不在的残差连接范式deepseek。虽然产生了显著的性能提升,但这种多样化从根本上损害了残差连接固有的恒等映射属性,从而导致严重的训练不稳定性和受限的可扩展性,并且还会产生显著的内存访问开销。

  为了应对这些挑战,我们提出了流形约束超连接(mHC),这是一个通用框架,可将 HC 的残差连接空间投影到特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率。

  经验实验表明,mHC 对于大规模训练是有效的,可提供切实的性能改进和卓越的可扩展性。我们预计,mHC 作为 HC 的灵活且实用的扩展,将有助于更深入地理解拓扑架构设计,并为基础模型的演进提出有希望的方向。原文出处:DeepSeek 开年发布新论文:提出全新 mHC 架构,梁文锋现身作者名单,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek 开年发布新论文:提出全新 mHC 架构,梁文锋现身作者名单” 的相关文章

DeepSeek-R2 发布传闻牵动股市,历史表现让市场充满期待

DeepSeek-R2 发布传闻牵动股市,历史表现让市场充满期待

  2025年1月20日 DeepSeek-R1 的发布,港恒生科技指大涨了一波deepseek,最高涨幅约47%原文出处:DeepSeek-R2 发布传闻牵动股市,历史表现让市场充满期待...

AI推理进入“10毫秒、1块钱”时代!浪潮信息发布面向智能体优化AI计算系统

AI推理进入“10毫秒、1块钱”时代!浪潮信息发布面向智能体优化AI计算系统

  光明网讯9月26日,在2025人工智能计算大会上,浪潮信息宣布,基于元脑SD200超节点AI服务器,DeepSeek R1大模型token生成速度仅需8.9毫秒,创造国内大模型最快to...

“还难过呢?那就难过着吧”,DeepSeek变冷漠甚至凶凶的?它自己解释了一下

“还难过呢?那就难过着吧”,DeepSeek变冷漠甚至凶凶的?它自己解释了一下

  近日,国产AI助手深度求索(DeepSeek)因技术升级被用户集体吐槽“变冷淡”,从细腻共情的“知心伙伴”突变为公事公办的“冷漠客服”,引发关于AI效率与情感价值如何平衡的热议。...

DeepSeek被指“变冷淡”,AI需要提供情绪价值吗?

DeepSeek被指“变冷淡”,AI需要提供情绪价值吗?

  近日,深度求索(DeepSeek)悄悄地对其旗舰模型进行灰度测试。据科创板日报报道,多名用户反馈,DeepSeek在网页端和APP端进行了版本更新,支持最高1M(百万)Token的上下...

10月25日DeepSeek预测:森林狼vs湖人,东契奇单核难敌爱德华兹爆发

10月25日DeepSeek预测:森林狼vs湖人,东契奇单核难敌爱德华兹爆发

  湖人坐镇加密球馆迎战森林狼,这是两队自上赛季季后赛后的首次交锋。主队湖人开季0胜1负暂列西部第13,而森林狼则以1胜0负排名西部第6。詹姆斯因背伤缺阵让湖人失去关键组织核心,反观森林狼...

DeepSeek后又一神作!清华校友出手,终结ResNet十年统治?

DeepSeek后又一神作!清华校友出手,终结ResNet十年统治?

  【新智元导读】2026年架构革命的枪声已经打响!ResNet用十年证明了「加法捷径」能救训练,但也暴露了「只加不减」的天花板。DeepSeek新年王炸之后,普林斯顿和UCLA新作DDL...