当前位置:首页
> deepseek 第86页
DeepSeek发布最新论文,破解大模型训练拥堵难题
北京时间2026年1月1日,DeepSeek团队在arXiv(预印本)网站和Hugging Face上同步发布了最新论文,名为《mHC: Manifold-Constrained Hy...
梁文锋参与撰写,DeepSeek发布新论文
该论文由创始人梁文锋参与撰写,提出了名为“流形约束超连接”(mHC)的框架。作者称,该框架旨在提升可扩展性deepseek,同时降低训练先进人工智能系统的算力和能源需求。原文出处:梁文...
DeepSeek水墨赛博茶亭惊艳亮相,悬浮茶亭与数据流青花瓷碰撞
在青灰色调的水墨山峦背景中,一座悬浮的透明玻璃茶亭凌空而立🌄deepseek。亭内,身着月白色改良旗袍的女子正专注煮茶,那优雅的姿态仿佛时间都慢了下来🍵。茶案是由残缺的青花瓷片拼接而成...
DeepSeek梁文峰发表新论文
1月1日,DeepSeek发表论文《Manifold-Constrained Hyper-Connections》,提出一种全新的模型连接结构 mHC(流形约束超连接),直击当前大模型...
梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”
听名字就很抽象,但若简单总结,这是 Transformer最底层组件残差连接(Residual Connection)的一次重要改进。 这不只是一个技术细节的优化...
又是量化基金,第二个DeepSeek时刻到来了?
九坤投资旗下的至知创新研究院发布了开源编程Agent模型IQuest-Coder-V1。至知研究院在AI领域名气不大,但这个模型的benchmark数据直接对标了行业顶尖水平。...
DeepSeek 要发大招了,梁文锋署名新论文!暴力优化AI架构
【新智元导读】2026新年第一天,DeepSeek发表了梁文锋署名的重磅新论文,提出了一种名为「mHC(流形约束超连接)」的新架构,在27B参数模型上,仅增加约6.7%的训练时间开销,...
DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级
其核心机制简洁明了,x𝑙+1 = x𝑙 + F (x𝑙 ,W𝑙),即下一层的输出等于当前层输入加上残差函数的输出。 随着Transformer架构的崛起,这一范式...
DeepSeek新年炸场!梁文锋署名论文发布
1月1日消息,DeepSeek赶在新年前发送了“贺礼”,在新论文中提出了名为mHC(流形约束超连接)的新网络架构,旨在解决传统架构在大规模模型训练中的不稳定性问题,这一研究或将为下一代...
DeepSeek开年炸场!梁文锋又发论文了,一如既往地强
论文核心指出,尽管当前如Hyper-Connections(HC)这类连接结构能带来性能提升deepseek,但由于其结构复杂、缺乏约束,往往导致训练不稳定、信号失真甚至梯度爆炸等问题...



