当前位置:首页 > deepseek 第86页

DeepSeek发布最新论文,破解大模型训练拥堵难题

4个月前 (01-02)Deepseek最新资讯96
DeepSeek发布最新论文,破解大模型训练拥堵难题
  北京时间2026年1月1日,DeepSeek团队在arXiv(预印本)网站和Hugging Face上同步发布了最新论文,名为《mHC: Manifold-Constrained Hy...

梁文锋参与撰写,DeepSeek发布新论文

4个月前 (01-02)Deepseek最新资讯94
梁文锋参与撰写,DeepSeek发布新论文
  该论文由创始人梁文锋参与撰写,提出了名为“流形约束超连接”(mHC)的框架。作者称,该框架旨在提升可扩展性deepseek,同时降低训练先进人工智能系统的算力和能源需求。原文出处:梁文...

DeepSeek水墨赛博茶亭惊艳亮相,悬浮茶亭与数据流青花瓷碰撞

4个月前 (01-02)Deepseek最新资讯114
DeepSeek水墨赛博茶亭惊艳亮相,悬浮茶亭与数据流青花瓷碰撞
  在青灰色调的水墨山峦背景中,一座悬浮的透明玻璃茶亭凌空而立🌄deepseek。亭内,身着月白色改良旗袍的女子正专注煮茶,那优雅的姿态仿佛时间都慢了下来🍵。茶案是由残缺的青花瓷片拼接而成...

DeepSeek梁文峰发表新论文

4个月前 (01-02)Deepseek最新资讯109
DeepSeek梁文峰发表新论文
  1月1日,DeepSeek发表论文《Manifold-Constrained Hyper-Connections》,提出一种全新的模型连接结构 mHC(流形约束超连接),直击当前大模型...

梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”

4个月前 (01-02)Deepseek最新资讯160
梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”
  听名字就很抽象,但若简单总结,这是 Transformer最底层组件残差连接(Residual Connection)的一次重要改进。   这不只是一个技术细节的优化...

又是量化基金,第二个DeepSeek时刻到来了?

4个月前 (01-02)Deepseek最新资讯81
又是量化基金,第二个DeepSeek时刻到来了?
  九坤投资旗下的至知创新研究院发布了开源编程Agent模型IQuest-Coder-V1。至知研究院在AI领域名气不大,但这个模型的benchmark数据直接对标了行业顶尖水平。...

DeepSeek 要发大招了,梁文锋署名新论文!暴力优化AI架构

4个月前 (01-02)Deepseek最新资讯115
DeepSeek 要发大招了,梁文锋署名新论文!暴力优化AI架构
  【新智元导读】2026新年第一天,DeepSeek发表了梁文锋署名的重磅新论文,提出了一种名为「mHC(流形约束超连接)」的新架构,在27B参数模型上,仅增加约6.7%的训练时间开销,...

DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级

4个月前 (01-02)Deepseek最新资讯105
DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级
  其核心机制简洁明了,x𝑙+1 = x𝑙 + F (x𝑙 ,W𝑙),即下一层的输出等于当前层输入加上残差函数的输出。   随着Transformer架构的崛起,这一范式...

DeepSeek新年炸场!梁文锋署名论文发布

4个月前 (01-02)Deepseek最新资讯91
DeepSeek新年炸场!梁文锋署名论文发布
  1月1日消息,DeepSeek赶在新年前发送了“贺礼”,在新论文中提出了名为mHC(流形约束超连接)的新网络架构,旨在解决传统架构在大规模模型训练中的不稳定性问题,这一研究或将为下一代...

DeepSeek开年炸场!梁文锋又发论文了,一如既往地强

4个月前 (01-02)Deepseek最新资讯104
DeepSeek开年炸场!梁文锋又发论文了,一如既往地强
  论文核心指出,尽管当前如Hyper-Connections(HC)这类连接结构能带来性能提升deepseek,但由于其结构复杂、缺乏约束,往往导致训练不稳定、信号失真甚至梯度爆炸等问题...