当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek新模型MODEL1曝光

3个月前 (01-21)Deepseek最新资讯67

  【TechWeb】1月21日消息,DeepSeek的下一代旗舰模型疑似提前曝光。在其官方GitHub代码库的更新中,一个名为“MODEL1”的新模型名称在多个技术文件中频繁出现,引发了人工智能社区的广泛关注。

  根据对代码库的深入挖掘,“MODEL1”的踪迹横跨了114个文件,共计被提及28次。尤为关键的是,它在代码逻辑中与当前已发布的“V32”(即DeepSeek-V3.2模型)并列出现,表明它并非现有模型的简单迭代,而极有可能是一个独立的新模型序列。

  技术分析显示,MODEL1与V3.2在底层架构上存在显著差异。代码对比指出,二者在KV(键值)缓存布局、稀疏性处理方式以及FP8精度解码等核心模块上采用了不同的实现方案。特别是在内存优化方面,MODEL1显示出多处针对性改进,这通常意味着它在处理效率或支持更长上下文方面可能有新的设计目标。

  此前有消息称DeepSeek计划在2026年春节前后发布其下一代重量级模型。因为,不少行业分析人士认为,此次MODEL1在开源代码中意外现身,就如同之前DeepSeek发布的优化残差链接“mHC”和AI记忆模块“Engram”两篇论文中提到的新技术一样,很可能正是为这次发布进行的技术准备。

  目前,DeepSeek官方尚未对此事发表任何公开评论。所有信息均来源于对公开代码的非官方分析,模型的具体技术细节、性能指标及正式名称仍需等待官方的最终揭晓deepseek。原文出处:DeepSeek新模型MODEL1曝光,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek新模型MODEL1曝光” 的相关文章

DeepSeek和腾讯联合发布AI工具:用于CAD设计

DeepSeek和腾讯联合发布AI工具:用于CAD设计

  3月8日消息,据南华早报报道,DeepSeek与腾讯、香港大学和北京航空航天大学的研究人员在 arXiv 上发表了一篇论文,介绍了 Pointer-CAD,这是一个基于阿里巴巴 Qwe...

英伟达 CEO 黄仁勋:Deepseek-R1 是开源模型一大代表,让整个世界惊

英伟达 CEO 黄仁勋:Deepseek-R1 是开源模型一大代表,让整个世界惊

  IT之家 1 月 6 日消息,在今日的 CES 2026 上,英伟达 CEO 黄仁勋发布了最新 Vera Rubin 芯片,还发布涵盖语言、机器人、自动驾驶及医疗四大领域的全新模型与数...

国元证券-通信行业周报:Deepseek V3.1发布,卫星发射持续推进-250

国元证券-通信行业周报:Deepseek V3.1发布,卫星发射持续推进-250

  周行情:本周(2025.8.18-2025.8.24)上证综指上涨3.49%,深证成指上涨4.57%,创业板指上涨5.85%。本周申万通信上涨10.84%。考虑通信行业的高景气度延续,...

DeepSeek的阳谋:在《自然》杂志公布论文,到底赢得了什么?

DeepSeek的阳谋:在《自然》杂志公布论文,到底赢得了什么?

  画面中的立方体代表着电子神经元,也就是我们常说的“大模型参数”,每个神经元都在向着深层次方向探索。红色的线代表关键的核心信号,而白色的线则意味着发散的探索。最终,所有的探索都会变成电子...

星火医疗大模型X2正式发布,智能报告解读等关键能力显著超越DeepSeek V3

星火医疗大模型X2正式发布,智能报告解读等关键能力显著超越DeepSeek V3

  正式发布基于全国产算力训练的星火X2大模型。依托星火X2大模型的算法突破deepseek、高质量医疗行业数据积淀及专业思维链强化学习,星火行业大模型持续迭代升级,星火医疗大模型X2正式...

DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理性能

DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理性能

  DualPath的核心在于解决Agent长文本推理场景下的I/O瓶颈,通过优化从外部存储加载KV-Cache的速度,确保计算资源不被存储读取拖累。   它改变了传统的...