当前位置:首页 > Deepseek最新资讯 > 正文内容

全球首个混合线性架构万亿参数思考模型开源

4个月前 (02-15)Deepseek最新资讯68

  中国日报2月13日电(记者 程钰)2月13日,蚂蚁集团开源发布全球首个基于混合线性架构的万亿参数思考模型 Ring-2.5-1T,在长文本生成、数学推理与智能体任务执行上达到开源领先水平,为智能体(Agent)时代的复杂任务处理提供高性能基础支撑。

  在生成效率上,Ring-2.5-1T在32K以上长文本生成场景中,对比上代模型访存规模降低10倍以上,生成吞吐提升3倍以上。在深度思考能力方面,该模型在国际数学奥林匹克竞赛(IMO 2025)和中国数学奥林匹克(CMO 2025)自测均达到金牌水平(IMO 35分、CMO 105分)。同时,可轻松适配Claude Code等智能体框架与OpenClaw个人AI助理deepseek,支持多步规划与工具调用。

  Ring-2.5-1T基于Ling 2.5架构,通过优化注意力机制,显著提升长文本推理的效率与稳定性。模型激活参数规模从前代的 51B 提升至 63B,但在混合线性注意力架构的支持下,推理效率相比上一代大幅提升。与仅具备 32B 激活参数的KIMI K2架构相比,在1T总参数量下,Ling 2.5架构在长序列推理任务中的吞吐表现依然优势显著,且随着生成长度增加,效率优势持续扩大。

  随着AI大模型应用从短对话向长文档处理、跨文件代码理解、复杂任务规划等场景扩展,Ring-2.5-1T有效缓解了长输出场景下计算开销高、推理速度慢的问题。该模型的开源也体现了蚂蚁百灵团队在大规模训练基础设施、算法优化和工程落地方面的综合能力,为行业提供了高性能、高效率的智能体时代基础模型新选择。

  目前,Ring-2.5-1T 的模型权重与推理代码已在Hugging Face、ModelScope等主流开源平台发布。官方平台Chat体验页和API服务将在近期上线。原文出处:全球首个混合线性架构万亿参数思考模型开源,感谢原作者,侵权必删!

标签: deepseek

“全球首个混合线性架构万亿参数思考模型开源” 的相关文章

英特尔 Gaudi 2E AI 宣布为 DeepSeek V3.1 提供加速支持

英特尔 Gaudi 2E AI 宣布为 DeepSeek V3.1 提供加速支持

  IT之家查询获悉,英特尔 Gaudi 2E 采用 7nm 制程,配备 96GB HBM2E 内存、48MB SRAM,具备 2.4TB 总内存带宽,针对随机访问deepseek、线性访...

Deepseek推荐全国旅游百强区第34名:安徽黄山市屯溪区

Deepseek推荐全国旅游百强区第34名:安徽黄山市屯溪区

  日前,全国县镇发展研究课题组、天和经济研究所县镇发展研究院联合发布了2024《全国县镇发展报告》,报告评价篇对全国县市以及包含乡村人口的市辖区旅游发展水平进行了综合评价,并发布了天和2...

1月29日DeepSeek预测森林狼vs独行侠:残阵独行侠难挡爱德华兹火力

1月29日DeepSeek预测森林狼vs独行侠:残阵独行侠难挡爱德华兹火力

  西部季后赛卡位战即将打响,达拉斯独行侠将在主场迎战明尼苏达森林狼。作为NBA传统劲旅,独行侠本赛季饱受伤病困扰,目前以19胜27负排名西部第11;而森林狼则以28胜19负暂列西部第7,...

Deepseek推荐全国旅游百强区第31名:江苏常州市新北区

Deepseek推荐全国旅游百强区第31名:江苏常州市新北区

  日前,全国县镇发展研究课题组、天和经济研究所县镇发展研究院联合发布了2024《全国县镇发展报告》,报告评价篇对全国县市以及包含乡村人口的市辖区旅游发展水平进行了综合评价,并发布了天和2...

突发!DeepSeek 一口气连发 2 个新模型

突发!DeepSeek 一口气连发 2 个新模型

  DeepSeek官微推文中写道,“DeepSeek-V3.2模型在Agent评测中达到了当前开源模型的最高水平”。   在指令跟随、数学证明、逻辑验证方面,DeepS...

R2没等来,DeepSeek V3.1模型发布:价格涨了,智能体能力加强

R2没等来,DeepSeek V3.1模型发布:价格涨了,智能体能力加强

  在OpenAI发布GPT-5模型14天后,梁文锋终于出招了,新模型版本DeepSeek-V3.1正式发布。   本次升级的核心亮点是采用了混合推理架构,允许模型在一个...