当前位置:首页 > Deepseek最新资讯 > 正文内容

刚刚,「欧洲的DeepSeek」发布Mistral 3系列模型,全线回归Apac

5个月前 (12-03)Deepseek最新资讯207

  Mistral 表示:「所有模型均采用 Apache 2.0 许可证发布。以多种压缩格式开源我们的模型,能够赋能开发者社区,并通过分布式智能将 AI 交到人们手中。」

  该公司也声称:「Ministral 模型代表了同类产品中最佳的性价比。与此同时,Mistral Large 3 也跻身于前沿指令微调开源模型的行列。」

  Mistral Large 3 是 Mistral 自开创性的 Mixtral 系列以来的首个混合专家模型,代表了 Mistral 在预训练方面迈出的重要一步deepseek。经过后训练,该模型在通用提示词上达到了与市场上最好的指令微调开放权重模型同等的水平,同时展现了图像理解能力,并在多语言对话(即非英语 / 中文环境)中表现出一流的性能。

  值得注意的是,Mistral 在这里并没有对比刚发布几天的 DeepSeek-V3.2 正式版,可能是因为 DeepSeek 没有发布在普通语言任务上的基准测试结果,仅给出了推理和智能体任务的基准结果。

  Mistral Large 3 在 LMArena 排行榜的 OSS(开源软件)非推理模型类别中首次亮相即排名第 2(在所有开放模型中排名第 6),是性能最好的开放模型之一。

  另外,他们还强调与英伟达的合作:「交付先进的开源 AI 模型需要广泛的优化,这通过与 NVIDIA 的合作得以实现。我们所有的新 Mistral 3 模型,从 Large 3 到 Ministral 3,都在 NVIDIA Hopper GPU 上进行了训练,以利用高带宽 HBM3e 内存来处理前沿规模的工作负载。NVIDIA 的极致协同设计(co-design)方法将硬件、软件和模型融为一体。NVIDIA 工程师为整个 Mistral 3 系列实现了对 TensorRT-LLM 和 SGLang 的高效推理支持,从而实现高效的低精度执行。

  针对 Large 3 的稀疏 MoE 架构,英伟达集成了最先进的 Blackwell 注意力和 MoE 内核,增加了对预填充 / 解码分离服务的支持,并与 Mistral 在推测性解码(方面进行合作,使开发者能够在 GB200 NVL72 及更高版本的硬件上高效地服务长上下文、高吞吐量的工作负载。在边缘端,NVIDIA 为 DGX Spark、RTX PC 和笔记本电脑以及 Jetson 设备提供了 Ministral 模型的优化部署方案,为开发者提供了一条从数据中心到机器人运行这些开放模型的一致且高性能的路径。」

  此外,对于每种尺寸,他们都向社区发布了基础版(base)、指令版(instruct)和推理版(reasoning)变体,每种都具备图像理解能力,且全部采用 Apache 2.0 许可证。

  Mistral 重点强调:「Ministral 3 实现了所有开源模型中最佳的性价比。在实际用例中,生成的 token 数量和模型大小同等重要。Ministral 指令模型与其同类模型的性能相当或更好,同时生成的 token 数量通常要少一个数量级。」

  另外,Ministral 推理变体可以进行更长时间的思考,以在其权重级别中产生最先进的准确性 —— 例如,其 14B 变体在 AIME ‘25 上达到了 85% 的准确率。

  对于寻求量身定制 AI 解决方案的组织,Mistral AI 也提供了定制模型训练服务,以微调或完全适配模型来满足自己的特定需求。

  该公司表示:「无论是针对特定领域任务进行优化、提高在专有数据集上的性能,还是在独特环境中部署模型,我们的团队都会与您合作构建符合您目标的 AI 系统。对于企业级部署,定制训练可确保您的 AI 解决方案安全、高效且大规模地交付最大影响力。」

  Mistral 早期的模型采用 Apache 2.0 开源许可,属于真正开放权重;但随着公司推出更大型、更高性能的旗舰模型(如 Mistral Large),逐步转向闭源与商业授权。可以说,Mistral 此次全线回归 Apache 2.0 协议,某种程度上是被 DeepSeek「逼」出来的战略调整。

  在过去的一段时间里,DeepSeek 以极致的推理成本和激进的开源策略迅速抢占了全球开发者社区的心智,一度让坚持「开放权重但限制商用」的中间派厂商陷入被动。

  Mistral 3 的发布,可以看作是这家法国独角兽对 DeepSeek 发起的正面追赶:不仅在 MoE(混合专家)架构上继续深耕,更试图通过端侧模型(Ministral)的差异化优势,在被中美巨头挤压的缝隙中杀出一条血路。原文出处:刚刚,「欧洲的DeepSeek」发布Mistral 3系列模型,全线回归Apache 2.0,感谢原作者,侵权必删!

标签: deepseek

“刚刚,「欧洲的DeepSeek」发布Mistral 3系列模型,全线回归Apac” 的相关文章

DeepSeek证实2026年推V4版,算法突破替代算力堆砌

DeepSeek证实2026年推V4版,算法突破替代算力堆砌

  #一分钟视频创作季# DeepSeek 证实 2026 年推出 V4 版本,业内热议的不只是新模型的性能,更是它这套不走寻常路的技术发展模式,依靠算法抠细节而非堆算力,用开源拉生态而非...

DeepSeek杀出一条血路:国产大模型突围不靠运气!

DeepSeek杀出一条血路:国产大模型突围不靠运气!

  进入2025年末,全球大模型赛道的技术焦点几乎被Google重新夺回。Gemini 3 Pro横空出世,在多个权威基准上超越所有开源模型,重新确立了闭源阵营的技术高地。一时间,业内关于...

“涨价潮”来袭:DeepSeek领涨,国产大模型告别价格战?

“涨价潮”来袭:DeepSeek领涨,国产大模型告别价格战?

  上周,深度求索(DeepSeek)正式推出DeepSeek-V3.1大语言模型,并宣布自9月6日起调整API定价并取消夜间优惠。根据最新定价策略,输入部分在缓存命中时为0.5元/百万t...

年轻人与DeepSeek聊杂技丨吴桥人是不是有杂技DNA?

年轻人与DeepSeek聊杂技丨吴桥人是不是有杂技DNA?

  长城网·冀云客户端讯(孙欣宇)随着第二十届中国吴桥国际杂技艺术节的脚步越来越近,吴桥再度成为世界瞩目的焦点。吴桥杂技历史悠久,村村都有杂技艺人,素有“上至九十九,下到刚会走,吴桥耍杂技...

比DeepSeek风暴还惨烈!一文读懂:华尔街“抛AI”妖风祸从何来?

比DeepSeek风暴还惨烈!一文读懂:华尔街“抛AI”妖风祸从何来?

  自2022年年中以来,动量交易员曾以足以让沃伦·巴菲特感到汗颜的夏普比率统治着市场。然而周三,这一切几乎遭遇了全线崩盘——他们蒙受了载入史册的损失。   动量交易简单...

DeepSeek-V3.1 上线火山方舟:无需注册登录即可免费体验

DeepSeek-V3.1 上线火山方舟:无需注册登录即可免费体验

  IT之家 8 月 23 日消息,火山引擎开发者社区公众号昨天宣布,DeepSeek-V3.1 正式上线火山方舟,企业用户可以在更快、更稳的资源保障下体验最新 DeepSeek-V3.1...