当前位置:首页 > Deepseek最新资讯 > 正文内容

刚刚,「欧洲的DeepSeek」发布Mistral 3系列模型,全线回归Apac

7个月前 (12-03)Deepseek最新资讯209

  Mistral 表示:「所有模型均采用 Apache 2.0 许可证发布。以多种压缩格式开源我们的模型,能够赋能开发者社区,并通过分布式智能将 AI 交到人们手中。」

  该公司也声称:「Ministral 模型代表了同类产品中最佳的性价比。与此同时,Mistral Large 3 也跻身于前沿指令微调开源模型的行列。」

  Mistral Large 3 是 Mistral 自开创性的 Mixtral 系列以来的首个混合专家模型,代表了 Mistral 在预训练方面迈出的重要一步deepseek。经过后训练,该模型在通用提示词上达到了与市场上最好的指令微调开放权重模型同等的水平,同时展现了图像理解能力,并在多语言对话(即非英语 / 中文环境)中表现出一流的性能。

  值得注意的是,Mistral 在这里并没有对比刚发布几天的 DeepSeek-V3.2 正式版,可能是因为 DeepSeek 没有发布在普通语言任务上的基准测试结果,仅给出了推理和智能体任务的基准结果。

  Mistral Large 3 在 LMArena 排行榜的 OSS(开源软件)非推理模型类别中首次亮相即排名第 2(在所有开放模型中排名第 6),是性能最好的开放模型之一。

  另外,他们还强调与英伟达的合作:「交付先进的开源 AI 模型需要广泛的优化,这通过与 NVIDIA 的合作得以实现。我们所有的新 Mistral 3 模型,从 Large 3 到 Ministral 3,都在 NVIDIA Hopper GPU 上进行了训练,以利用高带宽 HBM3e 内存来处理前沿规模的工作负载。NVIDIA 的极致协同设计(co-design)方法将硬件、软件和模型融为一体。NVIDIA 工程师为整个 Mistral 3 系列实现了对 TensorRT-LLM 和 SGLang 的高效推理支持,从而实现高效的低精度执行。

  针对 Large 3 的稀疏 MoE 架构,英伟达集成了最先进的 Blackwell 注意力和 MoE 内核,增加了对预填充 / 解码分离服务的支持,并与 Mistral 在推测性解码(方面进行合作,使开发者能够在 GB200 NVL72 及更高版本的硬件上高效地服务长上下文、高吞吐量的工作负载。在边缘端,NVIDIA 为 DGX Spark、RTX PC 和笔记本电脑以及 Jetson 设备提供了 Ministral 模型的优化部署方案,为开发者提供了一条从数据中心到机器人运行这些开放模型的一致且高性能的路径。」

  此外,对于每种尺寸,他们都向社区发布了基础版(base)、指令版(instruct)和推理版(reasoning)变体,每种都具备图像理解能力,且全部采用 Apache 2.0 许可证。

  Mistral 重点强调:「Ministral 3 实现了所有开源模型中最佳的性价比。在实际用例中,生成的 token 数量和模型大小同等重要。Ministral 指令模型与其同类模型的性能相当或更好,同时生成的 token 数量通常要少一个数量级。」

  另外,Ministral 推理变体可以进行更长时间的思考,以在其权重级别中产生最先进的准确性 —— 例如,其 14B 变体在 AIME ‘25 上达到了 85% 的准确率。

  对于寻求量身定制 AI 解决方案的组织,Mistral AI 也提供了定制模型训练服务,以微调或完全适配模型来满足自己的特定需求。

  该公司表示:「无论是针对特定领域任务进行优化、提高在专有数据集上的性能,还是在独特环境中部署模型,我们的团队都会与您合作构建符合您目标的 AI 系统。对于企业级部署,定制训练可确保您的 AI 解决方案安全、高效且大规模地交付最大影响力。」

  Mistral 早期的模型采用 Apache 2.0 开源许可,属于真正开放权重;但随着公司推出更大型、更高性能的旗舰模型(如 Mistral Large),逐步转向闭源与商业授权。可以说,Mistral 此次全线回归 Apache 2.0 协议,某种程度上是被 DeepSeek「逼」出来的战略调整。

  在过去的一段时间里,DeepSeek 以极致的推理成本和激进的开源策略迅速抢占了全球开发者社区的心智,一度让坚持「开放权重但限制商用」的中间派厂商陷入被动。

  Mistral 3 的发布,可以看作是这家法国独角兽对 DeepSeek 发起的正面追赶:不仅在 MoE(混合专家)架构上继续深耕,更试图通过端侧模型(Ministral)的差异化优势,在被中美巨头挤压的缝隙中杀出一条血路。原文出处:刚刚,「欧洲的DeepSeek」发布Mistral 3系列模型,全线回归Apache 2.0,感谢原作者,侵权必删!

标签: deepseek

“刚刚,「欧洲的DeepSeek」发布Mistral 3系列模型,全线回归Apac” 的相关文章

整个AI村都在等 DeepSeek V4 开饭!我最近很担心一上来就凉

整个AI村都在等 DeepSeek V4 开饭!我最近很担心一上来就凉

  可说实话,我心里最近总有个疙瘩总有些忐忑:看着国内外不断地、快速地迭代翻新的大模型战场,我担心   按照DeepSeek的惯例、按业界的普遍预期,DeepSeek是应...

OpenAI发布低成本模型 与

OpenAI发布低成本模型 与

  OpenAI周二发布了自2019年推出GPT-2以来首批开放权重语言模型。这两款纯文本模型分别命名为gpt-oss-120b和gpt-oss-20b,旨在为开发者、研究人员和企业提供更...

梁文锋的“左右互搏”:宕机的DeepSeek与闷声发财的幻方

梁文锋的“左右互搏”:宕机的DeepSeek与闷声发财的幻方

  深夜23点,北京国贸写字楼的灯光只剩零星几点。程序员小林盯着屏幕上刺眼的“服务器繁忙”提示,第三次尝试调用DeepSeek API失败。   就在他为瘫痪的程序焦头烂...

1月8日DeepSeek预测:掘金vs凯尔特人,绿军主场力克残阵掘金,塔图姆布朗

1月8日DeepSeek预测:掘金vs凯尔特人,绿军主场力克残阵掘金,塔图姆布朗

  北京时间1月8日,NBA常规赛将迎来一场焦点战,西部第四的丹佛掘金(24胜12负)客场挑战东部第二的波士顿凯尔特人(23胜12负)。两支胜率均超过65%的球队将在TD花园展开较量,但掘...

住建部GBT50500-2024《建设工程工程量清单计价标准》应用及DeepSe

住建部GBT50500-2024《建设工程工程量清单计价标准》应用及DeepSe

  2024年12月30日住建部正式发布《建设工程工程量清单计价标准》GB/T50500-2024,新版《清单计价标准》的出台为工程造价精细化管理带来一场新的革命,同时也给各单位相关管理人...

DeepSeek新模型被硅谷疯夸!用二维视觉压缩一维文字,单GPU能跑

DeepSeek新模型被硅谷疯夸!用二维视觉压缩一维文字,单GPU能跑

  因为实在太DeepSeek了。3B规模、指数级效能变革、大道至简,甚至被认为把谷歌Gemini严防死守的商业机密开源了。   这个模型瞄准的是大模型处理长文本时的算力...