当前位置：首页 > Deepseek最新资讯 > 正文内容

一年后，DeepSeek-R1的每token成本降到了原来的132

6个月前 (01-09)Deepseek最新资讯83

　　几天前，DeepSeek 毫无预兆地更新了 R1 论文，将原有的 22 页增加到了现在的 86 页。

　　DeepSeek-R1 是在 2025 年 1 月 20 日发布的开源推理大模型，它拥有 6710 亿参数、单 Token 激活参数为 370 亿，并采用了 MoE 架构，训练效率得到了显著提升。

　　R1 在去年的推出震动了全球 AI 领域，其高效率的模型架构、训练方法、工程优化和蒸馏方法在之后成为了全行业的趋势。

　　今天，英伟达发表了一篇长文博客，展示了其如何在 Blackwell GPU 上通过软硬协同对 DeepSeek-R1 进一步降本增效。

　　随着 AI 模型智能程度的不断提升，人们开始依托 AI 处理日益复杂的任务。从普通消费者到大型企业，用户与 AI 交互的频率显著增加，这也意味着需要生成的 Token 数量呈指数级增长。为了以最低成本提供这些 Token，AI 平台必须实现极高的每瓦特 Token 吞吐量。

　　通过在 GPU、CPU、网络、软件、供电及散热方案上的深度协同设计，英伟达持续提升每瓦特 Token 吞吐量，从而有效降低了每百万 Token 的成本。此外，英伟达不断优化其软件栈，从现有平台中挖掘更强的性能潜力。

　　那么，英伟达是怎样协同利用运行在 Blackwell 架构上的推理软件栈，以实现 DeepSeek-R1 在多种应用场景中的性能增益呢？我们接着往下看。

　　这种大规模的「扩展域」（Scale-up Domain）专为稀疏 MoE 架构优化，此类模型在生成 Token 时需要专家之间频繁的数据交换。

　　Blackwell 架构还加入了对 NVFP4 数据格式的硬件加速。这是英伟达设计的一种 4 位浮点格式，相比其他 FP4 格式能更好地保持精度。此外，解耦服务（Disaggregated Serving）这类优化技术也充分利用了 NVL72 架构和 NVLink Switch 技术。简单来解释一下解耦服务，即在一组 GPU 上执行 Prefill（预填充）操作，在另一组 GPU 上执行 Decode（解码）操作。

　　另外，在 8K/1K、1K/1K 两种输入 / 输出序列长度的吞吐量与交互性曲线上，GB200 NVL72 也展现出了领先的单 GPU 吞吐能力。

　　而 TensorRT-LLM 开源库（用于优化 LLM 推理）的最新增强功能，在同一平台上再次大幅增强了性能。在过去三个月中，每个 Blackwell GPU 的吞吐量提升高达 2.8 倍（这里指的是在 8k/1k 输入 / 输出序列长度下，去年 10 月到今年 1 月的 Token 吞吐量变化）。

　　扩大 NVIDIA 程序化依赖启动 (PDL) 的应用：降低核函数启动延迟，有助于提升各种交互水平下的吞吐量；

　　有业内人士对英伟达放出的一系列图表进行了直观的解读，用一组数据来总结就是，「通过软硬件的深度协同deepseek，自 2025 年 1 月以来，英伟达已经将 DeepSeek-R1 (671B) 的吞吐量提升了约 36 倍，这意味着单 Token 的推理成本降低到了约 1/32。」

　　两项关键技术使 HGX B200 上的 DeepSeek-R1 推理性能大幅提升。第一项技术是使用多 token 预测 (MTP)，它可以显著提高各种交互级别下的吞吐量。在所有三种测试的输入 / 输出序列组合中都观察到了这一现象。

　　在 HGX B200 平台上，使用 1K/1K 序列长度和聚合服务模式下，FP8（不带 MTP）、FP8（带 MTP）和 NVFP4（带 MTP）的吞吐量与交互性曲线对比。

　　第二种方法是使用 NVFP4，充分利用 Blackwell GPU 计算能力来提升性能，同时保持精度。

　　在 HGX B200 平台上，使用 8K/1K 序列长度和聚合服务模式下，FP8（不含 MTP）、FP8（含 MTP）和 NVFP4（含 MTP）的吞吐量与交互性曲线对比。

　　NVFP4 使用在完整的 NVIDIA 软件栈上（包括 TensorRT-LLM 和 NVIDIA TensorRT 模型优化器），以确保高性能并保持精度。这使得在给定交互级别下能够实现更高的吞吐量，并且在相同的 HGX B200 平台上，可以实现更高的交互级别。

　　在 HGX B200 平台上，FP8（无 MTP）、FP8（有 MTP）和 NVFP4（有 MTP）的吞吐量与交互性曲线，序列长度分别为 1K 和 8K，并采用聚合服务模式。

　　英伟达表示，其正在不断提升整个技术堆栈的性能，可以帮助用户基于现有硬件产品，持续提升大语言模型的工作负载效率，提升各种模型的 token 吞吐量。原文出处：一年后，DeepSeek-R1的每token成本降到了原来的132，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：周鸿祎发布2026年20个AI预言：我们正迈向百亿智能体时代

下一篇：腾讯云发布2025年成绩单：已助力四大国有行、沪深交易所数智化升级

“一年后，DeepSeek-R1的每token成本降到了原来的132” 的相关文章

一年后，DeepSeek-R1的每token成本降到了原来的132

“一年后，DeepSeek-R1的每token成本降到了原来的132” 的相关文章

南方路机：目前已接入DeepSeek大模型

11月25日DeepSeek预测：骑士vs猛龙，东部巅峰对决，米切尔能否带队终结

AI落地总踩坑？浪潮云海InCloud AIOS：让AI落地省心、省钱、持续增值

2.1亿！DeepSeek大单来了：300P算力、120台昇腾910C服务器

宁德时代、华为、DeepSeek入选《财富》中国科技50强｜快讯

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.