当前位置:首页 > Deepseek应用场景 > 正文内容

英伟达宣布创造满血 DeepSeek 推理世界记录

4个月前 (03-19)Deepseek应用场景256

IT之家 3 月 19 日消息,英伟达在今日举行的 NVIDIA GTC 2025 上宣布其 NVIDIA Blackwell DGX 系统创下 DeepSeek-R1 大模型推理性能的世界纪录。

据介绍,在搭载了八块 Blackwell GPU 的单个 DGX 系统上运行 6710 亿参数的满血 DeepSeek-R1 模型可实现每用户每秒超 250 token 的响应速度,系统最高吞吐量突破每秒 3 万 token。

英伟达表示,随着 NVIDIA 平台继续在最新的 Blackwell Ultra GPU 和 Blackwell GPU 上突破推理极限,其性能将会继续不断提高。

▲ 运行 TensorRT-LLM 软件的 NVL8 配置的 NVIDIA B200 GPU

单节点配置:DGX B200(8 块 GPU)与 DGX H200(8 块 GPU)

测试参数:最新测试采用 TensorRT-LLM 内部版本,输入 1024 token / 输出 2048 token;此前测试为输入 / 输出各 1024 token

计算精度:B200 采用 FP4,H100 / H200 采用 FP8 精度

英伟达表示,通过硬件和软件的结合,他们自 2025 年 1 月以来成功将 DeepSeek-R1 671B 模型的吞吐量提高了约 36 倍。

节点配置:DGX B200(8 块 GPU)、DGX H200(8 块 GPU)、两个 DGX H100(8 块 GPU)系统

测试参数:依然采用 TensorRT-LLM 内部版本,输入 1024 token / 输出 2048 token;此前测试为输入 / 输出各 1024 token;并发性 MAX

计算精度:B200 采用 FP4,H100 / H200 采用 FP8 精度

与 Hopper 架构相比,Blackwell 架构与 TensorRT 软件相结合可实现显著的推理性能提升。

英伟达表示,包括 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B,运行 TensorRT 软件并使用 FP4 精度的 DGX B200 平台与 DGX H200 平台相比已经提供了 3 倍以上的推理吞吐量提升。

英伟达表示,在对模型进行量化以利用低精度计算优势时,确保精度损失最小化是生产部署的关键。IT之家注意到,在 DeepSeek-R1 模型上,相较于 FP8 基准精度,TensorRT Model Optimizer 的 FP4 训练后量化(PTQ)技术在不同数据集上仅产生微乎其微的精度损失。


“英伟达宣布创造满血 DeepSeek 推理世界记录” 的相关文章

DeepSeek引领AI风潮,酒店业或迎新变革

DeepSeek引领AI风潮,酒店业或迎新变革

近期,DeepSeek不仅登上了热搜榜,还强势占据了各大应用榜单的榜首,引发了广泛关注。DeepSeek的崛起也为酒店行业带来了新的启示。面对行业竞争白热化与消费者需求升级,AI技术成为破局关键,如何...

娄勤俭:通过DeepSeek兴起可看到中国的创新性和包容性

娄勤俭:通过DeepSeek兴起可看到中国的创新性和包容性

据央视新闻消息,十四届全国人大三次会议今天(3月4日)在人民大会堂举行新闻发布会,大会发言人娄勤俭就大会议程和人大工作相关问题回答中外记者提问。在回答人工智能发展相关问题时,娄勤俭表示,DeepSee...

对话DeepSeek 畅想智能未来”技术峰会在昆明举行

对话DeepSeek 畅想智能未来”技术峰会在昆明举行

“对话DeepSeek 畅想智能未来”技术峰会在昆明举行3月14日,“对话DeepSeek 畅想智能未来”技术峰会在昆明举行。来自省市区政府部门、行业头部企业、大模型生态伙伴及产业上下游企业等500余...

接入DeepSeek,大连12345迈入“智慧服务”新时代

接入DeepSeek,大连12345迈入“智慧服务”新时代

近日,市数据局与中国移动大连分公司合作,在全省率先将DeepSeek大模型引入12345热线平台应用场景,12345热线平台成功升级智能助手、智能知识库、智能质检三大智能化应用场景,实现服务质效全面提...

深圳港集团实现DeepSeek大模型本地化部署

深圳港集团实现DeepSeek大模型本地化部署

每经AI快讯,据深圳港集团公众号消息,在全球生成式AI技术蓬勃发展的浪潮中,针对港口行业数据安全与响应效率的特殊需求,深圳港集团数字化创新中心携手盐田港资讯公司和盐田国际公司,成功实现DeepSeek...

加速行业智能化升级,能科科技受邀参加华为温州站 DeepSeek 思享会

加速行业智能化升级,能科科技受邀参加华为温州站 DeepSeek 思享会

5月13日,“DeepSeek+昇腾”加速行业智能化升级——华为DeepSeek思享会在温州国际云软件谷圆满举办。大会就人工智能前沿技术与行业应用展开深入探讨,共商产业智能化升级发展新路径。能科科技(...