当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理性能

2个月前 (02-27)Deepseek最新资讯61

  DualPath的核心在于解决Agent长文本推理场景下的I/O瓶颈,通过优化从外部存储加载KV-Cache的速度,确保计算资源不被存储读取拖累。

  它改变了传统的存储至预填充引擎(Storage-to-Prefill)单路径加载模式,引入了存储至解码引擎(Storage-to-Decode)的第二条路径。

  通过利用解码引擎闲置的存储网卡(SNIC)带宽读取缓存,并配合高速计算网络(RDMA)将其传输至预填充引擎,DualPath实现了集群存储带宽的全局池化与动态负载均衡。

  在高负载下,首字延迟(TTFT)大幅优化,而 Token间的生成速度(TPOT)几乎不受任何干扰。

  在以往的理解中,谁负责计算谁就去搬数据。但DualPath认为,缓存可以先加载到解码引擎中,再通过高性能RDMA网络传输至预填充引擎。

  之所以这样做,是因为在当前的智能体应用中,对话轮数多且上下文长,KV-Cache命中率通常高达95%以上。

  这意味着,每一轮对话都要搬运海量的“旧记忆”,推理性能的瓶颈已经从“计算”转移到了“搬运”上

  在现有的预填充-解码分离(PD-disaggregated)架构中,所有的加载任务都拥挤在预填充引擎(PE)的存储网卡上,导致带宽瞬间饱和;

  正如英伟达首席科学家Bill Dally、谷歌架构师Jeff Dean等大佬反复强调的:计算是免费的,但数据移动是昂贵的。

  如上所述,DualPath推理系统的核心在于打破了传统的“存储至预填充”单路径模式,创新性地引入了“存储至解码”路径

  该设计允许KV-Cache先加载至解码引擎(DE),再通过高带宽计算网络(RDMA)无损传输给预填充引擎(PE)。

  通过在两条路径间动态分配负载,系统将集群中原本闲置的解码侧存储网卡(SNIC)带宽彻底释放,构建起一个全局可调度的存储I/O资源池。

  具体来说,为了支持层级流式处理,DualPath在PE和DE上均分配了少量DRAM缓冲区(PE/DE Buffer),并针对不同阶段设计了精细的数据流:

  但就像前面提到的,“绕路”加载会带来新问题:比如搬运缓存的流量撞上了模型计算的通信,怎么办?

  首先是以计算网卡(CNIC)为中心的流量管理,强制所有流量通过配对的CNIC走GPUDirect RDMA路径。

  在InfiniBand或RoCE网络中,利用虚拟层(VL/TC)技术,将推理通信设为“最高优先级”并预留99%带宽,让缓存搬运只能在间隙中“蹭”带宽,确保互不干扰。

  其次是自适应请求调度器: 调度器会盯着每个节点的磁盘队列长度和Token数。系统会优先将任务分配给I/O压力较小且计算负载较轻的节点,从根本上避免单侧网卡或单点计算资源的拥塞。

  在实验阶段,DualPath在DeepSeek-V3、Qwen等模型上进行了测试deepseek,场景覆盖了离线Rollout和在线服务。

  如开头所说,在离线推理中,DualPath 将端到端吞吐量提高了高达1.87倍,在线服务吞吐量平均提升1.96倍,显著降低了首字延迟(TTFT),且保持了极其稳定的Token间延迟(TBT)。

  总的来说,DualPath 证明了通过重新思考数据加载路径可以有效突破当前大模型推理的I/O墙。

  它成功利用了解码引擎原本被浪费的I/O带宽,配合自适应调度和严谨的流量隔离机制,在不增加硬件成本的前提下,大幅提升了智能体LLM推理系统的效率。

  他的研究方向聚焦于系统软件与大模型基础设施(LLM Infrastructure),尤其是推理系统的工程优化与规模化部署。

  他目前在DeepSeek系统组,参与下一代模型的推理基础设施建设,负责大规模软件系统在多硬件平台上的性能优化。原文出处:DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理性能,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理性能” 的相关文章

疯狂!DeepSeek引爆寒武纪,市值超越中芯国际,股价直逼茅台

疯狂!DeepSeek引爆寒武纪,市值超越中芯国际,股价直逼茅台

  智东西8月22日报道,在DeepSeek-V3.1正式发布并放出“针对即将发布的下一代国产芯片设计”讯息后,今日国内AI芯片概念股一片飘红,   ...

2025年10月deepseek排名优化推荐:市场报告与知名机构对比

2025年10月deepseek排名优化推荐:市场报告与知名机构对比

  进入2025年,生成式搜索流量已占中文互联网检索总量的47%,DeepSeek、豆包、通义千问、元宝、Kimi五家平台每日联合处理请求超18亿次。企业市场部发现,传统SEO带来的点击占...

全球顶级AI模型混战:中国AI包揽冠亚军 DeepSeek逆袭登顶

全球顶级AI模型混战:中国AI包揽冠亚军 DeepSeek逆袭登顶

  截至10月27日10点,在一场全球顶级AI模型的金融实战中,中国AI模型不仅包揽冠亚军,DeepSeek更是逆袭登顶,而美国顶尖AI模型则集体陷入亏损乃至崩盘的泥潭。...

11月27日DeepSeek预测:步行者vs猛龙,猛龙主场轻取对手,英格拉姆vs

11月27日DeepSeek预测:步行者vs猛龙,猛龙主场轻取对手,英格拉姆vs

  北京时间11月27日早8:30,NBA常规赛将迎来东部强弱分明的较量——排名东部第2的猛龙坐镇主场迎战联盟垫底球队步行者。以下是本场焦点战的深度分析:   猛龙(13...

DeepSeek预测:帕尔马vs国际米兰!劳塔罗10球领跑射手榜,国米客场3-1

DeepSeek预测:帕尔马vs国际米兰!劳塔罗10球领跑射手榜,国米客场3-1

  作为曾经意甲七姐妹之一的帕尔马,如今仅以18分排名第14,距离降级区仅有6分优势。而国际米兰以39分领跑积分榜,但仅领先第二名AC米兰1分,争冠形势依然胶着。帕尔马本赛季仅打入12球(...

全网都在研究OpenClaw?企业如何配置属于自己的AI员工?

全网都在研究OpenClaw?企业如何配置属于自己的AI员工?

  最近,全网都被“OpenClaw”、“养龙虾”刷屏了,不管是付费上门安装,还是腾讯推出“龙虾”产品全家桶,各类AI  Agent出现,可以说2026年被视为AI  智能体元年,不少企业...