当前位置：首页 > Deepseek最新资讯 > 正文内容

英伟达、DeepSeek集体跟进！18个月前被忽视，如今统治AI推理

5个月前 (11-09)Deepseek最新资讯262

　　【新智元导读】2024年，加州大学圣地亚哥分校「Hao AI Lab」提出了DistServe的解耦推理理念，短短一年多时间，迅速从实验室概念成长为行业标准，被NVIDIA、vLLM等主流大模型推理框架采用，预示着AI正迈向「模块化智能」的新时代。

　　如果说「摩尔定律」认为计算能力每18个月翻倍，如今大模型推理成本的下降速度，已远超「摩尔定律」关于计算能力迭代速度的预测。

　　这并非只是芯片性能提升之功，更重要的是来自推理系统的自身进化。而加速这一进化的，源自一个在DistServe系统中首次提出并实践的「解耦推理」理念。

　　该系统由加州大学圣地亚哥分校的「Hao AI Lab」于2024年3月推出，并提出了一个简单而大胆的设想：

　　将大模型的推理过程拆分为「预填充」和「解码」两个阶段，并让它们分别在独立的计算资源池中进行伸缩与调度。

　　如今，这种解耦推理架构已被NVIDIA、llm-d、vLLM、MoonCake等主流大模型推理框架采用，并开始在大规模、真实推理场景中发挥强大力量。

　　推出DistServe系统的「Hao AI Lab」，由加州大学圣地亚哥分校助理教授Hao Zhang领导，他也是2025年谷歌机器学习与系统青年教师奖的获得者。

　　Hao Zhang团队以「解耦推理」的最初设计者身份，详细回顾了「预填充-解码」解耦架构（prefill-decode disaggregation）如何从研究概念走向生产系统，以及在大模型推理持续扩展的背景下，解耦推理又将如何演进。

　　在每一次推理迭代中，调度器会尽可能将多个用户请求打包成一个批次，运行一轮计算，然后为这些请求各生成一个输出token。

　　「prefill」和「decode」共享同一块GPU，它们的延迟（latency）会不可避免地相互干扰。

　　即使采用了「分块预填充」等缓解措施，一个大型预填充请求仍可能让TPOT（time-per-output-token）膨胀2到3倍，尤其在负载突发时更为明显。

　　如上图（上），当prefill（橙色）与decode（蓝色）同址部署时，两者互相干扰，导致decode阶段停滞；上图（下），当将prefill与decode分离到不同机器时，两者即可无干扰地顺畅运行。

　　在实际生产环境中，企业级应用通常将TTFT（time-to-first-token）和TPOT视为关键的用户体验延迟指标。

　　当prefill和decode被部署在同一组GPU上时，资源分配器必须同时满足两种最坏情况的延迟需求。

　　DistServe通过将prefill与decode拆分为独立的计算池，彻底打破二者的干扰，并首次实现了独立伸缩，使其可以各自独立地满足TTFT和TPOT的延迟要求，同时保持高整体效率。

　　在2024年的大部分时间里，开源社区都对这一思路持保留态度，因为对原有推理系统进行深度的架构重构，需要大量工程投入。

　　首先，主要是由于越来越多企业将大模型作为其核心业务组件，「延迟控制」成为决定业务增长乃至生死存亡的关键因素。

　　而DistServe正好击中了这一痛点：它让prefill和decode的延迟易于观测和控制，且在真实生产环境中可持续优化。

　　其次，随着模型体量急剧扩大、访问流量激增，推理系统必须扩展到数百乃至上千张GPU才能支撑这些庞大且变化剧烈的负载。

　　在这种规模下，「解耦架构」的优势完全显现：它可以为不同阶段独立分配资源，并灵活配合多种并行策略，实现极高的资源利用率。

　　几乎所有与大模型推理相关的生产级框架——从编排层、推理引擎、存储系统，甚至到新兴的硬件架构，都以某种形式采用了这一解耦推理的思想。

　　NVIDIA Dynamo是目前最先进、最成熟的开源数据中心级分布式推理框架之一，专为P/D解耦而设计。

　　在存储层，由芝加哥大学团队开发的LMCache通过加速从prefill实例到decode实例的KV缓存移动来优化P/D解耦过程。

　　Kimi AI团队开发的MoonCake，以「KVCache中心化」为核心思想，构建了一个面向P/D解耦的LLM推理平台。

　　它将系统中未充分利用的存储介质统一抽象为一个集中式KV缓存池，从而使prefill实例可以无缝将缓存传输给集群中decode实例。

　　在核心引擎层，几乎所有开源的LLM推理引擎，如SGLang与vLLM，都已原生支持「解耦推理」。

　　而学术界和工业界也正在探索多种新方向，推动解耦架构迈向「通用分解式推理（Generalized Disaggregated Inference）」阶段。

　　以往的P/D解耦主要解决了「上下文输入与自回归输出」的阶段性分离问题，但模型内部结构仍然被视为不可拆解的整体。

　　这意味着未来的推理系统可能不再是「每个节点运行完整模型副本」，而是每个节点运行模型的一个功能子模块。

　　随着多模态大模型的出现，推理系统正面临更复杂的资源编排问题，将它们全部塞入同一推理流程会导致资源利用率显著下降。

　　当前的解耦体系仍依赖于「集中式KV缓存池」或「共享SSD集群」，未来的研究方向在于让缓存体系本身也实现多层解耦与自治调度。

　　一些硬件厂商已开始探索原生支持解耦架构的芯片，这意味着未来的「解耦推理」不仅是软件架构问题，而将演化为软硬件一体化体系。

　　他们将模型的学习过程被分为多个相互独立的子任务，每个子任务在不同硬件上运行，并通过共享梯度缓存与语义路由器实现跨任务通信。

　　这种理念被称作「解耦学习」，被视为解决大模型「灾难性遗忘」与「持续适应」问题的潜在关键路径：

　　这种演进并非倒退，而是一种成熟的标志deepseek，AI系统也正在走向模块化智能，不同功能模块可独立演化、独立扩展、独立优化。

　　特别声明：以上文章内容仅代表作者本人观点，不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。

　　俄媒：俄军即将攻占乌克兰“第三首都”！俄副总理自曝参战：用狙击步枪还击乌军！俄对乌发动大规模空袭

　　习近平在广东考察时强调深入学习宣传贯彻党的二十届四中全会精神以全面深化改革开放推动高质量发展原文出处：英伟达、DeepSeek集体跟进！18个月前被忽视，如今统治AI推理，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：拜耳可以使用Deepseek？

下一篇：DeepSeek罕见公开发声，资深研究员陈德里：长期看，AI可能会取代绝大部分人

“英伟达、DeepSeek集体跟进！18个月前被忽视，如今统治AI推理” 的相关文章

从科技“追随者”到“引领者”，高质量发展将驱动更多国际资本投资中国——独家专访霍

英伟达、DeepSeek集体跟进！18个月前被忽视，如今统治AI推理

“英伟达、DeepSeek集体跟进！18个月前被忽视，如今统治AI推理” 的相关文章

从科技“追随者”到“引领者”，高质量发展将驱动更多国际资本投资中国——独家专访霍

Deepseek推荐全国旅游百强区第54名：广东广州市增城区

11月5日DeepSeek预测：黄蜂vs鹈鹕，鲍尔率队客场擒鹈鹕

黄仁勋点赞中国开源模型：DeepSeek等走向全球

斯基拉：切尔西签下哈维-西蒙斯，双方签约7+1年

AI“以小博大”新标杆：三星开源 TRM 模型，700 万参数、特定任务性能媲美

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.