当前位置:首页 > Deepseek最新资讯 > 正文内容

英伟达、DeepSeek集体跟进!18个月前被忽视,如今统治AI推理

8个月前 (11-09)Deepseek最新资讯266

  【新智元导读】2024年,加州大学圣地亚哥分校「Hao AI Lab」提出了DistServe的解耦推理理念,短短一年多时间,迅速从实验室概念成长为行业标准,被NVIDIA、vLLM等主流大模型推理框架采用,预示着AI正迈向「模块化智能」的新时代。

  如果说「摩尔定律」认为计算能力每18个月翻倍,如今大模型推理成本的下降速度,已远超「摩尔定律」关于计算能力迭代速度的预测。

  这并非只是芯片性能提升之功,更重要的是来自推理系统的自身进化。而加速这一进化的,源自一个在DistServe系统中首次提出并实践的「解耦推理」理念。

  该系统由加州大学圣地亚哥分校的「Hao AI Lab」于2024年3月推出,并提出了一个简单而大胆的设想:

  将大模型的推理过程拆分为「预填充」和「解码」两个阶段,并让它们分别在独立的计算资源池中进行伸缩与调度。

  如今,这种解耦推理架构已被NVIDIA、llm-d、vLLM、MoonCake等主流大模型推理框架采用,并开始在大规模、真实推理场景中发挥强大力量。

  推出DistServe系统的「Hao AI Lab」,由加州大学圣地亚哥分校助理教授Hao Zhang领导,他也是2025年谷歌机器学习与系统青年教师奖的获得者。

  Hao Zhang团队以「解耦推理」的最初设计者身份,详细回顾了「预填充-解码」解耦架构(prefill-decode disaggregation)如何从研究概念走向生产系统,以及在大模型推理持续扩展的背景下,解耦推理又将如何演进。

  在每一次推理迭代中,调度器会尽可能将多个用户请求打包成一个批次,运行一轮计算,然后为这些请求各生成一个输出token。

  「prefill」和「decode」共享同一块GPU,它们的延迟(latency)会不可避免地相互干扰。

  即使采用了「分块预填充」等缓解措施,一个大型预填充请求仍可能让TPOT(time-per-output-token)膨胀2到3倍,尤其在负载突发时更为明显。

  如上图(上),当prefill(橙色)与decode(蓝色)同址部署时,两者互相干扰,导致decode阶段停滞;上图(下),当将prefill与decode分离到不同机器时,两者即可无干扰地顺畅运行。

  在实际生产环境中,企业级应用通常将TTFT(time-to-first-token)和TPOT视为关键的用户体验延迟指标。

  当prefill和decode被部署在同一组GPU上时,资源分配器必须同时满足两种最坏情况的延迟需求。

  DistServe通过将prefill与decode拆分为独立的计算池,彻底打破二者的干扰,并首次实现了独立伸缩,使其可以各自独立地满足TTFT和TPOT的延迟要求,同时保持高整体效率。

  在2024年的大部分时间里,开源社区都对这一思路持保留态度,因为对原有推理系统进行深度的架构重构,需要大量工程投入。

  首先,主要是由于越来越多企业将大模型作为其核心业务组件,「延迟控制」成为决定业务增长乃至生死存亡的关键因素。

  而DistServe正好击中了这一痛点:它让prefill和decode的延迟易于观测和控制,且在真实生产环境中可持续优化。

  其次,随着模型体量急剧扩大、访问流量激增,推理系统必须扩展到数百乃至上千张GPU才能支撑这些庞大且变化剧烈的负载。

  在这种规模下,「解耦架构」的优势完全显现:它可以为不同阶段独立分配资源,并灵活配合多种并行策略,实现极高的资源利用率。

  几乎所有与大模型推理相关的生产级框架——从编排层、推理引擎、存储系统,甚至到新兴的硬件架构,都以某种形式采用了这一解耦推理的思想。

  NVIDIA Dynamo是目前最先进、最成熟的开源数据中心级分布式推理框架之一,专为P/D解耦而设计。

  在存储层,由芝加哥大学团队开发的LMCache通过加速从prefill实例到decode实例的KV缓存移动来优化P/D解耦过程。

  Kimi AI团队开发的MoonCake,以「KVCache中心化」为核心思想,构建了一个面向P/D解耦的LLM推理平台。

  它将系统中未充分利用的存储介质统一抽象为一个集中式KV缓存池,从而使prefill实例可以无缝将缓存传输给集群中decode实例。

  在核心引擎层,几乎所有开源的LLM推理引擎,如SGLang与vLLM,都已原生支持「解耦推理」。

  而学术界和工业界也正在探索多种新方向,推动解耦架构迈向「通用分解式推理(Generalized Disaggregated Inference)」阶段。

  以往的P/D解耦主要解决了「上下文输入与自回归输出」的阶段性分离问题,但模型内部结构仍然被视为不可拆解的整体。

  这意味着未来的推理系统可能不再是「每个节点运行完整模型副本」,而是每个节点运行模型的一个功能子模块。

  随着多模态大模型的出现,推理系统正面临更复杂的资源编排问题,将它们全部塞入同一推理流程会导致资源利用率显著下降。

  当前的解耦体系仍依赖于「集中式KV缓存池」或「共享SSD集群」,未来的研究方向在于让缓存体系本身也实现多层解耦与自治调度。

  一些硬件厂商已开始探索原生支持解耦架构的芯片,这意味着未来的「解耦推理」不仅是软件架构问题,而将演化为软硬件一体化体系。

  他们将模型的学习过程被分为多个相互独立的子任务,每个子任务在不同硬件上运行,并通过共享梯度缓存与语义路由器实现跨任务通信。

  这种理念被称作「解耦学习」,被视为解决大模型「灾难性遗忘」与「持续适应」问题的潜在关键路径:

  这种演进并非倒退,而是一种成熟的标志deepseek,AI系统也正在走向模块化智能,不同功能模块可独立演化、独立扩展、独立优化。

  特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。

  俄媒:俄军即将攻占乌克兰“第三首都”!俄副总理自曝参战:用狙击步枪还击乌军!俄对乌发动大规模空袭

  习近平在广东考察时强调 深入学习宣传贯彻党的二十届四中全会精神 以全面深化改革开放推动高质量发展原文出处:英伟达、DeepSeek集体跟进!18个月前被忽视,如今统治AI推理,感谢原作者,侵权必删!

标签: deepseek

“英伟达、DeepSeek集体跟进!18个月前被忽视,如今统治AI推理” 的相关文章

经济发展和社会发展相辅相成协调并进

经济发展和社会发展相辅相成协调并进

  3月6日下午,习近平总书记在看望参加全国政协十四届四次会议的农工党、九三学社、医药卫生界、社会福利和社会保障界委员,并参加联组会,听取意见和建议时强调:“到2035年建成健康中国是中共...

DeepSeek预测:国际米兰vs乌迪内斯!蓝黑军团火力全开,劳塔罗领衔屠杀?

DeepSeek预测:国际米兰vs乌迪内斯!蓝黑军团火力全开,劳塔罗领衔屠杀?

  意甲第2轮焦点战,卫冕冠军国际米兰坐镇梅阿查迎战中游球队乌迪内斯。蓝黑军团首轮5-0血洗都灵,以净胜球优势领跑积分榜;乌迪内斯则1-1战平维罗纳,暂列第13。本场胜负将直接影响争冠与保...

Deepseek推荐全国旅游百强区第8名:浙江杭州市西湖区

Deepseek推荐全国旅游百强区第8名:浙江杭州市西湖区

  日前,全国县镇发展研究课题组、天和经济研究所县镇发展研究院联合发布了2024《全国县镇发展报告》,报告评价篇对全国县市以及包含乡村人口的市辖区旅游发展水平进行了综合评价,并发布了天和2...

【讲习所·2025年终特刊】向“新”而行的中国

【讲习所·2025年终特刊】向“新”而行的中国

  2025年,习近平总书记对科技创新工作作出了一系列战略性、前瞻性、体系化部署。在一次次地方考察调研中,他下车间、看产线deepseek,谈技术、问创新,勉励广大科技工作者为实现高水平科...

数智津门:伙伴+华为赋能下的新质生产力全球样本

数智津门:伙伴+华为赋能下的新质生产力全球样本

  作为“九河下梢”与“河海要冲”的天津,自古以来就是贯通南北商贸的关键节点。当数字化浪潮席卷全球,这座城市再次展现出锐意进取、敢为人先的开拓精神。   前不久的“华为中...

DeepSeek预测:利物浦VS诺丁汉森林!红军主场血洗保级队?萨拉赫+范戴克双

DeepSeek预测:利物浦VS诺丁汉森林!红军主场血洗保级队?萨拉赫+范戴克双

  英超第12轮焦点战即将打响!利物浦坐镇安菲尔德迎战深陷降级区的诺丁汉森林。目前红军以18分排名第8,距离欧战区仅一步之遥;而森林队9分垫底,保级警报已拉响。这场看似实力悬殊的对决,会否...