当前位置：首页 > Deepseek最新资讯 > 正文内容

DeepSeek开源MoE新利器LPLB：基于线性规划，专攻训练动态负载不平衡

5个月前 (11-20)Deepseek最新资讯211

　　2.边容量：边的容量定义为当前批次分配给冗余专家的Token数量，即用于平衡的最大Token流

　　3.LP优化：LPLB求解线性规划问题，在尊重边容量的前提下沿这些边重新分配Token，以最小化专家并行（EP）组内的负载不平衡。

　　在该过程中，待复制的专家通过EPLB选择（仅重排序，不复制），最重的专家根据选定的LPLB拓扑进行复制deepseek。为了减少通信开销，实时工作负载同步利用NVLINK和NVSHMEM（需预装DeepEP），而非torch.distributed.allreduce。

　　Cube：在GPU子集上复制专家，形成带有对角边的立方体图。每GPU至少需要2个专家。适用于8-GPU EP子组内的平衡，且不牺牲节点间通信

　　Hypercube：类似于Cube，但排除对角边，需要16个GPU。适用于跨16个GPU的专家并行

　　Torus：在同一节点的邻居GPU和邻居节点的GPU上各复制一个专家，形成环面图。每GPU至少需要2个专家。适用于全局平衡，但由于节点内通信效率原因，效果可能不如Cube

　　成本估算：目前的规划器仅平衡总Token数量，未考虑分组矩阵乘法时间成本的非线性，可能导致次优性能

　　求解延迟：求解器进行节点内优化耗时约100 µs（节点间更长），对于小批次任务，此开销不可忽略

　　极端不平衡：在全局负载极端不平衡的情况下，由于LPLB避免将多个副本分配给同一原始专家，其表现可能不如EPLB原文出处：DeepSeek开源MoE新利器LPLB：基于线性规划，专攻训练动态负载不平衡，感谢原作者，侵权必删！

标签: deepseek

返回列表

　　中国科技行业的春节档如期而至。去年春节，国产大模型DeepSeek横空出世，以既好又省且开源的创新成果震动国际科技圈，并推动了AI在国内的认知破圈，人称“DeepSeek时刻”。今年春...

　　8月18日，DeepSeek概念上涨2.31%，今日主力资金流入17.26亿元，概念股96只上涨，4只下跌。　　主力资金净流入居前的分别为华胜天成（7.42亿元）、...

　　在ACL2025的颁奖典礼上，由DeepSeek梁文锋作为通讯作者、与北京大学等联合发表的论文荣获最佳论文奖。提出的原生稀疏注意力（NSA）机制，通过算法与硬件的协同优化，直接把长文本...

　　据两位直接知情人士透露，深度求索（DeepSeek）预计将在未来几周内推出新一代旗舰级人工智能模型，该模型主打强劲的代码生成能力。　　两位知情人士表示，这款代号为V...

　　【#DeepSeek或第四季度发布新模型#：聚焦智能体、梁文锋督战】据报道，知情人士称，DeepSeek正在开发一款具备更先进AI智能体功能的AI模型，以便在这一新兴技术领域与Open...

　　尊敬的投资者，您好！公司已在积极推进大数据在提高决策效率、改善产销协同deepseek、优化客群管理等方面的应用；未来，也将持续关注人工智能给行业带来的创新和机会，寻求更多业务拓展可能...