DeepSeek开源MoE新利器LPLB:基于线性规划,专攻训练动态负载不平衡
2.边容量:边的容量定义为当前批次分配给冗余专家的Token数量,即用于平衡的最大Token流
3.LP优化:LPLB求解线性规划问题,在尊重边容量的前提下沿这些边重新分配Token,以最小化专家并行(EP)组内的负载不平衡。
在该过程中,待复制的专家通过EPLB选择(仅重排序,不复制),最重的专家根据选定的LPLB拓扑进行复制deepseek。为了减少通信开销,实时工作负载同步利用NVLINK和NVSHMEM(需预装DeepEP),而非torch.distributed.allreduce。
Cube:在GPU子集上复制专家,形成带有对角边的立方体图。每GPU至少需要2个专家。适用于8-GPU EP子组内的平衡,且不牺牲节点间通信
Hypercube:类似于Cube,但排除对角边,需要16个GPU。适用于跨16个GPU的专家并行
Torus:在同一节点的邻居GPU和邻居节点的GPU上各复制一个专家,形成环面图。每GPU至少需要2个专家。适用于全局平衡,但由于节点内通信效率原因,效果可能不如Cube
成本估算:目前的规划器仅平衡总Token数量,未考虑分组矩阵乘法时间成本的非线性,可能导致次优性能
求解延迟:求解器进行节点内优化耗时约100 µs(节点间更长),对于小批次任务,此开销不可忽略
极端不平衡:在全局负载极端不平衡的情况下,由于LPLB避免将多个副本分配给同一原始专家,其表现可能不如EPLB原文出处:DeepSeek开源MoE新利器LPLB:基于线性规划,专攻训练动态负载不平衡,感谢原作者,侵权必删!


