当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek开源第一个用于混合专家模型训练和推理的高效专家并行通信库

4个月前 (02-25)Deepseek最新资讯243

【DeepSeek开源第一个用于混合专家模型训练和推理的高效专家并行通信库】财联社2月25日电,DeepSeek在“开源周”的第二天向公众开源了DeepEP。据介绍,DeepEP是第一个用于MoE(混合专家)模型训练和推理的EP(Expert Parallelism,专家并行)通信库,可以实现高效且优化的全对全通信,支持包括FP8在内的低精度运算,适配现代高性能计算需求。同时,DeepEP针对NVLink到RDMA的非对称带宽转发场景进行了深度优化,不仅提供了高吞吐量,还支持SM(Streaming Multiprocessors)数量控制,兼顾训练和推理任务的高吞吐量表现。对于延迟敏感的推理解码场景,DeepEP还提供了纯RDMA的低延迟内核,支持自适应路由,能实现更灵活的GPU资源控制,满足不同场景需求。

“DeepSeek开源第一个用于混合专家模型训练和推理的高效专家并行通信库” 的相关文章

「撸起袖子加油干 风雨无阻向前行」河北加速DeepSeek落地应用 推动多个行业质效齐升

「撸起袖子加油干 风雨无阻向前行」河北加速DeepSeek落地应用 推动多个行业质效齐升

随着DeepSeek的出圈,新一轮人工智能大模型落地应用的热潮也随之而来。记者探访发现,DeepSeek正在我省加速落地应用,推动多个行业质效齐升。在河北医科大学第一医院,DeepSeek-R1已经完...

DeepSeek创作诗词首次亮相联合国中文日活动

DeepSeek创作诗词首次亮相联合国中文日活动

4月20日是联合国中文日。连日来,联合国举办了一系列以“诗意中国·浪漫风华”为主题的活动。多个不同国家、不同肤色的联合国职员用中文朗诵了中国古典诗词,来自中国的外交官还朗诵一首由深度求索(DeepSe...

大厂加码,小厂离席:DeepSeek驱动的MaaS之变

大厂加码,小厂离席:DeepSeek驱动的MaaS之变

文 | 脑极体月初,潞晨科技创始人提出MaaS(Model as a Service,模型即服务)是“最差的商业模式”,满血版DeepSeek-R1月亏损超过4亿元,并宣布停止DeepSeek API...

中国电信天翼云推出息壤智算一体机-DeepSeek版

中国电信天翼云推出息壤智算一体机-DeepSeek版

【中国电信天翼云推出息壤智算一体机-DeepSeek版】财联社2月11日电,伴随着DeepSeek持续出圈,DeepSeek智算一体机等硬件热度一路飙升,各行业需求明显增长。为了满足企业的私有化、国产...

九江市教育局举办“DeepSeek等人工智能技术赋能教育图景”专题讲座

九江市教育局举办“DeepSeek等人工智能技术赋能教育图景”专题讲座

为积极响应国家教育数字化战略行动,进一步推动人工智能技术与教育教学的深度融合,提升我市教育现代化水平,市教育局精心筹备并举办了 “DeepSeek等人工智能技术赋能教育图景” 专题讲座。市教育局在家班...

清华免费发布DeepSeek入门手册遭网店打印兜售,团队回应

清华免费发布DeepSeek入门手册遭网店打印兜售,团队回应

近日,清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室团队免费发布的《DeepSeek 从入门到精通》电子文档引发了网友的广泛关注。然而,某电商平台上随后出现出售的打印版,价格超过13元/本,引发...