当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布开源周首个成果 可优化英伟达GPU效率

1年前 (2025-02-24)Deepseek最新资讯613

新京报贝壳财经讯(记者罗亦丹)北京时间2月24日上午,DeepSeek发布了其“开源周”的第一项成果:FlashMLA(直译为快速多头潜在注意力机制)的代码。


据了解,MLA(多头潜在注意力机制)正是DeepSeek降低大模型成本使用的关键技术之一,其可以显著减少大模型训练和推理过程中的内存占用,而FlashMLA则是针对Hopper GPU(一种英伟达GPU架构)开发的高效MLA解码内核,其针对可变长度序列进行了优化,目前已投入了生产,其可以使得H800达到3000GB/s内存,实现580TFLOPS(每秒浮点运算次数)计算性能。


贝壳财经记者注意到,根据此前DeepSeek发布V3大模型时公开的技术文档,该大模型正是使用英伟达的H800芯片训练而成。


上海骊翰科技咨询有限公司发文称,FlashMLA能在不损失模型性能的前提下,将缓存体积压缩至原来的1/4,从而大幅降低显存需求。例如,原始需要存储的100GB中间结果,压缩后仅需25GB,通过开源让企业可以直接使用FlashMLA来优化自家模型。随着FlashMLA的普及,AI推理有望进入千元级硬件跑百亿模型的时代。


“DeepSeek发布开源周首个成果 可优化英伟达GPU效率” 的相关文章

DeepSeek总结最浪费时间的7大行为,看完我开始深度反思

DeepSeek总结最浪费时间的7大行为,看完我开始深度反思

鲁迅有句名言,影响了我很多年。他说:“生命是以时间为单位的,浪费别人的时间等于谋财害命;浪费自己的时间,等于慢性自杀。”而很多人几乎每天都在慢性自杀,只是他们自己从未察觉。DeepSeek通过大数据统...

比肩 H100!硅基流动上线基于昇腾云 CloudMatrix 超节点的 DeepSeek-R1

比肩 H100!硅基流动上线基于昇腾云 CloudMatrix 超节点的 DeepSeek-R1

近日,硅基流动创始人袁进辉在华为云生态大会上宣布,硅基流动联合华为云基于 CloudMatrix 384超节点昇腾云服务和高性能推理框架 SiliconLLM,用大规模专家并行最佳实践正式上线 Dee...

DeepSeek能干些什么?探索AI技术的无限可能

DeepSeek能干些什么?探索AI技术的无限可能

标题:DeepSeek能干些什么?探索AI技术的无限可能关键词:DeepSeek,人工智能,数据分析,自动化,创新研发,AI工具,智能化变革描述:DeepSeek作为领先的人工智能工具,正通过其强大的...

车企“抢滩”DeepSeek背后:角力智能座舱,降低投资成本

车企“抢滩”DeepSeek背后:角力智能座舱,降低投资成本

DeepSeek掀起的技术革命正在席卷汽车行业。截至目前,超过20家车企宣布接入DeepSeek模型,涵盖了比亚迪、吉利、奇瑞、岚图、长城、理想汽车等主流品牌。这一情况与2023年ChatGPT爆火时...

薛少华:DeepSeek改变了我们什么?

薛少华:DeepSeek改变了我们什么?

提要:当前技术环境的剧烈变革给人类适应数字智能时代不断施加认知压力,特别是“银发群体”可能成为“数字难民”的主要成员,会对当下流行和即将到来的智慧家居、具身机器人和动态数智环境交互产生极大的不适应感,...

兰州大学上线DeepSeek本地服务

兰州大学上线DeepSeek本地服务

近日,兰州大学成功部署了由国产大模型公司深度求索(DeepSeek)推出的推理大模型DeepSeek-R1,目前已完成了数十款主流模型的部署工作,校内师生可通过高性能计算服务平台(https://hp...