当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

2个月前 (02-26)DeepSeek技术交流136

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

小旺AI截图+DeepSeek:5MB工具如何颠覆传统截图软件?

小旺AI截图+DeepSeek:5MB工具如何颠覆传统截图软件?

在数字化办公场景中,截图工具是用户使用频率最高的效率软件之一。然而,传统截图软件长期面临功能单一、操作繁琐、资源占用高等痛点。近日,一款名为小旺AI截图的PC端工具正式上线,凭借仅5MB的轻量化设计、...

中国港口接入DeepSeek以提升运营效率

中国港口接入DeepSeek以提升运营效率

海外网2月21日电据香港《南华早报》2月20日报道,中国人工智能企业深度求索的大语言模型DeepSeek正在赋能中国各行业和关键基础设施。报道称,中国三大港口已陆续实施或计划接入DeepSeek,以提...

9家券商完成DeepSeek本土化部署,客服、风控等场景被率先赋能

9家券商完成DeepSeek本土化部署,客服、风控等场景被率先赋能

 国产AI公司深度求索(DeepSeek)的风“吹到”证券业。  随着DeepSeek的不断“破圈”,春节过后,据澎湃新闻记者不完全统计,国泰君安、国金证券、兴业证券、光大证券、华福证券、中泰证券、国...

女子手麻求医无果,借助DeepSeek确诊“雷诺病”

女子手麻求医无果,借助DeepSeek确诊“雷诺病”

“天都塌了!病人用DeepSeek后质疑我的治疗方案,气得我自己又查了一遍指南,才发现指南更新了……”前不久,广东一位医学博主的发帖引发了广泛关注。不仅有患者找DeepSeek开方,更有患者通过它找对...

DeepSeek能干些什么?探索AI技术的无限可能

DeepSeek能干些什么?探索AI技术的无限可能

标题:DeepSeek能干些什么?探索AI技术的无限可能关键词:DeepSeek,人工智能,数据分析,自动化,创新研发,AI工具,智能化变革描述:DeepSeek作为领先的人工智能工具,正通过其强大的...

「撸起袖子加油干 风雨无阻向前行」河北加速DeepSeek落地应用 推动多个行业质效齐升

「撸起袖子加油干 风雨无阻向前行」河北加速DeepSeek落地应用 推动多个行业质效齐升

随着DeepSeek的出圈,新一轮人工智能大模型落地应用的热潮也随之而来。记者探访发现,DeepSeek正在我省加速落地应用,推动多个行业质效齐升。在河北医科大学第一医院,DeepSeek-R1已经完...