当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

4个月前 (02-26)DeepSeek技术交流225

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

开源才是未来!李开复:DeepSeek证明闭源是一条死路

开源才是未来!李开复:DeepSeek证明闭源是一条死路

快科技3月30日消息,日前,在2025中关村论坛年会人工智能主题日上,零一万物CEO李开复在演讲中谈到了DeepSeek。李开复表示,DeepSeek是一个非常快速能达到推理引擎思考的,而且不是靠蒸馏...

省厅举办首期DeepSeek应用专题培训班

省厅举办首期DeepSeek应用专题培训班

为积极响应国家数字化转型战略号召,深度推动人工智能技术在交通运输领域的创新融合与高效落地,4月28日,省交通运输厅精心筹备并成功举办了第一期DeepSeek人工智能应用专题培训班。此次培训吸引了来自厅...

拥抱新机遇,多家医疗企业接入DeepSeek

拥抱新机遇,多家医疗企业接入DeepSeek

近期,多家医疗企业密集宣布,公司已接入DeepSeek。互联网医疗企业称,DeepSeek可用于AI辅助诊疗、智能医疗服务等场景;医疗体检企业认为,DeepSeek可用于疾病监测、慢病管理等场景;中医...

DeepSeek 发布 Prover-V2 模型;小米首个推理大模型开源;饿了么宣布超百亿补贴加入外卖战局

DeepSeek 发布 Prover-V2 模型;小米首个推理大模型开源;饿了么宣布超百亿补贴加入外卖战局

DeepSeek 发布 Prover-V2 模型,参数量达 6710 亿4 月 30 日消息,DeepSeek 于 AI 开源社区 Hugging Face 上发布了一个名为 DeepSeek-Pro...

企业微信+DeepSeek来了-企业微信接入DeepSeek

企业微信+DeepSeek来了-企业微信接入DeepSeek

【企业微信接入DeepSeek】《科创板日报》21日讯,今日,企业微信发布新版本,灰度接入满血版DeepSeek-R1大模型,正式发布"智能机器人"、"智能表格-客户跟进...

日媒:DeepSeek为何没在日本诞生

日媒:DeepSeek为何没在日本诞生

《日本经济新闻》网站3月31日文章,原题:日中人工智能专家谈论,Deep Seek为何没在日本诞生 中国初创企业DeepSeek推出的高性能、低成本的生成式人工智能(AI)模型,震惊了世界。在日本,人...