当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

1年前 (2025-02-26)DeepSeek技术交流746

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

DeepSeek上车 能撼动图商的专业主义吗|时空智能新十年

DeepSeek上车 能撼动图商的专业主义吗|时空智能新十年

撰文 |泰伯网 林槿近期,吉利、比亚迪、奇瑞、长城等超20家车企宣布接入DeepSeek大模型,四维图新、腾讯地图、百度地图等地图厂商也争相跟进。一时间,“DeepSeek上车”成为行业标配,甚至冠以...

捷顺科技公司捷停车接入DeepSeek

捷顺科技公司捷停车接入DeepSeek

捷顺科技公司捷停车接入DeepSeek每经AI快讯,有投资者在投资者互动平台提问:贵公司有和deepseek合作吗?如果没有的话,接下来有意向合作吗?捷顺科技(002609.SZ)3月26日在投资者互...

西安高新区DeepSeek场景应用赋能企业高质量发展

西安高新区DeepSeek场景应用赋能企业高质量发展

近日,西安高新区工信局、企业党委“党建+企业会客厅”活动在都市之门成功举办。活动聚焦“向‘新’而行,求‘质’增效——DeepSeek场景应用赋能企业高质量发展”主题,重点破解企业数字化转型中面临的难题...

北京首个!顺义基础教育领域部署DeepSeek大模型

北京首个!顺义基础教育领域部署DeepSeek大模型

据北京顺义区消息,近日,顺义在北京市基础教育领域率先部署DeepSeek-R1人工智能大模型,以人工智能促进教育高质量发展,开启顺义智慧教育新篇章。顺义教委相关负责人表示,DeepSeek在教育领域的...

DeepSeek能干啥 探索全能数据分析平台的潜力

DeepSeek能干啥 探索全能数据分析平台的潜力

标题:DeepSeek能干啥?探索全能数据分析平台的潜力关键词:DeepSeek,数据分析,智能工具,大数据,企业决策,AI分析描述:DeepSeek作为一款先进的数据分析工具,凭借其强大的数据处理能...

DeepSeek回应两会走红:嘿嘿,怪不好意思的

DeepSeek回应两会走红:嘿嘿,怪不好意思的

这两天,谁要是不说说DeepSeek,好像就不太时髦了。全国两会期间, DeepSeek太火。从大会发言人、部长们的点赞,到代表委员们的热议,DeepSeek参与掀起的“人工智能+”浪潮席卷而来,中国...