当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

5个月前 (02-26)DeepSeek技术交流355

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

玉禾田:将Deepseek 671B模型接入大管家平台

玉禾田:将Deepseek 671B模型接入大管家平台

金融界4月1日消息,有投资者在互动平台向玉禾田提问:董秘你好请问贵公司是否部署Deepseek,如果有具体运用在哪方面?公司回答表示:公司已将Deepseek 671B满血模型接入大管家平台,并已在构...

企业微信接入 DeepSeek 模型,支持智能机器人、智能表格

企业微信接入 DeepSeek 模型,支持智能机器人、智能表格

IT之家 2 月 21 日消息,企业微信今日宣布接入 DeepSeek 模型,带来了「智能机器人」、「智能表格-客户跟进总结」等 AI 功能。IT之家从官方介绍获悉,接入 DeepSeek、混元等大模...

DeepSeek走红三个月,第一批想靠它赚钱的怎么样了?

DeepSeek走红三个月,第一批想靠它赚钱的怎么样了?

文 | 螺旋实验室,作者丨安晓,编辑丨坚果 如果你在2023年躲过了Chatgpt,在2024年又躲过了Sora,那么2025年你也很有可能成为DeepSeek的潜在受众,逃不出它天罗密布织...

文心一言:请详细介绍Deepseek在智能客服系统中的应用

文心一言:请详细介绍Deepseek在智能客服系统中的应用

文心一言:请详细介绍Deepseek在智能客服系统中的应用DeepSeek在智能客服系统中的应用为企业带来了显著的提升和变革。以下是对DeepSeek在智能客服系统中应用的详细介绍:一、提升复杂文本问...

仙乐健康:接入DeepSeek大模型 布局智能配方设计

仙乐健康:接入DeepSeek大模型 布局智能配方设计

仙乐健康(300791)近日宣布已完成DeepSeek大模型的战略接入,仙乐健康旨在通过接入DeepSeek打造独有的智能配方设计系统。...

中国电信舟山分公司:自研完成全市首个DeepSeek本地化应用,深度赋能社会救助数智化转型

中国电信舟山分公司:自研完成全市首个DeepSeek本地化应用,深度赋能社会救助数智化转型

自DeepSeek全新开源模型掀起AI浪潮以来,中国电信舟山分公司作为数字舟山建设的主力军,凭借强大的技术实力和创新能力,迅速行动、深度探索DeepSeek大模型融合各行各业,为舟山市民政局率先实现D...