当前位置:首页 > Deepseek最新资讯 > 正文内容

精度无损,成本减半!KunLun AI Space基于昇腾实现DeepSeek

8个月前 (10-29)Deepseek最新资讯290

  在AI技术飞速迭代的今天,大模型的“高效部署”已成为企业落地的核心痛点 —— 既要保证推理精度,又要控制硬件成本,如何平衡两者?

  近期发布的 DeepSeek V3.1 大模型,因搭载了FP8精度格式(UE8M0 FP8)引发业界关注。这个被称为大模型“新宠”的 FP8,到底好在哪?简单来说,它是一种“更聪明的计算格式”:

  对比传统的FP16/BF16精度,FP8能让模型的显存需求直接减半,大幅降低服务器硬件压力;

  对比常见的INT8量化精度,FP8的推理精度更高、数据表示范围更广,完美解决了“降成本”与“保效果”的矛盾。

  但长期以来,FP8 精度的原生支持高度依赖海外芯片,国内企业想用上这项技术,要么受限于硬件,要么需要复杂的格式转换,严重制约了自主落地。

  正是看到这一痛点,河南昆仑技术有限公司(简称“昆仑技术”)基于昇腾AI灵活易用的Ascend C算子编程语言deepseek,研发出软FP8解决方案。这不仅为大模型部署提供了更经济、自主的技术路径,还让昇腾平台能快速兼容后续新出的FP8权重模型,进一步丰富了昇腾AI生态的应用场景。

  一方面,将FP8权重模型输入昇腾硬件,通过精准的反量化算子,转化为BF16格式参与计算,既保障了计算过程的准确性,又为后续新FP8权重模型的快速适配预留了灵活空间,无需权重格式的多次转换;

  另一方面,在模型精度几乎无损的前提下,单台KunLun G8600即可流畅运行满血版DeepSeek V3.1模型;即便在KunLun G5500V2、KunLun G5580等标卡机型上,也能实现模型参数规模翻番,同时大幅提升并发处理能力,让不同硬件配置的用户都能享受到FP8推理的技术红利。

  首创Kernel内动态反量化方案,自主研发高性能FP8 Matmul / GroupedMatmul算子,计算精度与原生浮点无差异;通过混合精度计算策略,在保证算子精度的同时,大幅降低Vector核计算负载,实现性能与精度的双重优化;将Vector与Cube两部分算子进行融合,高效调度两类核上的计算任务,通过调优矩阵分块策略、数据预取机制等手段,彻底消除计算流水线气泡,充分释放硬件潜能。

  通过PyTorch的Meta函数注册实现,使得自研FP8反量化算子整体入图下发,避免了单个算子依次下发带来的性能开销;同时,利用模型特征的智能感知,实现计算路径的动态调整,端到端推理效率再提升32%。

  KunLun AI Space软FP8解决方案全面兼容DeepSeek V3.1、DeepSeek-V3/R1、Qwen3等主流FP8量化模型,为用户提供灵活多样的模型选择。同时,该方案具备很好的扩展性,可以快速支持后续新出的模型。

  在FP8低精度类型已成为大模型主流选择的当下,KunLun AI Space凭借自研软FP8解决方案,在精度和性能几乎无损的情况下,大幅降低了大模型部署的算力门槛和成本,为大模型私有化部署提供了更加可行的方案。

  昆仑技术与昇腾的探索脚步并未就此停歇。目前,软FP4的方案已经在紧锣密鼓地研发当中,预计不久后就将与大家见面。展望未来,昆仑技术将持续携手昇腾等伙伴深入挖掘AI芯片的算力潜能,推动大模型私有化部署从“可用”走向“普惠”,让AI技术真正惠及千行万业。原文出处:精度无损,成本减半!KunLun AI Space基于昇腾实现DeepSeek V3.1 FP8推理,感谢原作者,侵权必删!

标签: deepseek

“精度无损,成本减半!KunLun AI Space基于昇腾实现DeepSeek” 的相关文章

DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理性能

DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理性能

  DualPath的核心在于解决Agent长文本推理场景下的I/O瓶颈,通过优化从外部存储加载KV-Cache的速度,确保计算资源不被存储读取拖累。   它改变了传统的...

中国AI从DeepSeek算力奇迹到Seedance多模态爆发,定义新路径

中国AI从DeepSeek算力奇迹到Seedance多模态爆发,定义新路径

  #从Deepseek到Seedance中国AI成了# 从DeepSeek的“算力奇迹”到Seedance的“多模态爆发”,中国AI正在从“追赶者”变为“路径定义者”。标志着中国AI产业...

DeepSeek预测:切尔西vs阿斯顿维拉,蓝军主场能否终结维拉十连胜?内托PK

DeepSeek预测:切尔西vs阿斯顿维拉,蓝军主场能否终结维拉十连胜?内托PK

  圣诞赛程迎来焦点对决,排名第4的切尔西将在斯坦福桥迎战第3名阿斯顿维拉。蓝军目前积29分(8胜5平4负),距离欧冠区仅差7分;而维拉36分(11胜3平3负)紧咬榜首阿森纳,两队近5次交...

10月25日DeepSeek预测:凯尔特人vs尼克斯,塔图姆率队复仇麦迪逊广场花

10月25日DeepSeek预测:凯尔特人vs尼克斯,塔图姆率队复仇麦迪逊广场花

  NBA常规赛东部焦点战即将打响,10月25日07:30,波士顿凯尔特人将造访麦迪逊广场花园挑战纽约尼克斯。两支球队上赛季季后赛曾上演五场激战,此番再度相遇火药味十足。...

星火医疗大模型X2发布,讯飞晓医锚定健康刚需硬核升级

星火医疗大模型X2发布,讯飞晓医锚定健康刚需硬核升级

  2月11日,科大讯飞正式发布基于全国产算力训练的星火X2大模型,不仅在通用领域实现国产算力与核心能力的双重突破,更以底座升级为支点,完成星火医疗大模型X2迭代及讯飞晓医的硬核升级,以更...

Deepseek新架构降低训练成本,机构看好端侧应用,消费电子ETF(15973

Deepseek新架构降低训练成本,机构看好端侧应用,消费电子ETF(15973

  1月20日上午,A股三大指数走势分化,上证指数盘中上涨0.04%deepseek,房地产、建筑材料、建筑装饰等板块涨幅靠前,综合、通信跌幅居前。消费电子个股分化,截至9:49,消费电子...