当前位置：首页 > Deepseek最新资讯 > 正文内容

华为昇腾、寒武纪宣布适配DeepSeek最新模型

9个月前 (09-30)Deepseek最新资讯367

　　V3.2-Exp在V3.1-Terminus的基础上首次引入了团队自研的DeepSeek Sparse Attention （一种稀疏注意力机制，DSA），针对长文本的训练和推理效率进行了探索性的优化和验证。

　　DSA是一种针对Transformer架构的优化技术。在大语言模型的技术机制中，注意力机制是一个核心组件，决定了模型如何在文本序列中聚焦关键信息，实现语义理解与生成。

　　简单对比来看，在Transformer架构中，传统的注意力机制是“稠密的”，处理长文本时计算量会呈指数级增长。DSA则是一种“稀疏”方案，更高效，成本也更低。

　　除技术创新与价格“腰斩”外， DeepSeek此次开源TileLang版本算子，同样引发业内高度关注。

　　作为一款实验版本，DeepSeek认识到“新模型仍需在更广泛的用户真实场景中进行大规模测试，以排除在某些场景下效果欠佳的可能”。

　　为方便用户进行对比测试，DeepSeek为此前发布的V3.1-Terminus临时保留了额外的API访问接口，将开放至10月15日，调用价格与V3.2-Exp一致。

　　根据业内分析deepseek，传统的Transformer全连接注意力机制，虽然在模型效果上表现出色，但其“稠密的”注意力机制使得计算复杂度随着文本长度增加，计算量呈指数级增长。这使得在处理长文本时，模型面临巨大的计算资源压力，训练时间被大幅拉长，推理速度也难以满足实时性需求。

　　针对长文本处理的主要计算瓶颈，DeepSeek Sparse Attention（DSA）首次实现细粒度稀疏注意力机制。

　　DSA机制能够自适应地选择关键注意力头与局部上下文窗口。简单对比来看，在Transformer架构中，传统的注意力机制是“稠密的”，处理长文本时计算量会呈指数级增长。DSA则是一种“稀疏”方案，更高效，成本也更低。

　　通过引入DSA机制，V3.2-Exp实现了长文本训练和推理效率的大幅提升。同时，在与前代模型V3.1-Terminus的严格对齐比较中，V3.2-Exp在各项核心能力上都保持了与V3.1-Terminus基本持平的水准。

　　得益于新模型服务成本的大幅降低，DeepSeek API的价格也大幅下调，开发者调用DeepSeek API的成本将降低50%以上。

　　DeepSeek V3.2-Exp发布后，华为昇腾、寒武纪和海光信息也第一时间宣布完成了与其适配，显示出当前国产AI软硬件生态的协同发展。

　　同时还值得注意的是，DeepSeek此次开源了新模型研究中设计和实现的GPU算子，包括 TileLang 和 CUDA 两种版本。DeepSeek建议社区在进行研究性实验时，使用基于 TileLang 的版本以方便调试和快速迭代。

　　TileLang是由北京大学计算机学院副研究员杨智团队主导开发的开源AI算子编程语言，专门为简化复杂的GPU算子开发而设计，在Tile粒度上进行编程和编译，实现模型算子和硬件的高效协同。开发者使用TileLang可以用更简洁的代码表达复杂计算，同时获得接近手写算子的高性能，从而显著提升AI算子的开发效率。

　　TileLang团队核心成员董宇骐此前曾介绍，TileLang实现了FlashAttention算子开发，代码量从超500行减少至80行，并保持了与官方版本持平的性能。

　　TileLang与国产硬件生态适配。“华为计算”在9月29日傍晚宣布昇腾已实现DeepSeek-V3.2-Exp 0day支持，并面向开发者开源所有推理代码和算子实现。其称，昇腾已实现TileLang的Sparse Flash Attention和Lightning Indexer算子开发，后续将支持更完备的NPU算子并提升性能和泛化性。原文出处：华为昇腾、寒武纪宣布适配DeepSeek最新模型，感谢原作者，侵权必删！

标签: deepseek