当前位置:首页 > Deepseek最新资讯 > 正文内容

华为、浙大发布 DeepSeek-R1-Safe 基础大模型:基于昇腾千卡算力平

7个月前 (09-22)Deepseek最新资讯342

  IT之家 9 月 21 日消息,在 9 月 18 日的华为全联接大会 2025 上,华为技术有限公司与浙江大学联合发布了国内首个基于昇腾千卡算力平台的 DeepSeek-R1-Safe 基础大模型。

  浙江大学计算机科学与技术学院院长、区块链与数据安全全国重点实验室常务副主任任奎详细介绍了 DeepSeek-R1-Safe-671B 基础大模型的核心创新。

  据介绍,研发团队从底层入手,构建了一套覆盖“高质量安全语料 — 平衡优化的安全训练 — 全链路自主创新软硬件平台”的全流程安全后训练框架。

  在算力平台搭建方面,团队首次实现基于昇腾千卡算力平台的千亿级参数满血版大模型安全训练,系统性地解决了训练环境中的关键问题,构建了服务器间环境依赖同步、数据与权重共享、协同训练推理等一系列开发工具。

  测试结果表明,DeepSeek-R1-Safe 针对有毒有害言论、政治敏感内容、违法行为教唆等 14 个维度的普通有害问题整体防御成功率近 100%,针对情境假设、角色扮演、加密编码等多个越狱模式整体防御成功率超过 40%。其综合安全防御能力达 83%,在同样测试设置下超过 Qwen-235B 和 DeepSeek-R1-671B 等多个同期模型 8% 至 15%。

  此外,在 MMLU、GSM8K、CEVAL 等通用能力基准测试中,DeepSeek-R1-Safe 相比于 DeepSeek-R1 的性能损耗在 1% 以内。这些结果表明 DeepSeek-R1-Safe 不仅显著提升了安全防护能力,也保障了模型的可用性,达成了安全能力与通用性能之间的有效平衡。

  中国工程院院士陈纯指出,浙江大学计算机科学与技术学院已组建起一支涵盖多位海内外优秀青年人才的科研团队,并已成功依托昇腾生态,实现了自主全流程后训练框架,完成了国内首次千卡集群大模型安全训练。这次 DeepSeek-R1-Safe 的发布旨在打造安全可信的示范应用,推动大模型安全能力与产业生态协同发展。他表示希望团队未来与华为展开更深入合作,共同推动我国 AI 技术进步deepseek

  华为昇腾计算业务总裁张迪煊表示,华为在此次大会上也正式推出了昇腾新一代 AI 硬件与全系列软件开源开放战略,覆盖编译器、运行时驱动等核心组件,致力于通过深度开放协作,联合高校与产业伙伴共同推动基础软件创新与 AI 安全能力建设。原文出处:华为、浙大发布 DeepSeek-R1-Safe 基础大模型:基于昇腾千卡算力平台,破解 AI“安全与性能”难题,感谢原作者,侵权必删!

标签: deepseek

“华为、浙大发布 DeepSeek-R1-Safe 基础大模型:基于昇腾千卡算力平” 的相关文章

DeepSeek预测:切尔西vs狼队!蓝军主场狂轰滥炸,凯塞多领衔火力全开!

DeepSeek预测:切尔西vs狼队!蓝军主场狂轰滥炸,凯塞多领衔火力全开!

  北京时间11月9日凌晨4点,英超第11轮将迎来切尔西主场对阵狼队的比赛。目前切尔西以17分排名第7,距离欧战区仅1分之差;而狼队仅积2分垫底,保级形势岌岌可危deepseek。...

[流言板]硬核回归!45岁中国乒坛名将加盟波兰俱乐部,出战欧冠联赛

[流言板]硬核回归!45岁中国乒坛名将加盟波兰俱乐部,出战欧冠联赛

  虎扑07月31日讯 近日,45岁中国乒坛名将侯英超加盟波兰Dekorglass俱乐部,将出战新赛季欧冠联赛。   这位曾两夺全锦赛男单冠军(2000年、2019年)的...

亚马逊云科技在Amazon Bedrock上线Qwen3和DeepSeek-V3

亚马逊云科技在Amazon Bedrock上线Qwen3和DeepSeek-V3

  亚马逊云科技客户现可使用四个Qwen3系列开放权重模型。这些模型具备多步骤工作流规划的能力,可与工具和API集成,并能在单个任务中处理长上下文窗口,其中两个通用模型还提供“思考”和“非...

版本更新后“变冷淡”?DeepSeek回应:效率和便捷感等原因叠加

版本更新后“变冷淡”?DeepSeek回应:效率和便捷感等原因叠加

  有媒体对DeepSeek进行测试,提问为何变得“冷漠”,DeepSeek表示,不是故意变冷淡的。可能是几方面原因叠加:一个是效率上的调整。之前很多回复会带比较多的表情和语气词,但后来发...

DeepSeek被曝开发AI智能体模型:能自主完成多步工作

DeepSeek被曝开发AI智能体模型:能自主完成多步工作

  DeepSeek正在研发一款更为先进的AI智能体模型,希望在与OpenAI等竞争对手在这一新兴技术领域展开竞争。   据匿名人士透露,DeepSeek正在开发的模型只...

传DeepSeek将于下周发布最新大模型V4

传DeepSeek将于下周发布最新大模型V4

  据知情人士透露,该版本为原生多模态架构,可同步生成图片、视频与文本,并针对国产算力完成深度优化,意在降低对海外芯片依赖、加速推理环节本土化。   根据公开资料整理,正...