当前位置:首页 > Deepseek最新资讯 > 正文内容

美国发布大模型评估报告:DeepSeek性能差、不安全

7个月前 (11-19)Deepseek最新资讯166

  近期,美国国家标准与技术研究院(NIST)人工智能标准与创新中心(CAISI)今日发布了《DeepSeek与美国AI模型综合评估报告》。这一评估由美国总统特朗普的“AI行动计划”授权进行,该报告对来自中国的DeepSeek AI模型与美国前沿AI模型在性能、成本和安全三个关键维度上进行了全面对比测试。

  评估结果明确显示,美国模型在整体性能上优于DeepSeek模型。特别是在软件工程和网络安全任务中,差距最为显著。以网络安全任务为例,表现最佳的美国模型GPT-5达到了68.9%的准确率,而最佳的DeepSeek模型(DeepSeek-V3.1)仅达到36.7%,差距高达32.2个百分点。

  在软件工程领域,GPT-5再次领先,达到75.8%的准确率,而DeepSeek-V3.1为54.8%,差距为21个百分点。这些数据显示,在涉及代码分析、漏洞检测和安全策略制定等关键任务中,美国模型目前仍具有明显的技术优势。

  值得注意的是,评估报告在成本效率方面得出了出人意料的结论。GPT-5-mini在与DeepSeek-V3.1的对比中,不仅性能更优,单token成本还低35%。这一发现挑战了美国模型价格更高的常见看法。

  CAISI主任Lynne Parker在新闻发布会上表示:“这一发现对市场认知具有重要意义。许多企业选择特定AI模型时往往仅考虑API价格,但我们的测试表明,综合性能和成本效率,美国模型实际上提供了更好的价值主张。”

  报告中最引人关注的发现集中在安全性方面。测试显示,DeepSeek-R1-0528模型在代理安全测试中被劫持的概率高达37%-49%,比美国前沿模型高出12倍。在越狱攻击测试中,DeepSeek-R1-0528的合规率仅为8%,而美国模型为94%。

  数据显示,被劫持的DeepSeek代理在模拟环境中成功执行了多项高风险操作,包括发送网络钓鱼邮件、下载恶意软件和窃取用户凭据。

  评估还发现,DeepSeek模型更倾向于传播与其训练数据源一致的特定意识形态内容。在测试中,DeepSeek模型重复特定叙事的频率是美国模型的2到4倍,数据波动取决于语言环境和具体主题。

  尽管存在这些明显缺陷,DeepSeek的使用率仍在全球范围内显著增长。报告显示,DeepSeek模型的下载量自2025年1月以来增长了近1000%,API请求量在某些平台上激增5900%。

  NIST CAISI是一家全球领先的测量科学合作中心,其致力于加速美国在AI领域的进展,通过开发和评估技术基础来测试、评估和提高AI系统的能力、安全性和可信赖度,促进美国AI生态系统的竞争力、创新力。(文|老马商业评述,作者|马金男)

  特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。

  爱泼斯坦案最新进展:美众议院427票赞成deepseek、1票反对,投票通过!美参议院批准强制公开!真相即将大白?

  江苏科技大学通报:郭某严重学术不端,已解聘并报案 其曾是省高考状元,今年刚当选俄罗斯工程院外籍院士原文出处:美国发布大模型评估报告:DeepSeek性能差、不安全,感谢原作者,侵权必删!

标签: deepseek

“美国发布大模型评估报告:DeepSeek性能差、不安全” 的相关文章

更大更薄更有核!“年轻人的第一套智能家电”海信大薄荷2.0登陆AWE2026

更大更薄更有核!“年轻人的第一套智能家电”海信大薄荷2.0登陆AWE2026

  当“家的主导权”交棒至年轻人手中,家电消费正全面向套系化、智能化升级,年轻人购买的不仅是一套家电,更是背后的情绪价值与生活质感——既渴望用一个指令“硬控”全屋家电,又追求与家装完美适配...

DeepSeek预测:法兰克福vs热刺!英超劲旅能否客场擒鹰?范德芬或成胜负手!

DeepSeek预测:法兰克福vs热刺!英超劲旅能否客场擒鹰?范德芬或成胜负手!

  德甲老牌劲旅法兰克福本赛季欧冠表现堪称灾难——联赛阶段7轮仅积4分排名第33,场均丢球2.71个(赛事最差),最近3场更是狂丢9球。反观热刺虽在英超起伏不定,但欧冠赛场以14分高居第5...

百万围观、HuggingFace多模态登顶,华人团队开源语音版「DeepSeek

百万围观、HuggingFace多模态登顶,华人团队开源语音版「DeepSeek

  在大模型快速迭代的背景下,语音交互正从「语音转文本(ASR)— 文本理解 — 文本转语音(TTS」的串联式架构,逐步走向端到端的实时语音生成。这一转变不仅关系到延迟和自然度,也直接影响...

DeepSeek预测:曼城VS伯恩茅斯!哈兰德11球屠杀or樱桃军黑马逆袭?

DeepSeek预测:曼城VS伯恩茅斯!哈兰德11球屠杀or樱桃军黑马逆袭?

  英超第10轮即将上演一场极具看点的对决——卫冕冠军曼城坐镇伊蒂哈德球场迎战本赛季最大黑马伯恩茅斯。目前曼城以16分排名第5,距离欧冠区仅1分之差;而伯恩茅斯则以18分高居积分榜次席,堪...

DeepSeek杀出一条血路:国产大模型突围不靠运气!

DeepSeek杀出一条血路:国产大模型突围不靠运气!

  进入2025年末,全球大模型赛道的技术焦点几乎被Google重新夺回。Gemini 3 Pro横空出世,在多个权威基准上超越所有开源模型,重新确立了闭源阵营的技术高地。一时间,业内关于...

方太2026全球智慧厨房生态大会:携手顶尖行业伙伴,定义智慧厨房新纪元

方太2026全球智慧厨房生态大会:携手顶尖行业伙伴,定义智慧厨房新纪元

  2026年3月11日,在全球家电产业从硬件竞赛迈向生态协同的关键转折点,方太集团成功举办2026全球智慧厨房生态大会。大会汇聚了来自家电、科技、人工智能、房地产与设计等领域的精英,方太...