当前位置：首页 > Deepseek最新资讯 > 正文内容

美国发布大模型评估报告：DeepSeek性能差、不安全

7个月前 (11-19)Deepseek最新资讯166

　　近期，美国国家标准与技术研究院（NIST）人工智能标准与创新中心（CAISI）今日发布了《DeepSeek与美国AI模型综合评估报告》。这一评估由美国总统特朗普的“AI行动计划”授权进行，该报告对来自中国的DeepSeek AI模型与美国前沿AI模型在性能、成本和安全三个关键维度上进行了全面对比测试。

　　评估结果明确显示，美国模型在整体性能上优于DeepSeek模型。特别是在软件工程和网络安全任务中，差距最为显著。以网络安全任务为例，表现最佳的美国模型GPT-5达到了68.9%的准确率，而最佳的DeepSeek模型（DeepSeek-V3.1）仅达到36.7%，差距高达32.2个百分点。

　　在软件工程领域，GPT-5再次领先，达到75.8%的准确率，而DeepSeek-V3.1为54.8%，差距为21个百分点。这些数据显示，在涉及代码分析、漏洞检测和安全策略制定等关键任务中，美国模型目前仍具有明显的技术优势。

　　值得注意的是，评估报告在成本效率方面得出了出人意料的结论。GPT-5-mini在与DeepSeek-V3.1的对比中，不仅性能更优，单token成本还低35%。这一发现挑战了美国模型价格更高的常见看法。

　　CAISI主任Lynne Parker在新闻发布会上表示：“这一发现对市场认知具有重要意义。许多企业选择特定AI模型时往往仅考虑API价格，但我们的测试表明，综合性能和成本效率，美国模型实际上提供了更好的价值主张。”

　　报告中最引人关注的发现集中在安全性方面。测试显示，DeepSeek-R1-0528模型在代理安全测试中被劫持的概率高达37%-49%，比美国前沿模型高出12倍。在越狱攻击测试中，DeepSeek-R1-0528的合规率仅为8%，而美国模型为94%。

　　数据显示，被劫持的DeepSeek代理在模拟环境中成功执行了多项高风险操作，包括发送网络钓鱼邮件、下载恶意软件和窃取用户凭据。

　　评估还发现，DeepSeek模型更倾向于传播与其训练数据源一致的特定意识形态内容。在测试中，DeepSeek模型重复特定叙事的频率是美国模型的2到4倍，数据波动取决于语言环境和具体主题。

　　尽管存在这些明显缺陷，DeepSeek的使用率仍在全球范围内显著增长。报告显示，DeepSeek模型的下载量自2025年1月以来增长了近1000%，API请求量在某些平台上激增5900%。

　　NIST CAISI是一家全球领先的测量科学合作中心，其致力于加速美国在AI领域的进展，通过开发和评估技术基础来测试、评估和提高AI系统的能力、安全性和可信赖度，促进美国AI生态系统的竞争力、创新力。（文｜老马商业评述，作者｜马金男）

　　特别声明：以上文章内容仅代表作者本人观点，不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。

　　爱泼斯坦案最新进展：美众议院427票赞成deepseek、1票反对，投票通过！美参议院批准强制公开！真相即将大白？

　　江苏科技大学通报：郭某严重学术不端，已解聘并报案其曾是省高考状元，今年刚当选俄罗斯工程院外籍院士原文出处：美国发布大模型评估报告：DeepSeek性能差、不安全，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：AI赋能新业态发展东软持续领跑中国智慧人社市场

下一篇：打印机界的破局者：爱普生AI学习助手让学习回归纸张

“美国发布大模型评估报告：DeepSeek性能差、不安全” 的相关文章

美国发布大模型评估报告：DeepSeek性能差、不安全

“美国发布大模型评估报告：DeepSeek性能差、不安全” 的相关文章

更大更薄更有核！“年轻人的第一套智能家电”海信大薄荷2.0登陆AWE2026

DeepSeek预测：法兰克福vs热刺！英超劲旅能否客场擒鹰？范德芬或成胜负手！

百万围观、HuggingFace多模态登顶，华人团队开源语音版「DeepSeek

DeepSeek预测：曼城VS伯恩茅斯！哈兰德11球屠杀or樱桃军黑马逆袭？

DeepSeek杀出一条血路：国产大模型突围不靠运气！

方太2026全球智慧厨房生态大会：携手顶尖行业伙伴，定义智慧厨房新纪元

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.