当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek声称其“推理”模型在某些基准测试上超越OpenAI的o1

2个月前 (03-07)Deepseek最新资讯138

中国 AI 实验室 DeepSeek 发布了其所谓推理模型 DeepSeek-R1 的开源版本,声称在某些 AI 基准测试上表现与 OpenAI 的 o1 相当。

R1 在 AI 开发平台 Hugging Face 上以 MIT 许可证发布,这意味着它可以不受限制地用于商业用途。据 DeepSeek 称,R1 在 AIME、MATH-500 和 SWE-bench Verified 基准测试上超越了 o1。AIME 使用其他模型来评估模型的性能,而 MATH-500 是一系列应用题集合。SWE-bench Verified 则专注于编程任务。

作为一个推理模型,R1 能够有效地进行自我事实核查,这有助于避免通常让模型陷入困境的一些陷阱。与典型的非推理模型相比,推理模型需要更长的时间(通常多几秒到几分钟)来得出解决方案。好处是它们在物理、科学和数学等领域往往更可靠。

DeepSeek 在一份技术报告中透露,R1 包含 6710 亿个参数。参数大致对应于模型的问题解决能力,具有更多参数的模型通常比具有较少参数的模型表现更好。

确实,6710 亿参数规模庞大,但 DeepSeek 同时发布了 R1 的"精简"版本,参数规模从 15 亿到 700 亿不等。最小的版本可以在笔记本电脑上运行。至于完整版 R1,虽然需要更强大的硬件,但可以通过 DeepSeek 的 API 使用,价格比 OpenAI 的 o1 便宜 90%-95%。

Hugging Face 的 CEO Clem Delangue 周一在 X 平台上发帖称,平台上的开发者已经创建了超过 500 个 R1 的"衍生"模型,总下载量达到 250 万次——是官方 R1 下载量的五倍。

R1 也有其局限性。作为一个中国模型,它需要接受中国互联网监管机构的审查,以确保其回应"体现社会主义核心价值观"。例如,R1 不会回答关于天安门广场或台湾自治的问题。

许多中国 AI 系统,包括其他推理模型,都会回避可能引起国内监管机构不满的话题,如对习近平政权的推测。

R1 的发布恰逢即将卸任的拜登政府提出对中国企业实施更严格的 AI 技术出口规则和限制。中国公司已经被禁止购买先进的 AI 芯片,如果新规则按原文生效,公司将面临更严格的半导体技术和模型限制。

在上周的一份政策文件中,OpenAI 敦促美国政府支持美国 AI 的发展,以免中国模型在能力上赶上或超越它们。在接受采访时,OpenAI 的政策副总裁 Chris Lehane 特别指出 DeepSeek 的母公司 High Flyer Capital Management 是一个特别值得关注的机构。

到目前为止,至少有三家中国实验室——DeepSeek、阿里巴巴和 Moonshot AI 旗下的 Kimi——声称他们的模型可以与 o1 匹敌。(值得注意的是,DeepSeek 是最早的——它在 11 月底宣布了 R1 的预览版。)乔治梅森大学的 AI 研究员 Dean Ball 在 X 平台上发帖称,这一趋势表明中国 AI 实验室将继续保持"快速跟随者"的角色。

Ball 写道:"DeepSeek 精简模型的出色表现意味着非常强大的推理器将继续广泛传播,并可以在本地硬件上运行,远离任何自上而下的控制机制的监视。"


“DeepSeek声称其“推理”模型在某些基准测试上超越OpenAI的o1” 的相关文章

教师分享:DeepSeek的深度使用攻略

教师分享:DeepSeek的深度使用攻略

在数字化时代,教育领域正经历深刻变革,高校教师肩负着提升教学质量、推动科研创新和高效管理学生的重任。DeepSeek 作为一款强大的人工智能工具,为教师提供了多维度的支持,能有效优化教学流程、加速科研...

DeepSeek总结最浪费时间的7大行为,看完我开始深度反思

DeepSeek总结最浪费时间的7大行为,看完我开始深度反思

鲁迅有句名言,影响了我很多年。他说:“生命是以时间为单位的,浪费别人的时间等于谋财害命;浪费自己的时间,等于慢性自杀。”而很多人几乎每天都在慢性自杀,只是他们自己从未察觉。DeepSeek通过大数据统...

“牵手”DeepSeek,福建监狱开启深度思考时代

“牵手”DeepSeek,福建监狱开启深度思考时代

在国家大力发展新质生产力的背景下福建监狱抢抓AI战略机遇以开展“强基提质 增效赋能”专项行动为契机于2024年初启动AI大模型创新项目试点单位仓山监狱率先完成多轮技术迭代论证在监狱内网部署千亿级参数大...

全市首个!大兴人才服务平台用上DeepSeek大模型

全市首个!大兴人才服务平台用上DeepSeek大模型

 为深入推进北京高水平人才高地建设,进一步提升地区人才宣传服务质量,创新打造区级独立人才服务宣传综合展示平台,全面实施“求贤、集贤、礼贤”三大人才工程,努力实现人才服务“随时查”“掌上办”,助力区域产...

签约6个亿:中国电信董事长柯瑞文谈DeepSeek的高性能、低成本、轻量化和开源为人工智能发展提供前所未有发展机遇

签约6个亿:中国电信董事长柯瑞文谈DeepSeek的高性能、低成本、轻量化和开源为人工智能发展提供前所未有发展机遇

 【通信产业网讯】(记者 崔亮亮)3月25日,中国电信(601728)举行2024年度业绩说明会。针对人工智能对今后增长的提问,中国电信董事长柯瑞文表示,DeepSeek的高性能、低成本、轻量化和开源...

最近刷屏的Manus是什么?它跟DeepSeek有啥区别?能做些啥?

最近刷屏的Manus是什么?它跟DeepSeek有啥区别?能做些啥?

最近,Manus火出圈了。它是全球首款具备通用能力的AI智能体。很多朋友看到AI、AI智能体词都绕晕了,相比于过年时期很火的DeepSeek,它到底有啥区别呢?一、什么是Manus?Manus ,是由...