当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek V3.1 终极版拆解:“人类最后测试”表现提升36.5%,或为

7个月前 (09-23)Deepseek最新资讯298

  据官方介绍,此次更新是基于原有模型能力,着重改进了语言一致性问题deepseek,并进一步优化了Code Agent与Search Agent的表现。

  值得一提的是,距离上次DeepSeek-V3.1模型更新仅过了一个月,新模型DeepSeek-V3.1-Terminus在多个专业基准测试中的表现均有提升。

  在非Agent(Thinking)模式下, DeepSeek-V3.1-Terminus在MMLU-Pro(广泛学科知识)、GPQA-Diamond(顶尖专业科学难题)等方面表现较旧版本更优。其中在Humanity‘s Last Exam(人类最后测试)中表现提升高达36.5%,目前已超越Gemini 2.5 Pro模型来到全球排行榜第三位,该测试主要考察模型在多种极端困难任务上的整体表现。

  而在Agent测评中,DeepSeek-V3.1-Terminus的网页浏览、编程能力和问答表现均得到小幅提升。

  实测:被吐槽的两大bug修复,终于不再“迷糊”今年8月,在DeepSeek-V3.1发布后,有不少用户反馈新模型有两个严重Bug值得关注。其一是模型会出现语言不一致问题,输出的回答经常中、英、法等语言混用,令用户费解。另一方面在于用API调用模型时,会不受控地随机输出“极”、“extreme”字样,影响代码正常运行。

  针对第一个问题,有网友在让DeepSeek-V3.1帮忙分析红楼梦的文学价值时,输出的答案会突然插一句“这个metaphor运用得极其精妙”,让用户哭笑不得。

  搜狐科技在新模型DeepSeek-V3.1-Terminus测试发现,语言混杂的问题得到了缓解,并且语意表述较之前更为通顺。

  另有网友提到,此前翻译小语种时DeepSeek-V3.1出现多国语言混杂问题更加严重。搜狐科技也对此进行了测试,把一长段西班牙语喂给DeepSeek-V3.1-Terminus,并要求用7国语言进行转译,未发现语言混杂问题出现。

  之前会在输出代码中出现“time.Se极”等异常字符,尤其是在用Go和Python语言编写时出现概率很高。但在新模型上经多次测试,均未再出现类似异常。

  自V3.1版本模型发布以来,DeepSeek官方将其称为“迈向 Agent 时代的第一步”,并持续深入在 AI Agent 领域的布局。如今强调DeepSeek-V3.1-Terminus在Agent能力上的优化,进一步证实了这一战略重心。

  据多方消息爆料,DeepSeek 目前正紧锣密鼓开发具备更强大 AI Agent 能力的全新模型,计划于 2025 年第四季度重磅推出。

  此次对于“Terminus(终点)”的模型命名,一度引发网友猜测。有业内人士表示,“虽然DeepSeek并未官宣这是V3系列的最后一次更新,但其名称确实表明了这一点。预计下一版本的发布会是一个全新的架构,并会在Agent方面展示更多惊喜。”

  另有开发者也表达了相似观点,“这极有可能代表V3.1的技术架构,到这里已经打磨的差不多了,DeepSeek-V3.1-Terminus就是这个系列的收官之作,恰好也是下一代模型的起点。”

  海内外社交平台已经频现网友催更:DeepSeek-V4/DeepSeek-R2,是不是就要来了?原文出处:DeepSeek V3.1 终极版拆解:“人类最后测试”表现提升36.5%,或为 V4R2 模型序曲,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek V3.1 终极版拆解:“人类最后测试”表现提升36.5%,或为” 的相关文章

网友们怒了!DeepSeek更新后彻底「变傻」,官方仍未回应

网友们怒了!DeepSeek更新后彻底「变傻」,官方仍未回应

  不知道昨天在用 DeepSeek 的朋友们有没有发现,从昨天开始,不管是网页端还是 App 端,它悄咪咪开启了灰度测试,没发任何预告就完成了更新。   官方说这次更新...

DeepSeek预测:纽卡斯尔vs曼城!哈兰德14球碾压喜鹊防线,蓝月亮客场2-

DeepSeek预测:纽卡斯尔vs曼城!哈兰德14球碾压喜鹊防线,蓝月亮客场2-

  英超第12轮即将迎来一场焦点战,排名第14的纽卡斯尔将在圣詹姆斯公园球场迎战积分榜次席的曼城。主队目前仅领先降级区2分,而客队则紧咬领头羊阿森纳,这场对决堪称冰与火的碰撞。...

央视对谈周鸿祎:智能体时代,不懂AI就会被淘汰

央视对谈周鸿祎:智能体时代,不懂AI就会被淘汰

  当下,人工智能无疑是最热门领域之一。近日,央视《读书》栏目邀请到360集团创始人周鸿祎,围绕人工智能这一核心话题展开深入交流,从日常应用到行业变革,从个人成长到国际竞争,周鸿祎的分享为...

DeepSeek变冷不是翻车,这本就是AI该有的样子

DeepSeek变冷不是翻车,这本就是AI该有的样子

  近日,DeepSeek升级被用户骂“变冷淡”,舆论一边倒地同情用户、指责产品,但我反倒觉得,大家对待事情的方向错了。   这款大模型变得克制、简洁、不煽情、不讨好,非...

DeepSeek App迎来重要更新!

DeepSeek App迎来重要更新!

  此外,网传DeepSeek-R2大模型将于8月15日至30日期间发布,不过据媒体报道称,据接近DeepSeek人士透露,上述消息不实,并确认DeepSeek-R2在8月内并无发布计划。...

DeepSeek预测:巴黎圣日耳曼vs拜仁慕尼黑,凯恩vs姆巴佩,谁能笑到最后?

DeepSeek预测:巴黎圣日耳曼vs拜仁慕尼黑,凯恩vs姆巴佩,谁能笑到最后?

  欧冠联赛第4轮即将迎来一场焦点大战,巴黎圣日耳曼将在主场迎战拜仁慕尼黑。目前两支球队在联赛阶段均保持全胜战绩,巴黎圣日耳曼以13个进球排名第一,拜仁慕尼黑以12个进球排名第三。这场比赛...