当前位置:首页 > Deepseek最新资讯 > 正文内容

AI“以小博大”新标杆:三星开源 TRM 模型,700 万参数、特定任务性能媲美

3周前 (10-10)Deepseek最新资讯134

  IT之家 10 月 10 日消息,科技媒体 venturebeat 于 10 月 8 日发布博文,报道称三星高级 AI 研究院发布了名为微型递归模型(TRM)的开源 AI 模型,仅包含 700 万个参数,不过在数独、迷宫等特定的结构化推理任务上,表现媲美甚至超越了参数量为其 10000 倍的谷歌 Gemini 2.5 Pro 等顶尖大模型。

  该模型仅有 700 万参数,设计理念是极致简化复杂性。在架构方面,摒弃了分层推理模型(HRM)所依赖的双网络协作架构,转而采用一个仅有两层的单一模型。

  其核心机制在于“递归推理”:模型对自身输出的预测进行反复迭代和修正deepseek,每一步都纠正前一步的潜在错误,直至答案收敛稳定。

  TRM 通过这种方式,用迭代计算的深度模拟了庞大网络的复杂推理过程,实现了“以递归替代规模”的目标,从而在不牺牲性能的前提下,大幅降低了计算和内存成本。

  然而,一个重要的前提是,TRM 是专门为解决结构化、可视化的网格类问题(如数独、迷宫和特定解谜任务)而设计的,并非通用的语言聊天模型,它擅长在有明确规则的封闭环境中进行逻辑推理,而非开放式的语言生成。

  TRM 的成功源于其刻意追求的“少即是多”极简主义设计。研究发现,增加模型层数或大小反而会导致在小数据集上出现过拟合,性能下降。其精简的双层结构与递归深度相结合,实现了最佳效果。

  TRM 的代码、训练脚本和数据集目前已在 GitHub 上根据 MIT 许可证完全开源,企业和研究人员均可免费使用、修改和部署,甚至用于商业应用。原文出处:AI“以小博大”新标杆:三星开源 TRM 模型,700 万参数、特定任务性能媲美 Deepseek R1 等万倍大模型,感谢原作者,侵权必删!

标签: deepseek

“AI“以小博大”新标杆:三星开源 TRM 模型,700 万参数、特定任务性能媲美” 的相关文章

DeepSeek的AI智能体计划,你需要知道这些

DeepSeek的AI智能体计划,你需要知道这些

  (AI智能体)系统。与此同时,公司还发布了一份数据来源与安全说明,警告“幻觉”问题仍无法根除,并声明AI准确性仍有局限。   第一,DeepSeek在推R1推理模型的...

沐曦股份即将上市 其下一代国产高端GPU芯片或再现“DeepSeek神话”

沐曦股份即将上市 其下一代国产高端GPU芯片或再现“DeepSeek神话”

  近日,上海证券交易所公告显示,上市审核委员会定于10月24日审议沐曦集成电路(上海)股份有限公司(以下简称“沐曦股份”)的首发申请。   作为国内高性能GPU产品的领...

Deepseek推荐全国旅游百强区第53名:安徽合肥市庐阳区

Deepseek推荐全国旅游百强区第53名:安徽合肥市庐阳区

  日前,全国县镇发展研究课题组、天和经济研究所县镇发展研究院联合发布了2024《全国县镇发展报告》,报告评价篇对全国县市以及包含乡村人口的市辖区旅游发展水平进行了综合评价deepseek...

DeepSeek-OCR上线超算互联网 免费在线推理

DeepSeek-OCR上线超算互联网 免费在线推理

  上证报中国证券网讯(记者 李雁争)21日,DeepSeek-OCR模型上线超算互联网AI社区,企业和开发者均可下载模型文件进行快速部署开发。   除提供模型文件外,依...

百度智能云发布“智慧城轨整体解决方案”,赋能行业智能化升级

百度智能云发布“智慧城轨整体解决方案”,赋能行业智能化升级

  2025年,在中国国际城市轨道交通展览会上,百度智能云正式发布基于大模型的“智慧城轨整体解决方案”。该方案深度融合大模型能力与城市轨道交通核心业务,聚焦运行调度、设备运维、乘客服务与职...

DeepSeek -V3.1让国产算力迎新机遇

DeepSeek -V3.1让国产算力迎新机遇

  DeepSeek方面称,本次升级包含以下主要变化:混合推理架构让一个模型同时支持思考模式与非思考模式;相比DeepSeek-R1-0528,DeepSeek-V3.1-Think能在更...