当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek又发新论文:让AI用“人类思维”理解图像

3个月前 (01-28)Deepseek最新资讯78

  2026开年未满一个月,DeepSeek就发布了两篇创始人梁文锋署名的论文——元旦抛出mHC架构论文破解模型稳定性难题,月中又靠Engram论文提出 “静态知识存为可检索记忆表”的新思路。

  1月27日,DeepSeek开源模型DeepSeek-OCR 2(其核心定位为处理静态图像)并同步发布论文《DeepSeek-OCR 2: Visual Causal Flow(直译为“视觉因果流”)》。新京报贝壳财经记者浏览论文发现,视觉因果流机制可使模型不再像扫描仪一样按像素顺序“扫图”,而是能够像人类阅读一样,依据语义和逻辑关系理解图像内容,从而显著提升其在表格、文档和公式等复杂结构场景中的识别与理解效果。

  长期以来,主流视觉语言模型在处理图像时,普遍采用固定的像素扫描顺序。将图像切分为若干视觉单元后,按照从左到右、从上到下的方式输入模型。这种方式在自然图片中尚能发挥作用,但在表格、多栏文档、技术资料和数学公式等结构化内容中,却暴露出明显局限。

  在这些场景下,信息之间往往存在清晰的语义层级和逻辑依赖,例如标题与正文、行名与数值、主公式与注释等。然而,固定的空间顺序无法反映这些关系,导致模型虽然能够识别局部文字,却难以还原整体结构,从而影响后续理解与推理效果。

  随着模型规模不断扩大,这一问题并未得到根本解决。研究者逐渐意识到,性能瓶颈并不完全源于参数数量或算力不足,而在于视觉信息被组织和输入模型的方式本身。换言之,模型“看得见”,但“怎么看”才是关键。DeepSeek-OCR 2 正是在这一背景下提出,它尝试从根本上调整模型对图像的理解路径,而不是继续依赖更大的模型规模来弥补结构理解的不足。

  在此背景下,DeepSeek-OCR 2的核心创新在于提出“视觉因果流”机制,使模型不再机械地按像素顺序处理图像,而是根据语义和逻辑关系动态组织视觉信息。在具体实现上,模型在视觉编码阶段引入语义与因果感知能力,通过改进的视觉编码器,对不同视觉单元之间的依赖关系进行建模,判断哪些信息在理解上具有先行性,哪些内容是对前者的补充或延展。

  基于这种判断,模型会对视觉token进行动态重排,并结合可重组的位置编码,将结构更加清晰的序列输入语言模型。这样,语言模型在生成和推理阶段接收到的,不再是杂乱无序的像素序列,而是一条更接近人类阅读习惯的“理解路径”。研究团队将这一过程概括为“视觉因果流”,即图像中隐含的语义理解顺序。

  实验结果表明,该机制在表格解析、多栏文档理解和公式识别等任务中表现突出,相较于前代 DeepSeek-OCR,整体性能提升 3.73%,阅读顺序(R-order)的编辑距离(ED)也显著降低(从0.085降至0.057),这表明新的DeepEncoder V2能够根据图像信息有效地选择和排列初始视觉标记。

  论文最后表示,尽管光学字符识别deepseek,尤其是文档解析,是大模型时代最具实用价值的视觉任务之一,但它只是更广泛视觉理解版图中的一部分。未来,相关架构还将持续优化并拓展至更多复杂场景,进一步探索多模态智能在更深层次视觉理解中的潜力。原文出处:DeepSeek又发新论文:让AI用“人类思维”理解图像,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek又发新论文:让AI用“人类思维”理解图像” 的相关文章

12月12日DeepSeek预测:掘金vs国王,约基奇率队客场轻取残阵国王

12月12日DeepSeek预测:掘金vs国王,约基奇率队客场轻取残阵国王

  西部第二的丹佛掘金将客场挑战西部垫底的萨克拉门托国王,这场看似实力悬殊的较量却暗藏玄机。约基奇领衔的卫冕冠军近期状态火热,而国王则面临核心球员大面积伤病的困境。   ...

寒武纪:已同步实现对DeepSeek-V3.2-Exp的适配

寒武纪:已同步实现对DeepSeek-V3.2-Exp的适配

  观点网讯:9月29日,寒武纪公众号发文表示deepseek,2025年9月29日,寒武纪已同步实现对深度求索公司最新模型DeepSeek-V3.2-Exp的适配,并开源大模型推理引擎v...

《水木清华》专访医渡科技徐济铭:数据驱动医疗变革的探路者

《水木清华》专访医渡科技徐济铭:数据驱动医疗变革的探路者

  近年来清华大学培养了一大批优秀的人工智能人才,一批清华校友现已成为我国人工智能产业的中坚力量。进入2020年代,在大模型引领的人工智能时代新浪潮下,“清华人”主导的AI大模型企业相继涌...

机器人会颠勺,口味不“翻车”!厨纪让天下没有难做的中餐

机器人会颠勺,口味不“翻车”!厨纪让天下没有难做的中餐

  一日三餐,四方食事。餐饮这一绑定着千家万户的烟火产业,是中国消费市场中活力最足、体量最大的赛道之一。iiMedia Research(艾媒咨询)发布的《2025-2026年中国食品风味...

知情人士:DeepSeek将于2月发布其最新旗舰AI模型

知情人士:DeepSeek将于2月发布其最新旗舰AI模型

  据两位直接知情人士透露,深度求索(DeepSeek)预计将在未来几周内推出新一代旗舰级人工智能模型,该模型主打强劲的代码生成能力。   两位知情人士表示,这款代号为V...

DeepSeek预测:毕尔巴鄂竞技vs巴黎圣日耳曼!姆巴佩缺席,巴斯克雄狮能否逆

DeepSeek预测:毕尔巴鄂竞技vs巴黎圣日耳曼!姆巴佩缺席,巴斯克雄狮能否逆

  在25/26赛季欧冠联赛阶段第6轮,西甲劲旅毕尔巴鄂竞技将坐镇圣马梅斯球场迎战卫冕冠军巴黎圣日耳曼。目前大巴黎以12分高居积分榜第2位,而毕尔巴鄂仅积4分排名第27位,距离安全区还有6...