当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek开源全新OCR模型!弃用CLIP改用Qwen轻量小模型

3个月前 (01-28)Deepseek最新资讯73

  相较于去年10月20日发布的初代模型,DeepSeek-OCR 2的核心突破在于打破了传统模型死板的“光栅扫描”逻辑,实现了

  为此,DeepSeek-OCR 2弃用了前作中的CLIP组件,转而使用轻量化的语言模型(Qwen2-0.5B)构建DeepEncoder V2,在视觉编码阶段就引入了“因果推理”能力。

  编码器负责将图像离散化为视觉标记(Visual Tokens),解码器则结合这些标记与用户指令生成最终文本输出。

  传统的视觉编码器通常按照固定的“光栅扫描”(从左到右、从上到下)顺序处理图像,这在面对复杂版面(如双栏文档、错落的表格)时,往往会切断语义的逻辑连贯性。

  将此前的CLIP组件替换为轻量化的LLM架构(Qwen2-0.5B),这一转变赋予了编码器因果推理能力

  为了实现这种智能重排,DeepEncoder V2引入了一种全新的双流注意力机制,其底层逻辑通过一个定制的注意力掩码(Attention Mask)来约束:

  这种设计使得视觉标记之间互不干扰(保持原始特征),但每一个查询标记却被强制要求只能“看到”它之前的标记以及所有的视觉标记。

  相比传统的交叉注意力结构,这确保视觉信息在所有层中都保持“活跃”,从而与因果查询进行深度信息交换。

  而在V2中,通过查询标记(Learnable Query)的重排,模型在进入主解码器之前,就已经在编码器内部完成了一次“逻辑理顺”

  首先是一开头的视觉分词器(SAM),其沿用了此前的架构,采用了80M参数的SAM-base架构,并结合两层卷积层。

  输出维度从前代的1024优化缩减至896,以对齐后续管线,这套分词器的设置实现了16倍的标记压缩

  这种基于压缩的设计,以极小的参数开销,极大地释放了后续全局注意力模块的计算压力,让模型运行更轻快。

  此外,为了在处理不同分辨率图像时“不丢细节”,DeepSeek-OCR 2在编码阶段还引入了灵活的裁剪方案:

  最终输入LLM的标记总数稳定在256到1120之间,与Gemini-1.5 Pro的视觉预算相匹配。

  最后,在后端解码器部分,DeepSeek-OCR 2保留了3B参数的MoE结构(实际激活参数仅约 500M)。

  在数据策略上,DeepSeek-OCR 2延续了与前代相同的数据源,OCR相关数据占比达80%deepseek

  二是标签精简化,合并了如“图片说明”与“标题”等语义相似的布局标签。这种极小的底层差异,确保了其与基准测试之间具备高度的一致性与可比性。

  在实验阶段,DeepSeek-OCR 2主要在OmniDocBench v1.5上进行评估,包含1355个页面,涵盖杂志、学术论文、研究报告等9大类文档。

  在实际生产中,在线用户日志的重复率从6.25%降至4.17%,PDF 生产数据重复率从 3.69% 降至 2.88%,证明了模型逻辑视觉理解能力的提升。

  整体来看,DeepSeek-OCR 2在保持高压缩率的同时实现了显著的性能提升验证了使用语言模型架构作为视觉编码器的可行性,这为迈向统一的全模态编码器(omni-modal encoder)提供了路径。

  李宇琨,谷歌学术论文近万引研究员,也持续参与了包括DeepSeek V2/V3在内的多款模型研发。原文出处:DeepSeek开源全新OCR模型!弃用CLIP改用Qwen轻量小模型,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek开源全新OCR模型!弃用CLIP改用Qwen轻量小模型” 的相关文章

【中原计算机】人工智能专题:后R1时代,DeepSeek发展的三大阶段

【中原计算机】人工智能专题:后R1时代,DeepSeek发展的三大阶段

  DeepSeek在年初发布了R1以后,受到了各界普遍关注。后续来看,DeepSeek并没有如期发布更先进的模型R2,而是在进行更多小版本的更新换代。结合每个阶段的发展重点,我们将其划分...

普联软件:公司研发的智能体开发平台支持接入DeepSeek等大模型

普联软件:公司研发的智能体开发平台支持接入DeepSeek等大模型

  证券日报网讯 1月28日,普联软件在互动平台回答投资者提问时表示,公司研发的智能体开发平台支持知识问答、数据问答、文档解析等通用智能能力,以及基于智能体开发平台研发的智能财务共享、智能...

DeepSeek上新首个奥数金牌水平模型

DeepSeek上新首个奥数金牌水平模型

  DeepSeek上新首个奥数金牌水平模型#DeepSeek#人工智能#大模型#奥数#钛媒体快报原文出处:DeepSeek上新首个奥数金牌水平模型,感谢原作者,侵权必删!...

AI大模型赋能绿色电力双碳减排 元琛科技2025电力绿色低碳智能环保岛峰会在合肥

AI大模型赋能绿色电力双碳减排 元琛科技2025电力绿色低碳智能环保岛峰会在合肥

  AI赋能绿电生产管理,为实现双碳目标贡献中国科技智慧。11月28日,由元琛科技主办的2025电力绿色低碳智能环保岛峰会在合肥隆重开幕。   峰会上,上交所科创板上市企...

超算互联网AI社区上线DeepSeek新一代数学模型

超算互联网AI社区上线DeepSeek新一代数学模型

  上证报中国证券网讯(记者 李雁争)超算互联网AI社区28日上线DeepSeek新一代数学模型DeepSeekMath-V2,企业和开发者均可下载模型文件进行快速开发。...

DeepSeek预测:多特蒙德vs沃尔夫斯堡!大黄蜂主场狂轰4球?吉拉西再演屠杀

DeepSeek预测:多特蒙德vs沃尔夫斯堡!大黄蜂主场狂轰4球?吉拉西再演屠杀

  北京时间9月22日凌晨1:30,威斯特法伦球场将迎来德甲第4轮焦点战——目前联赛进球第三(8球)的多特蒙德主场迎战平局率高达40%的沃尔夫斯堡deepseek。主队近期豪取主场5连胜(...