当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek-OCR 2重磅发布

3个月前 (01-28)Deepseek最新资讯75

  摘要:DeepSeek发布OCR 2新系统,凭借DeepEncoder V2核心技术,让AI学会像人类一样按“逻辑因果”看图,而非机械扫描。在基准测试中,新模型达到91.09%的性能,较前代提升3.73%,同时视觉token使用上限降至1120个(前代为1156个)。这一技术突破或将颠覆传统文档处理模式,开启原生多模态推理新路径。

  DeepSeek发布新一代光学字符识别系统,通过让AI以类似人类的逻辑顺序理解图像,在视觉识别领域实现技术突破。这一进展可能重塑文档处理、图表分析等依赖复杂视觉理解的应用场景。

  27日,DeepSeek发布了DeepSeek-OCR 2系统。该系统采用名为DeepEncoder V2的新方法,使AI能够像人类一样按照逻辑顺序“看”图像。这项技术的核心创新在于改变了传统AI处理图像的方式。DeepEncoder V2让AI基于图像含义动态重新排列图像片段,而非传统的从左到右刚性扫描。这种方法模仿了人类追随场景逻辑流的方式。

  值得注意的是,该模型在保持极高精度的同时,严格控制了计算成本,其视觉Token数量被限制在256至1120之间,这一上限与Google的Gemini-3 Pro保持一致。在实际生产环境中,该模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%,显示出极高的实用成熟度。

  根据DeepSeek公布的技术报告,现有的视觉语言模型(VLMs)通常采用固定的光栅扫描顺序(光栅扫描顺序)处理图像切片,即机械地从左上角扫描至右下角。DeepSeek团队指出,这种方式引入了不必要的归纳偏差,与人类视觉感知背道而驰。 人类在阅读复杂文档、表格或追踪螺旋线条时,视线是受语义理解驱动的“因果流”,后一次注视往往因果依赖于前一次注视,而非单纯的空间坐标移动。

  受此认知机制启发,DeepSeek-OCR 2的核心组件DeepEncoder V2被设计用于赋予编码器因果推理能力。通过引入可学习的“因果流查询”(Causal Flow Queries),模型能够在进入LLM解码器进行内容解释之前,先在编码阶段就对视觉信息进行智能重排序。这实际上构建了一个两级级联的1D因果推理结构:首先由编码器在语义上重组视觉Token,随后由解码器对有序序列进行自回归推理。 这种设计不仅符合光学文本、表格和公式的非线性布局特征,还有效弥补了2D图像结构与1D语言建模之间的鸿沟。

  DeepEncoder V2在架构上实施了重大变革,将DeepEncoder中原有的CLIP组件替换为紧凑的LLM式架构(具体为Qwen2-0.5B)。为了实现并行处理,新架构引入了一组可学习的查询向量,称为“因果流Token”,并将原始视觉Token作为前缀拼接到序列中。

  视觉Token部分:保留双向注意力机制,确保模型能够像CLIP一样拥有全局感受野,捕捉图像的整体特征。

  因果流Token部分:采用因果注意力机制(类似Decoder-only LLM),每个查询Token只能关注之前的Token。

  通过这种设计,视觉Token保持了信息的全局交互,而因果流Token则获得了重排序视觉信息的能力。DeepSeek-OCR 2采用了多裁剪策略(Multi-crop strategy),根据图像分辨率不同,最终输入LLM的重排序视觉Token总数在256到1120之间。这一数量级显著低于部分竞品高达6000以上的Token消耗,在保证高性能的同时大幅降低了计算开销。

  除了基准测试,DeepSeek还披露了该模型在实际生产管线中的表现。DeepSeek-OCR 2主要服务于DeepSeek-LLMs的在线OCR服务及PDF预训练数据处理。在没有真值(Ground Truth)的生产环境中,重复率(Repetition Rate)是衡量质量的核心指标。数据显示,在处理在线用户日志图像时,DeepSeek-OCR 2将重复率从6.25%降低至4.17%;在PDF数据生产中,重复率从3.69%降至2.88%。这表明新模型在生成高质量、低冗余的文本数据方面具备极高的实用价值。

  DeepSeek-OCR 2的发布不仅是一次OCR性能的升级,更具有深远的架构探索意义。DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力。这种架构天然继承了LLM社区在基础设施优化方面的成果,如混合专家(MoE)架构和高效注意力机制。

  DeepSeek团队认为,这为迈向统一的全模态编码器提供了一条有希望的路径。未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内实现对图像、音频和文本的特征提取与压缩。DeepSeek-OCR 2所展示的“两个级联的1D因果推理器”模式,通过将2D理解分解为“阅读逻辑推理”和“视觉任务推理”两个互补子任务deepseek,或许代表了实现真正2D推理的一种突破性架构方法。原文出处:DeepSeek-OCR 2重磅发布,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek-OCR 2重磅发布” 的相关文章

重新定义合同审查,AlphaGPT让律师专注更高价值创造

重新定义合同审查,AlphaGPT让律师专注更高价值创造

  《中国律师行业效率报告(2024)》显示,85%的律师每周至少有20小时用于合同审查,其中60%的时间耗费在重复性核对上,即便如此,仍有12%的潜在风险条款可能被遗漏,给客户带来无法估...

《MIT科技评论》“50家聪明公司”发布,Deepseek、游戏科学入选

《MIT科技评论》“50家聪明公司”发布,Deepseek、游戏科学入选

  AI 驱动下药物研发正在将发现周期显著缩短;材料科学在以更高性能和更智能的表现探索新的应用;可复用火箭和卫星数据分析正在解析太空经济潜力的“密码”……昨天(12日),EmTech Ch...

牺牲质量换速度?DeepSeek“极速测试版”翻车,用户不满AI变“说教狂”

牺牲质量换速度?DeepSeek“极速测试版”翻车,用户不满AI变“说教狂”

  【TechWeb】2月11日晚间,DeepSeek悄然更新了网页端与App端版本,并开启灰度测试。此次更新最引人注目的突破在于将上下文长度直接拉升至1M(百万)Token,相当于此前能...

DeepSeek新模型MODEL1曝光

DeepSeek新模型MODEL1曝光

  【TechWeb】1月21日消息,DeepSeek的下一代旗舰模型疑似提前曝光。在其官方GitHub代码库的更新中,一个名为“MODEL1”的新模型名称在多个技术文件中频繁出现,引发了...

1月25日DeepSeek预测:热火vs爵士,阿德巴约率队攻克盐湖城

1月25日DeepSeek预测:热火vs爵士,阿德巴约率队攻克盐湖城

  西部传统劲旅爵士(15胜30负)将坐镇主场迎战东部第八的热火(23胜22负),双方胜率相差17.8个百分点。爵士虽坐拥联盟第二的场均助攻(30.2次),但场均失分高达127.4分联盟垫...

2月1日DeepSeek预测:老鹰vs步行者,特雷杨率队客场擒鹰?

2月1日DeepSeek预测:老鹰vs步行者,特雷杨率队客场擒鹰?

  北京时间2月1日,NBA常规赛将迎来老鹰(24胜26负,东部第9)与步行者(12胜36负,东部第15)的较量。对于志在冲击季后赛的老鹰而言,这场对阵东部垫底球队的比赛堪称必须拿下的福利...