当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek-OCR 2重磅发布

5个月前 (01-28)Deepseek最新资讯80

  摘要:DeepSeek发布OCR 2新系统,凭借DeepEncoder V2核心技术,让AI学会像人类一样按“逻辑因果”看图,而非机械扫描。在基准测试中,新模型达到91.09%的性能,较前代提升3.73%,同时视觉token使用上限降至1120个(前代为1156个)。这一技术突破或将颠覆传统文档处理模式,开启原生多模态推理新路径。

  DeepSeek发布新一代光学字符识别系统,通过让AI以类似人类的逻辑顺序理解图像,在视觉识别领域实现技术突破。这一进展可能重塑文档处理、图表分析等依赖复杂视觉理解的应用场景。

  27日,DeepSeek发布了DeepSeek-OCR 2系统。该系统采用名为DeepEncoder V2的新方法,使AI能够像人类一样按照逻辑顺序“看”图像。这项技术的核心创新在于改变了传统AI处理图像的方式。DeepEncoder V2让AI基于图像含义动态重新排列图像片段,而非传统的从左到右刚性扫描。这种方法模仿了人类追随场景逻辑流的方式。

  值得注意的是,该模型在保持极高精度的同时,严格控制了计算成本,其视觉Token数量被限制在256至1120之间,这一上限与Google的Gemini-3 Pro保持一致。在实际生产环境中,该模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%,显示出极高的实用成熟度。

  根据DeepSeek公布的技术报告,现有的视觉语言模型(VLMs)通常采用固定的光栅扫描顺序(光栅扫描顺序)处理图像切片,即机械地从左上角扫描至右下角。DeepSeek团队指出,这种方式引入了不必要的归纳偏差,与人类视觉感知背道而驰。 人类在阅读复杂文档、表格或追踪螺旋线条时,视线是受语义理解驱动的“因果流”,后一次注视往往因果依赖于前一次注视,而非单纯的空间坐标移动。

  受此认知机制启发,DeepSeek-OCR 2的核心组件DeepEncoder V2被设计用于赋予编码器因果推理能力。通过引入可学习的“因果流查询”(Causal Flow Queries),模型能够在进入LLM解码器进行内容解释之前,先在编码阶段就对视觉信息进行智能重排序。这实际上构建了一个两级级联的1D因果推理结构:首先由编码器在语义上重组视觉Token,随后由解码器对有序序列进行自回归推理。 这种设计不仅符合光学文本、表格和公式的非线性布局特征,还有效弥补了2D图像结构与1D语言建模之间的鸿沟。

  DeepEncoder V2在架构上实施了重大变革,将DeepEncoder中原有的CLIP组件替换为紧凑的LLM式架构(具体为Qwen2-0.5B)。为了实现并行处理,新架构引入了一组可学习的查询向量,称为“因果流Token”,并将原始视觉Token作为前缀拼接到序列中。

  视觉Token部分:保留双向注意力机制,确保模型能够像CLIP一样拥有全局感受野,捕捉图像的整体特征。

  因果流Token部分:采用因果注意力机制(类似Decoder-only LLM),每个查询Token只能关注之前的Token。

  通过这种设计,视觉Token保持了信息的全局交互,而因果流Token则获得了重排序视觉信息的能力。DeepSeek-OCR 2采用了多裁剪策略(Multi-crop strategy),根据图像分辨率不同,最终输入LLM的重排序视觉Token总数在256到1120之间。这一数量级显著低于部分竞品高达6000以上的Token消耗,在保证高性能的同时大幅降低了计算开销。

  除了基准测试,DeepSeek还披露了该模型在实际生产管线中的表现。DeepSeek-OCR 2主要服务于DeepSeek-LLMs的在线OCR服务及PDF预训练数据处理。在没有真值(Ground Truth)的生产环境中,重复率(Repetition Rate)是衡量质量的核心指标。数据显示,在处理在线用户日志图像时,DeepSeek-OCR 2将重复率从6.25%降低至4.17%;在PDF数据生产中,重复率从3.69%降至2.88%。这表明新模型在生成高质量、低冗余的文本数据方面具备极高的实用价值。

  DeepSeek-OCR 2的发布不仅是一次OCR性能的升级,更具有深远的架构探索意义。DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力。这种架构天然继承了LLM社区在基础设施优化方面的成果,如混合专家(MoE)架构和高效注意力机制。

  DeepSeek团队认为,这为迈向统一的全模态编码器提供了一条有希望的路径。未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内实现对图像、音频和文本的特征提取与压缩。DeepSeek-OCR 2所展示的“两个级联的1D因果推理器”模式,通过将2D理解分解为“阅读逻辑推理”和“视觉任务推理”两个互补子任务deepseek,或许代表了实现真正2D推理的一种突破性架构方法。原文出处:DeepSeek-OCR 2重磅发布,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek-OCR 2重磅发布” 的相关文章

3月16日DeepSeek预测:活塞vs猛龙,东部霸主能否延续连胜?康宁汉姆对决

3月16日DeepSeek预测:活塞vs猛龙,东部霸主能否延续连胜?康宁汉姆对决

  北京时间3月16日凌晨3:30,NBA常规赛将迎来一场焦点战,东部第一的底特律活塞(48胜18负)客场挑战多伦多猛龙(37胜29负)。作为加拿大唯一NBA球队,猛龙本赛季在主场球迷见证...

正姿护成长 智能新生态丨博士有成正姿智能管家型学习桌震撼发布

正姿护成长 智能新生态丨博士有成正姿智能管家型学习桌震撼发布

  2025年9月17日,以“正姿护成长·智能新生态”为主题的博士有成正姿智能管家型学习桌战略暨新品发布会在广东东莞隆重召开。此次大会不仅是博士有成品牌战略全面升级的标志,更是首次在行业提...

DeepSeek-V3.1发布版本更新

DeepSeek-V3.1发布版本更新

  新京报贝壳财经讯(记者罗亦丹)9月22日21时15分,DeepSeek在官方微信公号发文称,DeepSeek-V3.1 现已更新至 DeepSeek-V3.1-Terminus 版本。...

国庆前发布?DeepSeek V3.2惊现HuggingFace

国庆前发布?DeepSeek V3.2惊现HuggingFace

  见闻访问DeepSeek模型合集中文件时也发现,DeepSeek-V3.2下面并没有显示任何内容deepseek。原文出处:国庆前发布?DeepSeek V3.2惊现HuggingFa...

“龙虾”出圈堪比DeepSeek,为何应重视国产算力及云计算板块?

“龙虾”出圈堪比DeepSeek,为何应重视国产算力及云计算板块?

  “龙虾”出圈:近期OpenClaw热度持续攀升,相关产品与落地动作密集推出。例如,腾讯不仅推动内部工程师部署应用,还推出线下安装与云端一键部署服务。此外,今日智谱也正式上线AutoCl...

DeepSeek预测:西汉姆联vs切尔西!铁锤帮主场恐遭蓝军碾压,鲍文PK帕尔默

DeepSeek预测:西汉姆联vs切尔西!铁锤帮主场恐遭蓝军碾压,鲍文PK帕尔默

  英超第2轮即将迎来一场伦敦德比,降级区挣扎的西汉姆联将在伦敦体育场迎战状态渐入佳境的切尔西。两支球队首轮表现天差地别:铁锤帮0-3惨败升班马桑德兰,而蓝军则0-0闷平水晶宫。本场比赛对...