当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek-OCR 2重磅发布

5个月前 (01-28)Deepseek最新资讯79

  摘要:DeepSeek发布OCR 2新系统,凭借DeepEncoder V2核心技术,让AI学会像人类一样按“逻辑因果”看图,而非机械扫描。在基准测试中,新模型达到91.09%的性能,较前代提升3.73%,同时视觉token使用上限降至1120个(前代为1156个)。这一技术突破或将颠覆传统文档处理模式,开启原生多模态推理新路径。

  DeepSeek发布新一代光学字符识别系统,通过让AI以类似人类的逻辑顺序理解图像,在视觉识别领域实现技术突破。这一进展可能重塑文档处理、图表分析等依赖复杂视觉理解的应用场景。

  27日,DeepSeek发布了DeepSeek-OCR 2系统。该系统采用名为DeepEncoder V2的新方法,使AI能够像人类一样按照逻辑顺序“看”图像。这项技术的核心创新在于改变了传统AI处理图像的方式。DeepEncoder V2让AI基于图像含义动态重新排列图像片段,而非传统的从左到右刚性扫描。这种方法模仿了人类追随场景逻辑流的方式。

  值得注意的是,该模型在保持极高精度的同时,严格控制了计算成本,其视觉Token数量被限制在256至1120之间,这一上限与Google的Gemini-3 Pro保持一致。在实际生产环境中,该模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%,显示出极高的实用成熟度。

  根据DeepSeek公布的技术报告,现有的视觉语言模型(VLMs)通常采用固定的光栅扫描顺序(光栅扫描顺序)处理图像切片,即机械地从左上角扫描至右下角。DeepSeek团队指出,这种方式引入了不必要的归纳偏差,与人类视觉感知背道而驰。 人类在阅读复杂文档、表格或追踪螺旋线条时,视线是受语义理解驱动的“因果流”,后一次注视往往因果依赖于前一次注视,而非单纯的空间坐标移动。

  受此认知机制启发,DeepSeek-OCR 2的核心组件DeepEncoder V2被设计用于赋予编码器因果推理能力。通过引入可学习的“因果流查询”(Causal Flow Queries),模型能够在进入LLM解码器进行内容解释之前,先在编码阶段就对视觉信息进行智能重排序。这实际上构建了一个两级级联的1D因果推理结构:首先由编码器在语义上重组视觉Token,随后由解码器对有序序列进行自回归推理。 这种设计不仅符合光学文本、表格和公式的非线性布局特征,还有效弥补了2D图像结构与1D语言建模之间的鸿沟。

  DeepEncoder V2在架构上实施了重大变革,将DeepEncoder中原有的CLIP组件替换为紧凑的LLM式架构(具体为Qwen2-0.5B)。为了实现并行处理,新架构引入了一组可学习的查询向量,称为“因果流Token”,并将原始视觉Token作为前缀拼接到序列中。

  视觉Token部分:保留双向注意力机制,确保模型能够像CLIP一样拥有全局感受野,捕捉图像的整体特征。

  因果流Token部分:采用因果注意力机制(类似Decoder-only LLM),每个查询Token只能关注之前的Token。

  通过这种设计,视觉Token保持了信息的全局交互,而因果流Token则获得了重排序视觉信息的能力。DeepSeek-OCR 2采用了多裁剪策略(Multi-crop strategy),根据图像分辨率不同,最终输入LLM的重排序视觉Token总数在256到1120之间。这一数量级显著低于部分竞品高达6000以上的Token消耗,在保证高性能的同时大幅降低了计算开销。

  除了基准测试,DeepSeek还披露了该模型在实际生产管线中的表现。DeepSeek-OCR 2主要服务于DeepSeek-LLMs的在线OCR服务及PDF预训练数据处理。在没有真值(Ground Truth)的生产环境中,重复率(Repetition Rate)是衡量质量的核心指标。数据显示,在处理在线用户日志图像时,DeepSeek-OCR 2将重复率从6.25%降低至4.17%;在PDF数据生产中,重复率从3.69%降至2.88%。这表明新模型在生成高质量、低冗余的文本数据方面具备极高的实用价值。

  DeepSeek-OCR 2的发布不仅是一次OCR性能的升级,更具有深远的架构探索意义。DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力。这种架构天然继承了LLM社区在基础设施优化方面的成果,如混合专家(MoE)架构和高效注意力机制。

  DeepSeek团队认为,这为迈向统一的全模态编码器提供了一条有希望的路径。未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内实现对图像、音频和文本的特征提取与压缩。DeepSeek-OCR 2所展示的“两个级联的1D因果推理器”模式,通过将2D理解分解为“阅读逻辑推理”和“视觉任务推理”两个互补子任务deepseek,或许代表了实现真正2D推理的一种突破性架构方法。原文出处:DeepSeek-OCR 2重磅发布,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek-OCR 2重磅发布” 的相关文章

11月1日DeepSeek预测:凯尔特人vs76人,马克西率队延续不败神话?

11月1日DeepSeek预测:凯尔特人vs76人,马克西率队延续不败神话?

  NBA常规赛东部焦点战即将打响,11月1日07:00,历史豪门凯尔特人将客场挑战势头正盛的76人。目前76人以4胜0负高居东部第二,而凯尔特人2胜3负暂列第10,这场对决或将重塑东部格...

接近DeepSeek人士确认:DeepSeek-R2在8月内并无发布计划

接近DeepSeek人士确认:DeepSeek-R2在8月内并无发布计划

  格隆汇8月13日|据腾讯科技,近日市场再度传出深度求索(DeepSeek)下一代大模型DeepSeek-R2的发布消息,预计时间窗口为8月15日至30日。对此deepseek,接近De...

亚洲首个FDA双IDE获批:Deepseek医疗器械实现医保全覆盖

亚洲首个FDA双IDE获批:Deepseek医疗器械实现医保全覆盖

  3月,帕母医疗的PADN导管/射频仪成功获得欧盟CE-MDR认证,获得进入欧洲市场通行证。近日,即将启动:针对一型肺高压FDA HDE(人道主义器械豁免)临床试验获批与2型肺高压IDE...

2025年11月26日DeepSeek概念涨停板梳理

2025年11月26日DeepSeek概念涨停板梳理

  2025年11月26日,DeepSeek概念受到利好消息的刺激下,整个板块掀起了涨停潮。共11家涨停,4家连板。4家一字板deepseek。原文出处:2025年11月26日DeepSe...

您的AI智能工作台已升级!鸿蒙版ima率先接入DeepSeek V3.1,效率飞

您的AI智能工作台已升级!鸿蒙版ima率先接入DeepSeek V3.1,效率飞

  8月21日DeepSeek正式发布V3.1并宣布开源。鸿蒙版ima第一时间接入了DeepSeek-V3.1deepseek,为用户带来更强大、更智能的AI使用体验。...

1月6日DeepSeek预测:老鹰vs猛龙,猛龙主场再擒老鹰?特雷杨缺阵成关键

1月6日DeepSeek预测:老鹰vs猛龙,猛龙主场再擒老鹰?特雷杨缺阵成关键

  北京时间1月6日08:30,NBA常规赛将上演一场东部对决,多伦多猛龙(21胜15负,东部第4)将在主场迎战亚特兰大老鹰(17胜20负,东部第10)。两支球队刚刚在1月4日有过交手,猛...