当前位置：首页 > Deepseek最新资讯 > 正文内容

「看」能否取代「读」，为何DeepSeek-OCR 爆火的重点不在性能？

8个月前 (10-26)Deepseek最新资讯276

　　DeepSeek-OCR 热度的重点是什么？为什么视觉 token 更擅长处理长上下文？视觉 token 可以如何规避 NTP 机制的「近视」缺陷？为什么视觉 token 不会有「误差累计」问题？有哪些奠基工作？...

　　RL 优化智能体自进化之外，记忆系统带来了哪些新的实践应用突破？从无记忆到工作流记忆，再到 ReasoningBank，智能体记忆系统进化到了哪一步？IML 能否让智能体真正实现「自我完善」？从 MetaAgent 到 POAD，目前智能体自进化摆脱人类设计的程度有多高？...

　　为什么黄仁勋认为这轮 AI 狂潮不会重演互联网泡沫？底层逻辑究竟变了什么？当 GPU 不再是唯一护城河，全栈式的 AI 工厂竞争正在改变算力格局？从芯片到认知，下一代智能系统的「能效优势」会取代「算力优势」吗？从数字劳动力到物理 AI，黄仁勋所说的「智能经济」离现实还有多远？...

　　本期完整版通讯含 2 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递，其中技术方面 9项，国内方面 10 项，国外方面 10 项。

　　引言：DeepSeek-OCR 发布后引起了大量关注。以「并非单纯的 OCR」为共识，AI 社区在热议中引出了一种思潮，即，LLM 会「看」或许比会「读」更重要。

　　① DeepSeek-OCR 提出了「上下文光学压缩」（Contexts Optical Compression）的核心理念，不再将文本作为一维的符号序列处理，而是将其渲染成二维图像，通过视觉编码器进行高效压缩。

　　2、在性能之外，AI 社区关注的重点在于其「以视觉方式压缩一切」的研究思路或许对流行的 NTP（Next t Token Prediction）范式着更深远的影响。[1-1] [1-2]

　　① 经济层面，采用 NTP 机制的模型在在处理长上下文时，其计算和内存成本会随着序列长度的增加而呈二次方增长，通过视觉 token 进行压缩可以大幅降低输入 LLM 的 token 数量，有望解决长上下文的经济性难题。

　　② 从架构上看，以 Andrej Karpathy 为代表的观点认为将文本渲染为图像，完全绕过了分词器（tokenizer）模块，因而规避不必要的复杂性和对多语言处理的不公平性（即「分词器税」），以及对细微编码差异的脆弱性。

　　③ 此外，有观点认为 DeepSeek-OCR 的实践挑战了长期以来「视觉 Token 在处理文本数据时效率低于文本 Token」的传统认知并非永恒。[1-3]

　　3、一系列热议引发的思潮在于，对 LLM 的 NTP 范式而言，相比传统地「阅读」文本 token，让模型直接「看见」文本来进行预测会不会是一条更有前途的技术路线？

　　1、DeepSeek-OCR 引发热议的重点在于，这种用视觉 token 进行压缩范式并非对现有 LLM 架构的简单优化，而是在信息表征、处理流程和误差动态上的重构，直接回应了传统 NTP 范式中的内在缺陷。

　　2、学术界长期对 NTP 的批评在于，这种机制与人类认知过程存在根本性的背离，缺乏对全局的规划，本质上是一种「近视」（myopic）的工作模式。[1-4]

　　① 传统模型在训练阶段，训练时的「教师强制」（teacher-forcing）和推理时的自回归生成促成了这种 NTP 范式的根本性缺陷。

　　② 「教师强制」指训练阶段，为了提高学习效率和稳定性，模型在预测第下个 token 时，其输入是数据集中真实的、无误的整个前置 token 序列，强制模型在每一步都基于「正确答案」进行学习。

　　③ 在推理（或生成）阶段，模型不再拥有外部提供的真实前缀。它必须将自己上一步生成的 token 作为下一步的输入，形成一个迭代循环，从而形成「误差累计」的问题，导致处理「前瞻任务」（lookahead tasks）时表现不佳。

　　3、此外，以 Andrej Karpathy 为代表的一种思潮认为 NTP 模型的分词器（tokenizer）存在根本的缺陷，应当被彻底移除。[1-5]

　　① NTP 模型的运作还依赖于 tokenization 前置步骤。即将原始文本分割成一个固定的、预定义词汇表中的 token 序列。这种离散化的表示方式带来了其自身的一系列问题。

　　② 固定词汇表无法覆盖所有可能的字符串，导致模型训练遇到「罕见 token」或「故障 token」（如特定的用户名、编码或新词）时，无法为其学习到丰富和稳健的语义表征，使这些 token 成为模型的「盲点」，甚至被用于对抗性攻击。

　　③ 其次，tokenization 破坏了文本的底层结构。模型处理的是抽象的 token ID，而非字符本身。这导致模型在执行简单的字符级操作任务时表现得非常糟糕，因而被诟病为其「智能」更多是基于大规模统计模式的拟合，而非对语言基本构成单元的灵活掌握。[1-6]

　　4、DeepSeek-OCR 的核心思想在于，不再将长篇文档视为一个由数千甚至数万个文本 token 组成的线性序列，而是将其渲染成一张高分辨率的图像，然后将这张图像压缩成一小组信息高度浓缩的「视觉 token」（vision tokens）。[1-7]

　　① 这些 vision tokens 是一种低维、稠密且连续的潜变量空间（Latent Space）表征，不直接对应某个单词，而是对页面上一块区域内所有视觉信息的综合编码，天然保留了二维空间关系deepseek。

　　② 这种表征的信息带宽远超文本 token，使模型能够原生理解那些纯文本模型难以处理的复杂元素，例如直接解析图表并将其转换为 HTML 表格，或识别化学分子式。

　　5、DeepSeek-OCR 的通过 CoC 重构了信息处理流程，将全局上下文的理解前置，某种程度上绕过了传统 NTP 的「近视问题」，并规避了 Tokenization 的环节。[1-7]原文出处：「看」能否取代「读」，为何DeepSeek-OCR 爆火的重点不在性能？，感谢原作者，侵权必删！

标签: deepseek