当前位置：首页 > Deepseek最新资讯 > 正文内容

智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了

1周前 (10-23)Deepseek最新资讯100

　　是的，与DeepSeek-OCR一样，智谱这篇论文的目标同样也是通过视觉的方式，破解当下LLM上下文冗长的难题。

　　毕竟，不论是长文档分析、代码审查，还是多轮对话，模型可不能像金鱼那样看过就忘。要让它们真正靠谱地执行任务，就得有足够稳定的「工作记忆」。

　　原因在于，更多的Token，就意味着模型需要记住更多的激活值、缓存、注意力权重，这些东西在训练和推理阶段都是靠真金白银堆出来的。

　　在Transformer结构里，模型并不知道输入的先后顺序，因此要给每个Token加上“位置编码”，告诉模型这是谁先谁后。

　　比如，把0～32K的位置区间“插值”到0～100K，这样，模型就能在工作时接受更长的输入，而不必重新训练。

　　而且，模型虽然能继续读下去，但由于它在训练中从未见过如此长的上下文，现在逼着人家读肯定表现不会好。

　　既然上下文变长了，那就让模型「读」快一点，比如用稀疏注意力、线性注意力等技巧，提高每个Token的处理效率。

　　但再怎么快，账还是那本账，Token的总量没有减少，如果上下文都到了几十万，多高的效率也顶不住。

　　但大家也知道，RAG的输出结果肯定不如模型基于训练数据的回答，而且还会因多出来的检索步骤拖慢整体响应。

　　比如，如果一句话能分成1000个Token，模型就得老老实实算1000个向量，还要在它们之间做注意力计算。

　　相比之下，Glyph不会逐字阅读，而是先把整段文字排版成图像式的视觉Token，再把这张「截图」交给VLM去处理。

　　之所以要这么做，是因为图像能承载的信息密度远高出纯文本，仅需一个视觉Token就能容纳原先需要好几个文本Token的内容。

　　借助这种方式，即便是一个上下文固定的VLM，无需借助稀疏注意力、RAG等工具，也能轻松吃下足以「撑死」LLM的超长文本。

　　举个例子：小说《简·爱》大约有240K的文本Token，对一台上下文窗口只有128K的传统LLM来说，只能塞进去一半。

　　这样一来，同样是128K上下文的VLM就能轻松看完整部《简·爱》，对故事脉络心中有数，也能从更大的全局视角来回答问题。

　　具体而言，研究团队先尽可能多地将海量长文本渲染成不同风格的图像，把VLM扔在各式各样排版、字体、布局中“读图识文”，以便训练出更强的泛化能力。

　　为此，研究团队引入由LLM驱动的遗传搜索算法，让模型自动探索最优的渲染参数——比如字体大小、页面布局、图像分辨率等——力求在尽可能压缩的同时不丢语义。

　　在找到最优的渲染方案后，研究团队又动手做了两件事：有监督微调和强化学习，旨让模型在“看图读文”这件事上更聪明、更稳。

　　此外，他们还在SFT和RL阶段都加上了辅助OCR对齐任务，教模型学会从图像里准确还原文字细节，让视觉和文本两种能力真正融为一体。

　　实验结果显示，Glyph在多项长上下文基准测试中实现了3–4倍的Token压缩率，同时依然保持与主流模型（如Qwen3-8B）相当的准确度。

　　这种压缩不仅减轻了算力负担，还带来了约4倍的prefill与解码速度提升，以及约2倍的SFT训练加速。

　　更令人惊喜的是，在极端压缩的情况下，一个上下文窗口仅128K的VLM，依然能够应对相当于百万Token级的文本任务，并丝毫不落下风。

　　此外，虽然Glyph的训练数据主要来自渲染后的文本图像，但它在多模态任务上同样表现出色，证明了其强大的泛化潜力。

　　核心思路是把长文本“画”成图，再让VLM去看图读文，做到一目十行，从而能实现高效的上下文扩展。

　　论文的一作是Jiale Cheng，他是清华大学的博士生，主要研究方向包括自然语言生成、对话系统和相关的人工智能交互技术deepseek。

　　黄教授本科与博士均毕业于清华大学，目前是清华大学计算机科学与技术系长聘教授，同时兼任智能技术与系统实验室副主任、清华大学基础模型中心副主任。

　　用图像而非文本作为输入，乍看之下似乎反直觉，但细想便会发现，这反而更贴近人脑的信息处理方式。

　　即便是阅读，我们的大脑最初接收的也只是由像素按特定规律排列组合的一串图形，在经过一层层视觉处理后，这些像素才被翻译成“文字”的概念。

　　相比之下，语言不过是我们基于视觉与其他感官体验提炼出的高度浓缩的抽象层。它标准化、成本低，但本质上依旧是视觉的降维产物。

　　有趣的是，当AI在各项指标上不断逼近人类、引发普遍焦虑的同时，每当技术发展陷入瓶颈，我们又总能从那个被质疑“没那么智能”的人脑里重新找到答案原文出处：智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：DeepSeek预测：布伦特福德vs利物浦！红军客场碾压？蒂亚戈5球vs加克波3

下一篇：西方警觉，“非洲不用我们的AI，都在用DeepSeek等中国模型”

“智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了” 的相关文章

DeepSeek大招曝光？梁文峰督战超级智能体：能自主学习，或年底发布

　　【新智元导读】DeepSeek再次出招，直接对标OpenAI！据彭博社最新独家爆料，DeepSeek正开发AI智能体：打造无需复杂指令、可自主学习与执行的下一代AI系统，年底重磅发布！...

[流言板]杨幂用华为Pura X晒自拍，谐音梗祝福鸿蒙5终端数破1000万

　　随后，演员杨幂使用华为Pura X发布自拍，并配文“你负责‘红’，我负责‘萌’。”用谐音梗为鸿蒙送上祝福。　　据了解，华为Pura X是首款全面搭载鸿蒙5的手机，已...

除了帕尔默外，是不是我车在挂彩票上就没有刮出大奖

　　古斯特也算吧，无非就是二等奖还是三等奖了。只能说还有潜力可挖。另外的青训小将里面的话，那几个还需要练，尤其是阿长鹏。这个人模板太好了为什么不买后防，我就是在猜要给那几个年轻人留点位置练...

产品未发，7个月估值80亿美金！这家“美国DeepSeek”凭什么？

　　在人工智能的赛道上，资本市场的狂热似乎永无止境。然而，即便是在这个“神话”频出的时代，一家名为Reflection AI的初创公司，仍然以一种近乎暴力的姿态，刷新了所有人对速度与价值的...

DeepSeek崩了，服务突遭全面宕机，今年以来多次因崩了登上热搜，官方深夜回应

　　据了解，2025年伊始，来自中国的AI大模型DeepSeek凭借其突破性进展迅速走红，各行各业都在积极拥抱DeepSeek。　　1月27日，Deepseek应用登顶...

华为云发布企业级智能体平台Versatile，打造Agent全链条技术底座

　　9月19日，华为常务董事、华为云计算CEO张平安在华为全联接大会2025上正式发布企业级智能体平台Versatile，该平台通过极简流程实现企业级Agent生成——仅需输入业务逻辑描述...