当前位置:首页 > Deepseek最新资讯 > 正文内容

智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了

6个月前 (10-23)Deepseek最新资讯329

  是的,与DeepSeek-OCR一样,智谱这篇论文的目标同样也是通过视觉的方式,破解当下LLM上下文冗长的难题。

  毕竟,不论是长文档分析、代码审查,还是多轮对话,模型可不能像金鱼那样看过就忘。要让它们真正靠谱地执行任务,就得有足够稳定的「工作记忆」。

  原因在于,更多的Token,就意味着模型需要记住更多的激活值、缓存、注意力权重,这些东西在训练和推理阶段都是靠真金白银堆出来的。

  在Transformer结构里,模型并不知道输入的先后顺序,因此要给每个Token加上“位置编码”,告诉模型这是谁先谁后。

  比如,把0~32K的位置区间“插值”到0~100K,这样,模型就能在工作时接受更长的输入,而不必重新训练。

  而且,模型虽然能继续读下去,但由于它在训练中从未见过如此长的上下文,现在逼着人家读肯定表现不会好。

  既然上下文变长了,那就让模型「读」快一点,比如用稀疏注意力、线性注意力等技巧,提高每个Token的处理效率。

  但再怎么快,账还是那本账,Token的总量没有减少,如果上下文都到了几十万,多高的效率也顶不住。

  但大家也知道,RAG的输出结果肯定不如模型基于训练数据的回答,而且还会因多出来的检索步骤拖慢整体响应。

  比如,如果一句话能分成1000个Token,模型就得老老实实算1000个向量,还要在它们之间做注意力计算。

  相比之下,Glyph不会逐字阅读,而是先把整段文字排版成图像式的视觉Token,再把这张「截图」交给VLM去处理。

  之所以要这么做,是因为图像能承载的信息密度远高出纯文本,仅需一个视觉Token就能容纳原先需要好几个文本Token的内容。

  借助这种方式,即便是一个上下文固定的VLM,无需借助稀疏注意力、RAG等工具,也能轻松吃下足以「撑死」LLM的超长文本。

  举个例子:小说《简·爱》大约有240K的文本Token,对一台上下文窗口只有128K的传统LLM来说,只能塞进去一半。

  这样一来,同样是128K上下文的VLM就能轻松看完整部《简·爱》,对故事脉络心中有数,也能从更大的全局视角来回答问题。

  具体而言,研究团队先尽可能多地将海量长文本渲染成不同风格的图像,把VLM扔在各式各样排版、字体、布局中“读图识文”,以便训练出更强的泛化能力。

  为此,研究团队引入由LLM驱动的遗传搜索算法,让模型自动探索最优的渲染参数——比如字体大小、页面布局、图像分辨率等——力求在尽可能压缩的同时不丢语义。

  在找到最优的渲染方案后,研究团队又动手做了两件事:有监督微调和强化学习,旨让模型在“看图读文”这件事上更聪明、更稳。

  此外,他们还在SFT和RL阶段都加上了辅助OCR对齐任务,教模型学会从图像里准确还原文字细节,让视觉和文本两种能力真正融为一体。

  实验结果显示,Glyph在多项长上下文基准测试中实现了3–4倍的Token压缩率,同时依然保持与主流模型(如Qwen3-8B)相当的准确度。

  这种压缩不仅减轻了算力负担,还带来了约4倍的prefill与解码速度提升,以及约2倍的SFT训练加速。

  更令人惊喜的是,在极端压缩的情况下,一个上下文窗口仅128K的VLM,依然能够应对相当于百万Token级的文本任务,并丝毫不落下风。

  此外,虽然Glyph的训练数据主要来自渲染后的文本图像,但它在多模态任务上同样表现出色,证明了其强大的泛化潜力。

  核心思路是把长文本“画”成图,再让VLM去看图读文,做到一目十行,从而能实现高效的上下文扩展。

  论文的一作是Jiale Cheng,他是清华大学的博士生,主要研究方向包括自然语言生成、对话系统和相关的人工智能交互技术deepseek

  黄教授本科与博士均毕业于清华大学,目前是清华大学计算机科学与技术系长聘教授,同时兼任智能技术与系统实验室副主任、清华大学基础模型中心副主任。

  用图像而非文本作为输入,乍看之下似乎反直觉,但细想便会发现,这反而更贴近人脑的信息处理方式。

  即便是阅读,我们的大脑最初接收的也只是由像素按特定规律排列组合的一串图形,在经过一层层视觉处理后,这些像素才被翻译成“文字”的概念。

  相比之下,语言不过是我们基于视觉与其他感官体验提炼出的高度浓缩的抽象层。它标准化、成本低,但本质上依旧是视觉的降维产物。

  有趣的是,当AI在各项指标上不断逼近人类、引发普遍焦虑的同时,每当技术发展陷入瓶颈,我们又总能从那个被质疑“没那么智能”的人脑里重新找到答案原文出处:智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了,感谢原作者,侵权必删!

标签: deepseek

“智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了” 的相关文章

DeepSeek也不想假装关心

DeepSeek也不想假装关心

  【#DeepSeek也不想假装关心#】#DeepSeek不演了摊牌了#近日,国产AI助手DeepSeek被大量用户吐槽风格突变,变冷淡,从原本细腻共情变为不称昵称deepseek、文风...

杭钢股份涨停,DeepSeek-R2刺激算力需求+东数西算概念

杭钢股份涨停,DeepSeek-R2刺激算力需求+东数西算概念

  截至9时59分,杭钢股份涨幅为9.98%,最新价9.81元,总市值331.30亿元deepseek,封板资金5.92亿元,成交额16.59亿元,换手率5.21%,所属行业为钢铁行业。...

中外智者共话AI未来 上海实践点亮全球人工智能合作新图景

中外智者共话AI未来 上海实践点亮全球人工智能合作新图景

  在世界人工智能大会(WAIC)如火如荼进行之际,由中国日报社主办的“智者对话,共创未来”《围炉漫话》系列活动于7月26日至27日在上海成功举办。本次活动以“体验+对话”的双线模式,立足...

10月17日DeepSeek预测:鹈鹕vs魔术,魔术主场优势明显,班凯罗率队取胜

10月17日DeepSeek预测:鹈鹕vs魔术,魔术主场优势明显,班凯罗率队取胜

  北京时间10月17日07:00,NBA季前赛将迎来一场对决,鹈鹕客场挑战魔术。魔术作为东部排名第7的球队,近期状态不错,而鹈鹕则处于西部垫底位置,近期战绩惨淡。本场比赛是两队季前赛的收...

DeepSeek预测:拜仁慕尼黑vs法兰克福,凯恩领衔南大王狂轰5球血洗雄鹰!

DeepSeek预测:拜仁慕尼黑vs法兰克福,凯恩领衔南大王狂轰5球血洗雄鹰!

  北京时间2月21日22:30,安联球场将迎来德甲第23轮的焦点战——领头羊拜仁慕尼黑对阵暂列第4的法兰克福。本赛季拜仁以82个进球(赛事第1)和19个失球(赛事第1)的恐怖数据领跑积分...

2026金石奖 人保寿险:应用Deepseek赋能反洗钱数字化

2026金石奖 人保寿险:应用Deepseek赋能反洗钱数字化

  由新浪财经主办的“2026年度金石奖暨金融消保优秀案例评选”活动结果出炉,本期推出金融科技创新服务优秀案例。在多家金融机构角逐中,人保寿险脱颖而出deepseek,凭借报送的“应用De...