当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek新模型被硅谷疯夸!用二维视觉压缩一维文字,单GPU能跑

2周前 (10-21)Deepseek最新资讯119

  因为实在太DeepSeek了。3B规模、指数级效能变革、大道至简,甚至被认为把谷歌Gemini严防死守的商业机密开源了。

  这个模型瞄准的是大模型处理长文本时的算力爆炸难题……虽然模型参数很小,但四两拨千斤,其背后所代表的“用视觉方式压缩一切”的思想,大道至简,既是人类智能的现实,也不断出现在诸如《三体》的科幻作品中。

  简单来说,由于一张图能包含大量文字(用的token还更少),所以他们想到并验证了“将视觉作为文本压缩媒介”这一方法——就好比优秀的人看书都是扫一眼就知道内容,不必一字一句读完才理解内容。

  而且DeepSeek研究后发现,当压缩率小于10倍时(即文本token数是视觉token数的10倍以内),模型OCR解码准确率高达97%;即使压缩率高达20倍,准确率依旧能保持在60%左右,效果相当能打。

  更主要的是,DeepSeek再次展现了高效能风格,他们的方法之下,生成训练数据——仅凭一块A100-40G GPU,每天就能生成超过20万页的优质LLM/VLM训练数据。

  所以这个研究一经公布,已经快速在GitHub斩获了3.3K star。HuggingFace则已经热榜第二……X上热议,好评声一片。

  当然,如此火爆的工作还带了更多思考——不少人看过论文后,认为这种统一视觉与语言的方法,或许是通往AGI的大门之一。

  既然一张图片能“装下”成千上万个字,那我们能不能把文字信息压缩到图片里,让模型通过“看图”来理解内容呢?

  本质上来说,这就是一种视觉-文本压缩范式,通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销。

  为验证这一想法,他们构建了3B大小的DeepSeek-OCR模型,结果发现它在主流文档解析基准OmniDocBench上取得了新SOTA。

  下图显示,DeepSeek-OCR(红色圆点)在“平均每张图的视觉token数”(横轴)上位于最右侧deepseek,这说明它使用的token数量最少;而在“整体性能”(纵轴,越低越好)上,它却达到了SOTA水平,而且大多还是“以小博大”。

  此外值得一提的是,为了灵活应对不同的压缩比需求和实际应用场景,DeepEncoder被训练成支持从“Tiny”(512x512, 64token)到“Gundam”(动态分块,近800token)等多种输入模式。

  总之,基于以上原理和组件搭配,目前DeepSeek-OCR除了具备常规识别能力,还支持对金融报表、化学分子式、数学几何图、100多种语言等更为复杂的图像进行深度解析。

  如此被夸赞的新研究,来自三位研究人员,依然很DeepSeek——几人都相对低调,网上公开资料很少。

  Haoran Wei,曾就职于阶跃星辰,当时还主导开发了意在实现“第二代OCR”的GOT-OCR2.0系统。

  此次DeepSeek-OCR的工作也可谓延续了GOT-OCR2.0之前的技术路径,即致力于通过端到端模型解决复杂文档解析问题。

  Yaofeng Sun,从去年开始就陆续参与DeepSeek多款模型研发,包括R1、V3中都有他的身影。

  Yukun Li(李宇琨),谷歌学术论文近万引研究员,也持续参与了包括DeepSeek V2/V3在内的多款模型研发。

  这样一来,理论上模型就可以在处理超长对话或文档时,动态地为不同时期的上下文分配不同数量的计算资源,从而可能构建出一种无限长上下文的架构。

  之前AI的上下文研究,对于短期中期远期的都是一视同仁,机器味儿十足,但计算资源和响应问题也会相应暴涨……原文出处:DeepSeek新模型被硅谷疯夸!用二维视觉压缩一维文字,单GPU能跑,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek新模型被硅谷疯夸!用二维视觉压缩一维文字,单GPU能跑” 的相关文章

郑州市第二十二届职工技术运动会DeepSeek创新应用技能竞赛决赛开幕

郑州市第二十二届职工技术运动会DeepSeek创新应用技能竞赛决赛开幕

  8月6日上午,由郑州市总工会主办,郑州市电子信息科技工会、郑州市信息协会和河南中维信创大数据研究院承办的“郑州市第二十二届职工技术运动会DeepSeek创新应用技能竞赛”在郑东新区龙子...

10月28日DeepSeek预测:凯尔特人vs鹈鹕,布朗对决威廉森,绿军能否延续

10月28日DeepSeek预测:凯尔特人vs鹈鹕,布朗对决威廉森,绿军能否延续

  新奥尔良鹈鹕将在主场迎战波士顿凯尔特人,两支球队目前都处于赛季初的低迷状态。鹈鹕作为西部知名球队,本赛季开局0胜2负,排名西部垫底;而凯尔特人同样未尝胜绩,0胜3负位列东部第13。...

正姿护成长 智能新生态丨博士有成正姿智能管家型学习桌震撼发布

正姿护成长 智能新生态丨博士有成正姿智能管家型学习桌震撼发布

  2025年9月17日,以“正姿护成长·智能新生态”为主题的博士有成正姿智能管家型学习桌战略暨新品发布会在广东东莞隆重召开。此次大会不仅是博士有成品牌战略全面升级的标志,更是首次在行业提...

道曼想效仿赖斯用屁股停球,结果阿尔特塔一拳将球拍走

道曼想效仿赖斯用屁股停球,结果阿尔特塔一拳将球拍走

  主要是虎扑前一个推送王楚琪那个说道曼的帖子,就有人招黑了,这里立马又来一个道曼的帖子,所以才这么说。   主要是虎扑前一个推送王楚琪那个说道曼的帖子,就有人招黑了,这...

住建部GBT50500-2024《建设工程工程量清单计价标准》解析及DeepSe

住建部GBT50500-2024《建设工程工程量清单计价标准》解析及DeepSe

  2024年12月30日住建部正式发布《建设工程工程量清单计价标准》GB/T50500-2024,新版《清单计价标准》的出台将为工程造价精细化管理带来一场新的革命,同时也给各单位相关管理...

DeepSeek预测:热刺VS切尔西!伦敦德比火药味十足,范德芬或成关键先生助热

DeepSeek预测:热刺VS切尔西!伦敦德比火药味十足,范德芬或成关键先生助热

  2025-26赛季英超第10轮即将上演一场伦敦德比,目前排名第3的热刺将在托特纳姆热刺球场迎战排名第9的切尔西。这场比赛对双方争夺欧战席位至关重要,热刺目前积17分,仅落后榜首阿森纳5...