当前位置:首页 > Deepseek最新资讯 > 正文内容

文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代

8个月前 (10-21)Deepseek最新资讯277

  【新智元导读】AI新突破!DeepSeek-OCR以像素处理文本,压缩率小于1/10,基准测试领跑。开源一夜4.4k星,Karpathy技痒难耐,展望视觉输入的通用性。

  此外,在光学文字识别OCR任务上,DeepSeek-OCR模型名副其实,堪称工程学的巅峰之作——

  在保持97% OCR准确率的前提下,可将视觉上下文压缩至原来的1/20,常规使用下压缩比也能轻松小于1/10。

  一整页密密麻麻的文本,被压成仅仅100个视觉Token,在 OmniDocBench上实现最多60倍压缩!

  DeepSeek-OCR简直把文字变成了像素点,就像把一本100页的书压缩成一张照片,AI依然能读懂它。

  DeepSeek-OCR用事实证明,实体页面(如缩微胶片、书籍)才是训练AI模型的更优数据源——而非低质量的互联网文本。

  「骨子里的计算机视觉研究者」、特斯拉前AI总监、OpenAI创始团队成员Karpathy,难掩欣喜,力挺DeepSeek新模型。

  但更有趣的部分在于,对于大语言模型来说,像素输入是否优于文本输入?在输入端,文本Token会不会是一种既浪费又糟糕透顶的方式?

  Karpathy自称「骨子里搞计算机视觉」,只是暂时混迹在自然语言处理圈,自然对上述问题尤其感兴趣。

  或许,大语言模型的所有输入都只应该是图像,这才更有道理。就算你手头是纯文本输入,可能也最好先把它渲染成图像再喂给模型:

  它「引入」了Unicode和字节编码的所有糟粕,背负着沉重的历史包袱,还带来了安全/越狱风险(比如连续字节问题)。

  OCR只是「视觉到文本」众多落地应用中的一种。而「文本到文本」的任务也可以被改造为「视觉到文本」的任务,反之则不行。

  现在,Karpathy表示,他要拼命忍住,不去搞一个只用图像输入的「nanochat」的支线任务。

  另外,虽然图像没有像文本那样的「Token化」过程deepseek,但我们把输入图像切割成一个个图像块(patches)时,难道得到的不是类似,甚至可能更不理想的结果吗?

  对此,Karpathy表示,原则上可以,只不过为了追求效率,文本(的生成)通常采用简单的自回归方式进行训练。

  可以设想存在一个中间训练阶段,利用双向注意力机制,微调条件信息,比如那些我们不需要去预测或生成的代表用户消息的Token。

  原则上,你可以对整个上下文窗口进行双向编码,而目的仅仅是为了预测下一个 Token。但这么做的代价就是无法并行化训练。

  至于第二个问题,他认为,严格来说与「像素 vs. Token」无关。其核心更在于,像素通常是被编码的(encoded),而 Token则是被解码的(decoded)。

  1=估算可观测宇宙中的光子总数是一项复杂的工作,但我们可以基于几个主要组成部分得出一个大致数字:宇宙微波背景辐射(CMB)产生的光子、星光光子,以及其他一些微弱来源。

  宇宙微波背景辐射(CMB)占据主导地位,使得可观测宇宙中的光子总数约为1.5×10⁸⁹个 。这个数字是一个粗略估算,具体数值取决于可观测宇宙的精确体积以及其他微小来源的贡献,但整体上与宇宙学计算结果相符。

  他代表北京大学参赛,获得ACM-ICPC 亚洲区域赛金牌(2017–2019),获奖赛区包括:EC 总决赛 2017、青岛 2017、西安 2017、上海 2019、南京 2019。原文出处:文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代,感谢原作者,侵权必删!

标签: deepseek

“文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代” 的相关文章

1月12日DeepSeek预测:老鹰vs勇士,库里率队捍卫主场,勇士险胜老鹰

1月12日DeepSeek预测:老鹰vs勇士,库里率队捍卫主场,勇士险胜老鹰

  北京时间1月12日,NBA常规赛将迎来一场东西部中游球队的较量,金州勇士坐镇主场迎战亚特兰大老鹰。目前勇士以21胜18负排名西部第8,老鹰则以19胜21负位列东部第9。两支球队近期状态...

11月20日DeepSeek预测:公牛vs开拓者,夏普对决怀特,客场险胜

11月20日DeepSeek预测:公牛vs开拓者,夏普对决怀特,客场险胜

  NBA常规赛即将迎来一场东西部中游球队的较量,芝加哥公牛将客场挑战波特兰开拓者。两支球队目前都处于季后赛边缘位置,这场比赛对于双方的排名至关重要。   公牛目前以7胜...

从MiniMax到DeepSeek:为何头部大模型都在押注「交错思维」?

从MiniMax到DeepSeek:为何头部大模型都在押注「交错思维」?

  昨日,有位推特博主晒出了国内几大开源模型在轻量级软件工程 Agent 基准测试 mini-SWE-agent 上的成绩。该基准主要测试大模型在真实软件开发任务中的多步推理、环境交互和工...

2月28日DeepSeek预测:掘金vs雷霆,约基奇能否带队逆袭西部榜首?

2月28日DeepSeek预测:掘金vs雷霆,约基奇能否带队逆袭西部榜首?

  西部第四的丹佛掘金将客场挑战榜首俄克拉荷马雷霆,这场强强对话或将成为西部格局的关键转折点。约基奇与亚历山大的MVP级对决,搭配两队近期胶着的状态,让比赛充满悬念。  ...

震荡股市中的AI交易员:DeepSeek从从容容游刃有余? 港大开源一周8k星标

震荡股市中的AI交易员:DeepSeek从从容容游刃有余? 港大开源一周8k星标

  2025 年 10 月,美股经历了一轮典型的震荡行情:月初科技股强势反弹,月中通胀数据扰动市场,10 月 10 日前后纳指单日波动超过 3%。   就在这波谲云诡的市...

幻方量化年收益率曝光,DeepSeek梁文锋发财了

幻方量化年收益率曝光,DeepSeek梁文锋发财了

  AI“烧钱”早已不是秘密。在这个领域,无论是科技巨头还是初创企业,都面临着巨大的资金压力,DeepSeek自然也不例外。但令人好奇的是,这家公司既不是大厂,又不接受外部融资,更不上市,...