当前位置：首页 > Deepseek最新资讯 > 正文内容

DeepSeek、GPT、Qwen，所有大模型架构图都有，Karpathy：宝藏

3个月前 (03-16)Deepseek最新资讯38

　　但问题是，当架构创新越来越多时，理解它们反而变得越来越困难。不同论文里的模型结构图风格各异、模块命名不统一，即便是研究者，也很难快速看清一个模型究竟在哪些地方做出了关键改动。

　　如果把过去几年主流模型的架构放在一起，你会发现一个明显的空白：我们拥有大量模型，却缺少一张清晰的大模型架构图。

　　最近，AI 研究者 Sebastian Raschka 就尝试给了这样一张图，他将过去几年主流大模型的结构重新绘制，并整理成了一个在线图谱「LLM Architecture Gallery」。

　　从「LLM Architecture Gallery」页面结构上看，这个图谱几乎像一张大模型名录。

　　这里汇集了大量近年来出现的主流模型，包括 Llama、DeepSeek、Gemmadeepseek、Mistral、Qwen、Kimi、GLM等多个系列，参数规模从几亿参数的小模型，一直延伸到千亿乃至万亿级模型。

　　每一张模型卡都会展示该模型的核心架构图、关键模块设计、参数规模、发布时间、相关概念等基本信息，让读者能够在同一套视觉框架下快速理解模型的结构组成。

　　不止 DeepSeek R1，像 Gemma、Llama 等一系列主流模型，也都被纳入这一图谱之中。用户只需点击对应模型名称，就可以进入该模型的专属页面，查看其完整架构示意图以及关键设计细节。

　　对于研究者而言，「LLM Architecture Gallery」相当于提供了一份可快速查阅的大模型架构索引，用户可以在一个页面中浏览和对比不同模型的设计思路，模型架构的关键创新点，从而更高效地理解技术演化路径，也为后续的研究和模型设计提供参考。

　　正如 AI 研究者 Andrej Karpathy 所评价的那样：「这简直就是一个创意、想法的资源库。」原文出处：DeepSeek、GPT、Qwen，所有大模型架构图都有，Karpathy：宝藏画廊！，感谢原作者，侵权必删！

标签: deepseek

返回列表