当前位置：首页 > Deepseek最新资讯 > 正文内容

DeepSeek同款“外挂大脑”进军生命科学！国内团队发布Gengram，破解D

5个月前 (02-02)Deepseek最新资讯96

　　不仅刷新了多项基因组任务的SOTA记录，让模型在剪接位点识别等任务上AUC提升16.1%，还能自己悟出DNA双螺旋的物理规律

　　在生物学中，很多DNA的功能元件（如启动子、剪接位点）往往由特定的碱基组合（Motif）决定，但目前主流的基因组大模型都采用单碱基分词的形式，也就是把DNA序列拆成一个个碱基来处理。这种方式虽然精准，但效率极低。

　　就像我们看“刻舟求剑”，是一眼看懂成语的含义，而不是先分析“刻”字有几笔，“舟”字怎么写，然后一个字一个字拼在一起，这不仅浪费算力，还容易让模型在长达数亿的碱基序列中迷路。

　　今年1月13日，DeepSeek发布的Engram论文在圈内引发热议，其核心是减少“死记硬背”的任务，交给一个外部查表机制。受此启发，Genos团队提出了Gengram，成功将这一模式引入基因组学，实现了“静态模体识别”与“动态语境推理”的结构解耦。

　　外置“基因字典”（显式存储）：团队预构建了一个涵盖1~6碱基长度的哈希字典，将生物学中常见的短序列组合存入其中。当模型读取序列时，可以直接检索相关的生物学先验知识，不再需要从零推导。

　　动态门控机制：AI学会了“看人下菜碟”。在编码区或关键调控区，门控高度激活，积极调用记忆库；而在广袤的无功能背景区，门控则保持抑制，减少计算干扰。

　　在测试过程中deepseek，研究团队发现了一个很有意思的现象，Gengram在训练时，会通过一个局部窗口来聚合信息。研究人员发现，当这个窗口大小设定为21bp（碱基对）时，模型性能达到最优。

　　我们知道，DNA是双螺旋结构，旋转一圈大约是10.5个碱基，21个碱基恰好转了2圈。这意味着，相隔21bp的两个碱基，在三维空间中恰好位于螺旋的同一侧，面对相似的生化环境，共同决定了蛋白质（如转录因子）如何结合到DNA上。

　　也就是说，Gengram通过这种设计，让AI在处理一维序列时，隐约也看见了DNA的三维空间。

　　Gengram是一个极轻量的插件，参数仅约20M，相对于100亿参数的模型微乎其微，却对模型能力有了极大的提升。

　　出色的模型数据能效比：在与多款主流DNA基础模型的横向测评中，集成Gengram的模型仅需极小规模的训练数据，便能在核心任务上媲美乃至超越训练数据规模领先其数倍乃至数十倍的公开模型。

　　这篇文章里的实验，大多基于人类基因组基础模型Genos来实现。Genos是研发团队于去年10月发布的全球首个百亿级人类基因组基础模型，目前已应用于华大基因面向遗传病临床检测的大语言模型GeneT，助力提高遗传病分析解读的水平。

　　这支低调的团队结合了华大生命科学研究院的组学大数据经验，与之江实验室的计算和模型能力。这种“数据+算力”的强强联合，正是目前攻克AI for Science领域壁垒的关键配置。

　　如果说DeepSeek证明了通用AI的极限，那么Genos团队则用行动展示了当AI深度对齐生物学逻辑时，我们离真正读懂“生命之书”又近了一大步。

　　/2月2日周末要闻：特朗普释放与伊朗谈判信号欧佩克+3月继续暂停增产比特币跌破7.6万美元

　　/现货白银最大跌近10%，黄金跌超3%！比特币跌破76000美元，全球超16万人被爆仓！美股股指期货下跌

　　/十大机构看后市：本轮ETF集中赎回潮结束，A股有望在春节前企稳，春节前后迎新一轮上行行情，2月上涨概率76%

　　/上市公司“炒股”倒亏2亿，年薪43万董事长承诺自掏腰包“填坑”，补足投资差额，一个月内先上缴5000万原文出处：DeepSeek同款“外挂大脑”进军生命科学！国内团队发布Gengram，破解DNA天书，让我们离读懂“生命之书”又近了一大步，感谢原作者，侵权必删！

标签: deepseek

返回列表