当前位置:首页 > Deepseek最新资讯 > 正文内容

医疗领域DeepSeek时刻:蚂蚁 · 安诊儿医疗大模型正式开源,登顶权威榜单

6个月前 (01-09)Deepseek最新资讯75

  报告给出的信息令人惊讶:目前全球 ChatGPT 对话中有超过 5% 是与医疗健康有关的,每天有 4000 万人在向 ChatGPT 寻求健康问题的答案。

  在人们向 AI 问的问题中,大模型的智能与知识储备得到了充分体现:60% 的人用 AI 探索症状,52% 的人用于理解医学术语或临床建议;越来越多的医生也在撰写医疗报告的时候应用了 AI。

  也正是因为如此,1 月 7 日,OpenAI 正式发布了 ChatGPT 健康,通过整合人们的健康信息与大模型能力,可以帮助人们更加了解自身状况,能辅助人们进行健康方面的决策。

  大模型正在生活的很多方面给我们带来帮助,但在面向常规任务的通用大模型上寻找医疗等专业知识的建议,很多时候还是显得不够靠谱。在医疗学术界deepseek,有研究就认为 AI 提供的医疗决策必须强制披露其准确性,接受监管以保护患者的安全。

  近日,蚂蚁集团联合浙江省卫生健康信息中心、浙江省安诊儿医学人工智能科技有限公司开源的的蚂蚁・安诊儿医疗大模型(AntAngelMed),似乎为这些需求找到了最优解。

  该模型总参数量达到1000 亿(激活参数 61 亿),是迄今为止参数量最大的开源医疗领域专业模型。

  AntAngelMed 在 OpenAI 发起的 HealthBench、国家人工智能应用中试基地(医疗)的 MedAIBench 等评测基准中表现出色,其成绩超过了 GPT-oss、Qwen3、DeepSeek-R1 等通用模型,也超越了目前已有的医疗增强推理模型,达到了开源模型第一的成绩。

  在由国家人工智能应用中试基地(医疗)・浙江、中国医学科学院北京协和医学院、中国信息通信研究院三方共建的权威测评体系 MedAIBench 中( ),AntAngelMed 同样表现突出,尤其是在医疗知识问答、医疗伦理安全等多个核心维度上优势显著。

  此外,AntAngelMed 在MedBench 排行榜中位列第一。MedBench 是专为评估中国医疗健康领域语言大模型(LLM)而设计的权威基准。AntAngelMed 的这一成绩进一步凸显了其在专业性、安全性以及临床应用潜力方面的领先表现。

  与通用模型不同,医疗大模型面对的评价标准不仅仅是「答得多流畅」,还要强调结论的可靠性与可控性:既要在证据充分时给出严谨判断,也要在信息不足或风险较高时保持克制、明确安全边界。要满足这种要求,模型不仅需要覆盖系统化的医学知识,更需要具备稳定的推理能力与风险意识。

  AntAngelMed 作为一款专注医疗垂直领域的开源大模型,其训练策略正是围绕上述要求展开的,形成了一套以医学能力构建为目标的三阶段训练流程。

  团队在蚂蚁百灵通用基座模型 Ling-flash-2.0-base 上系统性引入大规模、高质量医学语料,比如百科全书、网络文本、学术出版物。

  AntAngelMed 引入了来自不同来源、不同形式的高质量医疗指令数据,重点微调模型如何展开和表达推理过程。这一阶段不仅提升了模型在复杂问题中的思考稳定性,也使其在医患问答、诊断分析等真实场景中,能够更好地理解问题语境并给出符合医疗交流逻辑的回应。

  这样一来,AntAngelMed 不再仅仅停留在回答正确的表层表现上,而是在医疗语境中展现出更接近专业医生的沟通方式与思维路径。

  然后是「通用强化学习」,重点关注模型的行为边界,在面对不确定性、敏感性问题时学会提示风险、适度保留,体现出必要的责任意识和安全规范。

  这些优化使得小激活率的 MoE 模型相比同等规模的 Dense 架构,可以实现高达7 倍的效率提升。

  也就是说,AntAngelMed 仅需 6.1B 激活参数,就能实现约 40B 稠密模型的性能。这意味着模型在实际部署中对资源的占用更低、可扩展性更强,非常适合高用户需求的医疗领域。

  由于激活参数较少,AntAngelMed 具备非常高的推理效率,在 H20 硬件环境下,可实现超过200 tokens/s 的推理速度,约为 36B 稠密模型的 3 倍。

  对于医疗场景而言,这样的推理效率不仅代表响应更快,更重要的是,它提升了模型在实际系统中的可用性:在多用户同时访问的医疗平台上,能够保证稳定输出;在需要快速辅助决策的临床场景中,能在数秒内完成高质量回答,减少等待时间;甚至在资源受限的边缘部署环境中,也能以较低算力负担提供可用性能。

  另外,医疗场景中常常伴随着篇幅较长的病历记录和结构复杂的检查报告,信息密度高、语义层级深,对模型的理解与处理能力提出了更高要求。

  为解决这一需求,AntAngelMed 采用 YaRN 外推,将上下文长度扩展至 128K,大幅增强了模型处理病历等长文档的能力。

  此外,为配合进一步推理加速,团队还采用了 FP8 量化技术并结合 EAGLE3 优化方案。这种软硬结合的设计带来了实实在在性能提升。

  在并发数为 32 的情况下,与单独使用 FP8 相比,这种方法显著提高了推理吞吐量,在 HumanEval 数据集上的提升幅度为 71%,在 GSM8K 数据集上的提升幅度为 45%,在 Math-500 数据集上的提升幅度更是高达 94%。

  从训练流程到模型架构,我们不难看出,AntAngelMed 的设计始终围绕医疗场景展开。三阶段训练方式让模型具备了专业的医学知识,而高效的 MoE 架构,使得模型在医疗这种高频次、高要求的场景下,在大幅降低激活成本的同时,依然保持专业推理能力与长上下文处理能力。

  模型的建议并非简单罗列营养标准,而是结合了胆固醇摄入上限、个体健康状况(如有无高血脂病史)等因素,给出了一个相对灵活的建议区间:

  接下来我们又问了一个问题:请为一个 55 岁有高血压病史的上班族男性,设计一个简洁可执行的一周饮食 + 运动建议计划。

  在 AntAngelMed 的基础上,大量机构和研究者可以进行下游任务微调,极大地降低了前沿医疗 AI 技术的应用门槛。对于普通人来说,或许过不了多久,我们就可以从 AI 那里获得安全可信的建议了。

  据介绍,蚂蚁集团还将依托国家平台持续推进「AI + 医疗」的开源生态与技术创新,让先进的技术能够普惠更多开发者与用户。原文出处:医疗领域DeepSeek时刻:蚂蚁 · 安诊儿医疗大模型正式开源,登顶权威榜单,感谢原作者,侵权必删!

标签: deepseek

“医疗领域DeepSeek时刻:蚂蚁 · 安诊儿医疗大模型正式开源,登顶权威榜单” 的相关文章

刚刚,豆包连发多款大模型:让 DeepSeek更好用,音频版 Sora 惊艳全场

刚刚,豆包连发多款大模型:让 DeepSeek更好用,音频版 Sora 惊艳全场

  对企业来说,token 消耗量直接等于成本。当模型开启深度思考时,效果确实能提升一大截,可延迟高了,token 烧得更猛了,成本也就跟着水涨船高。   尤其是 AI...

Deepseek推荐全国旅游百强区第30名:广西北海市银海区

Deepseek推荐全国旅游百强区第30名:广西北海市银海区

  日前,全国县镇发展研究课题组、天和经济研究所县镇发展研究院联合发布了2024《全国县镇发展报告》deepseek,报告评价篇对全国县市以及包含乡村人口的市辖区旅游发展水平进行了综合评价...

90后清华博士屈拓任漳州市国资委副主任,曾讲授DeepSeek政务课程

90后清华博士屈拓任漳州市国资委副主任,曾讲授DeepSeek政务课程

  近日,漳州市政府网站发布一则人事任免消息:屈拓任漳州市人民政府国有资产监督管理委员会副主任,免去其漳州市发展和改革委员会科技副主任职务。   2023年,屈拓任漳州市...

独家|对话北京人形机器人创新中心CTO唐剑:世界模型有望带来具身智能的“Deep

独家|对话北京人形机器人创新中心CTO唐剑:世界模型有望带来具身智能的“Deep

  距离唐剑离开学术界,已经过去七年。这七年里,他曾在自动驾驶的一线摸爬滚打,也亲眼见证了AI从“认知”走向“行动”的关键转折。和许多从自动驾驶跨入具身智能的学者与工程师一样,唐剑的轨迹也...

12月3日DeepSeek预测:奇才vs76人,马克西率队主场复仇,奇才双核缺阵

12月3日DeepSeek预测:奇才vs76人,马克西率队主场复仇,奇才双核缺阵

  北京时间12月3日,NBA常规赛将迎来东部弱旅奇才与季后赛卡位战球队76人的对决。尽管76人近期状态起伏,但面对联盟防守最差的奇才,坐镇主场的他们有望延续交锋优势。...

1月13日DeepSeek预测:76人vs猛龙,东部强强对话,马克西能否带队复仇

1月13日DeepSeek预测:76人vs猛龙,东部强强对话,马克西能否带队复仇

  北京时间1月13日,NBA常规赛将迎来一场东部焦点对决,多伦多猛龙队(24胜16负,东部第4)坐镇主场迎战费城76人队(21胜16负,东部第5)。两队仅相差2.5个胜场,此役结果将直接...