当前位置:首页 > Deepseek最新资讯 > 正文内容

百万围观、HuggingFace多模态登顶,华人团队开源语音版「DeepSeek

5个月前 (01-23)Deepseek最新资讯95

  在大模型快速迭代的背景下,语音交互正从「语音转文本(ASR)— 文本理解 — 文本转语音(TTS」的串联式架构,逐步走向端到端的实时语音生成。这一转变不仅关系到延迟和自然度,也直接影响语音系统在真实生产环境中的可用性。

  在级联式语音交互架构下,每个模块分别负责语音识别、文本理解和语音合成等任务,这种架构在早期的应用中取得了成功。但随着对实时性和低延迟要求的提高,端到端语音交互系统逐渐成为主流,通过深度集成各个任务,减少中间转换步骤,显著提高响应速度,使交互变得更加即时和自然。

  近期,FlashLabs 发布并开源了其实时语音模型Chroma 1.0,其定位为全球首个开源的端到端语音到语音模型。

  Chroma 1.0 发布之后,便在社媒爆火,吸引了大量的关注。X 上的官推帖子已经突破了百万浏览量。

  从公开信息和技术实现来看,该模型并非对现有语音模型的简单改进,而是一次围绕「实时性」目标展开的系统级重构。

  本文将依次从技术架构、核心指标、论文贡献以及应用场景等角度,对 Chroma 进行一次评测式分析,并对原文中表述不准确的地方予以修正。

  这一方案在准确率上已相对成熟,但在延迟、上下文连续性以及情绪一致性方面存在天然瓶颈。尤其在实时对话场景中,多模块串联会带来显著的推理延迟与状态同步成本。

  Chroma 的核心目标,是构建一个语音到语音(Speech-to-Speech, S2S)的统一系统,将语音理解、语义建模与语音生成纳入同一整体框架中,从而降低系统复杂度并提升实时响应能力。

  原文中曾将 Chroma 描述为「统一 Transformer 架构同时处理语音编码、语义建模与声学解码」,这一表述并不准确。论文指出,Chroma 采用分层多模块架构:

  Reasoner:基于 Thinker 模块构建,负责多模态理解与文本生成。它使用 Qwen2-Audio 编码管道处理文本和语音输入,并通过跨模态注意力及 TM-RoPE 将语音和文本表示对齐。

  Backbone:采用约 1 B 参数的 LLaMA 变体deepseek,用于生成每一帧的粗声学码。为实现个性化克隆,Backbone 通过 CSM-1B 将参考音频及其文本编码为嵌入前缀,并共享 Reasoner 的嵌入和隐藏状态作为上下文。

  Decoder:约 100 M 参数的轻量模型,在每帧内自回归生成剩余的 Residual VectorQuantization (RVQ) 级别。这一设计减少了长上下文计算负担,细化了韵律与发音细节。

  Codec Decoder:采用 Mimi vocoder 的因果卷积网络,将粗音码与细音码串联后重建为连续波形。系统使用 8 个码书,减少解码器在每帧的自回归步骤。

  这种模块化的分层设计与原文所述的「统一 Transformer」不同,每个模块各司其职,共同完成 S2S 推理和生成。

  为保证低延迟,Chroma 采用固定比例的文本 - 音频交错日程,论文中明确为1:2(即每个文本 token 对应两个音频码)。

  具体操作过程中,Reasoner 首先输出文本 tokens 和隐藏状态;这些信息按上述比例交错并输入 Backbone 和 Decoder,后者再逐步生成离散声学码并由 Codec Decoder 重建为波形。

  这种管线非一步直接「映射」语音到输出,而是通过多模块间的分工协作进行联合建模,从而避免了传统级联系统中的多次模态切换带来的信息损失。

  Chroma 1.0 的模型规模约为 40 亿参数级别。相较于追求超大模型规模,其设计更强调在延迟、吞吐与可部署性之间取得平衡:

  相较于 7 B–9 B 的大模型,该规模具有明显效率优势,同时在多项指标上优于 0.5 B 级别的小模型。

  实时语音建模范式:系统性论证了端到端 Speech-to-Speech 架构在实时对话场景中的优势,并给出了工程可行的实现路径。

  交错策略和模块化设计:在数据表示和模型结构上引入 1:2 文本–音频交错,并将Reasoner、Backbone、Decoder、Codec Decoder 分离。这种设计既降低延迟又兼顾语义推理和声学细节。

  合成训练管线与评价方法:采用 LLM+TTS 构建高质量的语音到语音训练数据,并通过综合的客观指标(SIM、TTFT、RTF)和主观评测(NCMOS、SCMOS)验证系统性能。

  Chroma 并非孤立模型,其首要应用场景来自 FlashLabs 的语音产品FlashAI。在 FlashAI 中, Chroma 主要承担实时语音交互引擎的角色,典型应用包括:

  综合来看,Chroma 1.0 并非追求「最强语音模型」,而是明确聚焦于实时语音交互这一长期被低估的工程难题。其价值不在于单项指标的领先,而在于:

  在个性化声音克隆任务中实现对人类基线 10.96% 的相对提升,展示出对细节声纹特征的捕捉能力;

  当然,Chroma 目前在自然度评测(NCMOS)上仍落后于商业系统 ElevenLabs,在多语言及情感控制方面亦有待进一步探索。然而,作为实时语音交互的重要基础设施,其分层设计与数据生成策略为行业提供了可复用的蓝图。

  通过修正原文中的架构描述和「直接映射」表述,这篇评测更准确地反映了 Chroma 的技术特点与工程取舍,有助于读者理解这一系统在实时语音交互领域的价值。原文出处:百万围观、HuggingFace多模态登顶,华人团队开源语音版「DeepSeek」海外爆火,感谢原作者,侵权必删!

标签: deepseek

“百万围观、HuggingFace多模态登顶,华人团队开源语音版「DeepSeek” 的相关文章

中国文人艺术的正格与变格 方创然书《翁城李白墓志铭并序》(Deepseek撰)

中国文人艺术的正格与变格 方创然书《翁城李白墓志铭并序》(Deepseek撰)

  冯友兰先生在《中国哲学简史》里把佛教在中国的发展分为“佛教在中国”和“中国的佛教”,以此类比,吾侪把当代艺术划分为“当代艺术在中国”和“中国的当代艺术”。“中国文人艺术的正格与变格”致...

澳养老基金主管:更多“DeepSeek时刻”正威胁美国科技股估值

澳养老基金主管:更多“DeepSeek时刻”正威胁美国科技股估值

  据澳大利亚最大养老基金之一的投资高管称,中国更多人工智能工具的推出可能会导致那些押注生成式人工智能的美国科技巨头的股票突然遭遇暴跌。   周三(10月29日),在一次...

DeepSeek预测:纽卡斯尔vs利物浦!红军火力全开or喜鹊主场逆袭?范戴克v

DeepSeek预测:纽卡斯尔vs利物浦!红军火力全开or喜鹊主场逆袭?范戴克v

  英超第2轮即将迎来纽卡斯尔与利物浦的强强对话。主队纽卡斯尔首轮0-0闷平维拉,目前排名第13;客队利物浦则以4-2大胜伯恩茅斯暂列第5。两队近5次交锋利物浦3胜1平1负占据优势,但上赛...

狂揽70亿挑战DeepSeek!AI创企被曝新融资,被英伟达押宝,团队大牛云集

狂揽70亿挑战DeepSeek!AI创企被曝新融资,被英伟达押宝,团队大牛云集

  Reflection AI的目标是构建超智能自主系统,并相信自主编程将推动超级智能发展,今年7月其发布   据The Information报道,因为中国更便宜、更容...

DeepSeek研究员:AI将在10到20年内取代绝大多数人类工作

DeepSeek研究员:AI将在10到20年内取代绝大多数人类工作

  在乌镇举行的世界互联网大会上,DeepSeek资深研究员陈德里打破近一年的公开沉默deepseek,就人工智能对社会就业的深远影响发出警示。   他表示,AI将在10...

龙芯中科携手诚迈科技推出开源鸿蒙电脑

龙芯中科携手诚迈科技推出开源鸿蒙电脑

  近日,诚迈科技正式推出基于龙芯3A6000处理器和鸿志桌面操作系统的开源鸿蒙电脑,该产品的发布不仅为用户提供了安全可信、流畅易用的办公新体验,更标志着龙芯中科与诚迈科技在开源鸿蒙生态建...