Post by Chenyang Zhao

Multi-modal model inference at @SGLang @RadixArk | Prev: Tsinghua, CMU, UCLA, Amazon AGI SF Lab, ByteDance Seed.

TTS(Text-to-Speech)模型将文字和参考音频转成自然的口语音频。当下最先进的 TTS 模型大多是 LLM-backbone 架构。自然,这个 LLM 的自回归 decode 吃掉了大部分计算。从这个角度看,优化 TTS 推理乍一看和优化 LLM 推理很像:两者都有 autoregressive decoding、KV cache、CUDA Graph、continuous batching。但实际上,TTS serving 远不止一条 text-token 的 decode loop。单个请求可能要经过 reference-audio 编码、多层 codec-token 生成、vocoder 解码、streaming 音频拼接。我们的优化经历表明,收益最大的几处优化,恰恰落在 LLM backbone 之外。 在本文中,我们拆解让 SGLang Omni TTS pipeline 的推理速度得到飞跃的诸多机制:分析我们遇到的 bottleneck,以及我们做出的架构权衡。本文聚焦于聚焦两个架构不径相同的 TTS 模型:来自 Boson AI 的 Higgs,以及来自 MOSI AI 的 MOSS-TTS-Local-v1.5。 此外,LinkedIn 对公式以及表格的排版都非常不友好,因此如果您想要获得最完整的公式阅读体验,可以直接阅读我们的 GitHub 原文: https://lnkd.in/gH5GREAg

Post content