Post by Chenyang Zhao

Multi-modal model inference at @SGLang @RadixArk | Prev: Tsinghua, CMU, UCLA, Amazon AGI SF Lab, ByteDance Seed.

TTS（Text-to-Speech）模型将文字和参考音频转成自然的口语音频。当下最先进的 TTS 模型大多是 LLM-backbone 架构。自然，这个 LLM 的自回归 decode 吃掉了大部分计算。从这个角度看，优化 TTS 推理乍一看和优化 LLM 推理很像：两者都有 autoregressive decoding、KV cache、CUDA Graph、continuous batching。但实际上，TTS serving 远不止一条 text-token 的 decode loop。单个请求可能要经过 reference-audio 编码、多层 codec-token 生成、vocoder 解码、streaming 音频拼接。我们的优化经历表明，收益最大的几处优化，恰恰落在 LLM backbone 之外。在本文中，我们拆解让 SGLang Omni TTS pipeline 的推理速度得到飞跃的诸多机制：分析我们遇到的 bottleneck，以及我们做出的架构权衡。本文聚焦于聚焦两个架构不径相同的 TTS 模型：来自 Boson AI 的 Higgs，以及来自 MOSI AI 的 MOSS-TTS-Local-v1.5。此外，LinkedIn 对公式以及表格的排版都非常不友好，因此如果您想要获得最完整的公式阅读体验，可以直接阅读我们的 GitHub 原文： https://lnkd.in/gH5GREAg