VoxCPM：开源的多语言语音合成与声音克隆模型

一句话定位

VoxCPM 是 OpenBMB 开源的语音合成项目，最新版本 VoxCPM2 主打多语言 TTS、自然语言音色设计、可控声音克隆和 48kHz 高质量音频输出。

基础信息卡片

项目	信息
GitHub	OpenBMB/VoxCPM
一句话定位	基于连续语音表征的开源多语言 TTS 与声音克隆系统
最新主线	VoxCPM2
模型规模	2B 参数
训练数据	超过 200 万小时多语种音频数据
支持语言	30 种全球语言 + 9 种中文方言
核心能力	文本转语音、音色设计、可控声音克隆、极致克隆、流式合成
输出质量	48kHz 高质量音频
技术路线	Tokenizer-Free，扩散自回归架构，基于 MiniCPM-4 构建
许可证	Apache-2.0
主要语言	Python
Stars	约 30.7k（2026-06-19）
在线体验	Hugging Face Demo / 国内体验入口
文档	ReadTheDocs 中文文档
模型	Hugging Face / ModelScope

解决什么问题

做语音合成时，很多项目会先把音频压成离散 token，再让模型预测这些 token，最后再还原成声音。这个路线成熟，但也会带来一个问题：声音里的细节、情绪、节奏和质感，容易在离散化过程中被压掉一部分。

VoxCPM 走的是另一条路：它强调 Tokenizer-Free，也就是不依赖离散音频分词器，而是直接生成连续语音表征。这样做的目标很明确：让模型更自然地保留人声里的细节，尤其是语气、韵律、情绪和克隆场景中的音色一致性。

这让 VoxCPM 更适合一些对“声音表现力”有要求的场景，例如：

多语言内容的自动配音
AI 播客、短视频旁白、有声内容生成
角色音色设计
带情绪和语速控制的声音克隆
需要高质量输出的语音产品原型

核心功能

1. 多语言文本转语音

VoxCPM2 支持 30 种全球语言，使用时不需要额外写语言标签，直接输入文本即可合成。中文方面，它还覆盖四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话等 9 种方言。

这对内容创作类产品比较实用：同一个语音生成链路，可以覆盖中文、英文、日语、韩语、法语、西班牙语等多语种内容，而不必为每种语言单独接一套模型。

2. 自然语言音色设计

VoxCPM2 的一个有意思的能力是 Voice Design。你不一定要先准备参考音频，可以直接用自然语言描述想要的声音，例如“年轻女性，声音温柔甜美”“中年男性，沉稳、有磁性、语速较慢”。

这类能力适合用在角色音色探索、播客旁白、虚拟主播、游戏 NPC 配音等场景。相比传统 TTS 固定几个音色可选，它更接近“用文字描述声音，然后生成一个符合描述的新音色”。

3. 可控声音克隆

如果你有一段参考音频，VoxCPM2 可以克隆其中的音色，并允许叠加风格控制。例如在保持原始音色的同时，让输出更欢快、语速更快、情绪更明显。

这比单纯“照着参考音频复刻”更灵活，因为实际使用中，用户往往不只是想要同一个音色，还希望控制它在不同文本里的表达方式。

4. 极致克隆

项目还保留了更高保真的克隆模式：提供参考音频和对应转录文本，让模型从参考音频继续生成后续内容。这种方式更强调延续参考音频里的细节，包括音色、节奏、情绪和说话风格。

如果目标是尽量贴近某段参考声音，而不是只是大致相似，这个模式会更合适。

5. 48kHz 高质量输出与实时流式合成

VoxCPM2 原生输出 48kHz 音频，并通过 AudioVAE V2 的非对称编解码设计支持从 16kHz 参考音频生成高质量结果，不需要额外再接一个外部超分模块。

在推理性能方面，项目 README 给出的数据是：标准 PyTorch 实现在 NVIDIA RTX 4090 上 RTF 低至约 0.3；结合 Nano-vLLM 或 vLLM-Omni 加速后可到约 0.13。对于希望把 TTS 做成服务的团队来说，这意味着它不只是一个离线实验项目，也具备进一步服务化的基础。

适合谁

VoxCPM 比较适合这些人和团队：

想搭建多语言 TTS 服务的开发者
需要中文、英文和其他多语种配音能力的内容团队
想研究声音克隆、语音生成、连续语音表征的工程师
做 AI 播客、数字人、虚拟主播、游戏配音、短视频配音的产品团队
需要可商用开源 TTS 模型，并希望能本地部署或二次开发的团队

快速上手

最简单的方式是直接安装 Python 包：

pip install voxcpm

环境要求主要包括：Python 3.10 到 3.12、PyTorch 2.5.0 及以上、CUDA 12.0 及以上。

一个基础的文本转语音示例：

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained(
    "openbmb/VoxCPM2",
    load_denoiser=False,
)

wav = model.generate(
    text="VoxCPM2 是目前推荐使用的多语言语音合成版本。",
    cfg_value=2.0,
    inference_timesteps=10,
)

sf.write("demo.wav", wav, model.tts_model.sample_rate)

如果想尝试音色设计，可以在文本前面加一段声音描述：

wav = model.generate(
    text="(年轻女性，声音温柔甜美)你好，欢迎使用 VoxCPM2！",
    cfg_value=2.0,
    inference_timesteps=10,
)

sf.write("voice_design.wav", wav, model.tts_model.sample_rate)

命令行也可以直接使用：

# 音色设计
voxcpm design \
  --text "VoxCPM2 带来全新语音合成体验。" \
  --output out.wav

# 声音克隆
voxcpm clone \
  --text "这是一个声音克隆的演示。" \
  --reference-audio path/to/voice.wav \
  --output out.wav

如果只是想先体验效果，可以直接打开官方 Demo；如果要做高吞吐部署，可以进一步看 Nano-vLLM-VoxCPM 或 vLLM-Omni 的部署方案。

结论

VoxCPM2 的重点不是“又一个 TTS 模型”，而是把多语言合成、音色设计、声音克隆和高质量输出放在同一套开源体系里。它对开发者友好的地方在于：有 Python API、有命令行、有 Web Demo，也提供了面向服务化部署的加速路径。

如果你正在做内容生成、语音产品、数字人、AI 播客或声音克隆相关应用，VoxCPM 是一个值得重点关注的开源项目。它既可以作为现成的 TTS/克隆能力使用，也适合作为研究连续语音表征和开源语音生成系统的参考实现。