
一句话定位
VoxCPM 是 OpenBMB 开源的语音合成项目,最新版本 VoxCPM2 主打多语言 TTS、自然语言音色设计、可控声音克隆和 48kHz 高质量音频输出。
基础信息卡片
| 项目 | 信息 |
|---|---|
| GitHub | OpenBMB/VoxCPM |
| 一句话定位 | 基于连续语音表征的开源多语言 TTS 与声音克隆系统 |
| 最新主线 | VoxCPM2 |
| 模型规模 | 2B 参数 |
| 训练数据 | 超过 200 万小时多语种音频数据 |
| 支持语言 | 30 种全球语言 + 9 种中文方言 |
| 核心能力 | 文本转语音、音色设计、可控声音克隆、极致克隆、流式合成 |
| 输出质量 | 48kHz 高质量音频 |
| 技术路线 | Tokenizer-Free,扩散自回归架构,基于 MiniCPM-4 构建 |
| 许可证 | Apache-2.0 |
| 主要语言 | Python |
| Stars | 约 30.7k(2026-06-19) |
| 在线体验 | Hugging Face Demo / 国内体验入口 |
| 文档 | ReadTheDocs 中文文档 |
| 模型 | Hugging Face / ModelScope |
解决什么问题
做语音合成时,很多项目会先把音频压成离散 token,再让模型预测这些 token,最后再还原成声音。这个路线成熟,但也会带来一个问题:声音里的细节、情绪、节奏和质感,容易在离散化过程中被压掉一部分。
VoxCPM 走的是另一条路:它强调 Tokenizer-Free,也就是不依赖离散音频分词器,而是直接生成连续语音表征。这样做的目标很明确:让模型更自然地保留人声里的细节,尤其是语气、韵律、情绪和克隆场景中的音色一致性。
这让 VoxCPM 更适合一些对“声音表现力”有要求的场景,例如:
- 多语言内容的自动配音
- AI 播客、短视频旁白、有声内容生成
- 角色音色设计
- 带情绪和语速控制的声音克隆
- 需要高质量输出的语音产品原型
核心功能
1. 多语言文本转语音
VoxCPM2 支持 30 种全球语言,使用时不需要额外写语言标签,直接输入文本即可合成。中文方面,它还覆盖四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话等 9 种方言。
这对内容创作类产品比较实用:同一个语音生成链路,可以覆盖中文、英文、日语、韩语、法语、西班牙语等多语种内容,而不必为每种语言单独接一套模型。
2. 自然语言音色设计
VoxCPM2 的一个有意思的能力是 Voice Design。你不一定要先准备参考音频,可以直接用自然语言描述想要的声音,例如“年轻女性,声音温柔甜美”“中年男性,沉稳、有磁性、语速较慢”。
这类能力适合用在角色音色探索、播客旁白、虚拟主播、游戏 NPC 配音等场景。相比传统 TTS 固定几个音色可选,它更接近“用文字描述声音,然后生成一个符合描述的新音色”。
3. 可控声音克隆
如果你有一段参考音频,VoxCPM2 可以克隆其中的音色,并允许叠加风格控制。例如在保持原始音色的同时,让输出更欢快、语速更快、情绪更明显。
这比单纯“照着参考音频复刻”更灵活,因为实际使用中,用户往往不只是想要同一个音色,还希望控制它在不同文本里的表达方式。
4. 极致克隆
项目还保留了更高保真的克隆模式:提供参考音频和对应转录文本,让模型从参考音频继续生成后续内容。这种方式更强调延续参考音频里的细节,包括音色、节奏、情绪和说话风格。
如果目标是尽量贴近某段参考声音,而不是只是大致相似,这个模式会更合适。
5. 48kHz 高质量输出与实时流式合成
VoxCPM2 原生输出 48kHz 音频,并通过 AudioVAE V2 的非对称编解码设计支持从 16kHz 参考音频生成高质量结果,不需要额外再接一个外部超分模块。
在推理性能方面,项目 README 给出的数据是:标准 PyTorch 实现在 NVIDIA RTX 4090 上 RTF 低至约 0.3;结合 Nano-vLLM 或 vLLM-Omni 加速后可到约 0.13。对于希望把 TTS 做成服务的团队来说,这意味着它不只是一个离线实验项目,也具备进一步服务化的基础。
适合谁
VoxCPM 比较适合这些人和团队:
- 想搭建多语言 TTS 服务的开发者
- 需要中文、英文和其他多语种配音能力的内容团队
- 想研究声音克隆、语音生成、连续语音表征的工程师
- 做 AI 播客、数字人、虚拟主播、游戏配音、短视频配音的产品团队
- 需要可商用开源 TTS 模型,并希望能本地部署或二次开发的团队
快速上手
最简单的方式是直接安装 Python 包:
pip install voxcpm环境要求主要包括:Python 3.10 到 3.12、PyTorch 2.5.0 及以上、CUDA 12.0 及以上。
一个基础的文本转语音示例:
from voxcpm import VoxCPM
import soundfile as sf
model = VoxCPM.from_pretrained(
"openbmb/VoxCPM2",
load_denoiser=False,
)
wav = model.generate(
text="VoxCPM2 是目前推荐使用的多语言语音合成版本。",
cfg_value=2.0,
inference_timesteps=10,
)
sf.write("demo.wav", wav, model.tts_model.sample_rate)如果想尝试音色设计,可以在文本前面加一段声音描述:
wav = model.generate(
text="(年轻女性,声音温柔甜美)你好,欢迎使用 VoxCPM2!",
cfg_value=2.0,
inference_timesteps=10,
)
sf.write("voice_design.wav", wav, model.tts_model.sample_rate)命令行也可以直接使用:
# 音色设计
voxcpm design \
--text "VoxCPM2 带来全新语音合成体验。" \
--output out.wav
# 声音克隆
voxcpm clone \
--text "这是一个声音克隆的演示。" \
--reference-audio path/to/voice.wav \
--output out.wav如果只是想先体验效果,可以直接打开官方 Demo;如果要做高吞吐部署,可以进一步看 Nano-vLLM-VoxCPM 或 vLLM-Omni 的部署方案。
结论
VoxCPM2 的重点不是“又一个 TTS 模型”,而是把多语言合成、音色设计、声音克隆和高质量输出放在同一套开源体系里。它对开发者友好的地方在于:有 Python API、有命令行、有 Web Demo,也提供了面向服务化部署的加速路径。
如果你正在做内容生成、语音产品、数字人、AI 播客或声音克隆相关应用,VoxCPM 是一个值得重点关注的开源项目。它既可以作为现成的 TTS/克隆能力使用,也适合作为研究连续语音表征和开源语音生成系统的参考实现。
