VoxCPM:开源的多语言语音合成与声音克隆模型

介绍 OpenBMB/VoxCPM:一个基于连续语音表征的开源多语言 TTS 与声音克隆系统,支持音色设计、可控克隆、48kHz 高质量输出和服务化部署。

VoxCPM

一句话定位

VoxCPM 是 OpenBMB 开源的语音合成项目,最新版本 VoxCPM2 主打多语言 TTS、自然语言音色设计、可控声音克隆和 48kHz 高质量音频输出。

基础信息卡片

项目信息
GitHubOpenBMB/VoxCPM
一句话定位基于连续语音表征的开源多语言 TTS 与声音克隆系统
最新主线VoxCPM2
模型规模2B 参数
训练数据超过 200 万小时多语种音频数据
支持语言30 种全球语言 + 9 种中文方言
核心能力文本转语音、音色设计、可控声音克隆、极致克隆、流式合成
输出质量48kHz 高质量音频
技术路线Tokenizer-Free,扩散自回归架构,基于 MiniCPM-4 构建
许可证Apache-2.0
主要语言Python
Stars约 30.7k(2026-06-19)
在线体验Hugging Face Demo / 国内体验入口
文档ReadTheDocs 中文文档
模型Hugging Face / ModelScope

解决什么问题

做语音合成时,很多项目会先把音频压成离散 token,再让模型预测这些 token,最后再还原成声音。这个路线成熟,但也会带来一个问题:声音里的细节、情绪、节奏和质感,容易在离散化过程中被压掉一部分。

VoxCPM 走的是另一条路:它强调 Tokenizer-Free,也就是不依赖离散音频分词器,而是直接生成连续语音表征。这样做的目标很明确:让模型更自然地保留人声里的细节,尤其是语气、韵律、情绪和克隆场景中的音色一致性。

这让 VoxCPM 更适合一些对“声音表现力”有要求的场景,例如:

  • 多语言内容的自动配音
  • AI 播客、短视频旁白、有声内容生成
  • 角色音色设计
  • 带情绪和语速控制的声音克隆
  • 需要高质量输出的语音产品原型

核心功能

1. 多语言文本转语音

VoxCPM2 支持 30 种全球语言,使用时不需要额外写语言标签,直接输入文本即可合成。中文方面,它还覆盖四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话等 9 种方言。

这对内容创作类产品比较实用:同一个语音生成链路,可以覆盖中文、英文、日语、韩语、法语、西班牙语等多语种内容,而不必为每种语言单独接一套模型。

2. 自然语言音色设计

VoxCPM2 的一个有意思的能力是 Voice Design。你不一定要先准备参考音频,可以直接用自然语言描述想要的声音,例如“年轻女性,声音温柔甜美”“中年男性,沉稳、有磁性、语速较慢”。

这类能力适合用在角色音色探索、播客旁白、虚拟主播、游戏 NPC 配音等场景。相比传统 TTS 固定几个音色可选,它更接近“用文字描述声音,然后生成一个符合描述的新音色”。

3. 可控声音克隆

如果你有一段参考音频,VoxCPM2 可以克隆其中的音色,并允许叠加风格控制。例如在保持原始音色的同时,让输出更欢快、语速更快、情绪更明显。

这比单纯“照着参考音频复刻”更灵活,因为实际使用中,用户往往不只是想要同一个音色,还希望控制它在不同文本里的表达方式。

4. 极致克隆

项目还保留了更高保真的克隆模式:提供参考音频和对应转录文本,让模型从参考音频继续生成后续内容。这种方式更强调延续参考音频里的细节,包括音色、节奏、情绪和说话风格。

如果目标是尽量贴近某段参考声音,而不是只是大致相似,这个模式会更合适。

5. 48kHz 高质量输出与实时流式合成

VoxCPM2 原生输出 48kHz 音频,并通过 AudioVAE V2 的非对称编解码设计支持从 16kHz 参考音频生成高质量结果,不需要额外再接一个外部超分模块。

在推理性能方面,项目 README 给出的数据是:标准 PyTorch 实现在 NVIDIA RTX 4090 上 RTF 低至约 0.3;结合 Nano-vLLM 或 vLLM-Omni 加速后可到约 0.13。对于希望把 TTS 做成服务的团队来说,这意味着它不只是一个离线实验项目,也具备进一步服务化的基础。

适合谁

VoxCPM 比较适合这些人和团队:

  • 想搭建多语言 TTS 服务的开发者
  • 需要中文、英文和其他多语种配音能力的内容团队
  • 想研究声音克隆、语音生成、连续语音表征的工程师
  • 做 AI 播客、数字人、虚拟主播、游戏配音、短视频配音的产品团队
  • 需要可商用开源 TTS 模型,并希望能本地部署或二次开发的团队

快速上手

最简单的方式是直接安装 Python 包:

pip install voxcpm

环境要求主要包括:Python 3.10 到 3.12、PyTorch 2.5.0 及以上、CUDA 12.0 及以上。

一个基础的文本转语音示例:

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained(
    "openbmb/VoxCPM2",
    load_denoiser=False,
)

wav = model.generate(
    text="VoxCPM2 是目前推荐使用的多语言语音合成版本。",
    cfg_value=2.0,
    inference_timesteps=10,
)

sf.write("demo.wav", wav, model.tts_model.sample_rate)

如果想尝试音色设计,可以在文本前面加一段声音描述:

wav = model.generate(
    text="(年轻女性,声音温柔甜美)你好,欢迎使用 VoxCPM2!",
    cfg_value=2.0,
    inference_timesteps=10,
)

sf.write("voice_design.wav", wav, model.tts_model.sample_rate)

命令行也可以直接使用:

# 音色设计
voxcpm design \
  --text "VoxCPM2 带来全新语音合成体验。" \
  --output out.wav

# 声音克隆
voxcpm clone \
  --text "这是一个声音克隆的演示。" \
  --reference-audio path/to/voice.wav \
  --output out.wav

如果只是想先体验效果,可以直接打开官方 Demo;如果要做高吞吐部署,可以进一步看 Nano-vLLM-VoxCPM 或 vLLM-Omni 的部署方案。

结论

VoxCPM2 的重点不是“又一个 TTS 模型”,而是把多语言合成、音色设计、声音克隆和高质量输出放在同一套开源体系里。它对开发者友好的地方在于:有 Python API、有命令行、有 Web Demo,也提供了面向服务化部署的加速路径。

如果你正在做内容生成、语音产品、数字人、AI 播客或声音克隆相关应用,VoxCPM 是一个值得重点关注的开源项目。它既可以作为现成的 TTS/克隆能力使用,也适合作为研究连续语音表征和开源语音生成系统的参考实现。

标签

评论

点击后才加载 GitHub Discussions 评论,避免打开页面时请求 giscus.app。

阅读进度 0% 目录
关注公众号
微信公众号二维码