面壁智能VoxCPM 1.5上线并开源:高采样音频克隆,生成效率翻倍
科技讯 12月10日,面壁智能宣布,VoxCPM 1.5版本正式上线并开源,多项核心能力获得升级。

AudioVAE的采样率从16kHz提升到44.1kHz,模型能够根据高质量音频,生成更加逼真的、细节更加丰富的声音;此外,VoxCPM 1.5仅需6.25个token即可生成1秒音频,相比之前版本提高了一倍,在保持速度的同时,音频生成质量也得到了提升。此外,VoxCPM 1.5版本的稳定性也得到了增强,减少了音频伪影,优化了长文本音频的生成效果。

