(资料图)

上证报中国证券网讯(记者杨翔菲)3月2日,阿里发布两款语音新模型,基于参考音频的声音克隆模型Fun-CosyVoice3.5和无参考音频的音色设计模型Fun-AudioGen-VD。两款模型均引入“指令遵循”能力,自由控制声音的情感、语速、场景等,可用freestyle(自由风格模式)定制角色,适用于有声书、游戏、客服、播客、教育、直播等多个场景。

两款模型在同尺寸模型的基准评测中斩获多项SOTA。在Seed-TTS基准测试的中文“困难案例”指标中,Fun-CosyVoice3.5表现抢眼,词错误率(Word Error Rate, WER)和说话人相似度(Speaker Similarity, SSIM),均为最佳。同时,因为优化了“困难案例”的发音,生僻字句错率由15.2%降低到5.3%。

两款模型在语音准确率、说话人相似度、韵律自然度和音质方面提升显著,主要得益于模型在训练过程中的优化。在强化学习中通过使用DiffRO和GRPO,增加了对于时长和韵律多通道的奖励。DiffRO(Differentiable Reward Optimization)意为“可微奖励优化”,由阿里通义实验室提出,专门用于优化TTS模型;GRPO(Group Relative Policy Optimization)意为组相对策略优化,通过对比不同答案来判断优劣,得到奖励。GRPO还被用在Flow Matching(流匹配,将噪声分布转为真实数据分布)的强化学习中,为业内首次使用于声音克隆模型。

此外,Fun-CosyVoice3.5所用的tokenizer帧率减半,提高了训练效率,并且首包延迟降低35%,大幅提升了实时交互体验。

即日起,用户可在阿里云百炼调用这两款最新模型。

推荐内容