阿里发布两款语音新模型_今日播报

(资料图)

上证报中国证券网讯（记者杨翔菲）3月2日，阿里发布两款语音新模型，基于参考音频的声音克隆模型Fun-CosyVoice3.5和无参考音频的音色设计模型Fun-AudioGen-VD。两款模型均引入“指令遵循”能力，自由控制声音的情感、语速、场景等，可用freestyle（自由风格模式）定制角色，适用于有声书、游戏、客服、播客、教育、直播等多个场景。

两款模型在同尺寸模型的基准评测中斩获多项SOTA。在Seed-TTS基准测试的中文“困难案例”指标中，Fun-CosyVoice3.5表现抢眼，词错误率（Word Error Rate, WER）和说话人相似度（Speaker Similarity, SSIM），均为最佳。同时，因为优化了“困难案例”的发音，生僻字句错率由15.2%降低到5.3%。

两款模型在语音准确率、说话人相似度、韵律自然度和音质方面提升显著，主要得益于模型在训练过程中的优化。在强化学习中通过使用DiffRO和GRPO，增加了对于时长和韵律多通道的奖励。DiffRO（Differentiable Reward Optimization）意为“可微奖励优化”，由阿里通义实验室提出，专门用于优化TTS模型；GRPO（Group Relative Policy Optimization）意为组相对策略优化，通过对比不同答案来判断优劣，得到奖励。GRPO还被用在Flow Matching（流匹配，将噪声分布转为真实数据分布）的强化学习中，为业内首次使用于声音克隆模型。

此外，Fun-CosyVoice3.5所用的tokenizer帧率减半，提高了训练效率，并且首包延迟降低35%，大幅提升了实时交互体验。

即日起，用户可在阿里云百炼调用这两款最新模型。

推荐内容

美银上调纽曼矿业目标价至151美元_时讯

花旗：降玖龙纸业(02689)评级至“中性” 目标价下调至8.8港元

机构席位买入1008.19万北交所上市公司长江能科登龙虎榜天天资讯

明阳电气大宗交易折价成交150.00万股

看热讯：新诺威大宗交易折价成交19.06万股

热点！中科创达大宗交易折价成交4.50万股

东方海洋大宗交易折价成交440.00万股_快看

简讯:长芯博创大宗交易折价成交30.00万股

即时看！机构席位买入1008.19万北交所上市公司长江能科登龙虎榜

立华股份大宗交易折价成交85.00万股

ETF主力榜 | 黄金ETF博时(159937)主力资金净流入1.96亿元，居可比基金前2-20260302-微资讯

焦点报道:ETF主力榜 | 可转债ETF博时(511380)主力资金净流入2588.35万元，居全市场第一梯队-20260302

ETF主力榜 | 科创债ETF万家(159110)主力资金净流出8120.98万元，居全市场第一梯队-20260302

今天，A股再现“大象起舞”！“三桶油”集体爆发_今日热文

每日消息!2025年亏损扩大、控股股东股权被冻结：金浦钛业多重风险集中显现，子公司获3000万元关联方无息借款缓解周转压力

每日关注!天宜新材预重整投资人已“敲定”，公司去年“血亏”22亿元，退市风险仍高悬

孟加拉国女足主帅谈战中国女足：这是一场大卫对歌利亚的较量

5记三分续命！中国男篮26岁3D王牌闪耀：郭士强真没看错他

不到90天！“超短学期”来了，最新提醒！

彻底激怒！曼联球迷拉横幅硬刚老板，拉特克利夫言论遭公开打脸

【报资讯】重磅引援！利物浦锁定英超顶级中卫，6000万新援之后还有动作

理响中国·图个明白|为2030立个flag——中国式现代化的“十五五”叙事

北京银行积存金入口消失，曾惊现1.6元/克报价，客服回应来了

速读：彻底激怒！曼联球迷拉横幅硬刚老板，拉特克利夫言论遭公开打脸

最新消息：AIGC动画电影《团圆令》上映

新消息丨AIGC动画电影《团圆令》上映

民法典实施五周年以来各级法院依法审结一审民商事案件近8674万件今日快看

迎接新学期

云南昆明：樱花盛放引客来_看热讯

广东遭遇“回南天” 羊城四处“湿漉漉” 要闻速递