小米开源OmniVoice语音克隆TTS模型,号称覆盖600余种语言
创始人
2026-05-08 13:15:17
0

据IT之家,小米AI实验室新一代Kaldi团队推出OmniVoice语音克隆TTS模型。官方表示,这是业内首个覆盖数百语种的语音克隆TTS模型,在中英文场景达到顶尖性能,在多语言任务中展现出超越商用系统的实力。

该模型仅用一个双向Transformer网络就直接实现文本到语音转化,省去了文本单独建模、复杂混合结构及多层级token预测等环节,是目前最简单的非自回归TTS模型。其语音合成质量优于目前同类主流模型,训练和推理速度极具优势,一天可完成10万小时训练,用PyTorch推理可达到40倍实时。

OmniVoice有两项关键设计:一是通过全码本随机掩蔽策略提升训练效率;二是首次在非自回归TTS模型中有效利用大语言模型作为预训练参数,大幅提升语音合成的可懂度。

在多语言测试中,即便仅基于开源数据训练,该模型在24语种测试中的语音相似度和可懂度均超越多款商用系统;在102种语种测试中,其语音可懂度逼近甚至优于真实语音;对于训练数据不足10小时的小语种,也能实现高质量语音合成。

该模型还具备多项实用功能:无需参考音频,仅通过描述音色属性即可生成符合预期的音色;能自动过滤参考音频中的噪声,即便在嘈杂环境下录制的音频也能克隆出高质量语音;支持插入笑声、叹气等语气符号;用户可通过简单设置纠正中英文多音字及专有名词的发音错误。

相关内容

最新资讯

东湖评论:8000斤苹果全城兜... 苦难,是检验一个时代、一个民族社会精神风貌的试金石。这个“五一”,一个个小小的苹果,在互联网投下层层...
湖北宜城警方跨省联动追回19万... 荆楚网(湖北日报网)讯(通讯员杜心怡 卜旭旭)“太感谢你们了,没想到被骗的钱还能找回来!”5月6日,...
黑龙江爹爹来汉探亲突发心梗 ... 荆楚网(湖北日报网)讯(通讯员李林牧 张雨)“幸亏送医及时、救治神速,不然真不敢想象后果!”近日,从...
两艘伊朗油轮在霍尔木兹海峡附近... 霍尔木兹海峡附近被困船只海员8日提供的两段无线电录音显示,两艘油轮当天遭遇袭击并请求援助。根据录音中...
中方如何评价伊朗外长此次访华?... 中国青年报客户端北京5月8日电(中青报·中青网记者 蒋继璇)伊朗外长阿拉格齐于5月6日应邀访华,中共...
说明靠谱的省级公务员面试班,省... 在竞争激烈的省级公务员考试中,面试环节至关重要。选择一家靠谱的面试培训机构,能为考生的备考之路提供有...
浏阳烟花厂爆炸涉事企业多次被查... 中央广播电视总台中国之声 近日,湖南长沙市浏阳烟花厂发生的爆炸事故,在当地和整个行业持续引发震动。事...
伊朗海军扣押一艘违规油轮 总台记者当地时间5月8日获悉,伊朗伊斯兰共和国军队海军特种部队在一次特别行动中,扣押了“试图干扰伊朗...
西安电子科技大学今年新增1个本... 人民网北京5月7日电(记者李昉)近日,教育部发布《普通高等学校本科专业目录(2026年)》,西安电子...