欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 财经 > 产业 > MiniMax语音模型Speech-02近日登顶多个全球榜单,详细技术解析

MiniMax语音模型Speech-02近日登顶多个全球榜单,详细技术解析

2025/5/17 19:45:37 来源:https://blog.csdn.net/Pydatas/article/details/148012092  浏览:    关键词:MiniMax语音模型Speech-02近日登顶多个全球榜单,详细技术解析

MiniMax最新发布的Speech-02把TTS领域传统巨头OpenAI、ElevenLabs拉下马来,直接登顶智能语音权威榜单Artificial Arena,不管是WER(字错率),还是SIM(声纹相似度)等客观指标都领先国外顶级模型,真的非常不容易。因为一直以来国内与国外在人工智能TTS的差距比LLM其实更大,这次是国内团队首次在LLM基础模型层面对国外顶尖模型形成超越。

为什么说Speech-02这次有很大突破?因为零样本语音克隆情况下,它的字错率要比真实人声低23%(中文0.83% vs 真人1.25%),而且实现了与真人97.3%的声纹相似度。这两项指标是语音模型的核心能力。

你听下Speech-02的声音就会知道,非常的自然,一点没有AI味道。

00:13


不同于其他语音模型停留在技术阶段,MiniMax早就在商用领域大面积落地,说几个例子你就知道了。

高途的吴彦祖英语课就是采用MiniMax语音模型来模拟吴彦祖的音色,使得阿祖可以24小时陪伴练习英语,很难分得清AI和真人。

还有起点读书的有声书朗读同样用的MiniMax语音模型,每次在起点听书感觉像是真人录制的一样,甚至香港电视台的粤语天气预报也是MiniMax播报的,有时候感觉AI真的无处不在。

我所在的汽车行业,像智能座舱语音、售后客服数字人等场景也都有MiniMax的身影。

Speech-02的核心优势在于无需文本转录的零样本克隆32种语言无缝切换Flow-VAE架构LoRA情绪控制,某种程度来说正在把AI语音技术从“工具化”带向了“人性化”,渗透到生活各个层面。

1、为何Speech-02能超越OpenAI TTS1 HD?

超拟人化:声似真人,胜过真人

以前我听到的各种AI语音都AI味道很浓,机械感强,没有真人说话自然松弛的感觉,但Speech-02打破了我这一固有印象,不仅说话自然,甚至带有呼吸、口癖,还有地道的方言。

00:07

Speech-02采用Flow-VAE架构实现了如真人版的语音语调,它将变分自编码器(VAE)与流模型结合,兼备了音质和稳定性,尤其在处理声音细节时,能还原出人类发声的微妙特征。

这在游戏NPC、AR眼镜、AI数字人客服场景中十分有用,让人感受到的不再是冰冷的机器播报, 而是有语气变化和情感呼应的对话。

而且Flow-VAE架构能实现嘈杂环境下的降噪,比如汽车高速行驶下,风燥很大,常常听不清语音播报,Speech-02的语音可懂度(STOI)比传统模型提升很多,能避免这一问题。

以下是噪声抑制流程:

audio_input → Mel频谱分解 → 流模型去噪 → VAE特征重组 → 16kHz高清输出

个性化:随意创造声音,让声音也有不同情绪

Speech-02模拟真人声音,仅通过30秒的音频就能提取音色特征,克隆出几乎一模一样的声音,不光音色像,语调风格也很像。相比较传统语音克隆需要大量标注数据,Speech-02可以说是零样本克隆。你可以在MiniMax官网测试克隆自己的声音,非常好玩。

声音克隆会成为企业提高服务质量的一项重要能力,比如有的新能源车企会将公司"网红"CEO的声纹植入到智能座舱系统,实现语音交互、导航等功能,增强客户的信任度,还能帮助企业持续占据用户心智。

你还可以用文生音(T2V)功能,只需要自然语言说出想要生成的音色(如“幽默的四川口音”),它会自动生成匹配的声纹特征,甚至动态调节情感强度和语速。

那为什么动态情绪也能体现出来?Speech-02通过LoRA微调技术,可以在同一句话中实现情绪渐变,支持8种基础情绪,和256种组合情绪。比如说汽车语音导航提示“前方有车急刹,请注意减速”,就会表现在急切的情绪,这对于驾驶员来说能更好感受到潜在危险。等到紧急情况过了,又会以轻松愉快的语调播报。

多样性:32种语言无缝切换,毫无违和感

现在外贸交易、跨国交流场景非常多,会出现一个会上有三四种语言的情况,比如德语同事讲产品,英语同事讲技术,国内中文同事讲市场,Speech-02就可以无缝切换克隆翻译,因为它支持32种语言,跨语言整合能力相当强悍,而且能保持发言人声音特征。

00:12

而且在跨语言克隆过程中,Speech-02字错率非常低,比如在中文→法语的跨语言克隆中,零样本克隆的字错率低至4.497%,都能接近母语水平。对比ElevenLabs,尤其在小语种上Speech-02字错率优势更加明显。

这种能力适合国际旅游城市的AI接待工作,不管是日语、德语、法语、英语等,AI接待员都能自如的切换,毫无违和感,还能秀一段三国语言混合的脱口秀。

Speech-02打造智能座舱全新语音交互模式

前面说到Speech-02在智能座舱有很多应用场景,那么如何去实现呢?

这里必须要提到Learnable Speaker Encoder架构,是MiniMax发开的一种可学习的说话者编码器。
Speech-02利用端到端去采集和学习用户声音编码,通过30秒零样本声纹克隆,可对多位乘车用户实现声音的复制。比如一家四口,每位家庭成员都能克隆专属声纹档案,可随时切换对应的语音播报声音,像是小朋友的稚嫩奶音就很治愈。

下面是示例的声纹特征提取代码:

# 声纹特征提取伪代码
def extract_speaker_vector(audio):noise_reduction = FlowVAE_Denoiser(audio)  # Flow-VAE降噪encoder_output = LearnableEncoder(noise_reduction)  # 192维声纹向量return L2_Normalize(encoder_output)  # 单位向量化

这里面还会用到几个技术,首先是Flow-VAE音频引擎,Speech-02可以通过Flow-VAE技术降噪在80~90dB路噪环境下仍保持0.92+声纹相似度(SIM),且STOI得分对比传统方案提高很多。(这里是简单环境初步做的软件模拟,个人分析模拟结论,只作为参考,不作为真实实测数据,特此说明)
其次是LoRA情绪控制技术,让克隆的车载语音有情绪变化,就像真人在耳语,支持在车端自定义设置情绪模式。


其次是LoRA情绪控制技术,让克隆的车载语音有情绪变化,就像真人在耳语,支持在车端自定义设置情绪模式。

{"emotion_profile": {"base_mode": "专业","intensity": 0.7,"dynamic_range": {"pitch_variation": 15Hz,"speech_rate": 1.2x}}
}

有八种基础情绪,和上百种组合情绪。

还有多语言的混合交互,用到32种语言神经编码器,比如车里有老人习惯听方言,那就调节成四川话、上海话、湖南话等,如果车里有国外同事,可以调成对应的外语模式。

# 代码混合处理引擎
def mixed_language_process(text):lang_detect = Transformer_Detector(text)for segment in text.split():if lang_detect(segment) != current_lang:activate_crosslingual_adaptor()return prosody_adjusted_audio

对于不同的开车场景,比如白天、夜间、高速等,Speech-02能接受传感器环境变化信息,自适应调整语音模式。高速噪音大的时候自动缩短语句长度,增强高频清晰度。晚上开车稍微有些疲劳的时候,会激活高频刺激语音(3000-5000Hz增强),让驾驶员更加清醒。

还有很多场景可以想象,比如语音情感交互、跨设备同步(连接智能家居)、车内售后服务、车内商务会议等等,随着Speech-02的模式创新带来的场景爆炸式增长,让智能座舱有了更丰富的体验,作为车主的我来说很是期待。

有部分人会担心车载声音指纹的安全问题,这里包括内容安全和个人隐私安全,像有小朋友的家庭尤其会有所顾忌。Speech-02安全防护机制很到位,会对实时对敏感词过滤处理,保证内容安全。同时采用本地化声纹存储、声纹+人脸双因子认证等机制去保障个人隐私安全。

结论

MiniMax-Speech-02登顶语音模型排行榜,不光是名次的进步,还是对整个智能语音行业的推动,让AI语音不再机械化,从"功能载体"向"情感伙伴"进化。

除了现有的通用场景,比如AI有声书、AI教育、游戏NPC、智能座舱等,MiniMax-Speech-02应用还有很多商业场景值得挖掘。

比如独居老人的AI陪护,可以模拟子女声音,用当地方言和老人对话,不光给予老人生理的照顾,还有心理的陪伴。

还有元宇宙的虚拟角色,让玩家有独特的声线,在与其他玩家的交互过程中,在声音中感受到真实情感。

像刑侦中也可以用到该技术,通过对嫌疑人短暂声纹的克隆,去重新构建完整声纹及方言特征。

这样的场景数不胜数,未来每个个体、每个品牌都会有自己独一无二的声音人格和听觉身份,这是像MiniMax-Speech-02这样的AI技术带来的礼物。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词