0

0

阶跃发布并开源端到端语音大模型 Step-Audio 2 mini

霞舞

霞舞

发布时间:2025-09-01 15:03:01

|

396人浏览过

|

来源于php中文网

原创

阶跃星辰近日正式推出其迄今为止最强大的开源端到端语音大模型——step-audio 2 mini,该模型在多项国际权威基准测试中斩获sota成绩,展现出卓越的综合性能。

这款模型创新性地将语音理解、音频推理与语音生成融为一体,在语音识别、跨语言翻译、情感分析、副语言信息解析及语音对话等多样化任务中均表现出色。尤为值得一提的是,Step-Audio 2 mini 首次实现了对语音原生 Tool Calling 能力的支持,能够通过语音指令触发外部工具调用,如实时联网搜索等操作,极大拓展了语音模型的应用边界。

用一句话概括其能力,便是:“听得清楚、想得透彻、说得自然”

据官方介绍,Step-Audio 2 mini 在多个核心评测任务中全面领先,不仅在音频理解、语音识别、翻译和对话等场景中超越 Qwen-Omni、Kimi-Audio 等现有开源端到端语音模型,更在多数指标上优于 GPT-4o Audio。

阶跃发布并开源端到端语音大模型 Step-Audio 2 mini

阶跃发布并开源端到端语音大模型 Step-Audio 2 mini

FreeTTS
FreeTTS

FreeTTS是一个免费开源的在线文本到语音生成解决方案,可以将文本转换成MP3,

下载
  • 在多模态音频理解基准 MMAU 上,Step-Audio 2 mini 以73.2分高居开源端到端语音模型榜首;
  • 在评估口语对话能力的 URO Bench 测试中,其在基础与专业赛道均取得开源模型最佳成绩,充分展现其强大的对话理解与表达能力;
  • 中英互译任务中表现尤为亮眼,在 CoVoST 2 和 CVSS-C 测试集上分别获得 39.3 和 29.1 的高分,显著优于 GPT-4o Audio 及其他开源语音模型;
  • 语音识别方面,Step-Audio 2 mini 实现多语言与多方言领先,其中中文开源测试集平均 CER(字错误率)低至 3.19,英文测试集平均 WER(词错误率)为 3.50,性能领先同类开源模型超15%。

Step-Audio 2 mini 凭借一系列架构创新,真正实现了“既走脑也走心”的语音交互体验:

  • 真正的端到端多模态架构:突破传统 ASR + LLM + TTS 的三段式结构,直接实现从原始音频输入到语音输出的全流程建模,结构更简洁、响应更迅速,同时能精准捕捉语调、停顿、背景音等非语音信息。

阶跃发布并开源端到端语音大模型 Step-Audio 2 mini

图:Step-Audio 2 mini 模型架构图

  • CoT 推理与强化学习融合:首次在端到端语音模型中引入链式思维推理(Chain-of-Thought, CoT)并结合强化学习进行联合优化,使模型具备对情绪、语调、音乐等复杂音频信号进行深度推理并生成自然回应的能力;
  • 音频知识增强机制:支持集成外部工具如 web 检索,有效缓解模型幻觉问题,提升事实准确性,并赋予其在开放场景下的持续扩展能力。

目前,Step-Audio 2 mini 已全面开放,开发者可通过以下平台获取模型资源:

GitHub:https://www.php.cn/link/6024f6421eb2bf25995d9dbe18504e25 Hugging Face:https://www.php.cn/link/aa826555e21b7c95a06600456effd501 ModelScope:https://www.php.cn/link/d6aa56c3cd6341dd6c3ab5757a5e103b

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

146

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2026

2024.08.16

Golang 性能分析与pprof调优实战
Golang 性能分析与pprof调优实战

本专题系统讲解 Golang 应用的性能分析与调优方法,重点覆盖 pprof 的使用方式,包括 CPU、内存、阻塞与 goroutine 分析,火焰图解读,常见性能瓶颈定位思路,以及在真实项目中进行针对性优化的实践技巧。通过案例讲解,帮助开发者掌握 用数据驱动的方式持续提升 Go 程序性能与稳定性。

9

2026.01.22

html编辑相关教程合集
html编辑相关教程合集

本专题整合了html编辑相关教程合集,阅读专题下面的文章了解更多详细内容。

56

2026.01.21

三角洲入口地址合集
三角洲入口地址合集

本专题整合了三角洲入口地址合集,阅读专题下面的文章了解更多详细内容。

50

2026.01.21

AO3中文版入口地址大全
AO3中文版入口地址大全

本专题整合了AO3中文版入口地址大全,阅读专题下面的的文章了解更多详细内容。

396

2026.01.21

妖精漫画入口地址合集
妖精漫画入口地址合集

本专题整合了妖精漫画入口地址合集,阅读专题下面的文章了解更多详细内容。

118

2026.01.21

java版本选择建议
java版本选择建议

本专题整合了java版本相关合集,阅读专题下面的文章了解更多详细内容。

3

2026.01.21

Java编译相关教程合集
Java编译相关教程合集

本专题整合了Java编译相关教程,阅读专题下面的文章了解更多详细内容。

16

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 2.9万人学习

Git版本控制工具
Git版本控制工具

共8课时 | 1.5万人学习

Git中文开发手册
Git中文开发手册

共0课时 | 0人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号