通义百聆是阿里巴巴通义实验室自主研发的企业级语音基础大模型,深度融合 fun-asr 语音识别与 fun-cosyvoice 语音合成两大核心模型,专为多噪、多语、多场景的复杂语音交互环境打造。依托创新的 context 增强架构,显著抑制生成幻觉,有效根治跨语种混淆问题;支持热词实时注入与垂直领域术语高精度识别。语音合成方面,具备跨语种音色克隆能力,声音还原度处于行业前列。模型基于海量真实业务音频数据训练,已深度适配金融、教育、制造、互联网、畜牧等十余个行业,开箱即用,助力企业敏捷构建高性能语音应用。
通义百聆迎来重磅升级:Fun-CosyVoice3 模型发布后,首包响应延迟下降50%,中英文混合文本识别准确率提升至原有两倍;全面支持9种主流语言、18种方言口音,并新增跨语种克隆与细粒度情感调控能力;具备 zero-shot 音色复刻功能,让语音合成更高效、更拟真。与此同时,Fun-ASR 模型性能全面跃升——在强噪声环境下识别准确率达93%;支持31种语言自由混说及广泛方言覆盖;首次集成歌词与说唱节奏识别能力;流式识别首字延迟压缩至160ms,实现更准、更快、更稳的语音转写体验。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
通义百聆的核心能力
以上就是通义百聆— 阿里通义推出的企业级语音基座大模型的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号