0

0

深耕AI语音多模态技术,实现本地化智能交互体验

王林

王林

发布时间:2023-09-17 13:21:10

|

1612人浏览过

|

来源于搜狐

转载

伴随着5g、人工智能技术的发展,智能语音已经随着各种智能终端产品渗透到人们的日常生活中,带来了更多便捷和可能性。作为新兴市场智能终端产品和移动互联服务提供商,传音聚焦人工智能领域持续创新,不断推进ai语音技术的研究和应用,挖掘更多本地化用户场景要求,为新兴市场用户带来全场景智能交互体验。

目前,传音已经在语音识别、语义理解、语音合成、自然语言处理、知识图谱等方面形成了的自身的AI语音底层技术能力,构建起小语种语音数据优势,并在多语种语音助手、数字人、语音伪造检测技术方面取得了重大突破。今年以来,传音AI技术部成果不断,接连在ICASSP 2023 SLU口语理解挑战赛、IJCAI 2023 ADD 语音深度伪造检测国际挑战赛夺得佳绩,并在国际多媒体旗舰学术会议ICME 2023上发表数字人多模态交互的相关学术论文。

构建本地语音交互内容生态的多语种语音助手

语音助手是智能手机的标配应用之一,其核心技术为语音交互和自然语言理解,旨在帮助用户更快捷、高效地执行目标任务。面对新兴市场本地语音交互的需求,传音长期深耕多语种语音助手技术,着力洞察本地用户需求,形成技术解决方案,在探索和研发过程中沉淀了深厚的技术能力和实践经验。

在2023年的ICASSP国际顶级会议上,传音AI技术部在SLU(口语理解)挑战赛中取得了巨大的成功。凭借在语音识别和语义理解方面的出色表现,他们以71.97%的准确率荣获离线语音助手子赛道的第一名。他们的参赛论文“A Two-Stage System for Spoken Language Understanding”也被IEEE电气与电子工程师协会收录

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

深耕AI语音多模态技术,实现本地化智能交互体验

传音AI技术部同事在ICASSP 2023分享研究成果

目前,语音助手主要面向主流语言,而对小众语言、特定人群等细分领域覆盖较少。传音针对非洲、南亚等新兴市场用户的本地口音和小语种,依托海量手机用户资源,建设了一套本地化低成本、高质量的语料数据生产体系,解决小语种语料匮乏、数据稀缺的问题。在此基础上,传音开发能适应新兴市场本地用户语言文化特点的多语种语音助手,帮助当地用户更加便捷地使用本地语言与手机进行语音交互。目前,传音的多语种语音助手技术已支持英语、法语、豪萨语、阿拉伯语、斯瓦西里语等语言的语音交互和自然语言理解能力,覆盖联系人通话、APP快速启动、音乐播放、WhatsApp消息、闲聊等100多种使用场景

为了满足本地用户在生活服务方面的需求,传音公司的多语种AI语音助手技术将不断地应用于更多的生活、出行、学习和工作场景,以构建一个跨语言的AI内容服务生态系统,使智能语音服务能够渗透到本地生活的各个方面,让更多使用小语种的人受益

深耕AI语音多模态技术,实现本地化智能交互体验

AI+数字人技术赋能传音多场景业务

Img.Upscaler
Img.Upscaler

免费的AI图片放大工具

下载

随着交互智能技术的加速发展,数字人正在从技术创新走向产业应用,在娱乐、教育、医疗等多个领域发挥作用。传音积极拥抱AI发展机遇,提前布局数字人技术,建立了完备的全链路技术和工程化的自研能力。传音数字人系统,包含2D真人和3D写实数字人,拥有基于多语种的语音识别、语音合成、语音唤醒、自然语言理解和数字人等能力的数据资源,在多语种语音对话、人设和外观、智能化场景交互等领域形成了自身的本地化特色和行业领先性。今年1月,传音数字人系统获得由中国信通院所颁发的数字人领域权威标准认证。这也是当前唯一通过中国信通院评测,以“交互对话”为核心的中国手机厂商数字人系统。

为了提高虚拟形象的仿真效果、合成出逼真且富有表现力的数字人视频,传音AI技术部自研端到端技术,在优化数字人视频生成质量的过程中,基于Unet网络提出了一种新的技术框架densely-connected Unet结构,同时引入了CLIP的encoder结构,利用文本语义信息提升数字人嘴部动画效果。同时该技术提出人脸关键点技术的概率密度图,增加了模型网络的模态信息,提升了模型生成的质量。这一技术突破能够让数字人的面部形象更加真实、细腻,同时提升语音和唇形的一致性,其生成效果达到了学术上的领先水平。相关学术论文“CPNet: Exploiting CLIP-based Attention Condenser and Probability Map Guidance for High-fidelity Talking Face Generation”被国际多媒体旗舰学术会议ICME 2023(IEEE International Conference on Multimedia and Expo)成功录用。

深耕AI语音多模态技术,实现本地化智能交互体验

目前,传音数字人系统已经在多个业务场景中得到广泛应用。它不仅在海外手机门店中被用作智能导购员,为用户购买手机提供参考,还能够为各类智能终端产品提供智能语音助手功能,提升用户体验。未来,传音将进一步利用“AI+数字人”技术,为多种场景的业务赋能,积极探索数字人版语音助手和客服系统等新的业务形态,为用户带来全新的智能交互体验

持续构建AI语音底层技术能力

在AI技术快速发展的现今,算法生成音频和音频伪造已经可以做到以假乱真,对于普通用户来说辨别音频真假非常困难。为了维护信息的可信性、保障社会安全,语音伪造检测技术变得至关重要,已经成为人工智能领域的一个较新的研究方向。传音围绕智能终端产品业务场景,以本地用户需求为导向,不断延伸AI语音底层技术能力,布局新技术领域,在语音伪造检测技术上取得了重大突破。

传音AI技术部在国际人工智能联合会议IJCAI 2023(The 32nd International Joint Conference on Artificial Intelligence)组织的第二届语音深度伪造检测国际挑战赛ADD(The Second Audio Deepfake Detection Challenge)“篡改区域定位”(Manipulation Region Location)分赛道上夺得第二名。在比赛中,传音AI技术部自研创新的AI模型算法和技术,能够准确识别并定位音频中语音的篡改行为,从而有效保障数字音频的原始性和真实性,为AI应用及信息安全建设提供新思路。相关学术论文已成功发表在本届IJCAI 2023 Workshop on Deepfake Audio Detection and Analysis (DADA 2023)会议上。

深耕AI语音多模态技术,实现本地化智能交互体验

下一步,传音AI技术部将继续探索语音深度伪造检测技术在传音智能终端产品上的应用,如通话诈骗检查保护用户隐私安全等,不断提升用户使用体验。

未来,传音将继续在AI语音多模态技术领域发力,围绕“手机+移动互联网服务+家电、数码配件”核心业务需求,结合对新兴市场和本地消费者的深刻洞察,为用户提供适切其需求的智能生活体验,形成本地化的AI内容服务生态,持续满足多语种、多场景、个性化、智能化的应用需求。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
golang map内存释放
golang map内存释放

本专题整合了golang map内存相关教程,阅读专题下面的文章了解更多相关内容。

75

2025.09.05

golang map相关教程
golang map相关教程

本专题整合了golang map相关教程,阅读专题下面的文章了解更多详细内容。

36

2025.11.16

golang map原理
golang map原理

本专题整合了golang map相关内容,阅读专题下面的文章了解更多详细内容。

67

2025.11.17

java判断map相关教程
java判断map相关教程

本专题整合了java判断map相关教程,阅读专题下面的文章了解更多详细内容。

46

2025.11.27

location.assign
location.assign

在前端开发中,我们经常需要使用JavaScript来控制页面的跳转和数据的传递。location.assign就是JavaScript中常用的一个跳转方法。通过location.assign,我们可以在当前窗口或者iframe中加载一个新的URL地址,并且可以保存旧页面的历史记录。php中文网为大家带来了location.assign的相关知识、以及相关文章等内容,供大家免费下载使用。

232

2023.06.27

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

455

2023.08.14

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

473

2026.02.13

微博网页版主页入口与登录指南_官方网页端快速访问方法
微博网页版主页入口与登录指南_官方网页端快速访问方法

本专题系统整理微博网页版官方入口及网页端登录方式,涵盖首页直达地址、账号登录流程与常见访问问题说明,帮助用户快速找到微博官网主页,实现便捷、安全的网页端登录与内容浏览体验。

158

2026.02.13

Flutter跨平台开发与状态管理实战
Flutter跨平台开发与状态管理实战

本专题围绕Flutter框架展开,系统讲解跨平台UI构建原理与状态管理方案。内容涵盖Widget生命周期、路由管理、Provider与Bloc状态管理模式、网络请求封装及性能优化技巧。通过实战项目演示,帮助开发者构建流畅、可维护的跨平台移动应用。

64

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 17.7万人学习

C# 教程
C# 教程

共94课时 | 9.7万人学习

XML教程
XML教程

共142课时 | 7.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号