0

0

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新

王林

王林

发布时间:2023-07-07 15:42:28

|

1761人浏览过

|

来源于搜狐

转载

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速ai创新

近日,2023年国际顶级语音会议ASRU(IEEE Automatic Speech Recognition and Understanding,自动语音识别与理解)的多通道多方会议转录挑战赛(M2MeT2.0)圆满结束,喜马拉雅珠峰实验室取得了卓越成绩,荣获冠军殊荣。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速ai创新

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速ai创新

ASRU研讨会是IEEE语音和语言处理技术委员会(SLTC)的旗舰技术活动,每两年举办一次,汇集了来自学术界和工业界的顶级专家和研究人员,共同探讨广泛的语音识别与理解问题。M2MeT2.0挑战赛是ASRU 2023年的一项关键赛事,其目标是解决离线会议室语音重叠的转录问题。会议场景作为典型的多人自由交谈的"鸡尾酒会场景"一直是语音识别领域的难点和关注焦点,对于开发会议场景的语音人工智能和探索相关问题的工业级解决方案具有重要意义。

值得注意的是,喜马拉雅不是第一次参加ASRU的M2MeT挑战赛。在首届M2MeT挑战赛中,喜马拉雅与中国科学技术大学合作,在说话人日志赛道中荣获第三名,并且取得了仅有4.05%的日志错误率。在首届挑战赛中,评估使用字符错误率(CER)作为指标,仅将音频转录为文本,而不考虑说话人标签。基于首届的成功,M2MeT2.0挑战赛将着重于说话人相关的评估,推动多说话人语音识别系统的实用化,并设立了限定数据和不限定数据两个子赛道。

为了应对这一挑战,喜马拉雅珠峰实验室从语音识别基础框架出发,展开了混叠语音检测技术和说话人日志技术等方面的技术探索。喜马拉雅在M2MeT2.0挑战赛的限定数据集和开放数据集两个子赛道上均获得了优异的第一名成绩。

今年的M2MeT2.0挑战赛数据集包含了真实、多场景、多模态的大规模数据,涵盖了不同规模和布局的多种会议室,模拟了各种家具、不同主题的例会以及各种室内噪音。这些交错重叠的声音,如人声、电视声、风扇空调声、键盘声、开门/关门声、气泡声等,为比赛增加了难度。通过同时使用麦克风阵列记录远距离声音和耳机麦克风记录近距离声音,确保了对应说话者的语音准确转录。这一数据集对于多说话人语音识别和语音重叠问题的研究具有重要的学术意义,并为寻找工业级解决方案提供了真实且多样化的数据资源。

LAIKA
LAIKA

LAIKA 是一个创意伙伴,您可以训练它像您(或您想要的任何人)一样写作。

下载

M2MeT2.0挑战赛数据集中所有说话人的母语均为汉语,喜马拉雅通过产学研相结合的方式积极参与其中,致力于为中国本土语音识别技术的发展作出贡献。在M2MeT2.0挑战赛中,喜马拉雅展示了出色的说话人和语音识别技术(ASR)展现出了卓越的性能,其珠峰实验室团队通过自研的说话人识别、语音增强和语音识别等模块的优化和经验,在语音重叠和多说话人环境下取得了显著突破。通过结合深度学习和神经网络模型,喜马拉雅珠峰实验室能够实时转录并精准识别分离多个说话人的语音。

喜马拉雅相关技术不仅在ASRU 2023年M2MeT2.0挑战赛中得到验证,还已应用赋能于喜马拉雅AIGC内容生产中。目前,喜马拉雅自动语音识别(ASR)技术已广泛应用到了喜马拉雅App的AI文稿功能,对喜马拉雅平台中无文稿的声音内容进行语音转写,并输出相应的文字,从而便于听众更好地理解声音内容。同时,对于已有原始文稿的声音内容,喜马拉雅的AI文稿功能通过超长音频与文本的对齐技术,将声音与文稿进行时间戳对轨,实现声音播放与相应文字的同步高亮,让用户能够更便捷地享受边听边看的内容消费体验。

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速ai创新

除了ASR技术,喜马拉雅的TTS(语音合成)技术也处于行业前列,并已经广泛被运用于评书、新闻、小说等多种内容的制作中,喜马拉雅通过将自主设计单独的韵律提取模块融入到HiTTS 技术框架,完美复现了单田芳的“声音”。据报道,喜马拉雅上线了逾100张由单田芳AI合成音合成的专辑,累计播放量已超过1亿次。

多年来,喜马拉雅一直在AI语音技术领域进行深入研究,其珠峰实验室长期专注于语音合成、情感分析、语音识别等领域的研究和创新。通过参与ASRU 2023年M2MeT2.0挑战赛并获得冠军,喜马拉雅进一步巩固了在语音技术领域的领先地位,并展示了在解决复杂语音场景下的出色能力。

作为备受用户喜爱的在线音频平台,喜马拉雅一直秉持着以科技赋能文化的理念,不断将技术与创作者、用户相结合,提升内容生产效率并提供卓越的内容体验。喜马拉雅也将持续通过科技赋能和产学研相结合的方式,将先进而智能的语音技术与声音相结合,为用户提供卓越的语音技术产品和服务。

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

409

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

300

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

628

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

33

2025.10.21

aigc查重率多少合格
aigc查重率多少合格

AIGC 查重率合格标准不统一,因场景而异。学术领域要求严格,多在 10% - 20% 以下;商业写作、新闻报道稍宽松,在 20% - 30% 左右;自媒体要求差异大,个人账号或达 30% - 40%,专业平台则严控在 20% - 30% 。想了解更多相关内容,请阅读专题下面的文章。

605

2025.04.09

C++ 单元测试与代码质量保障
C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法,包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程,以及常见代码质量问题的发现与修复。通过工程化示例,帮助开发者建立 可测试、可维护、高质量的 C++ 项目体系。

8

2026.01.16

java数据库连接教程大全
java数据库连接教程大全

本专题整合了java数据库连接相关教程,阅读专题下面的文章了解更多详细内容。

29

2026.01.15

Java音频处理教程汇总
Java音频处理教程汇总

本专题整合了java音频处理教程大全,阅读专题下面的文章了解更多详细内容。

13

2026.01.15

windows查看wifi密码教程大全
windows查看wifi密码教程大全

本专题整合了windows查看wifi密码教程大全,阅读专题下面的文章了解更多详细内容。

42

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号