如何用紧凑型语音表征打造高性能语音合成系统

WBOY

发布时间：2023-04-13 11:10:02

1983人浏览过

来源于51CTO.COM

转载

小红书多媒体智能算法团队和香港中文大学首次联合提出了基于多阶段多码本紧凑型语音表征的高性能语音合成方案 MSMC-TTS。基于矢量量化变分自编码器（VQ-VAE）的特征分析器采用若干码本对声学特征进行阶段式编码，形成一组具有不同时间分辨率的隐序列集合。这些隐序列可以由多阶段预测器从文本中预测获得，并且通过神经声码器转换成目标音频。该方案，对比基于Mel-Spectrogram的Fastspeech 基线系统，音质和自然度有明显的改善。该工作现已总结成论文 “A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS”，并被语音领域会议 INTERSPEECH 2022 接收。

一、背景介绍

语音合成（Text-to-Speech, 简称 TTS）是把文本转化为语音的一种技术，被广泛应用于视频配音、音视频内容创作、智能人机交互等产品中。主流语音合成系统后端的声学建模技术通常包括特征提取器，声学模型和声码器三部分。TTS 通常会对基于信号处理获得的声学特征（例如梅尔谱 Mel Spectrogram）进行声学建模，但受限于模型的拟合能力，预测得到的声学特征和真实数据在分布上存在一定差异，这导致在真实数据上训练的声码器难以从预测特征中生成高质量音频。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

TTS 系统框架图

针对这一难题，学界使用了更为复杂的模型结构和更为新颖的生成式算法以减小预测误差和缩小分布差异。而本工作另辟蹊径，以紧凑型语音表征为出发点来考虑问题。对语音合成来说，1）声学特征良好的紧凑性能够保证更为准确的模型预测结果和更鲁棒的波形生成；2）声学特征良好的完备性能够保证更好地重构语音信号。基于这两点考虑，本文提出采用矢量量化变分自编码器（VQ-VAE）从目标数据中挖掘出一种更好的紧凑型表示。

二、表征学习 MSMC VQ-VAE

VQ-VAE 包括编码器与解码器。编码器将输入声学特征序列加工为隐序列并用相应码本进行量化。而解码器把经过量化的序列恢复为原始声学特征序列。这种量化序列作为离散化表征具有较好的紧凑性（特征参数量较少）。其中量化程度越高，即码本容量越小，特征紧凑程度就越高。但这也造成了信息压缩，使特征完备度变差。为了确保足够的完备性，一般都会使用更多的码字。但随着码本容量的增加，码本更新所需的数据量以及训练次数将呈指数级递增，这使得 VQ-VAE 难以通过增大码本来有效增强表征完备性。针对此问题，本文提出多头矢量量化（MHVQ）方法。

VQ-VAE 模型结构图

MHVQ 将单个码本按特征维度方向均分为若干个子码本。量化时还将每个输入向量相等地切割成若干个子向量，并分别用相应子码本量化，最终拼接成输出向量。这样我们就能更加有效地提高码本利用率及表征容量，而无需增加码本参数量。例如，要使压缩率减少1倍，码字本来要增加到原码本数的平方。采用 MHVQ 后，只要把码本切分成两部分就可以实现相同的压缩率。因此，本方法能够更加有效地调节量化表征的完备性。

MHVQ 示例图

另外在对语音序列进行量化时，语音特征中蕴含的各类信息都有不同程度地丢失。这些信息在时间粒度上是不一样的，如粗粒度的音色，发音风格等，以及细粒度的音调，发音细节等。在任何时间尺度上过度压缩信息都可能使语音质量遭到一定程度的破坏。为了缓解这一问题，本工作提出了一种多时间尺度的语音建模方法。如图所示，声学特征序列通过若干个编码器将声学特征序列阶段式编码至不同时间尺度，然后再通过解码器端逐层量化，解码得到若干个具有不同时间分辨率的量化序列。这类序列集合构成的表征，即为本工作提出的多阶段多码本表征。

多阶段建模示例图

三、声学建模 MSMC-TTS

针对多阶段多码本表征 MSMCR ，本论文提出了相应的 TTS 系统，即 MSMC-TTS 系统。系统包括分析、合成和预测3个部分。在系统训练中，该系统先对分析模块进行训练。训练集中的音频经过信号处理后转化为高完备性声学特征（如本次工作中用到的 Mel-Spectrogram 特征）。利用这些声学特征对基于 MSMC-VQ-VAE 的特征分析器进行训练，训练结束时将其转化为相应的MSMCR，再对声学模型及神经声码器进行训练。解码过程中，该系统利用声学模型从文本中预测 MSMCR，然后利用神经声码器产生目标音频。

Programming Helper

AI代码自动生成器，在AI的帮助下更快地编程

下载

MSMC-TTS 系统框架图

本工作还提出一种多阶段预测器来适配 MSMCR 建模。该模型是以 FastSpeech 为基础实现的，但在解码器端有所不同。该模型首先对文本进行编码，并根据预测时长信息对文本上采样。然后再将序列降采样至 MSMCR 对应的各个时间分辨率。这些序列将由不同解码器由低分辨率向高分辨率逐级解码量化。同时将低分辨率量化序列发送给下一阶段的解码器以协助预测。最后将预测所得 MSMCR 送入神经声码器中产生目标音频。

多阶段预测器结构图

对多阶段预测器进行训练与推断时，本工作选择直接在连续空间预测目标表征。这种方法能较好地顾及向量间及码字间在线性连续空间上的距离关系。训练准则除了采用常用于 TTS 建模的 MSE 损失函数外，还使用了 “triplet loss” 以迫使预测向量远离非目标码字并靠近目标码字。通过将两种损失函数项组合，该模型能够更好地预测目标码字。

四、实验效果

本工作在公开的英文单说话人数据集 Nancy (Blizzard Challenge 2011) 上进行实验。我们组织了主观意见得分测试（MOS）对 MSMC-TTS 合成效果进行评价。实验结果显示：原始录音为 4.50 分的情况下, MSMC-TTS 的得分为 4.41分，基线系统 Mel-FS（Mel-Spectrogram based FastSpeech）为 3.62 分。我们对基线系统的声码器进行调优，使之与Mel-FS输出特征相适配，结果为 3.69 分。该对比结果证明了文中所提方法对 TTS 系统的显著改进作用。

另外我们还进一步讨论了建模复杂度对于 TTS 的性能影响。由 M1 至 M3 模型参数量呈倍数下降, Mel-FS 合成效果降至 1.86 分。反观 MSMC-TTS, 参数量减少并未对合成质量造成显著的影响。当声学模型参数量为 3.12 MB 时, MOS 仍可保持 4.47 分。这既证明了以紧凑型特征为基础的 MSMC-TTS 建模复杂度需求较低，同时也展示了该方法应用于轻量级 TTS 系统的潜力。

最后我们在不同 MSMCR 基础上进行了 MSMC-TTS 比较，以探讨 MHVQ 与多阶段建模对 TTS 的影响。其中 V1 系统采用单阶段单码本的表征, V2 系统基于 V1 采用 4-head 矢量量化, V3 系统则基于 V2 采用两阶段建模。首先，V1 系统使用的表征拥有最高的特征压缩比，但在分析合成实验中表现出最低的完备性，同时在 TTS 实验中表现出最差的合成质量。经过 MHVQ 增强完备性, V2 系统在 TTS 效果上也得到了明显提升。V3 所使用的的多阶段表征虽然没有展现进一步完备性的提升，但是在 TTS 上展现出了最佳的效果，无论是韵律自然度还是音频质量均有明显改善。这进一步表明多阶段建模、多尺度信息保留在MSMC-TTS 中具有重要意义。

五、总结

该工作从研究紧凑型语音表征角度出发，提出一套新的高性能 TTS（MSMC-TTS）建模方法。该系统从音频中提取多阶段多码本表征，以代替传统声学特征。输入文本可被多阶段预测器转换为这种由多个时间分辨率不同的序列组成的语音表征，并通过神经声码器转换到目标语音信号。实验结果表明，相较于主流的基于 Mel-Spectrogram 的 FastSpeech 系统，该系统展示出了更优秀的合成质量，以及对建模复杂度更低的要求。

六、作者信息

郭浩瀚：小红书多媒体智能算法团队实习生。本硕毕业于西北工业大学，期间在 ASLP 实验室学习，师从谢磊教授。现博士就读于香港中文大学 HCCL 实验室，师从蒙美玲教授。迄今为止，作为一作，先后在 ICASSP、INTERSPEECH、SLT 国际语音会议上发表论文六篇。

解奉龙：小红书多媒体智能算法团队语音技术负责人。曾在ICASSP、INTERSPEECH、SPEECHCOM等语音领域会议及期刊发表论文十余篇，长期担任ICASSP、INTERSPEECH等主要语音会议的审稿人，主要研究方向为语音信号处理与建模。

豆包AI怎么写PyTorch模型_豆包AI深度学习代码演示【进阶】

AI在农业领域的应用：如何用AI进行作物病虫害识别？

AI视频去抖动教程，手持拍摄也能稳如泰山

Python深度学习图像识别：原理、应用与实战指南

PyTorch文本分类器构建指南：NLP实践教程

数码产品性能查询

该软件包括了市面上所有手机CPU，手机跑分情况，电脑CPU，电脑产品信息等等，方便需要大家查阅数码产品最新情况，了解产品特性，能够进行对比选择最具性价比的商品。

下载

相关专题

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

458

2026.03.04

AI安装教程大全

2026最全AI工具安装教程专题：包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好，附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新，收藏这一篇就够了，让AI安装不再报错！

169

2026.03.04

Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践，系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例，帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

246

2026.03.03

C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开，深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例，帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

2026.03.03

热门下载

网站特效

网站源码

网站素材

前端模板