豆包ai提供五类预设音色:一、温柔舒缓类(如“晚安轻语”),语速慢、元音能量高,适用于睡前故事等低唤醒场景;二、活力明亮类(如“阳光少年”),语速快、高频强,适合短视频口播;三、沉稳专业类(如“新闻主播”),语速适中、句末降调,用于财经播报等;四、角色拟态类(如“古风说书人”),含人格化语音行为,需明确角色指令;五、克隆声纹类,基于用户录音生成专属音色,用于有声书等身份标识场景。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您在使用豆包AI时希望匹配内容情绪或使用目的,需从其内置声音库中选择适配音色,则需了解各预设音色的声学特征与典型适用情境。以下是豆包AI当前版本所支持的主要音色分类及其对应使用场景说明:
一、温柔舒缓类音色
该类音色通过降低基频、延长语句间停顿、柔化辅音起始等方式模拟人类放松状态下的发声习惯,适用于需要降低听觉刺激、营造安全感的场景。
1、音色示例包括“晚安轻语”“云朵姐姐”“暖光妈妈”等,普遍具备较低语速(约120字/分钟)、较高元音共振峰能量分布特征。
2、适用于儿童睡前故事讲述、冥想引导音频、医院候诊语音提示等需抑制听觉唤醒度的环境。
立即进入“豆包AI人工智官网入口”;
立即学习“豆包AI人工智能在线问答入口”;
3、在对话指令中嵌入“请用最慢语速、最软声音朗读”可强化模型对该类音色参数的调用倾向。
二、活力明亮类音色
该类音色提升高频能量占比、缩短音节间隙、增强语调起伏幅度,模拟青少年或年轻成人兴奋、专注状态下的语音输出模式,用于激发注意力与正向情绪反馈。
1、音色示例包括“阳光少年”“元气播报员”“跳跳糖妹妹”等,语速通常维持在160–180字/分钟区间,辅音送气感明显。
2、适用于短视频口播配音、在线课程开场白、健身指导语音等强调节奏感与感染力的场景。
3、若需进一步强化表现力,可在语音设置中同步开启语调增强模式以放大重音与升调标记响应。
三、沉稳专业类音色
该类音色通过展宽基频波动范围、加强低频段能量、控制韵律停顿位置,模拟资深主持人或行业专家的语音权威感,适用于需建立可信度与信息密度的场景。
1、音色示例包括“新闻主播”“智库顾问”“深蓝先生”等,语速稳定在140–155字/分钟,句末降调比例高于其他类别。
2、适用于财经资讯播报、法律条款解读、技术文档语音转述等对信息准确性与逻辑连贯性要求较高的任务。
3、系统默认启用术语识别强化功能,确保专业词汇发音准确率高于98.7%。
四、角色拟态类音色
该类音色基于角色设定文本进行声学建模,不仅调整基础声学参数,还注入特定人格化语音行为模式,如鼻音修饰、气息停顿、语尾上扬等非语言线索。
1、音色示例包括“兔耳阿姨”“蒸汽朋克博士”“古风说书人”等,每种均绑定独立的SSML情感标签集。
2、适用于互动式儿童教育、沉浸式有声剧、虚拟偶像直播等强角色代入需求场景。
3、启用前需在对话中明确输入角色指令,例如:“你现在是住在月亮摇篮里的兔耳阿姨,说话时带着蜂蜜味的鼻音”,否则系统将回退至基础音色库匹配。
五、克隆声纹类音色
该类音色基于用户本人5–10秒高质量录音生成专属声纹模型,保留原始音高分布、共振峰轨迹及呼吸节奏特征,实现高度个性化的语音输出。
1、克隆过程需在APP端完成,系统提供标准化朗读文本,要求环境信噪比≥40dB,避免佩戴耳机录制。
2、适用于有声书个人化录制、企业内训语音素材复用、远程会议数字分身语音代理等需身份标识的场景。
3、生成后的克隆音色将出现在我的智能体声音独立列表中,与其他预设音色隔离管理。











