若数字人无法自然开口说话,需检查人物驱动功能调用与输入源匹配:一、准备10–60秒纯净音频或口语化文本,并确认数字人状态为“可用”;二、开启高级模式,点击「人物驱动」按钮;三、音频驱动需上传音频并试听口型匹配度;四、文本驱动需粘贴文案、选择音色并启用情感语调;五、调节口型延迟、表情强度及唇部微动等参数提升自然度。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您已拥有可灵AI中的人物图像或数字人素材,但尚未实现让其自然开口说话的效果,则可能是未正确调用人物驱动功能或输入源不匹配。以下是完成该操作的具体步骤:
一、准备驱动素材
人物驱动功能依赖高质量的音频或文本输入来生成口型与语音同步的动态视频。需确保驱动源具备清晰节奏、无背景干扰,并与目标数字人形象风格协调。
1、准备一段时长在10–60秒之间的纯净人声音频,无音乐、无混响、无剪辑断点。
2、若使用文本驱动,需提前撰写口语化文案,避免生僻词、长复合句及中英文混排符号。
3、确认所选数字人形象已在「我的分身」中完成克隆且状态为“可用”,未被系统标记为待审核或失效。
二、启用人物驱动模式
可灵AI提供两种驱动路径:音频驱动与文本驱动,二者底层逻辑不同,需根据需求手动切换入口,不可混用。
1、进入「创建作品」页面后,点击右上角齿轮图标,选择「高级模式」开启驱动选项。
2、在编辑区左侧工具栏中,点击「人物驱动」按钮,界面将自动切换至驱动配置面板。
3、点击「上传音频」或「输入文本」标签页,依据实际素材类型进行下一步操作。
三、音频驱动操作流程
该方式以真实语音波形为基准,强制数字人口型、语速、停顿完全贴合原始音频,适合配音、复刻讲话风格等场景。
1、在「上传音频」页点击「从手机相册选择」或「微信聊天导入」,选取已准备好的音频文件。
2、上传完成后,系统自动分析音频时长与语调特征,显示预估口型帧数与建议匹配度评分。
3、点击「试听驱动效果」按钮,播放当前数字人配合该音频的实时口型模拟(仅声音+口型,无画面渲染)。
4、若口型匹配度低于85%,提示重新上传或调整音频起始静音段。
四、文本驱动操作流程
该方式由AI语音合成引擎生成播报音频并同步驱动口型,适用于口播稿、资讯播报等标准化输出场景。
1、切换至「输入文本」页,在文本框内粘贴已校对的口播文案。
2、点击「选择音色」下拉菜单,从中选取已克隆完成的声音模型,或使用平台默认TTS音色。
3、勾选「启用情感语调」开关,系统将自动为“疑问”“强调”“陈述”等句式添加对应语气变化。
4、点击「生成预演」,等待约8–12秒,查看带时间轴的口型逐帧预览图,重点检查“啊、哦、嗯”等语气词是否触发有效口型动作。
五、调节驱动参数提升自然度
默认参数适配通用场景,但在特定表达需求下需手动优化关键控制项,避免机械感或口型漂移。
1、在驱动配置面板底部展开「高级参数」,将「口型响应延迟」设为-120ms以补偿音频解码耗时。
2、将「表情强度系数」调整至0.7–0.85区间,过高易导致眨眼/转头过度,过低则面部僵硬。
3、开启「唇部微动补偿」开关,系统将在静音段插入轻微闭合-微张循环动作,消除长时间定格感。
4、点击「应用参数并提交」,进入最终合成队列,等待90–150秒完成高清视频生成。











