0

0

assemblyai如何用说话人分离整理访谈_AssemblyAI说话人分离与整理方法【分拣】

星夢妙者

星夢妙者

发布时间:2025-12-15 20:21:24

|

543人浏览过

|

来源于php中文网

原创

AssemblyAI 的 Speaker Diarization 功能可解决多人访谈录音中语音混叠难题,提供端到端转录、显式参数配置、LangChain 集成及 Web 控制台四种实现方式。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

assemblyai如何用说话人分离整理访谈_assemblyai说话人分离与整理方法【分拣】

如果您对访谈录音中多人交替发言、语音混叠导致内容难以梳理感到困扰,则可能是由于缺乏有效的说话人分离机制。AssemblyAI 提供的 Speaker Diarization 功能可自动识别并标注不同说话人的语音片段,从而实现结构化分拣与整理。以下是实现该目标的多种方法:

一、使用 Transcribe 类启用说话人标签进行端到端转录

该方法通过 AssemblyAI 的 Transcribe 接口,在音频上传同时启用说话人分离模型,直接输出带 speaker 字段的结构化文本序列,适用于标准访谈音频且无需额外后处理。

1、安装最新版 assemblyai 包:pip install -U assemblyai

2、在 Python 脚本中初始化 Transcriber 并配置 speaker_labels=True

3、调用 transcribe_audio 方法传入本地音频路径(支持 mp3、wav、m4a 等格式);

4、获取返回结果列表,每项含 "speaker""text" 键,例如 [{"speaker": "Speaker A", "text": "我们先回顾上期数据"}, {"speaker": "Speaker B", "text": "是的,样本量达1200份"}];

5、按 speaker 键聚合文本,生成每位受访者的独立发言段落。

二、通过 TranscriptionConfig 显式指定说话人数量与语言参数

当访谈参与者人数固定或已知时,显式声明 speakers_expected 可提升分离精度,尤其适用于双人深度访谈或主持人+嘉宾模式,避免模型误判沉默段为新说话人。

1、导入 aai 模块并设置 API 密钥环境变量os.environ["ASSEMBLYAI_API_KEY"] = "your_api_key"

2、构建 TranscriptionConfig 实例,设置 speaker_labels=Truespeakers_expected=2

3、若访谈使用方言(如粤语访谈),添加 language_code="yue" 参数以激活对应声学模型;

4、将 config 对象传入 transcriber.transcribe(audio_file, config=config);

5、解析 response.utterances 属性,其每一项包含 start、end、speaker、text 字段,可用于生成带时间戳的分角色整理稿。

蚂上有创意
蚂上有创意

支付宝推出的AI创意设计平台,专注于电商行业

下载

三、结合 AssemblyAIAudioTranscriptLoader 与 LangChain 流水线分拣

该方法适用于需将访谈内容接入下游 RAG 或摘要系统的情形,利用 LangChain 的文档加载器统一处理音频,并在加载阶段完成说话人切分,输出为多个 Document 对象,每个对象 metadata 中标记 speaker 值。

1、安装依赖:pip install langchain-community assemblyai

2、初始化 loader 时传入 speaker_diarization=True 参数;

3、调用 load() 方法,返回 Document 列表,每个 Document.page_content 为单条发言,Document.metadata 包含 "speaker""start" 字段;

4、使用字典按 speaker 分组 Document,形成“发言人→发言集合”映射;

5、对每组执行 .join() 合并文本,或调用 text_splitter 进行段落级切分以便向量化。

四、使用 AssemblyAI Web Console 手动上传并导出结构化 CSV

该方法面向非开发人员,无需编写代码,适合快速交付访谈纪要初稿。Web 控制台内置可视化说话人分离界面,支持人工校对与导出多格式结果。

1、访问 https://app.assemblyai.com 并登录账户;

2、点击“Upload Audio”,选择访谈音频文件(最大 100MB);

3、在提交前勾选 “Speaker Diarization” 开关,并在“Expected Speakers”中输入实际人数;

4、等待转录完成,页面显示彩色语音波形图,不同颜色区块代表不同 speaker;

5、点击右上角“Export”,选择 CSV (with speaker labels) 格式下载,表格含 timestamp、speaker、text 三列,可直接粘贴至 Excel 分栏整理。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
ape怎么转wav
ape怎么转wav

ape可以通过使用音频转换软件、使用在线转换工具和音频编辑软件的方法转wav格式。在转换完成后,可以使用音频播放器或编辑软件打开转换后的WAV文件,以确保转换质量和文件完整性。更多关于ape相关的文章,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

326

2023.11.21

AO3官网入口与中文阅读设置 AO3网页版使用与访问
AO3官网入口与中文阅读设置 AO3网页版使用与访问

本专题围绕 Archive of Our Own(AO3)官网入口展开,系统整理 AO3 最新可用官网地址、网页版访问方式、正确打开链接的方法,并详细讲解 AO3 中文界面设置、阅读语言切换及基础使用流程,帮助用户稳定访问 AO3 官网,高效完成中文阅读与作品浏览。

20

2026.02.02

主流快递单号查询入口 实时物流进度一站式追踪专题
主流快递单号查询入口 实时物流进度一站式追踪专题

本专题聚合极兔快递、京东快递、中通快递、圆通快递、韵达快递等主流物流平台的单号查询与运单追踪内容,重点解决单号查询、手机号查物流、官网入口直达、包裹进度实时追踪等高频问题,帮助用户快速获取最新物流状态,提升查件效率与使用体验。

6

2026.02.02

Golang WebAssembly(WASM)开发入门
Golang WebAssembly(WASM)开发入门

本专题系统讲解 Golang 在 WebAssembly(WASM)开发中的实践方法,涵盖 WASM 基础原理、Go 编译到 WASM 的流程、与 JavaScript 的交互方式、性能与体积优化,以及典型应用场景(如前端计算、跨平台模块)。帮助开发者掌握 Go 在新一代 Web 技术栈中的应用能力。

1

2026.02.02

PHP Swoole 高性能服务开发
PHP Swoole 高性能服务开发

本专题聚焦 PHP Swoole 扩展在高性能服务端开发中的应用,系统讲解协程模型、异步IO、TCP/HTTP/WebSocket服务器、进程与任务管理、常驻内存架构设计。通过实战案例,帮助开发者掌握 使用 PHP 构建高并发、低延迟服务端应用的工程化能力。

2

2026.02.02

Java JNI 与本地代码交互实战
Java JNI 与本地代码交互实战

本专题系统讲解 Java 通过 JNI 调用 C/C++ 本地代码的核心机制,涵盖 JNI 基本原理、数据类型映射、内存管理、异常处理、性能优化策略以及典型应用场景(如高性能计算、底层库封装)。通过实战示例,帮助开发者掌握 Java 与本地代码混合开发的完整流程。

1

2026.02.02

go语言 注释编码
go语言 注释编码

本专题整合了go语言注释、注释规范等等内容,阅读专题下面的文章了解更多详细内容。

61

2026.01.31

go语言 math包
go语言 math包

本专题整合了go语言math包相关内容,阅读专题下面的文章了解更多详细内容。

53

2026.01.31

go语言输入函数
go语言输入函数

本专题整合了go语言输入相关教程内容,阅读专题下面的文章了解更多详细内容。

26

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

Vue3.x 工具篇--十天技能课堂
Vue3.x 工具篇--十天技能课堂

共26课时 | 1.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号