elevenlabs 正式推出 scribe v2 realtime,官方宣称这是目前业界领先的一款超低延迟实时语音识别模型,专为强实时性需求场景深度优化,可实现语音到文本的毫秒级即时转换,为智能语音交互、会议纪要生成、直播实时字幕等关键应用提供坚实的技术底座。

Scribe v2 Realtime 采用以流式处理为核心的架构设计,原生支持 PCM、μ-law 等主流音频编码格式,并集成预测式转写、精准语音活动检测(VAD)、上下文感知记忆机制及专业术语自适应识别等多项关键技术。在权威多语言语音识别基准 FLEURS 上,其整体准确率高达 93.5%,大幅超越 Google Gemini Flash 2.5、OpenAI GPT-4o Mini 等同类竞品。

三大核心优势:极速响应 · 高精度识别 · 智能语义理解
- 极致低延迟:依托端到端流式处理能力,Scribe v2 Realtime 实现语音输入至文字输出仅约 150 毫秒的端到端延迟,真正达成“所言即所得”。该性能对实时 AI 助理、在线客服系统及互动式语音应用至关重要。
- 广泛多语言兼容:模型已覆盖超 90 种语言,涵盖英语、法语、西班牙语等全球主流语种,并支持单次对话中无缝识别与自动切换语种,完美适配国际化协作与多语种混合交流场景。
- 强化实时语义建模:融合“负延迟预测”(提前预判下一词及标点符号)、动态语言识别、基于上下文的文本条件推理等前沿技术,显著提升转写连贯性与对话自然度。
- 卓越环境鲁棒性:经内部严苛测试,在包含高背景噪音、多人交叉发言及信息密度大的 500+ 真实场景样本中,模型仍保持稳定高质表现,综合性能明显优于当前主流实时语音识别方案。

ElevenLabs 借由 Scribe v2 Realtime,全面构建起一套兼具超低延迟、高识别精度与全语种覆盖能力的实时语音智能识别体系。该模型不仅赋能 AI 语音代理、智能会议助手等终端应用,同时也面向开发者提供灵活易用的 API 接口、SDK 工具包及企业级私有化部署支持。










