Web Speech API 的 SpeechRecognition 在 Chrome 中无反应的根本原因是仅支持 HTTPS 或 localhost,HTTP 页面直接禁用;需用户手势触发、检测浏览器兼容性、正确配置 interimResults 和 continuous 参数。

Web Speech API 的 SpeechRecognition 在 Chrome 里为什么没反应
根本原因:它只在 HTTPS 页面或 localhost 下工作,HTTP 页面直接被浏览器禁用,连 new SpeechRecognition() 都会报 ReferenceError: SpeechRecognition is not defined。
实操建议:
- 本地开发时务必用
http://localhost:3000这类地址,别用file://或http://127.0.0.1:3000(部分旧版 Chrome 不认) - 上线部署必须配 HTTPS,自签名证书也不行,得是浏览器信任的 CA 签发的
- 检查浏览器支持:Chrome 33+、Edge 79+ 支持,Firefox 和 Safari 完全不支持
SpeechRecognition接口 - 别依赖
window.SpeechRecognition全局变量存在——先检测:const SpeechRecognition = window.SpeechRecognition || window.webkitSpeechRecognition;
否则在 Safari 里直接崩
麦克风权限没弹出?recognition.start() 卡住不动
不是代码写错了,是调用时机不对。浏览器强制要求用户手势触发(比如点击按钮),不能在页面加载完自动 start()。
常见错误现象:
立即学习“前端免费学习笔记(深入)”;
- 页面
onload里直接recognition.start()→ 权限静默失败,控制台报NotAllowedError: Permission denied - 用
setTimeout延迟 1 秒再 start → 依然无效,手势上下文已丢失
正确做法:
- 绑定到用户真实点击事件:
button.addEventListener('click', () => recognition.start()); - 如果要用语音唤醒,得先让用户点一次按钮授权,之后才能后台监听(但需保持页面前台活跃)
- 启动前加状态判断:
if (recognition.readyState === 'idle') recognition.start();,避免重复调用导致异常
interimResults: true 和 continuous: true 怎么组合才不丢字
这两个布尔值控制识别流的行为,乱配会导致回调只触发一次、或中间结果覆盖最终结果。
使用场景与参数差异:
-
interimResults: false(默认)→ 只返回最终确认结果,适合命令式语音(如“打开设置”) -
interimResults: true→ 每次识别更新都触发result事件,但需要手动区分event.results[i].isFinal -
continuous: true+interimResults: true→ 麦克风持续收音,不断吐结果,适合听写;但若不清理event.results索引,容易把上一轮的isFinal=false结果当新内容追加
关键细节:
- 每次
result回调里,event.results是一个SpeechRecognitionResultList,要遍历所有event.results.length项,不能只取[0] - 推荐结构:
recognition.onresult = event => { for (let i = event.resultIndex; i < event.results.length; i++) { const transcript = event.results[i][0].transcript; if (event.results[i][0].isFinal) finalText += transcript; } };
识别中文不准、延迟高、老是断掉
不是模型问题,是语言和配置没对齐。Web Speech API 的识别引擎完全由浏览器调用系统级服务(Chrome 走 Google 语音引擎),不走前端 JS。
性能与兼容性影响:
- 必须显式设
recognition.lang = 'zh-CN',不设默认按浏览器 UI 语言走,英文系统跑中文识别准确率暴跌 - 移动端 Chrome(Android)支持较好;iOS Safari 完全无解,
SpeechRecognition对象根本不存在 - 识别过程耗电明显,长时间运行可能被系统休眠麦克风,尤其 PWA 离开前台后自动终止
- 没有“静音检测”或“说话结束自动停”机制,
continuous: true下必须自己监听end事件并手动start()续上,否则一卡就断
容易被忽略的一点:识别质量严重依赖网络——所有音频都在上传到 Google 服务器处理,离线完全不可用。家里宽带抖动、公司防火墙拦截 https://www.google.com/speech-api 域名,都会表现为“识别中…然后没反应”。











