Python如何实现实时语音转文字？SpeechRecognition库详细教程

蓮花仙者

发布时间：2025-07-14 15:15:02

990人浏览过

来源于php中文网

原创

要实现实时语音转文字，可使用python的speechrecognition库配合pyaudio进行音频捕获和识别。首先安装speechrecognition和pyaudio（可通过下载wheel文件解决安装问题），然后使用google语音识别api或其他api如recognize_sphinx进行识别。为实现持续实时识别，需在循环中分段录音并处理，通过pause_threshold和phrase_time_limit控制录音结束条件，并使用adjust_for_ambient_noise减少背景噪音。选择api时需考虑准确率、延迟、价格及是否支持离线使用；提高识别准确率的方法包括降噪、优化音频质量、选择合适语言模型、分段处理及后处理；常见错误如网络连接、api限制、无法识别语音等，可通过更换api、调整麦克风设置、增加超时时间等方式处理。

Python如何实现实时语音转文字？SpeechRecognition库详细教程

Python实现实时语音转文字，核心在于利用语音识别库捕获音频流并将其转换为文本。SpeechRecognition库是一个不错的选择，它简化了与各种语音识别API的交互。

解决方案

安装SpeechRecognition库和pyaudio:

立即学习“Python免费学习笔记（深入）”；
```
pip install SpeechRecognition
pip install pyaudio
```
pyaudio 是一个跨平台音频 I/O 库，用于录制和播放音频。安装 pyaudio 可能会遇到问题，尤其是在 Windows 上。如果 pip install pyaudio 失败，可以尝试下载预编译的 wheel 文件。搜索 "pyaudio wheel" 找到与你的 Python 版本和操作系统相匹配的版本，然后使用 pip install 文件名.whl 安装。

简单语音识别示例:

import speech_recognition as sr

r = sr.Recognizer()
with sr.Microphone() as source:
    print("请说话...")
    audio = r.listen(source)

try:
    text = r.recognize_google(audio, language='zh-CN') # 指定中文
    print("你说的是: {}".format(text))
except sr.UnknownValueError:
    print("无法识别您的语音")
except sr.RequestError as e:
    print("无法连接到 Google 语音识别服务; {0}".format(e))

这段代码使用默认麦克风录制音频，然后使用 Google 语音识别 API 将其转换为文本。language='zh-CN' 指定了中文识别。如果不想使用Google，可以使用其他的API，比如recognize_sphinx，recognize_wit等等，但是这些API可能需要额外的配置。

实时语音转文字:

要实现实时语音转文字，需要持续录制音频并将其分段识别。这可以通过循环实现。

Cursor

一个新的IDE，使用AI来帮助您重构、理解、调试和编写代码。

下载

import speech_recognition as sr
import time

r = sr.Recognizer()
mic = sr.Microphone()

with mic as source:
    r.adjust_for_ambient_noise(source)  # 可选: 消除环境噪音

def recognize_worker():
    while True:
        try:
            with mic as source:
                r.pause_threshold = 0.8 # 停顿0.8秒后结束录音
                audio = r.listen(source, phrase_time_limit=5) # 每次录制5秒
            try:
                text = r.recognize_google(audio, language='zh-CN')
                print("你说的是: {}".format(text))
            except sr.UnknownValueError:
                print("无法识别")
            except sr.RequestError as e:
                print("请求错误; {0}".format(e))
        except Exception as e:
            print(f"发生错误: {e}")
        time.sleep(0.1)

recognize_worker()

这个例子中，pause_threshold 控制静音多久后结束录音，phrase_time_limit 限制每次录音的最大时长。 adjust_for_ambient_noise 可以消除一些背景噪音，提高识别准确率。注意，实时性受网络延迟和语音识别 API 处理速度的影响。

如何选择合适的语音识别API？

选择语音识别 API 取决于你的需求。Google Speech Recognition API 易于使用，但依赖网络连接。CMU Sphinx 是一个开源的离线语音识别引擎，但准确率可能不如在线 API。其他选择包括 Wit.ai、Microsoft Bing Voice Recognition API 等。考虑因素包括：

准确率： 不同的 API 在不同的语言和口音下表现不同。
延迟： 实时性要求高的应用需要低延迟的 API。
价格： 某些 API 是免费的，但有使用限制。
离线支持： 如果需要在没有网络连接的情况下使用，选择离线语音识别引擎。

如何提高语音识别的准确率？

提高准确率是一个持续的过程，需要根据具体情况进行调整。一些常用的方法包括：

消除噪音： 使用降噪麦克风，或者在代码中使用 adjust_for_ambient_noise。
优化音频质量： 确保音频清晰，避免失真。
选择合适的语言模型： 根据应用场景选择合适的语言和方言。
使用定制化语言模型： 对于特定领域的应用，可以训练定制化的语言模型。
分段处理： 将长音频分割成短片段，可以提高识别准确率。
后处理： 对识别结果进行后处理，例如纠正拼写错误，可以提高整体质量。

如何处理语音识别过程中的常见错误？

语音识别可能会遇到各种错误，例如网络连接问题、API 限制、无法识别的语音等。处理这些错误需要一定的技巧。

网络连接错误： 检查网络连接是否正常，或者尝试更换语音识别 API。
API 限制： 如果使用免费 API，可能会受到使用限制。可以考虑付费版本，或者切换到其他 API。
无法识别的语音： 尝试调整麦克风灵敏度，或者使用降噪算法。
超时错误： 增加超时时间，或者优化网络连接。
权限错误： 确保程序有访问麦克风的权限。

在实际应用中，需要根据具体情况选择合适的解决方案。例如，如果需要在嘈杂的环境中使用，可能需要使用更高级的降噪算法。如果需要处理大量的语音数据，可能需要考虑使用云计算服务。

firewalld 启动失败 "RuntimeError: Failed to load zone" 的 zone 文件损坏修复

Python with 语句的底层实现原理

高效筛选 JSONL 文件中匹配指定键值的字典

pandas 如何用 pd.StringDtype(‘pyarrow’) 优化字符串列

Facebook 反应表情的 Unicode 编码解析与修复指南

相关专题

pip安装使用方法

安装步骤：1、确保Python已经正确安装在您的计算机上；2、下载“get-pip.py”脚本；3、按下Win + R键，然后输入cmd并按下Enter键来打开命令行窗口；4、在命令行窗口中，使用cd命令切换到“get-pip.py”所在的目录；5、执行安装命令；6、验证安装结果即可。大家可以访问本专题下的文章，了解pip安装使用方法的更多内容。

339

2023.10.09

更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容，请阅读专题下面的文章。

416

2024.12.20

pip设置清华源

设置方法：1、打开终端或命令提示符窗口；2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件；3、打开pip.conf文件，然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容，这将把pip的镜像源设置为清华大学的镜像源；4、保存并关闭文件即可。

761

2024.12.23

python升级pip

本专题整合了python升级pip相关教程，阅读下面的文章了解更多详细内容。

349

2025.07.23

windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口，端口号的范围从0到65535，比如用于浏览网页服务的80端口，用于FTP服务的21端口等等。怎么查看windows端口占用情况呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

810

2023.07.26