Python如何做语音识别？语音转文本技术

雪夜

发布时间：2025-07-28 12:07:01

380人浏览过

来源于php中文网

原创

python实现语音识别的主流方案有：1. 使用speechrecognition库（综合且易用），它作为多种语音识别服务和引擎的统一接口，支持google web speech api、cmu sphinx、vosk等；2. 使用vosk（轻量级离线识别），基于kaldi的开源工具包，适合隐私要求高或网络条件差的场景；3. 使用openai whisper（最先进的离线识别），准确率高，支持多语言和翻译任务，适合有gpu资源的用户；4. 使用云服务api（高准确率，功能丰富），如google cloud、microsoft azure、amazon transcribe，适合企业级应用。离线语音识别在python中完全可行，主流选择包括vosk、cmu sphinx和openai whisper，其中whisper因其高准确率和通用性成为首选。语音识别准确性受音频质量、说话人特征、语言模型、词汇表和计算资源影响，优化方法包括改善音频输入质量、选择合适模型、利用语言模型优化、后处理文本和持续迭代评估。python语音识别常见应用场景包括智能语音助手、会议纪要转录、呼叫中心分析、无障碍辅助技术和教育语言学习。

Python如何做语音识别？语音转文本技术

Python在语音识别，也就是语音转文本（Speech-to-Text, STT）技术上，提供了非常丰富的工具和库。核心思路就是利用这些工具将声音信号处理成文字信息。这背后涉及到复杂的声学模型和语言模型，但Python的生态系统让开发者能够相对轻松地调用这些能力，无论是基于本地的模型还是云服务API。选择哪种方式，往往取决于你对准确率、成本、隐私和离线能力的需求。

解决方案

要用Python实现语音识别，我们通常会用到以下几种主流方案：

1. 使用 SpeechRecognition 库（综合且易用）

立即学习“Python免费学习笔记（深入）”；

这个库是一个非常好的起点，它本身不提供语音识别引擎，而是作为各种语音识别服务和引擎的统一接口。它支持Google Web Speech API（免费但有调用限制）、CMU Sphinx（离线）、Vosk（离线）、Microsoft Azure Speech、IBM Watson Speech to Text、Amazon Transcribe等。

import speech_recognition as sr

# 创建一个Recognizer对象
r = sr.Recognizer()

# 从音频文件识别
try:
    with sr.AudioFile('your_audio_file.wav') as source:
        audio = r.record(source)  # 读取整个音频文件

    # 使用Google Web Speech API (需要联网)
    text = r.recognize_google(audio, language='zh-CN')
    print(f"Google识别结果: {text}")

    # 也可以尝试离线识别，例如CMU Sphinx (需要安装额外的依赖和模型)
    # text_sphinx = r.recognize_sphinx(audio, language='zh-CN')
    # print(f"Sphinx识别结果: {text_sphinx}")

except sr.UnknownValueError:
    print("Google Web Speech API 无法理解音频")
except sr.RequestError as e:
    print(f"无法从Google Web Speech API 请求结果; {e}")
except Exception as e:
    print(f"发生其他错误: {e}")

# 从麦克风识别（实时）
# print("请说话...")
# with sr.Microphone() as source:
#     r.adjust_for_ambient_noise(source) # 调整环境噪音
#     audio = r.listen(source) # 监听用户说话
# try:
#     text = r.recognize_google(audio, language='zh-CN')
#     print(f"您说的是: {text}")
# except sr.UnknownValueError:
#     print("无法识别您的语音")
# except sr.RequestError as e:
#     print(f"无法从Google Web Speech API 请求结果; {e}")

2. 使用 Vosk（轻量级离线识别）

Vosk 是一个基于 Kaldi 的开源离线语音识别工具包，支持多种语言，模型文件相对较小，且识别速度快。它非常适合那些对隐私有要求，或者网络条件不佳的场景。

from vosk import Model, KaldiRecognizer, SetLogLevel
import sys
import os
import wave

# 关闭Vosk的日志输出，让控制台更干净
SetLogLevel(-1) 

# 下载模型：https://alphacephei.com/vosk/models
# 解压到当前脚本所在的目录，例如 'vosk-model-cn-0.22'
model_path = "vosk-model-cn-0.22" # 替换为你的模型路径

if not os.path.exists(model_path):
    print(f"请下载Vosk模型并解压到 '{model_path}' 目录。")
    print("例如：https://alphacephei.com/vosk/models/vosk-model-cn-0.22.zip")
    sys.exit(1)

model = Model(model_path)
rec = KaldiRecognizer(model, 16000) # 16000是采样率，需要与音频文件匹配

# 打开音频文件 (确保是单声道、16kHz采样率的WAV文件)
wf = wave.open('your_audio_file.wav', 'rb')
if wf.getnchannels() != 1 or wf.getsampwidth() != 2 or wf.getframerate() != 16000:
    print("音频文件必须是单声道、16kHz采样率、16位宽度的WAV文件！")
    sys.exit(1)

results = []
while True:
    data = wf.readframes(4000) # 每次读取4000帧
    if len(data) == 0:
        break
    if rec.AcceptWaveform(data):
        results.append(rec.Result())
    else:
        results.append(rec.PartialResult()) # 实时获取部分结果

results.append(rec.FinalResult()) # 获取最终结果

# 提取并打印文本
final_text = ""
for res in results:
    import json
    parsed_res = json.loads(res)
    if "text" in parsed_res:
        final_text += parsed_res["text"] + " "

print(f"Vosk识别结果: {final_text.strip()}")
wf.close()

3. 使用 OpenAI Whisper（最先进的离线识别）

Whisper 是 OpenAI 开源的一个通用语音识别模型，在多语言和多任务（如语言识别、翻译）方面表现卓越，准确率非常高。它可以在本地运行，但对计算资源有一定要求（尤其是GPU）。

# 首先安装：pip install openai-whisper
# 如果有GPU，安装：pip install -U openai-whisper --extra-index-url https://download.pytorch.org/whl/cu117 (根据你的CUDA版本调整)
import whisper

# 加载模型，模型大小从 'tiny', 'base', 'small', 'medium', 'large'
# 'base'或'small'通常是性能和准确率的良好平衡点
# 如果是中文，可以考虑加载 'base' 或 'small' 的 'zh' 版本，或者直接用通用模型
print("正在加载Whisper模型，这可能需要一些时间...")
model = whisper.load_model("base") # 或 "base.en" (英文), "small", "medium", "large"

# 识别音频文件
audio_file_path = 'your_audio_file.wav' # 或 .mp3, .flac 等
print(f"正在识别音频文件: {audio_file_path}")
result = model.transcribe(audio_file_path, language="zh") # 指定语言有助于提高中文识别准确率
print(f"Whisper识别结果: {result['text']}")

# Whisper也支持从麦克风实时识别，但需要额外的库和更复杂的实时处理逻辑。

4. 使用云服务 API（高准确率，功能丰富）

对于生产环境或对准确率、稳定性有极高要求的场景，Google Cloud Speech-to-Text、Microsoft Azure Speech Service、Amazon Transcribe 等云服务是更好的选择。它们通常提供更强大的模型、更广泛的语言支持、实时识别、自定义词汇表、扬声器分离等高级功能。使用它们需要注册云服务账号并获取API密钥。

以Google Cloud Speech-to-Text为例（概念性代码，需配置认证）：

# pip install google-cloud-speech
# 确保你已经设置了GOOGLE_APPLICATION_CREDENTIALS环境变量指向你的服务账号密钥文件

# from google.cloud import speech_v1p1beta1 as speech
# import io

# client = speech.SpeechClient()

# with io.open('your_audio_file.wav', 'rb') as audio_file:
#     content = audio_file.read()

# audio = speech.RecognitionAudio(content=content)
# config = speech.RecognitionConfig(
#     encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16, # 根据你的音频格式调整
#     sample_rate_hertz=16000,
#     language_code='zh-CN',
#     # enable_automatic_punctuation=True, # 自动标点
#     # model='default', # 或 'latest_long', 'video', 'phone_call'
# )

# response = client.recognize(config=config, audio=audio)

# for result in response.results:
#     print(f"Google Cloud识别结果: {result.alternatives[0].transcript}")

选择哪个方案，要看你的具体需求。如果是快速原型或学习，SpeechRecognition 库搭配Google Web Speech API足够了；如果追求离线、隐私和不错的准确率，Vosk或Whisper是极佳的选择；而对于企业级应用，云服务API的稳定性和高级功能则不可替代。

离线语音识别在Python中可行吗？有哪些主流选择？

当然可行，而且在很多场景下，离线语音识别不仅可行，甚至是首选。我个人就非常看重离线能力，因为它意味着数据不出本地，隐私更有保障，也不受网络波动影响，而且长期来看成本更可控。

主流的Python离线语音识别方案主要有：

Vosk： 这是一个非常成熟且广泛使用的开源项目。它的优势在于模型文件相对较小，对硬件要求不高，可以在树莓派这类低功耗设备上运行。Vosk基于Kaldi，提供了多种语言的模型，识别速度快。我用它做过一些本地语音控制的小工具，体验相当不错。不过，对于非常口语化或带强口音的语音，它的表现可能不如一些最新的云端模型。它的模型需要预先下载，并且对音频格式（单声道、采样率）有严格要求，这一点在使用时需要注意。

阿里云AI平台
阿里云AI平台

下载
CMU Sphinx (PocketSphinx)： 这是历史悠久的一个开源项目，也是最早实现离线语音识别的方案之一。PocketSphinx是其轻量级版本，适合嵌入式设备。它的优点是高度可定制，可以训练自己的声学模型和语言模型。但相比Vosk和Whisper，它的配置和使用门槛相对较高，而且在通用语音识别的准确率上，它可能已经不如新一代的模型了。我个人觉得，除非你有非常特定的需求，需要深入定制模型，否则现在可能更倾向于Vosk或Whisper。
OpenAI Whisper (本地部署)： 这是近年来离线语音识别领域的一个“黑马”，由OpenAI开源。Whisper的强大之处在于它的通用性和高准确率。它在各种口音、背景噪音和多语言混合的情况下表现都非常出色，甚至能自动识别语言并进行翻译。Whisper提供了不同大小的模型（从tiny到large），你可以根据自己的硬件性能和对准确率的需求来选择。对于有GPU的用户来说，它能提供接近甚至超越许多云服务API的识别效果，而且完全免费、离线。它的出现，无疑大大降低了高质量离线语音识别的门槛。对我来说，Whisper是目前离线语音识别的首选，尤其是在处理复杂音频时。

总的来说，离线语音识别不仅可行，而且随着Vosk和Whisper这类优秀开源项目的出现，其性能和易用性已经达到了一个非常高的水平，足以满足大部分个人和中小型项目的需求。

语音识别的准确性受哪些因素影响？如何优化识别效果？

语音识别的准确性，说白了，就是机器“听懂”你说的话的程度。这可不是一件简单的事，背后影响因素很多，就像我们人听别人说话一样，环境、说话人、语境都会影响理解。

影响语音识别准确性的主要因素有：

音频质量： 这是最关键的。想象一下，如果录音里充满了背景噪音（比如风扇声、键盘敲击声、马路上的喧嚣），或者声音太小、太远，甚至有回音，那机器怎么可能听清楚？麦克风的质量、录音环境的安静程度、录音时与麦克风的距离，都会直接影响原始音频的清晰度。
说话人特征： 每个人的声音都不一样。语速过快、吐字不清、带有浓重口音（特别是机器模型训练数据中较少出现的口音），或者音量过低/过高，都会让识别变得困难。
语言模型和声学模型： 语音识别系统内部有两个核心模型：声学模型负责识别声音的物理特征与音素的对应关系；语言模型则负责根据音素序列预测最可能出现的词语和句子。如果模型的训练数据不够丰富，或者与你的语音场景差异很大，识别效果自然不理想。比如，一个只用普通话训练的模型，去识别粤语，那肯定一塌糊涂。
词汇表和领域特定性： 识别系统对常见词汇的识别能力通常较好，但遇到专业术语、人名、地名、行业黑话等不常见词汇时，就容易出错。如果你的语音内容是某个特定领域的，而模型没有针对这个领域进行优化，准确率会大打折扣。
计算资源： 特别是对于本地运行的离线模型，如果计算资源（CPU、GPU、内存）不足，可能无法运行更大型、更准确的模型，或者导致实时性下降。

那么，如何优化识别效果呢？这就像医生看病，要对症下药：

改善音频输入质量：
- 降噪： 这是首要任务。使用高质量的麦克风，在安静的环境下录音。如果录音环境无法避免噪音，可以尝试在音频预处理阶段进行降噪。Python里像pydub、librosa这类库可以用来做一些基础的音频处理，比如噪音抑制、音量标准化。
- 调整音量： 确保录音音量适中，不要过轻或过爆。
- 去除静音： 识别前去除音频中冗长的静音部分，可以减少不必要的处理，提高效率。
选择合适的识别模型或服务：
- 通用 vs. 领域专用： 如果是通用语音，Whisper或主流云API的通用模型表现通常很好。但如果是特定领域（比如医疗、金融），可以考虑使用云服务提供的领域专用模型，或者自己收集数据对开源模型（如Vosk、Whisper）进行微调。
- 模型大小： 在条件允许的情况下，选择更大的模型（比如Whisper的medium或large）通常能带来更高的准确率。
利用语言模型优化：
- 自定义词汇表/热词： 很多云服务API都支持添加自定义词汇表（或称“热词”），将你的专业术语、人名等添加到其中，可以显著提高这些词的识别准确率。
- 上下文提示： 一些高级API允许你提供上下文信息，帮助模型更好地理解语音内容。
后处理文本： 即使识别结果出来了，也可能存在一些小错误。可以结合自然语言处理（NLP）技术进行后处理，比如：
- 拼写检查/纠错： 对识别出的文本进行拼写检查和语法纠错。
- 标点符号恢复： 很多语音识别结果不带标点，可以利用NLP工具自动添加标点。
- 实体识别/命名实体识别（NER）： 识别文本中的人名、地名、组织名等，这有助于验证识别结果的正确性。
持续迭代和评估： 语音识别不是一劳永逸的。在实际应用中，要不断收集真实数据，评估识别效果，并根据反馈调整模型或优化策略。

说到底，语音识别就像一个侦探，你给它的线索越清晰，它破案（识别）的准确率就越高。所以，从源头（音频质量）抓起，再结合先进的模型和智能的后处理，才能最大限度地提升识别效果。

Python语音识别在实际应用中有哪些常见场景？

Python在语音识别领域的应用场景非常广泛，几乎渗透到我们日常生活的方方面面，而且随着AI技术，特别是大语言模型（LLM）的飞速发展，语音识别作为人机交互的第一步，其重要性愈发凸显。

我个人觉得，最常见的应用场景包括：

智能语音助手和智能家居控制： 这是最直观的应用。无论是Siri、小爱同学，还是基于Python自制的智能家居控制系统，语音识别都是其核心。你可以用语音指令开关灯、播放音乐、查询天气等等。Python的灵活性使得开发者可以轻松集成各种语音识别库，打造个性化的语音交互体验。
会议纪要和采访转录： 想象一下，开会时不用再奋笔疾书做笔记，或者采访结束后不用花费大量时间人工转录录音。语音识别技术可以自动将会议录音、采访录音转换成文字，大大提高工作效率。这对于记者、研究人员、企业管理人员来说，简直是福音。许多在线会议平台也集成了实时字幕功能，背后就有语音识别的功劳。
呼叫中心和客户服务分析： 电话客服是语音识别的重度用户。通过对客户通话内容的实时或离线转录，企业可以进行关键词提取、情感分析、服务质量评估、常见问题统计等。这不仅能帮助企业了解客户需求、提升服务质量，还能自动化一部分客服流程，比如智能语音导航。
无障碍辅助技术： 对于有听力障碍或肢体不便的用户来说，语音识别是重要的辅助工具。它可以将口语实时转换为文字字幕，帮助听障人士理解对话；也可以让肢体不便的用户通过语音控制电脑或手机，实现无鼠标键盘操作。这是非常有社会价值的应用。
教育和语言学习： 在语言学习App中，语音识别可以用来评估学生的口语发音是否标准，提供即时反馈。对于听写练习，它可以将教师的语音自动转换为文字，方便学生核对。甚至可以用于自动批改口语作业，减轻教师负担。
**媒体内容