0

0

Python UnicodeDecodeError 解决方案

舞姬之光

舞姬之光

发布时间:2026-02-26 19:12:10

|

674人浏览过

|

来源于php中文网

原创

python unicodedecodeerror 解决方案

Python 中的 UnicodeDecodeError 通常发生在尝试用错误的编码方式读取文本时,比如用 utf-8 去解码实际是 gbk 编码的中文文件。核心思路是:**明确源数据的真实编码,并在读取时显式指定**。

确认文件真实编码

很多错误源于“默认用 utf-8”,但 Windows 记事本保存的中文文本默认是 gbk(或 gb2312),Linux/macOS 下多为 utf-8。不要猜,用工具验证:

  • 用 VS Code、Notepad++ 打开文件,右下角会显示当前识别的编码
  • 命令行中使用 file -i filename.txt(Linux/macOS)或 chcp + 观察控制台行为(Windows)
  • Python 中可尝试用 chardet 库粗略检测:
    import chardet; print(chardet.detect(open('file.txt', 'rb').read())['encoding'])
    (注意:chardet 是启发式检测,不 100% 可靠,仅作参考)

读取时显式指定 encoding 参数

这是最直接有效的解决方式。避免依赖默认编码:

Transfusion AI
Transfusion AI

一站式室内设计AI解决方案

下载
  • 打开文件时必须写明 encoding
    with open('data.txt', 'r', encoding='gbk') as f:
  • 常见中文编码优先级建议:
    — Windows 生成的文本 → 试 gbkgb2312
    — 网页抓取内容 → 查看 HTML 的 <meta charset="..."> 或响应头 Content-Type
    — JSON / API 返回 → 几乎总是 utf-8(但需确认文档)
  • 不确定时可加异常处理兜底:
    try:<br>
      with open('f.txt', 'r', encoding='utf-8') as f: ...<br>
    except UnicodeDecodeError:<br>
      with open('f.txt', 'r', encoding='gbk') as f: ...

处理 requests 响应中的编码问题

requests.get() 获取网页内容时,r.text 可能乱码,因为 requests 有时自动推断错误:

立即学习Python免费学习笔记(深入)”;

  • 优先用 r.content.decode('gbk')(或你确认的编码)代替 r.text
  • 手动覆盖响应编码:
    r.encoding = 'gbk'<br>
    print(r.text)
  • 从 HTML 中提取真正声明的编码(更可靠):
    import re<br>
    match = re.search(r'charset=["\']?([^"\'>]+)', r.text[:500])<br>
    if match: r.encoding = match.group(1)

写入文件时保持编码一致

读取没问题,但写入后下次打不开?可能写入用了不同编码:

  • 写入中文务必指定 encoding
    with open('out.txt', 'w', encoding='utf-8') as f:
  • 避免跨平台混乱:统一用 utf-8 写入,并在文件开头加 BOM(如需兼容旧 Windows 软件):
    with open('out.txt', 'w', encoding='utf-8-sig') as f:
  • 如果要写入 gbk 文件(例如适配某国产软件),就全程用 gbk 读和写,不要混用

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

449

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

546

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

325

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

81

2025.09.10

python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

192

2023.09.27

python print用法与作用
python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容,阅读专题下面的文章了解更多详细教程。

14

2026.02.03

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

832

2023.08.22

windows查看端口占用情况
windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口,端口号的范围从0到65535,比如用于浏览网页服务的80端口,用于FTP服务的21端口等等。怎么查看windows端口占用情况呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

1290

2023.07.26

Golang 实际项目案例:从需求到上线
Golang 实际项目案例:从需求到上线

《Golang 实际项目案例:从需求到上线》以真实业务场景为主线,完整覆盖需求分析、架构设计、模块拆分、编码实现、性能优化与部署上线全过程,强调工程规范与实践决策,帮助开发者打通从技术实现到系统交付的关键路径,提升独立完成 Go 项目的综合能力。

1

2026.02.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号