python - 使用requests库抓取页面的时候的编码问题-PHP中文网问答

讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 AI 提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

python - 使用requests库抓取页面的时候的编码问题

PHPz 2017-04-17 11:46:29

[Python讨论组]

533

我在开始加了以下的代码

# -*- coding: utf-8 -*-

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

但是用

print requests.Session().get(url, data=data).text

结果中输出了长这个样子的乱码
°æÈ¨ËùÓÐ 2013 ¶«ÄÏ´óÑ§ÍøÂçÓëÐÅÏ¢ÖÐÐÄ

然后试着查看了一下上面文本的格式

print type(requests.Session().get(url, data=data).text)

输出的结果就是unicode，后来我又看了页面的head头中写了页面编码是gb2312，我后面又把代码改成了

print requests.Session().get(url, data=data).text.encode('gb2312')

结果就出现了下面的异常
UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 227-228: illegal multibyte sequence1

把代码改成

print requests.Session().get(url, data=data).text.encode('gb2312', 'ignore')

依然是乱码

真的是没辙了，希望各位大大指点一下

PHPz

学习是最好的投资！

全部回复(3)

大家讲道理2017-04-17 11:48:29 3楼

首先， sys.setdefaultencoding is evil。

其次，不会用 Requests 就去看文档，不要乱来。

如果 Requests 检测不到正确的编码，那么你告诉它正确的是什么：
```
response.encoding = 'gbk'
print response.text
```
原始内容在 response.content 里，bytes，自己想怎么处理就怎么处理。
单个请求完全没必要用 Session。直接 requests.get(xxx) 就可以了。

最后，弄不明白怎么处理编码错误的字符串就仔细想想，或者用 Python 3.x，不要散弹枪编程。

以下是 Python 3。Python 2 在那个字符串前加个 u 告诉它是 unicode 也一样。

>>> '°æÈ¨ËùÓÐ 2013 ¶«ÄÏ´óÑ§ÍøÂçÓëÐÅÏ¢ÖÐÐÄ'.encode('latin1').decode('gbk')
'版权所有 2013 东南大学网络与信息中心'

赞 +0

添加回复

巴扎黑2017-04-17 11:48:29 2楼

resp = requests.get(url)
print(resp.text.encode(resp.encoding).decode('utf-8'))

赞 +0

添加回复

伊谢尔伦2017-04-17 11:48:29 1楼

首先先看下网站的charset是什么编码，比如是'utf-8'的，在open url的时候先encoding='utf-8',然后在print的时候，decode('utf-8'),或者跟楼上说的用python 3.0以上的版本对编码的问题简化了很多

赞 +0

添加回复

专题推荐

更多>

热门话题

热门教程

更多>