0

0

如何正确处理 httplib2 请求中的响应编码问题

心靈之曲

心靈之曲

发布时间:2026-03-15 15:07:02

|

332人浏览过

|

来源于php中文网

原创

本文详解 httplib2 发起 HTTP 请求时因 Accept-Encoding 头包含 br(Brotli)导致响应体为乱码二进制数据的问题,指出根本原因并提供安全、兼容的解决方案。

本文详解 httplib2 发起 http 请求时因 `accept-encoding` 头包含 `br`(brotli)导致响应体为乱码二进制数据的问题,指出根本原因并提供安全、兼容的解决方案。

在使用 httplib2 进行 Web 内容抓取时,开发者常通过复制浏览器请求头(如 Chrome 或 Firefox 的完整 User-Agent 与 Accept-Encoding)来模拟真实访问。但这一做法可能引入隐性兼容性风险——尤其当请求头中包含 Accept-Encoding: gzip, deflate, br 时,httplib2 默认不支持 Brotli(br)解压缩,却仍会接收经 Brotli 压缩的响应体,最终返回未经解压的原始字节流(如 b'\x90\x03\x02\x80...'),而非可读的 UTF-8 文本。

根本原因:Brotli 不被 httplib2 原生支持

Brotli(RFC 7932)是一种由 Google 主导的现代高压缩率算法,虽已被主流浏览器广泛支持,但 httplib2(截至最新稳定版)未内置 Brotli 解码能力。当服务端检测到 Accept-Encoding 中含 br,便会优先返回 Brotli 压缩内容;而 httplib2 既未自动解压,也未抛出明确错误,导致开发者误以为“获取失败”或“编码异常”。

正确解决方案:精简 Accept-Encoding 头

只需将请求头中的 Accept-Encoding 值从:

"Accept-Encoding": "gzip, deflate, br"

替换为仅保留 httplib2 原生支持的压缩方式:

Winston AI
Winston AI

强大的AI内容检测解决方案

下载
"Accept-Encoding": "gzip, deflate"

修改后,httplib2 将自动识别并解压 gzip/deflate 编码的响应,返回已解压的 bytes 对象,后续可安全解码为字符串:

from __future__ import unicode_literals
import httplib2

def set_header():
    return {
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
        "Accept-Encoding": "gzip, deflate",  # ✅ 移除 'br',确保兼容性
        "Accept-Language": "en-US,en;q=0.5",
        "Connection": "keep-alive",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; rv:122.0) Gecko/20100101 Firefox/122.0",
        # 其他 header 可保留,但避免非标准/服务端不必要字段
    }

def get_url(url="http://example.com"):
    h = httplib2.Http()
    resp, content = h.request(url, "GET", headers=set_header())

    # 自动解压后 content 是 bytes,需根据响应头 charset 解码
    charset = resp.get('content-type', '').split('charset=')[-1].split(';')[0] if 'charset=' in resp.get('content-type', '') else 'utf-8'
    try:
        text = content.decode(charset)
        print("✅ 解码成功:", text[:200] + "..." if len(text) > 200 else text)
        return text
    except UnicodeDecodeError as e:
        print(f"❌ 解码失败(charset={charset}):{e}")
        print("? 建议 fallback 到 utf-8 ignore 模式:content.decode('utf-8', errors='ignore')")
        return content.decode('utf-8', errors='ignore')

注意事项与最佳实践

  • 避免盲目复制浏览器头:Sec-Fetch-*、DNT、Sec-GPC 等安全/隐私头对 httplib2 无实际作用,反而增加请求体积与潜在兼容风险,建议精简。
  • 显式处理字符编码:httplib2 不自动解码响应体为 str,务必依据 Content-Type 响应头中的 charset 参数进行 .decode();若缺失,优先尝试 utf-8,再 fallback 到 latin-1 或 errors='replace'。
  • 替代方案建议:长期项目推荐迁移到 requests 库(配合 brotli 或 brotlipy 扩展支持 Brotli),或直接使用 httpx(原生支持 Brotli)。但若必须用 httplib2,请严格限制 Accept-Encoding。
  • 验证服务端行为:可通过 curl -I -H "Accept-Encoding: gzip, deflate, br" <url> 对比 curl -I -H "Accept-Encoding: gzip, deflate" 的 Content-Encoding 响应头,确认服务端是否真返回了 br。

遵循以上方法,即可彻底解决 httplib2 返回不可读二进制数据的问题,确保响应内容稳定、可解析、易维护。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
chrome什么意思
chrome什么意思

chrome是浏览器的意思,由Google开发的网络浏览器,它在2008年首次发布,并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容,供大家免费下载体验。

1073

2023.08.11

chrome无法加载插件怎么办
chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

848

2023.11.06

curl_exec
curl_exec

curl_exec函数是PHP cURL函数列表中的一种,它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例,这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE, 或者在失败时返回FALSE。

455

2023.06.14

linux常见下载安装工具
linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容,可以阅读本专题下面的文章。

183

2023.10.30

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

761

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1570

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

651

2023.11.24

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

69

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号