0

0

Python爬虫进阶教程_反爬机制与数据清洗

舞夢輝影

舞夢輝影

发布时间:2026-01-06 16:57:22

|

936人浏览过

|

来源于php中文网

原创

应对反爬需分三类策略:请求头模拟(如user-agent)、ip代理池防封、解析js渲染接口;数据清洗包括去噪、数值标准化、去重;运维强调异常捕获、日志记录、编码与会话管理。

python爬虫进阶教程_反爬机制与数据清洗

应对常见反爬机制的实用策略

网站反爬不是铁板一块,多数基于请求特征、行为模式和前端渲染三类逻辑。识别后针对性绕过,比盲目试错更高效。

User-Agent 与请求头模拟:很多站点仅校验基础请求头。用 requests 发送请求时,必须设置真实的 User-AgentAcceptReferer 等字段。可从浏览器开发者工具的 Network 面板中复制完整请求头,或使用 fake-useragent 库动态生成:

  • 安装:pip install fake-useragent
  • 使用:from fake_useragent import UserAgent; headers = {"User-Agent": UserAgent().random}
  • 注意:避免高频调用 UserAgent().random,建议初始化一次复用,防止触发 UA 获取接口限流

IP 限制与代理池:单 IP 短时间内大量请求易被封禁。本地调试可用免费代理(如 http://www.89ip.cn/),但稳定性差;生产环境推荐付费代理服务(如芝麻代理、讯代理)或自建私有代理池(结合 Redis + 定时检测)。

  • requests 中使用代理:proxies = {"http": "http://user:pass@123.45.67.89:8080"}
  • 务必搭配 time.sleep() 或指数退避(如 random.uniform(1, 3)),降低请求密度
  • 遇到 429 或 503 响应码时,主动暂停并切换代理,而非硬刷

JavaScript 渲染内容(如 Ajax、Vue/React):若页面关键数据由 JS 动态加载,requests 获取的 HTML 中不包含目标内容。此时需分析 Network 面板,找到真实数据接口(常为 .jsonapi/xxx 路径),直接请求该接口。

立即学习Python免费学习笔记(深入)”;

  • 优先走接口:比启动浏览器快 5–10 倍,资源占用低
  • 若接口带签名、时间戳、加密参数,需逆向 JS(用 Chrome 的 Sources 面板断点调试,定位生成逻辑)
  • 实在无法绕过才考虑 SeleniumPlaywright,但务必禁用图片、关闭日志、启用无头模式以提速

结构化数据清洗的关键步骤

爬下来的数据常混杂空格、换行、HTML 标签、乱码、重复项等。清洗不是“删脏数据”,而是按业务规则标准化,确保后续分析或入库可用。

Sora
Sora

Sora是OpenAI发布的一种文生视频AI大模型,可以根据文本指令创建现实和富有想象力的场景。

下载

文本清洗:去噪与归一化:针对字符串字段(如标题、简介、价格)。

  • 去除不可见字符:text.replace('\u200b', '').strip()(零宽空格)、re.sub(r'[\r\n\t]+', ' ', text)
  • 清理 HTML 标签:import re; re.sub(r']+>', '', html_str),或更稳妥地用 BeautifulSoup(html_str, 'lxml').get_text()
  • 统一空格与标点:re.sub(r'\s+', ' ', text)text.replace(',', ',').replace('。', '.')(视需求决定是否中英文标点转换)

数值与日期标准化:价格、评分、时间等字段极易格式混乱。

  • 价格(含¥、万、亿、逗号):re.findall(r'[\d.]+', '¥12,999.5万元') → ['12', '999.5'] → float(''.join(...)) * 10000
  • 日期(“今天”、“3小时前”、“2024-05-12”):用 dateparser 库统一解析:dateparser.parse("昨天") 返回标准 datetime 对象
  • 评分(“4.8分(满分5分)”、“★★★★☆”):正则提取数字或统计星号数量,统一转为 0–5 浮点数

去重与唯一性保障:尤其在增量爬取中,避免重复入库或分析偏差。

  • 内存级去重(小数据量):seen = set(); if item_id not in seen: seen.add(item_id); yield item
  • 数据库级去重(推荐):MySQL 用 INSERT IGNOREON DUPLICATE KEY UPDATE;MongoDB 用 update_one(..., upsert=True)
  • URL 去重建议存入 Redis 的 SET,O(1) 判断,且支持跨进程共享

实战建议:让爬虫稳定又可持续

写一个能跑通的爬虫容易,写一个能长期运行、易维护、抗变化的爬虫才是进阶核心。

  • 把请求逻辑封装成函数,参数化 URL、headers、timeout、proxy,方便调试和复用
  • 所有网络操作加异常捕获:try/except requests.RequestException,记录错误日志而非崩溃退出
  • logging 替代 print,区分 INFO/WARNING/ERROR 级别,便于后期排查
  • 定期检查目标网站结构变更(如 class 名更新、接口路径调整),可设置简单断言:assert 'price' in response.text,失败即告警
  • 遵守 robots.txt,控制并发数(concurrent.futures.ThreadPoolExecutor(max_workers=3)),尊重网站资源

不复杂但容易忽略的细节

很多爬虫中途失效,不是技术卡点,而是栽在细节上。

  • 编码问题:requests 默认用 ISO-8859-1 解码非 UTF-8 页面,导致中文乱码。务必显式指定:response.encoding = 'utf-8' 或用 response.content.decode('utf-8')
  • Cookies 会话维持:登录后爬个人页,需复用 session = requests.Session(),自动管理 cookies
  • HTTPS 证书验证:内网或测试环境可能报 SSL 错误,临时禁用:verify=False(仅调试),同时加 urllib3.disable_warnings()
  • JSON 接口响应含 Unicode 转义(如 "\u4f60\u597d"),json.loads() 会自动解码,无需额外处理

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
mysql修改数据表名
mysql修改数据表名

MySQL修改数据表:1、首先查看数据库中所有的表,代码为:‘SHOW TABLES;’;2、修改表名,代码为:‘ALTER TABLE 旧表名 RENAME [TO] 新表名;’。php中文网还提供MySQL的相关下载、相关课程等内容,供大家免费下载使用。

682

2023.06.20

MySQL创建存储过程
MySQL创建存储过程

存储程序可以分为存储过程和函数,MySQL中创建存储过程和函数使用的语句分别为CREATE PROCEDURE和CREATE FUNCTION。使用CALL语句调用存储过程智能用输出变量返回值。函数可以从语句外调用(通过引用函数名),也能返回标量值。存储过程也可以调用其他存储过程。php中文网还提供MySQL创建存储过程的相关下载、相关课程等内容,供大家免费下载使用。

452

2023.06.21

mongodb和mysql的区别
mongodb和mysql的区别

mongodb和mysql的区别:1、数据模型;2、查询语言;3、扩展性和性能;4、可靠性。本专题为大家提供mongodb和mysql的区别的相关的文章、下载、课程内容,供大家免费下载体验。

286

2023.07.18

mysql密码忘了怎么查看
mysql密码忘了怎么查看

MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBMS 应用软件之一。那么mysql密码忘了怎么办呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

519

2023.07.19

mysql创建数据库
mysql创建数据库

MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBMS 应用软件之一。那么mysql怎么创建数据库呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

264

2023.07.25

mysql默认事务隔离级别
mysql默认事务隔离级别

MySQL是一种广泛使用的关系型数据库管理系统,它支持事务处理。事务是一组数据库操作,它们作为一个逻辑单元被一起执行。为了保证事务的一致性和隔离性,MySQL提供了不同的事务隔离级别。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

392

2023.08.08

sqlserver和mysql区别
sqlserver和mysql区别

SQL Server和MySQL是两种广泛使用的关系型数据库管理系统。它们具有相似的功能和用途,但在某些方面存在一些显著的区别。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

541

2023.08.11

mysql忘记密码
mysql忘记密码

MySQL是一种关系型数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。那么忘记mysql密码我们该怎么解决呢?php中文网给大家带来了相关的教程以及其他关于mysql的文章,欢迎大家前来学习阅读。

663

2023.08.14

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

48

2026.02.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
MySQL 教程
MySQL 教程

共48课时 | 2.4万人学习

MySQL 初学入门(mosh老师)
MySQL 初学入门(mosh老师)

共3课时 | 0.3万人学习

简单聊聊mysql8与网络通信
简单聊聊mysql8与网络通信

共1课时 | 842人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号