扫码关注官方订阅号
昨天爬豆瓣,没有出现过错误,今早爬成功了一次,接着全部报错。 个人推测,问题在于网站禁止爬虫,如何伪装成浏览器访问? 根据这个stackoverflow答案改写,没有成功,仍然出现Error 403
业精于勤,荒于嬉;行成于思,毁于随。
伪装成浏览器的话,主要还是header里的User-Agent字段 另外 requests 这个库用来写爬虫是相当不错的
照着浏览器中request headers 的信息伪装下,注意加上抄上cookie的内容。还要注意抓取速度,太快会被发现。还有就是注意程序中的输出log, 发现403的话(注意程序中对错误url的retry),打开浏览器刷下下豆瓣,输入提示的验证码,因为同一个cookie的这么多次的请求也会被发现的。 当然api能提供的信息,就使用api。上述是要获取信息,api不提供时不得已的方法。
微信扫码关注PHP中文网服务号
QQ扫码加入技术交流群
Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
PHP学习
技术支持
返回顶部
伪装成浏览器的话,主要还是header里的User-Agent字段
另外 requests 这个库用来写爬虫是相当不错的
照着浏览器中request headers 的信息伪装下,注意加上抄上cookie的内容。还要注意抓取速度,太快会被发现。还有就是注意程序中的输出log, 发现403的话(注意程序中对错误url的retry),打开浏览器刷下下豆瓣,输入提示的验证码,因为同一个cookie的这么多次的请求也会被发现的。
当然api能提供的信息,就使用api。上述是要获取信息,api不提供时不得已的方法。