目标地址:http://m.dingdianzw.com/wapbo...
不过需要用谷歌浏览器模拟手机端打开,然后才能看到低端的广告内容
这个内容应该是嵌入在js中的
如果你刷新出的的是一张图片地址链接,就多刷新几次,他有几种广告方式,我是要抓取这种嵌入在js内容中的
现在的问题是,这种情况下,要怎么抓取到这个广告图片的。
直接网页上看可以看到图片内容,现在关键是要用代码去抓,因为后面不止是要抓这一张图,想要操作更多的图片,基本都是这样类型的,然后这种类型又不知怎么爬下来的。
py代码
from bs4 import BeautifulSoup
import requests
pageUrl = r'http://m.dingdianzw.com/wapbook/2430.html'
headers = {
"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
"Accept-Encoding":"gzip, deflate, sdch",
"Accept-Language":"zh-CN,zh;q=0.8",
"Cache-Control":"max-age=0",
"Connection":"keep-alive",
"Host":"m.dingdianzw.com",
"Upgrade-Insecure-Requests":"1",
"User-Agent":"Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.23 Mobile Safari/537.36",
}
pageText = requests.get(pageUrl,headers=headers).text
pageSoup = BeautifulSoup(pageText,'lxml')
print pageSoup
页面分析出来只有下面这些内容
一念永恒_耳根_一念永恒在线阅读_顶点中文
返回
一念永恒
首页

一念永恒
作者:耳根
类别:武侠修真
最新:第420章 瞧不起我!
本书简介
如遇章节未更新请更换浏览器,不要使用UC浏览器,感谢大家的支持.一念成沧海,一念化桑田。一念斩千魔,一念诛万仙。唯我念……永恒
最新章节
全部章节
第1/43页
上页
下页
尾页
转到
热门小说
Process finished with exit code 0
不知道怎么取那段base64的值。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
最后一张图不是都已经标出来了吗? base64的图片, 想保存图片的话 直接base64解码 后就是二进制流。