python - 抓取一个小说网站嵌入式广告内容-PHP中文网问答

目标地址：http://m.dingdianzw.com/wapbo...

不过需要用谷歌浏览器模拟手机端打开，然后才能看到低端的广告内容

这个内容应该是嵌入在js中的

如果你刷新出的的是一张图片地址链接，就多刷新几次，他有几种广告方式，我是要抓取这种嵌入在js内容中的

现在的问题是，这种情况下，要怎么抓取到这个广告图片的。

直接网页上看可以看到图片内容，现在关键是要用代码去抓，因为后面不止是要抓这一张图，想要操作更多的图片，基本都是这样类型的，然后这种类型又不知怎么爬下来的。

py代码

from bs4 import BeautifulSoup
import requests


pageUrl = r'http://m.dingdianzw.com/wapbook/2430.html'


headers = {
    "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    "Accept-Encoding":"gzip, deflate, sdch",
    "Accept-Language":"zh-CN,zh;q=0.8",
    "Cache-Control":"max-age=0",
    "Connection":"keep-alive",
    "Host":"m.dingdianzw.com",
    "Upgrade-Insecure-Requests":"1",
    "User-Agent":"Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.23 Mobile Safari/537.36",
}

pageText = requests.get(pageUrl,headers=headers).text
pageSoup = BeautifulSoup(pageText,'lxml')

print pageSoup

页面分析出来只有下面这些内容




一念永恒_耳根_一念永恒在线阅读_顶点中文














返回
一念永恒
首页









 一念永恒
 作者：耳根
 类别：武侠修真
 最新：第420章 瞧不起我！









 




本书简介
如遇章节未更新请更换浏览器,不要使用UC浏览器,感谢大家的支持.一念成沧海，一念化桑田。一念斩千魔，一念诛万仙。唯我念……永恒



最新章节




第420章 瞧不起我！
第419章 排名为尊
第418章 山有灵
第417章 万山谷
第416章 星空道极榜

全部章节

请输入数字！
  
外传1 柯父。
外传2 楚玉嫣。
外传3 鹦鹉与皮冻。
第一章 他叫白小纯
第二章 火灶房
第三章 六句真言
第四章 炼灵
第五章 万一丢了小命咋办
第六章 灵气上头
第七章 龟纹认主



第1/43页
上页
下页
尾页

转到







热门小说

辰东：《圣墟》


耳根：《一念永恒》


鹅是老五：《不朽凡人》


骷髅精灵：《斗战狂潮》


姣姣如卿：《六零时光俏》


萧鼎：《天影》


顶点中文  我的书架







Process finished with exit code 0

不知道怎么取那段base64的值。