python - 抓取一个小说网站嵌入式广告内容
天蓬老师
天蓬老师 2017-04-18 09:56:02
[Python讨论组]

目标地址:http://m.dingdianzw.com/wapbo...

不过需要用谷歌浏览器模拟手机端打开,然后才能看到低端的广告内容

这个内容应该是嵌入在js中的

如果你刷新出的的是一张图片地址链接,就多刷新几次,他有几种广告方式,我是要抓取这种嵌入在js内容中的

现在的问题是,这种情况下,要怎么抓取到这个广告图片的。

直接网页上看可以看到图片内容,现在关键是要用代码去抓,因为后面不止是要抓这一张图,想要操作更多的图片,基本都是这样类型的,然后这种类型又不知怎么爬下来的。

py代码

from bs4 import BeautifulSoup
import requests


pageUrl = r'http://m.dingdianzw.com/wapbook/2430.html'


headers = {
    "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    "Accept-Encoding":"gzip, deflate, sdch",
    "Accept-Language":"zh-CN,zh;q=0.8",
    "Cache-Control":"max-age=0",
    "Connection":"keep-alive",
    "Host":"m.dingdianzw.com",
    "Upgrade-Insecure-Requests":"1",
    "User-Agent":"Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.23 Mobile Safari/537.36",
}

pageText = requests.get(pageUrl,headers=headers).text
pageSoup = BeautifulSoup(pageText,'lxml')

print pageSoup

页面分析出来只有下面这些内容




一念永恒_耳根_一念永恒在线阅读_顶点中文











返回 一念永恒 首页

 一念永恒

 作者:耳根

 类别:武侠修真

 最新:第420章 瞧不起我!

 

本书简介

如遇章节未更新请更换浏览器,不要使用UC浏览器,感谢大家的支持.一念成沧海,一念化桑田。一念斩千魔,一念诛万仙。唯我念……永恒

最新章节


第420章 瞧不起我!

第419章 排名为尊

第418章 山有灵

第417章 万山谷

第416章 星空道极榜

全部章节

外传1 柯父。

外传2 楚玉嫣。

外传3 鹦鹉与皮冻。

第一章 他叫白小纯

第二章 火灶房

第三章 六句真言

第四章 炼灵

第五章 万一丢了小命咋办

第六章 灵气上头

第七章 龟纹认主

第1/43页 上页 下页 尾页 转到

热门小说

辰东:《圣墟》

耳根:《一念永恒》

鹅是老五:《不朽凡人》

骷髅精灵:《斗战狂潮》

姣姣如卿:《六零时光俏》

萧鼎:《天影》

Process finished with exit code 0

不知道怎么取那段base64的值。

天蓬老师
天蓬老师

欢迎选择我的课程,让我们一起见证您的进步~~

全部回复(1)
黄舟

最后一张图不是都已经标出来了吗? base64的图片, 想保存图片的话 直接base64解码 后就是二进制流。

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号