0

0

Python爬虫怎么抓微信公众号_通过搜狗微信搜索或抓包微信PC客户端获取文章链接

P粉602998670

P粉602998670

发布时间:2026-03-14 08:16:59

|

396人浏览过

|

来源于php中文网

原创

绕过搜狗微信搜索反爬需模拟真实浏览器行为:携带有效User-Agent、Cookie(SUID/SUV),URL编码关键词,用Playwright/Selenium执行JS渲染,并正确处理分页参数。

python爬虫怎么抓微信公众号_通过搜狗微信搜索或抓包微信pc客户端获取文章链接

搜狗微信搜索结果页的反爬机制怎么绕过

搜狗微信搜索(weixin.sogou.com)本身不提供公开API,页面渲染依赖JavaScript,且对高频请求会返回验证码或封IP。直接用requests GET首页或搜索URL,大概率拿到的是带anti_spider提示的HTML,或者空的#result容器。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 必须带上真实浏览器User-AgentCookie(尤其是SUIDSUV,需从正常访问后的响应头里提取)
  • 搜索关键词要URL编码,例如requests.get("https://weixin.sogou.com/weixin?type=2&query=" + urllib.parse.quote("Python"))
  • 不能跳过JS渲染——得用seleniumplaywright加载完整DOM;requests-html虽支持JS执行但稳定性差,容易卡在wait_for
  • 翻页时注意page参数是1开始,但实际URL中常为page=2对应第二页,别错当成0索引

微信PC客户端抓包拿到的链接为什么打不开

通过Wireshark或Fiddler抓微信PC版(2.x版本)HTTP流量,能捕获到类似https://mp.weixin.qq.com/s?__biz=xxx&mid=xxx&idx=1&sn=xxx的URL,但直接浏览器访问常跳转到“该文章不可查看”或403。这不是链接失效,而是微信服务端校验了Referer、User-Agent、以及关键的pass_ticketappmsg_token等临时凭证。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • pass_ticket有效期约2小时,从登录后的https://mp.weixin.qq.com/cgi-bin/mmwebwx-bin/webwxinit响应中提取
  • appmsg_token藏在PC客户端某个JS文件里(如https://res.wx.qq.com/zh_CN/htmledition/face/xxx.js),需正则匹配appmsg_token:"[a-zA-Z0-9\_\-]+"}
  • 构造请求头时,Referer必须是https://mp.weixin.qq.com/User-Agent得模仿微信Windows客户端(如MicroMessenger Client/3.0
  • 即使参数齐全,部分公众号启用了“仅粉丝可见”,非关注状态下仍返回空白内容

requests解析公众号文章正文总丢段落怎么办

微信文章HTML结构混乱:大量<section><span style="..."></span>嵌套,图片用data-src懒加载,正文还混着广告、打赏按钮、阅读原文链接。直接BeautifulSoup(html, "lxml").find("div", class_="rich_media_content")经常取不到完整文本,或把CSS样式当内容一起抓下来。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 优先用html.parser而非lxml,后者对未闭合标签更激进,容易截断节点
  • 清空所有styleclass属性再提取文本:soup.find("div", id="js_content").decompose()之前先for tag in soup(["style", "script", "nav", "footer"]): tag.decompose()
  • 图片地址必须从data-src提取,不是src;音频/视频同理,找data-linkdata-audio-id
  • 避免用.get_text()直接调用,改用"\n".join([p.get_text(strip=True) for p in soup.select("p, h1, h2, li") if p.get_text(strip=True)])

为什么用playwright加载文章页后拿不到js_content节点

微信文章页的js_content容器是异步注入的,Playwright默认page.goto(url)只等DOMContentLoaded,但微信JS通常在setTimeoutIntersectionObserver触发后才往#js_content里塞内容。这时候page.query_selector("#js_content")返回None,不是Selector写错,是时机不对。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 别依赖wait_for_selector等固定ID,改用page.wait_for_function('document.querySelector("#js_content") && document.querySelector("#js_content").children.length > 0')
  • 加个兜底:如果5秒内没内容,手动触发一次page.evaluate("window.scrollTo(0, document.body.scrollHeight)")模拟滚动,唤醒懒加载
  • 某些文章会检测window.outerWidth,Playwright默认viewport太小(1280×720),设成1440×900更稳
  • 禁用图片加载可提速:page.set_extra_http_headers({"Accept-Encoding": "gzip"}) + page.route("**/*.{png,jpg,gif}", lambda route: route.abort())

微信公众号内容没有标准接口,所有路径都依赖逆向和适配。最麻烦的不是技术实现,而是每次微信客户端或搜狗策略一更新,pass_ticket生成逻辑、appmsg_token位置、甚至js_content的注入方式都可能变——得随时盯着抓包工具里的XHR列表和JS源码。

相关文章

微信app下载
微信app下载

微信是一款手机通信软件,支持通过手机网络发送语音短信、视频、图片和文字。微信可以单聊及群聊,还能根据地理位置找到附近的人,带给大家全新的移动沟通体验,有需要的小伙伴快来保存下载体验吧!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

847

2023.08.22

cookie
cookie

Cookie 是一种在用户计算机上存储小型文本文件的技术,用于在用户与网站进行交互时收集和存储有关用户的信息。当用户访问一个网站时,网站会将一个包含特定信息的 Cookie 文件发送到用户的浏览器,浏览器会将该 Cookie 存储在用户的计算机上。之后,当用户再次访问该网站时,浏览器会向服务器发送 Cookie,服务器可以根据 Cookie 中的信息来识别用户、跟踪用户行为等。

6500

2023.06.30

document.cookie获取不到怎么解决
document.cookie获取不到怎么解决

document.cookie获取不到的解决办法:1、浏览器的隐私设置;2、Same-origin policy;3、HTTPOnly Cookie;4、JavaScript代码错误;5、Cookie不存在或过期等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

368

2023.11.23

阻止所有cookie什么意思
阻止所有cookie什么意思

阻止所有cookie意味着在浏览器中禁止接受和存储网站发送的cookie。阻止所有cookie可能会影响许多网站的使用体验,因为许多网站使用cookie来提供个性化服务、存储用户信息或跟踪用户行为。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

447

2024.02.23

cookie与session的区别
cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容,阅读专题下面的文章了解更详细的内容。

97

2025.08.19

go语言goto的用法
go语言goto的用法

本专题整合了go语言goto的用法,阅读专题下面的文章了解更多详细内容。

138

2025.09.05

lambda表达式
lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式,它可以在需要函数作为参数的地方使用,并提供了一种更简洁、更灵活的编码方式,其语法为“lambda 参数列表: 表达式”,参数列表是函数的参数,可以包含一个或多个参数,用逗号分隔,表达式是函数的执行体,用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容,供大家免费下载体验。

215

2023.09.15

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号