0

0

Python正则表达式爬虫怎么写_re模块findall与search提取JSON字符串

P粉602998670

P粉602998670

发布时间:2026-03-12 09:57:31

|

902人浏览过

|

来源于php中文网

原创

优先用 json.loads() 解析完整 js 变量赋值(如 var data = {...}),而非正则硬匹配;若必须用正则,应先用 beautifulsoup 定位 script 标签缩小范围,再结合 re.dotall 提取并用 json.loads() 校验。

python正则表达式爬虫怎么写_re模块findall与search提取json字符串

re.findall 提取 JSON 字符串时匹配不到内容

常见现象是 re.findall(r'\{.*?\}', text) 返回空列表,或只拿到半个 JSON——因为正则默认不跨行、不处理嵌套、遇到换行或注释就断掉。

根本原因:JSON 的 {} 是嵌套结构,而 .*? 无法正确平衡括号层级;且原始 HTML 或 JS 中的 JSON 往往混着换行、缩进、单双引号混用,甚至有 JS 注释(///* */),正则一碰就失效。

  • 优先改用 json.loads() 解析完整 JS 变量赋值(如 var data = { ... };),而不是硬啃 JSON 片段
  • 若必须用正则,把模式升级为 r'(\{(?:[^{}]|(?R))*\})' ——但 Python re 不支持 (?R) 递归,得换 regex 模块(非标准库)
  • 更稳妥的做法:先用 re.search(r'var\s+\w+\s*=\s*(\{.*?\});', text, re.DOTALL) 拿到赋值右侧,再用 json.loads() 解析,re.DOTALL 确保 . 匹配换行

re.search 和 re.findall 在提取 JSON 场景下的行为差异

re.search 找第一个匹配就停,re.findall 贪心扫全文本——但两者在 JSON 提取中都容易“切错位置”,尤其当页面含多个 {} 块(比如多个 script 标签或内联配置)。

典型坑:用 re.findall(r'\{.*?\}', text) 会把 { "a": 1 } 和后面紧挨着的 { "b": 2 } 中间的 }{ 错配成 }`{,导致截断。

立即学习Python免费学习笔记(深入)”;

ColorMagic
ColorMagic

AI调色板生成工具

下载
  • re.search 更适合提取单个主数据块(如页面唯一的 window.__INITIAL_STATE__ = {...}
  • re.findall 仅适用于明确分隔、无嵌套的简单键值对(如 {"id":"123"} 连续出现且彼此独立),且需加 re.DOTALL
  • 永远检查返回结果是否为合法 JSON:用 json.loads(result[0]) 尝试解析,捕获 json.JSONDecodeError ——别信正则“看起来像”

从 script 标签里提取 JSON 最少出错的写法

真实爬虫里,JSON 几乎都藏在 <script></script> 标签中,直接对整个 HTML 用正则扫效率低、误伤多。应先定位 script,再针对性提取。

关键不是“怎么写正则”,而是“怎么缩小搜索范围”:用 BeautifulSoup 定位 <script></script>,再对 .string 内容做正则,比全文扫可靠十倍。

  • 选 script:用 soup.find('script', string=re.compile(r'window\.__DATA__')),比 re.search(r'<script>.*?window\.__DATA__.*?</script>', html) 更准
  • 提取后先清理:去掉开头的 var data = 、结尾的分号、JS 注释(用 re.sub(r'//.*|/\*.*?\*/', '', js_text)
  • 避免用 re.match:它只从开头匹配,而 script 里 JSON 往往在中间;一律用 re.searchre.findall

为什么不用 json.loads 直接解析反而要写正则

不是不想用,是经常不能用:目标字段可能在 JS 变量赋值里(const config = {...}),或被包裹在函数调用中(init({ ... })),或和 HTML 混在一起没单独标签——这时候 json.loads 会直接报 Expecting property name enclosed in double quotes

真正该警惕的是“以为正则能替代解析器”:正则只能帮你把疑似 JSON 的字符串抠出来,绝不能代替 json.loads 做校验和结构化。漏掉这步,后续字段访问(如 data['user']['id'])必崩。

  • 抠出来之后必须 json.loads(),哪怕只是 try: json.loads(s) except: continue
  • 双引号问题:JS 允许单引号或无引号 key,但 JSON 不允许;正则抠出来的字符串大概率不合法,得先用 ast.literal_eval()(仅限简单情况)或预处理修复
  • 编码问题:script 标签内容可能是 UTF-8 但没声明,.string 取出来是乱码——确保 BeautifulSoup 解析时指定了 from_encoding='utf-8'

事情说清了就结束。正则只是撬棍,JSON 解析才是锤子;撬不开的时候,别硬砸,先看看有没有更结实的支点。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

455

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

546

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

335

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

82

2025.09.10

js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

530

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

766

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

219

2023.08.11

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.9万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号