0

0

如何提取HTML中的图片_源码与资源抓取方法【技巧】

雪夜

雪夜

发布时间:2025-12-16 15:39:08

|

525人浏览过

|

来源于php中文网

原创

提取网页图片原始地址有五种方法:一、用浏览器开发者工具手动查img标签src;二、用正则匹配HTML中src属性;三、用BeautifulSoup解析DOM并处理data-src;四、用Selenium/Playwright处理JS动态加载;五、提取CSS background-image中的URL。

如何提取html中的图片_源码与资源抓取方法【技巧】

如果您需要从网页中提取图片,但不确定如何定位和获取图片的原始地址,则可能是由于HTML结构复杂或图片通过JavaScript动态加载。以下是提取HTML中图片源码与资源抓取的具体方法:

一、使用浏览器开发者工具手动提取

该方法适用于静态HTML页面,可直接查看DOM中如何提取HTML中的图片_源码与资源抓取方法【技巧】标签的src属性值,快速定位原始图片地址。

1、在网页上右键选择“检查”或按F12打开开发者工具。

2、点击左上角的“选择元素”图标(箭头形状),然后将鼠标悬停在目标图片上。

立即学习前端免费学习笔记(深入)”;

3、在Elements面板中定位到对应的如何提取HTML中的图片_源码与资源抓取方法【技巧】标签,找到src属性内容。

4、右键点击src属性值,选择“Open in new tab”验证图片可访问性。

5、复制src属性中的完整URL,该URL即为图片原始资源地址。

二、使用正则表达式匹配img标签src属性

该方法适用于已获取HTML字符串文本的场景,通过模式匹配快速提取所有图片链接,适合批量处理本地保存的HTML文件。

1、将HTML源码保存为纯文本文件或读入程序变量。

2、编写正则表达式:如何提取HTML中的图片_源码与资源抓取方法【技巧】]+src=[\"']([^\"']*)[\"'][^>]*>。

3、对HTML文本执行全局匹配,捕获第一个捕获组中的内容。

4、对每个匹配结果进行URL规范化处理,将相对路径转换为绝对路径。

5、过滤掉data:image/开头的Base64编码图片(如需提取则另作处理)。

三、使用Python BeautifulSoup解析DOM结构

该方法基于HTML语法树解析,能准确识别嵌套结构与属性,避免正则误匹配,适用于含复杂class、script或noscript包裹的页面。

1、安装依赖:pip install beautifulsoup4 requests。

2、使用requests.get()获取网页响应内容,并指定response.encoding为'utf-8'。

怪兽AI数字人
怪兽AI数字人

数字人短视频创作,数字人直播,实时驱动数字人

下载

3、用BeautifulSoup(response.text, 'html.parser')初始化解析器。

4、调用soup.find_all('img')获取全部img标签对象。

5、遍历结果,对每个tag获取tag.get('src')或tag.get('data-src')(适配懒加载)。

6、对非空且不以#开头的src值,用urllib.parse.urljoin(base_url, src)补全绝对路径。

四、处理JavaScript动态渲染图片

该方法针对Vue、React等框架生成的页面,或使用IntersectionObserver、lazyload库延迟加载的图片,其src或data-src初始为空或占位符。

1、使用Selenium或Playwright启动无头浏览器实例。

2、访问目标网页URL,并设置足够等待时间(如time.sleep(3))或显式等待图片容器出现。

3、执行JavaScript脚本:document.querySelectorAll('img').forEach(img => { if (img.hasAttribute('data-src')) img.src = img.getAttribute('data-src'); });。

4、再次调用get_attribute('src')获取已注入真实地址的img标签。

5、筛选出以http://、https://或//开头的有效URL,排除空白、javascript:void(0)等无效值。

五、提取CSS背景图片URL

该方法用于捕获通过background-image样式设置的图片,常见于轮播图容器、banner区域等未使用如何提取HTML中的图片_源码与资源抓取方法【技巧】标签的视觉元素。

1、在开发者工具的Elements面板中选中疑似含背景图的元素。

2、切换至Styles面板,查找background-image属性值,如url("https://example.com/bg.jpg")。

3、使用正则\burl\([\'\"]?([^\'\")]+)[\'\"]?\)提取括号内地址。

4、若地址为相对路径,需结合当前页面URL进行拼接,注意去除url()外层括号及引号

5、对@import或CSS文件中引用的图片,需额外请求对应CSS资源并重复本流程解析。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

515

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

251

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

749

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

215

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

351

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

236

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

534

2023.12.06

2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

54

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.8万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.1万人学习

CSS教程
CSS教程

共754课时 | 25.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号