如何抓取图片链接_PHP提取网页图片链接技巧【教程】

星夢妙者

发布时间：2026-02-19 09:03:10

723人浏览过

来源于php中文网

原创

php抓取网页图片链接应优先使用file_get_contents配合domdocument解析，而非正则匹配；需处理data-src与src、相对路径补全、base标签、user-agent及referer等防盗链措施。

如何抓取图片链接_php提取网页图片链接技巧【教程】

PHP 抓取网页图片链接，核心不是“能不能”，而是“用对方法”——file_get_contents + DOMDocument 是最稳的组合，正则匹配 <img alt="如何抓取图片链接_PHP提取网页图片链接技巧【教程】" > 标签在大多数真实网页中会漏掉或错抓。

为什么别用正则解析 `<img alt="如何抓取图片链接_PHP提取网页图片链接技巧【教程】" >` 标签

HTML 不是正则友好的格式：标签可能跨行、属性顺序不固定、有自闭合写法、含 JS 动态插入内容。常见错误现象包括：

漏掉 <img src="..." alt="如何抓取图片链接_PHP提取网页图片链接技巧【教程】" > 中换行后的 src 属性
把 CSS 背景图 URL（如 style="background:url(...)"）误判为 <img alt="如何抓取图片链接_PHP提取网页图片链接技巧【教程】" >
抓到注释里的假链接，比如 
遇到 HTML5 自定义属性（如 data-src）直接忽略

用 `DOMDocument` 安全提取 `src` 和 `data-src`

DOMDocument 能真正解析 HTML 结构，兼容性好、容错强。关键点：

务必调用 $dom->loadHTML($html, LIBXML_NOERROR | LIBXML_NOWARNING) 屏蔽解析警告
用 $dom->getElementsByTagName('img') 遍历所有 <img alt="如何抓取图片链接_PHP提取网页图片链接技巧【教程】" > 元素
优先读 $img->getAttribute('data-src')（懒加载常见）， fallback 到 src
用 filter_var($url, FILTER_VALIDATE_URL) 过滤掉相对路径或无效值，再补全协议和域名

示例片段：

NewsBang

盛大旗下AI团队推出的智能新闻阅读App

下载

立即学习“PHP免费学习笔记（深入）”；

$dom = new DOMDocument();
@$dom->loadHTML($html, LIBXML_NOERROR | LIBXML_NOWARNING);
$imgs = $dom->getElementsByTagName('img');
$urls = [];
foreach ($imgs as $img) {
    $url = $img->getAttribute('data-src') ?: $img->getAttribute('src');
    if ($url && filter_var($url, FILTER_VALIDATE_URL) === false) {
        $url = rtrim($base_url, '/') . '/' . ltrim($url, '/');
    }
    if (filter_var($url, FILTER_VALIDATE_URL)) {
        $urls[] = $url;
    }
}

处理 HTTPS、相对路径和 base 标签

网页里 src="/images/a.jpg" 或 src="images/b.png" 必须转成完整 URL，否则下载会 404。不能硬拼 https://domain.com/ —— 页面可能含 <base href="https://cdn.example.com/">。实操建议：

先用 $dom->getElementsByTagName('base') 拿 href，存在则作为基准
没 <base> 就用请求该网页时的原始 URL（即 $base_url）
用 parse_url() 拆解基准 URL，再用 dirname() 处理相对路径层级
避免用 str_replace 或 substr 手动拼接，容易出错

注意防盗链和 User-Agent

很多图床（如微博、知乎、头条）返回空响应或 403，不是代码问题，是服务端校验了 User-Agent 或 Referer。调试时可加：

stream_context_set_default(['http' => ['header' => "User-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36"]]);
必要时补 Referer: https://example.com/（需与目标站同源或允许）
有些站点还校验 Accept 头，设成 image/webp,image/apng,image/*,*/*;q=0.8 更稳妥

真正难的不是提取链接，是让服务器愿意把图片给你——URL 对了，头不对，照样拿不到。

免费PHP漏洞检测平台有哪些_可利用的在线检测资源汇总【介绍】

PHP时区设置怎么检测是否成功_验证时区配置的技巧【操作】

如何安全地管理多数据库环境下的用户会话与连接容错

如何在 PHP 中创建可配置维度与随机值的多维数组函数

如何在 Laravel 中检测并返回数组中缺失的字段值

PHP速学教程(入门到精通)

PHP怎么学习？PHP怎么入门？PHP在哪学？PHP怎么学才快？不用担心，这里为大家提供了PHP速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

php html5 filter_var JS dom href background http https linux

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：PHP用ReactPHP怎样异步调用服务_PHPReactPHP异步调用法【非阻】下一篇：暂无

作者最新文章

Windows蓝屏代码irql怎么解决_Windows蓝屏常见代码排查【汇总】

2026-02-16 16:58

FeiKua浏览器下载文件很慢怎么办_FeiKua浏览器下载提速设置【方法】

2026-02-16 17:05

FeiKua浏览器怎么翻译网页_FeiKua浏览器自带翻译使用教程【教程】

2026-02-16 17:09

TT浏览器插件怎么管理_TT扩展程序安装禁用删除指南【教程】

2026-02-16 17:24

Windows系统蓝屏代码0x0000000f怎么解决_Windows蓝屏故障排查指南【解答】

2026-02-16 17:32

必应搜索怎么搜指定网站_Bing限定站点搜索语法使用【方法】

2026-02-16 17:34

豆包AI怎么生成治愈系晚安文案_豆包AI撰写高互动睡前语录

2026-02-16 17:38

Win10网络连接不上怎么办_netsh命令重置网络设置【解答】

2026-02-16 17:58

点点AI怎么生成小红书爆款标题_点点AI写高点击率标题详细教程

2026-02-16 18:24

Runway怎么剪视频_RunwayAI视频编辑快速上手教程

2026-02-16 18:39

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

html5动画制作有哪些制作方法

html5动画制作方法有使用CSS3动画、使用JavaScript动画库、使用HTML5 Canvas等。想了解更多html5动画制作方法相关内容，可以阅读本专题下面的文章。

532

2023.10.23

HTML与HTML5的区别

HTML与HTML5的区别：1、html5支持矢量图形，html本身不支持；2、html5中可临时存储数据，html不行；3、html5新增了许多控件；4、html本身不支持音频和视频，html5支持；5、html无法处理不准确的语法，html5能够处理等等。想了解更多HTML与HTML5的相关内容，可以阅读本专题下面的文章。

457

2024.03.06

html5从入门到精通汇总

想系统掌握HTML5开发？本合集精选全网优质学习资源，涵盖免费教程、实战项目、视频课程与权威电子书，从基础语法到高级特性（Canvas、本地存储、响应式布局等）一应俱全，适合零基础小白到进阶开发者，助你高效入门并精通HTML5前端开发。

224

2025.12.30

html5新老标签汇总

HTML5在2026年持续优化网页语义化与交互体验，不仅引入了如<header>、<nav>、<article>、<section>、<aside>、<footer>等结构化标签，还新增了<video>、<audio>、<canvas>、<figure>、<time>、<mark>等增强多媒体与

217

2025.12.30

html5空格代码怎么写

在HTML5中，空格不能直接通过键盘空格键实现，需使用特定代码。本合集详解常用空格写法： （不间断空格）、&ensp;（半个中文空格）、&emsp;（一个中文空格）及CSS的white-space属性等方法，帮助开发者精准控制页面排版，避免因空格失效导致布局错乱，适用于新手入门与实战参考。

2025.12.30

html5怎么做网站教程

想从零开始学做网站？这份《HTML5怎么做网站教程》合集专为新手打造！涵盖HTML5基础语法、页面结构搭建、表单与多媒体嵌入、响应式布局及与CSS3/JavaScript协同开发等核心内容。无需编程基础，手把手教你用纯HTML5创建美观、兼容、移动端友好的现代网页。附实战案例+代码模板，快速上手，轻松迈出Web开发第一步！

164

2025.12.31

HTML5建模教程

想快速掌握HTML5模板搭建？本合集汇集实用HTML5建模教程，从零基础入门到实战开发全覆盖！内容涵盖响应式布局、语义化标签、Canvas绘图、表单验证及移动端适配等核心技能，提供可直接复用的模板结构与代码示例。无需复杂配置，助你高效构建现代网页，轻松上手前端开发！

2025.12.31

html5怎么使用

想快速上手HTML5开发？本合集为你整理最实用的HTML5使用指南！涵盖HTML5基础语法、主流框架（如Bootstrap、Vue、React）集成方法，以及无需安装、直接在线编辑运行的平台推荐（如CodePen、JSFiddle）。无论你是新手还是进阶开发者，都能轻松掌握HTML5网页制作、响应式布局与交互功能开发，零配置开启高效前端编程之旅！

2025.12.31