Composer怎么安装Crawler爬虫库网页抓取功能集成教程【实操】

穿越時空

发布时间：2026-01-29 16:27:34

456人浏览过

来源于php中文网

原创

不存在官方维护的名为 crawler 的 Composer 包，应使用 spatie/crawler（推荐）、goutte/goutte 或 symfony/dom-crawler 等替代方案；直接执行 composer require crawler 会报错。

composer怎么安装crawler爬虫库网页抓取功能集成教程【实操】

Composer 安装 crawler 库前先确认有没有这个包

根本不存在官方维护的名为 crawler 的 Composer 包。你搜到的所谓“crawler”库，大概率是：spatie/crawler（最常用）、goutte/goutte（轻量 HTTP 抓取）、symfony/dom-crawler（配合 HTTP Client 使用），或者一些已废弃/无人维护的冷门包。

别直接跑 composer require crawler —— 这会报错：Could not find package crawler。

实操建议：

用 composer search crawler 查当前可用包名（注意看 stars 和 last update 时间）
优先选 spatie/crawler：它自带并发、队列、URL 去重、robots.txt 遵守，适合中等规模抓取
如果只是解析 HTML 内容，symfony/dom-crawler + symfony/http-client 组合更轻、更可控
避免用 fabpot/goutte（旧版）或 phpcrawl（PHP 5 时代，不兼容 PHP 8+）

安装 spatie/crawler 并初始化一个基础爬虫

spatie/crawler 是目前最稳妥的选择，但依赖 Guzzle 和 Symfony 组件，PHP 版本需 ≥ 8.0。

运行命令安装：

composer require spatie/crawler

注意：它默认不带浏览器渲染能力（不能执行 JS），纯服务端 HTML 解析。如果你要抓 JS 渲染页，得额外配 Puppeteer 或 Playwright，spatie/crawler 不处理这部分。

一个最小可运行示例：

setCrawlObserver(new class extends \Spatie\Crawler\CrawlObservers\CrawlObserver {
        public function crawled(\Psr\Http\Message\UriInterface $url, \GuzzleHttp\Psr7\Response $response, ?\Throwable $error = null): void
        {
            if ($error === null) {
                echo "✅ {$url} ({$response->getStatusCode()})\n";
            } else {
                echo "❌ {$url}: {$error->getMessage()}\n";
            }
        }
    })
    ->startCrawling('https://example.com');

常见坑：

没配 allow_url_fopen=On 或 OpenSSL 扩展未启用 → 报 cURL error 60: SSL certificate problem，加 ->setCrawlRequestOptions(['verify' => false]) 仅限测试
目标站有反爬（如 Cloudflare）→ spatie/crawler 会直接被 403 或 503 拦住，需手动加 User-Agent 和延迟
没写 ->respectRobotsTxt() → 可能违反 robots.txt，被封 IP

抓取后怎么提取网页标题和链接？用 DomCrawler 更直接

很多人装了 spatie/crawler 却卡在“怎么取数据”。它本身不提供 DOM 查询 API，得靠 symfony/dom-crawler 或原生 DOMDocument。

MagickPen

在线AI英语写作助手，像魔术师一样在几秒钟内写出任何东西。

下载

推荐组合：用 spatie/crawler 负责调度 + symfony/dom-crawler 负责解析：

composer require symfony/dom-crawler symfony/css-selector

在 crawled() 回调里加解析逻辑：

$crawler = new \Symfony\Component\DomCrawler\Crawler((string) $response->getBody());
$title = $crawler->filter('title')->text(null, '');
$links = $crawler->filter('a[href]')->extract(['href']);

注意点：

filter() 支持 CSS 选择器，但不支持所有现代语法（比如 :has() 在旧版本不支持）
text() 第二个参数是 fallback 值，防止空节点报 Notice
如果 HTML 是乱码（如 GBK），需先用 mb_convert_encoding() 转 UTF-8，否则 filter() 失效

为什么本地跑通了，上线就超时或内存溢出？

spatie/crawler 默认并发 10，深度不限，遇到大型网站（比如整站抓取）很容易撑爆内存或触发超时。

必须显式限制：

加 ->setMaximumCrawlCount(100) 控制总请求数
加 ->setMaximumDepth(3) 防止无限跳转子页面
加 ->setDelayBetweenRequests(1000)（毫秒），降低请求频率
生产环境务必用 ->executeJavaScript(false)（默认就是 false，但有人误开）

还有个隐藏问题：日志输出太多（尤其用 var_dump 或 echo）会导致 CLI 缓冲区满、进程假死。线上部署建议关掉所有调试输出，改用 Monolog 记日志。

真正难的不是装包，而是判断该不该爬、能不能爬、怎么爬得稳——robots.txt、User-Agent 合理性、响应头里的 X-Robots-Tag、RateLimit 字段，这些比写代码花的时间多得多。

Composer提示OpenSSL错误怎么办开启SSL支持解决办法【解决】

Composer怎么解决proc_open被禁用开启PHP函数限制【解决】

Composer outdated --direct 仅查看直接依赖的过期包【筛选】

Composer怎么解决SSL证书报错关闭SSL验证操作方法【解决】

Composer怎么安装Excel处理库 PHPSpreadsheet使用指南【实操】

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Composer怎么配置Artifact仓库加载本地Zip包依赖【高阶】下一篇：Composer安装包时提示killed 内存不足导致进程被杀修复【解决】

作者最新文章

C++ extern "C"有什么用 C++调用C语言代码混合编译指南【链接】

2026-01-29 14:34

c++如何把数字转为字符_c++ ascii码转换技巧【基础】

2026-01-29 14:41

网易云音乐怎么开启桌面歌词_网易云音乐电脑版歌词悬浮设置【技巧】

2026-01-29 14:42

Composer extra字段怎么用供脚本使用的额外数据配置【详解】

2026-01-29 15:01

c++中如何实现冒泡排序_c++冒泡排序算法代码【实例】

2026-01-29 15:02

c++如何使用互斥锁mutex_c++多线程同步教程【示例】

2026-01-29 15:04

C++ 析构函数抛出异常 C++ 栈展开过程中的terminate风险【报错】

2026-01-29 15:08

C++ vector resize默认值 C++指定填充元素的初始化方式【初始化】

2026-01-29 15:09

Mac怎么分区 Mac磁盘工具添加删除分区教程【详解】

2026-01-29 15:13

好分数app怎么修改绑定的手机号_好分数app账号换绑流程【步骤】

2026-01-29 15:23

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

PHP Symfony框架

本专题专注于PHP主流框架Symfony的学习与应用，系统讲解路由与控制器、依赖注入、ORM数据操作、模板引擎、表单与验证、安全认证及API开发等核心内容。通过企业管理系统、内容管理平台与电商后台等实战案例，帮助学员全面掌握Symfony在企业级应用开发中的实践技能。

2025.09.11

composer是什么插件

Composer是一个PHP的依赖管理工具，它可以帮助开发者在PHP项目中管理和安装依赖的库文件。Composer通过一个中央化的存储库来管理所有的依赖库文件，这个存储库包含了各种可用的依赖库的信息和版本信息。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

154

2023.12.25

require的用法

require的用法有引入模块、导入类或方法、执行特定任务。想了解更多require的相关内容，可以阅读本专题下面的文章。

466

2023.11.27

curl_exec

curl_exec函数是PHP cURL函数列表中的一种，它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例，这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE，或者在失败时返回FALSE。

440

2023.06.14

linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容，可以阅读本专题下面的文章。

178

2023.10.30

scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

228

2023.10.18

500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

297

2023.10.25

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

514

2023.06.20

java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容，阅读专题下面的文章了解更多详细学习方法。

2026.01.29

热门下载

网站特效

网站源码

网站素材

前端模板

Composer怎么安装Crawler爬虫库 网页抓取功能集成教程【实操】

Composer 安装 crawler 库前先确认有没有这个包

安装 spatie/crawler 并初始化一个基础爬虫

抓取后怎么提取网页标题和链接？用 DomCrawler 更直接

为什么本地跑通了，上线就超时或内存溢出？

Composer怎么安装Crawler爬虫库网页抓取功能集成教程【实操】