基于 PHP 的爬虫框架简介及应用实例详解

王林

发布时间：2023-06-14 15:58:19

1977人浏览过

来源于php中文网

原创

随着互联网信息的爆炸式增长，大量的数据都存储在网站上，这些数据对于许多用户都具有重要价值。因此，爬虫技术逐渐成为了一种强大的利用互联网数据的手段。

本文介绍了一种基于 PHP 语言的爬虫框架：Guzzle和Goutte。Guzzle是为 PHP 开发的 HTTP 客户端，可以用来发送 HTTP 请求和与 REST 资源进行交互。Goutte是它的补充，它是一个基于 Guzzle 的 Web 爬虫框架，可以方便地获取网页内容并进行数据的提取分析。

首先，我们要在 PHP 中安装 Guzzle 和 Goutte。可以通过 Composer 进行安装，具体命令如下：

composer require guzzlehttp/guzzle
composer require fabpot/goutte

安装完成后，先来了解一下 Guzzle 的使用方法。我们可以通过以下代码来发送一个 HTTP GET 请求，并获取响应内容：

get('https://www.example.com');
echo $response->getBody();

这段代码首先创建了一个 GuzzleClient 对象，然后使用 get() 方法向指定网址发送了一个 GET 请求，并获取到了响应内容。调用 getBody() 方法可以获取到响应体的内容。

立即学习“PHP免费学习笔记（深入）”；

Goutte 是基于 Guzzle 开发的 Web 爬虫框架，其使用方法也很简单。下面是一个简单的 Goutte 使用示例：

ShopNC多用户商城

ShopNC多用户商城，全新的框架体系，呈现给您不同于以往的操作模式，更简约的界面，更流畅的搜索机制，更具人性化的管理后台操作，更适应现在网络的运营模式解决方案，为您的创业之路打下了坚实的基础，你们的需求就是我们的动力。我们在原有的C-C模式的基础上更增添了时下最流行的团购频道，进一步的为您提高用户的活跃度以及黏性提供帮助。ShopNC商城系统V2.4版本新增功能及修改功能如下：微商城频道A、商城

下载

request('GET', 'https://www.example.com');
$crawler->filter('h1')->each(function ($node) {
    echo $node->text() . "
";
});

这段代码使用 Goutte 创建了一个 Client 对象，并向指定网址发送 GET 请求，然后获取到了响应体，并将其解析成了一个 DOM 对象。$crawler->filter('h1') 是一个筛选器，它指定了页面上所有 h1 标签的节点，然后它调用了 each() 方法，对于每个 h1 标签的节点，都会执行指定的匿名函数，其中 $node 是当前节点对象，它的 text() 方法可以获取到节点的文本内容。

下面我们来看一个更完整的示例，它演示了如何使用 Goutte 爬取知乎上的问题和回答，并将其中的用户姓名、回答内容、点赞数和回答时间保存到一个 CSV 文件中：

request('GET', 'https://www.zhihu.com/question/21774949');
$fp = fopen('output.csv', 'w');
fputcsv($fp, ['User', 'Content', 'Votes', 'Time']);
$crawler->filter('.List-item')->each(function ($node) use ($fp) {
    $user = $node->filter('.AuthorInfo .Popover')->text();
    $content = $node->filter('.RichText')->text();
    $votes = $node->filter('.Voters')->text();
    $time = $node->filter('.ContentItem-time')->text();
    fputcsv($fp, [$user, $content, $votes, $time]);
});
fclose($fp);

这段代码首先爬取了知乎上问题 ID 为 21774949 的页面，然后使用一个文件句柄向 output.csv 文件写入了 CSV 表头行。接下来，使用 filter() 方法找到页面上所有的问题和回答节点，然后对每个节点执行匿名函数。在匿名函数中，使用 filter() 方法找到每个用户的姓名、回答内容、点赞数和回答时间，并使用 fputcsv() 方法将这四个字段写入到文件中。最后关闭文件句柄。

总结来说，使用 Guzzle 和 Goutte 建立一个爬虫框架非常简单，并且具有很强的灵活性和可扩展性，可以应用于各种不同的场景，包括但不限于数据挖掘、SEO 优化等领域。但是，请注意，任何爬虫都需要遵守网站的 robots.txt 文件，避免对目标网站造成过大的负担以及侵犯用户隐私。

如何在 PHP 中动态累加数组中从数据库查询出的数值

如何在多步表单中持久化 POST 数据（如用户信息）

如何在PHP中将变量值正确嵌入HTML data属性

如何从 XML 中提取多个同名节点并构建成数组

php数组如何筛选非ASCII字符_php非ASCII数组筛选法【技巧】