深度使用Scrapy：如何爬取HTML、XML、JSON数据？

WBOY

发布时间：2023-06-22 17:58:40

2715人浏览过

来源于php中文网

原创

scrapy是一款强大的python爬虫框架，可以帮助我们快速、灵活地获取互联网上的数据。在实际爬取过程中，我们会经常遇到html、xml、json等各种数据格式。在这篇文章中，我们将介绍如何使用scrapy分别爬取这三种数据格式的方法。

一、爬取HTML数据

创建Scrapy项目

首先，我们需要创建一个Scrapy项目。打开命令行，输入以下命令：

scrapy startproject myproject

这个命令将会在当前文件夹下创建一个叫做myproject的Scrapy项目。

设置起始URL

接下来，我们需要设置起始的URL。在myproject/spiders目录下，创建一个名为spider.py的文件，编辑文件，输入以下代码：

立即学习“前端免费学习笔记（深入）”；

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        pass

代码首先导入了Scrapy库，然后定义了一个爬虫类MySpider，设置了一个名为myspider的spider名称，并设置了一个起始URL为http://example.com。最后定义了一个parse方法。parse方法默认会被Scrapy调用，用来处理响应数据。

解析响应数据

接下来，我们需要解析响应数据。继续编辑myproject/spiders/spider.py文件，加入以下代码：

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        title = response.xpath('//title/text()').get()
        yield {'title': title}

代码中，我们使用response.xpath()方法来获取HTML页面中的标题。使用yield来返回字典类型数据，包含了我们获取到的标题。

运行爬虫

最后，我们需要运行Scrapy爬虫。在命令行中输入以下命令：

scrapy crawl myspider -o output.json

这个命令会将数据输出到output.json文件中。

二、爬取XML数据

创建Scrapy项目

同样地，我们首先需要创建一个Scrapy项目。打开命令行，输入以下命令：

scrapy startproject myproject

这个命令将会在当前文件夹下创建一个叫做myproject的Scrapy项目。

设置起始URL

在myproject/spiders目录下，创建一个名为spider.py的文件，编辑文件，输入以下代码：

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com/xml']

    def parse(self, response):
        pass

代码中，我们设置了一个名为myspider的spider名称，并设置了一个起始URL为http://example.com/xml。

解析响应数据

继续编辑myproject/spiders/spider.py文件，加入以下代码：

Vondy

下一代AI应用平台，汇集了一流的工具/应用程序

下载

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com/xml']

    def parse(self, response):
        for item in response.xpath('//item'):
            yield {
                'title': item.xpath('title/text()').get(),
                'link': item.xpath('link/text()').get(),
                'desc': item.xpath('desc/text()').get(),
            }

代码中，我们使用response.xpath()方法来获取XML页面中的数据。使用for循环遍历item标签，获取title、link、desc三个标签内的文本数据，使用yield来返回字典类型的数据。

运行爬虫

最后，我们同样需要运行Scrapy爬虫。在命令行中输入以下命令：

scrapy crawl myspider -o output.json

这个命令会将数据输出到output.json文件中。

三、爬取JSON数据

创建Scrapy项目

同样地，我们需要创建一个Scrapy项目。打开命令行，输入以下命令：

scrapy startproject myproject

这个命令将会在当前文件夹下创建一个叫做myproject的Scrapy项目。

设置起始URL

在myproject/spiders目录下，创建一个名为spider.py的文件，编辑文件，输入以下代码：

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com/json']

    def parse(self, response):
        pass

代码中，我们设置了一个名为myspider的spider名称，并设置了一个起始URL为http://example.com/json。

解析响应数据

继续编辑myproject/spiders/spider.py文件，加入以下代码：

import scrapy
import json

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com/json']

    def parse(self, response):
        data = json.loads(response.body)
        for item in data['items']:
            yield {
                'title': item['title'],
                'link': item['link'],
                'desc': item['desc'],
            }

代码中，我们使用json.loads()方法来解析JSON格式的数据。使用for循环遍历items数组，获取每个item的title、link、desc三个属性，使用yield来返回字典类型的数据。

运行爬虫

最后，同样需要运行Scrapy爬虫。在命令行中输入以下命令：

scrapy crawl myspider -o output.json

这个命令会将数据输出到output.json文件中。

四、总结

在本文中，我们介绍了如何使用Scrapy分别爬取HTML、XML、JSON数据。通过以上例子，你可以了解到Scrapy的基本用法，也可以根据需要深入学习更多高级用法，希望能给你在爬虫技术方面提供帮助。

Python地图可视化怎么做_Folium库结合经纬度生成交互地图

Python爬虫怎么提取表格_Pandas read_html()直接传入URL爬取页面内所有table数据

Python怎么输出分析报告_Jupyter Notebook直接导出精美HTML或PDF文档

Flask 应用在 Gunicorn 中实现模板与静态文件热重载的正确配置方法

Flask 应用在 Gunicorn 中实现静态文件与模板的热重载配置指南

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

457

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

549

2023.08.23