golang怎么写爬虫

WBOY

发布时间：2023-05-10 14:00:08

815人浏览过

来源于php中文网

原创

随着互联网的普及，大量的信息需要我们去获取，而其中很大一部分的信息是需要我们从网站上进行爬取。爬取方式有很多，其中使用golang编写的爬虫能够帮助我们更加高效地获取这些信息。

golang是一种直观、简洁、高效的编程语言，适合高并发、高性能的应用场景，而爬虫就是一种高并发、高性能的任务，因此用golang编写爬虫是十分合适的。在本文中，我们将介绍golang编写爬虫的基本流程、常用库和核心技术，帮助初学者快速掌握golang爬虫的基本方法。

一、golang 编写爬虫的基本步骤

在介绍golang编写爬虫的基本步骤之前，我们需要了解一下基本的HTML结构。

HTTP请求

在golang的标准库中，已经提供了HTTP请求的相关函数，我们只需通过设置URL、请求头、cookies、请求参数等基本信息，即可构造自己所需的HTTP请求。主要代码如下：

立即学习“go语言免费学习笔记（深入）”；

package main

import (
    "fmt"
    "io/ioutil"
    "net/http"
)

func main() {
    resp, err := http.Get("http://www.baidu.com")
    if err != nil {
        fmt.Println(err)
        return
    }
    defer resp.Body.Close()
    
    body, _ := ioutil.ReadAll(resp.Body)
    fmt.Println(string(body))
}

这段代码使用http.Get函数发起一个HTTP请求，并从响应中读取响应体。关键点在于defer语句，该语句会在函数结束时执行，用于关闭响应体，避免资源泄露。

解析HTML页面

HTTP请求得到的响应数据是HTML文档，我们需要对其进行解析，以便获取所需的数据。在golang中，我们可以使用GoQuery库对HTML文档进行解析。该库基于jQuery的语法，易于上手。

GoQuery提供的主要解析函数有：Find、Filter、Each和Attr等。其中Find函数用于查找符合条件的子元素，而Filter函数用于过滤符合条件的元素。Each函数用于遍历所有符合条件的元素，而Attr函数则用于获取元素的属性。以解析百度首页为例，代码如下：

package main

import (
    "fmt"
    "github.com/PuerkitoBio/goquery"
    "log"
)

func main() {
    resp, err := http.Get("http://www.baidu.com")
    if err != nil {
        log.Fatal(err)
    }
    body := resp.Body
    defer body.Close()

    doc, err := goquery.NewDocumentFromReader(body)
    if err != nil {
        log.Fatal(err)
    }

    doc.Find("title").Each(func(i int, s *goquery.Selection) {
        fmt.Println(s.Text())
    })
}

以上代码中使用goquery.NewDocumentFromReader函数构造文档对象，然后通过Find方法查找title元素，并通过Each方法遍历所有符合条件的元素，输出其文本。

存储数据

最后一步是将获取到的数据保存下来。对于数据的存储，我们有多种方式可供选择，如数据库、文件、缓存等。

例如我们要将爬取到的数据保存到CSV文件中，步骤如下：

package main

import (
    "encoding/csv"
    "log"
    "os"
)

func main() {
    file, err := os.Create("data.csv")
    if err != nil {
        log.Fatal(err)
    }
    defer file.Close()

    writer := csv.NewWriter(file)
    defer writer.Flush()
    
    writer.Write([]string{"name", "address", "tel"})
    writer.Write([]string{"John Smith", "123 Main St, Los Angeles, CA 90012", "123-456-7890"})
    writer.Write([]string{"Jane Smith", "456 Oak Ave, San Francisco, CA 94107", "123-456-7891"})
}

以上代码中使用os.Create函数创建了一个名为data.csv的文件，然后通过csv.NewWriter函数创建一个CSV写入器。最后我们将要保存的数据通过writer.Write方法写入到CSV文件中。

二、golang 编写爬虫常用库

golang编写爬虫不需要自己编写大量的底层代码，常见的爬虫库如下：

Gocolly

Gocolly是一款基于golang的轻量级爬虫框架，提供了很多方便的方法帮助爬取数据。它能够自动处理重定向、cookie、代理、限速等问题，可以让我们更加专注于定义数据提取规则。以下代码演示了如何使用Gocolly获取百度的标题：

package main

import (
    "fmt"
    "github.com/gocolly/colly"
)

func main() {
    c := colly.NewCollector()
    
    c.OnHTML("head", func(e *colly.HTMLElement) {
        title := e.ChildText("title")
        fmt.Println(title)
    })
    
    c.Visit("http://www.baidu.com")
}

beautifulsoup4go

beautifulsoup4go是一款基于golang的HTML解析器，与著名的Python库BeautifulSoup4相同，可以解析来自互联网的不同HTML页面。以下代码演示了如何使用beautifulsoup4go获取百度的标题：

Sora

Sora是OpenAI发布的一种文生视频AI大模型，可以根据文本指令创建现实和富有想象力的场景。

下载

package main

import (
    "fmt"
    "github.com/sundy-li/go_commons/crawler"
)

func main() {
    html := crawler.FetchHTML("http://www.baidu.com", "GET", nil, "")

    bs := crawler.NewSoup(html)

    title := bs.Find("title").Text()
    
    fmt.Println(title)
}

goquery

前面已经介绍过goquery库，它是一个基于CSS选择器的HTML解析器，支持链式操作，是一款非常实用的库。以下代码演示了如何使用goquery获取百度的标题：

package main

import (
    "fmt"
    "github.com/PuerkitoBio/goquery"
    "log"
)

func main() {
    resp, err := http.Get("http://www.baidu.com")
    if err != nil {
        log.Fatal(err)
    }
    body := resp.Body
    defer body.Close()

    doc, err := goquery.NewDocumentFromReader(body)
    if err != nil {
        log.Fatal(err)
    }

    title := doc.Find("title").Text()
    
    fmt.Println(title)
}

以上三个库各有特色，选择适合自己的库能够更加高效地完成爬虫。

三、golang编写爬虫核心技术

并发

在实现爬虫的过程中，一个很重要的特性就是并发，即同时访问多个网站或多个URL。在golang中，我们可以通过协程并发地执行任务，例如：

package main

import (
    "fmt"
    "github.com/gocolly/colly"
)

func main() {
    urls := []string{
        "http://www.baidu.com",
        "http://www.sogou.com",
        "http://www.google.com",
    }

    ch := make(chan string, len(urls))

    for _, url := range urls {
        go func(url string) {
            c := colly.NewCollector()

            c.OnHTML("head", func(e *colly.HTMLElement) {
                title := e.ChildText("title")
                ch <- title
            })

            c.Visit(url)
        }(url)
    }

    for range urls {
        title := <-ch
        fmt.Println(title)
    }
}

以上代码中，我们使用协程实现了并发访问多个URL，并从每个网站的head标签中提取标题信息并打印。

反爬虫机制

众所周知，为了限制爬虫的访问，很多网站都会采取反爬虫机制，例如限制请求频率、添加验证码、识别常见爬虫工具等。针对这些反爬虫机制，我们需要使用一些技术手段来避免被网站封禁。这里介绍两种技术手段：

（1）访问频率控制

为了避免被网站限制访问频率，我们可以通过设置访问间隔、采用代理IP、使用分布式方式等等手段，以避免被反爬虫机制识别。

例如在Gocolly框架中，我们可以使用WaitTime、RandomDelay和Limit等方法设置爬取频率和请求限制：

package main

import (
    "fmt"
    "github.com/gocolly/colly"
    "time"
)

func main() {
    c := colly.NewCollector()

    c.Limit(&colly.LimitRule{
        DomainGlob:  "*",
        Parallelism: 2,
        RandomDelay: 5 * time.Second,
    })

    c.OnHTML("head", func(e *colly.HTMLElement) {
        title := e.ChildText("title")
        fmt.Println(title)
    })

    c.Visit("http://www.baidu.com")
}

以上代码中设置了并发访问数量为2，请求间隔为5秒，可以有效地避免被网站限制。当然，在实际使用中，我们还需根据不同的网站设置合理的访问间隔。

（2）分布式爬取

分布式爬取可以有效地避免被网站限制，提高爬取效率。基本思路是，将不同的任务分配到不同的节点或机器上，各自独立处理，并将结果汇总到一起。分布式爬取需要涉及到调度、通信等技术，较为复杂。在实际爬虫中，我们可以采用第三方库或云服务实现分布式爬取。

结语

本文介绍了如何使用golang编写爬虫，包括基本步骤、常用库和核心技术。golang是一种具有高性能、简洁明了的语言，能够很好地应对爬虫的需要。但是，在爬虫的实践过程中，我们还需要了解更多的技术，并不断学习更新的反爬虫技术，才能够成功完成爬取任务。