0

0

如何用Golang开发简易爬虫程序 使用colly框架入门实战

P粉602998670

P粉602998670

发布时间:2025-07-19 10:00:04

|

1144人浏览过

|

来源于php中文网

原创

golang写爬虫不难,尤其使用colly框架时上手快。1. 安装colly并创建基础爬虫:执行go get github.com/gocolly/colly/v2,编写代码创建collector实例、设置回调函数、访问目标url提取页面标题;2. 抓取列表页中的链接:通过c.onhtml配合css选择器如.post-list a[href]提取详情链接,并可复用collector访问这些链接;3. 存储抓取数据:定义结构体如article保存标题和url,将结果存入变量后续导出为json或数据库;4. 防止重复抓取可通过withdomain限制域名,设置user-agent避免被屏蔽,控制并发和延迟提升大规模抓取效率,动态内容需结合chromedp等工具处理。掌握这些要点即可快速入门colly爬虫开发。

如何用Golang开发简易爬虫程序 使用colly框架入门实战

用Golang写爬虫其实不难,尤其当你使用colly这个框架时,上手非常快。Colly是Go语言中最受欢迎的爬虫库之一,结构清晰、性能好,适合做数据抓取类的小项目。如果你刚接触Go和网络爬虫,这篇文章可以帮你快速入门。

如何用Golang开发简易爬虫程序 使用colly框架入门实战

安装Colly并创建一个基础爬虫

首先你得确保Go环境已经配好,然后安装colly:

如何用Golang开发简易爬虫程序 使用colly框架入门实战
go get github.com/gocolly/colly/v2

接下来是最简单的例子:访问一个网页并打印页面标题。

立即学习go语言免费学习笔记(深入)”;

package main

import (
    "fmt"
    "github.com/gocolly/colly/v2"
)

func main() {
    // 创建一个新的Collector实例
    c := colly.NewCollector()

    // 在每次抓取页面时触发
    c.OnHTML("html", func(e *colly.HTMLElement) {
        title := e.ChildText("title")
        fmt.Println("页面标题是:", title)
    })

    // 开始请求目标URL
    c.Visit("https://example.com")
}

这段代码会访问example.com,提取它的<title>标签内容并输出。看起来简单,但已经包含了colly的基本结构:创建collector → 设置回调函数 → 发起请求。

如何用Golang开发简易爬虫程序 使用colly框架入门实战

抓取列表页中的链接

实际开发中,我们经常需要从一个列表页里抓取多个条目的详情链接。比如新闻网站的首页,每条新闻都是一个链接。

假设你想抓取某个博客首页的所有文章链接,可以这样做:

c.OnHTML(".post-list a[href]", func(e *colly.HTMLElement) {
    link := e.Attr("href")
    fmt.Println("发现文章链接:", link)
})

这里的关键点在于选择器要准确,.post-list a[href]表示在class为post-list的容器内找所有带href属性的a标签。你可以根据实际页面结构调整选择器。

如果想进一步访问这些链接,可以用另一个collector去处理详情页,或者复用当前collector,加上限制域名等设置。

腾讯交互翻译
腾讯交互翻译

腾讯AI Lab发布的一款AI辅助翻译产品

下载

存储抓取到的数据

光打印出来不够实用,一般我们会把数据保存下来,比如JSON文件或数据库。

最简单的做法是定义一个结构体,把抓取结果存进去:

type Article struct {
    Title string
    URL   string
}

var articles []Article

c.OnHTML(".post-list a[href]", func(e *colly.HTMLElement) {
    link := e.Attr("href")
    title := e.Text

    articles = append(articles, Article{
        Title: title,
        URL:   link,
    })
})

之后你可以把这些数据导出成JSON,或者插入到SQLite、MySQL这样的数据库里。这部分就不展开讲了,重点还是放在爬虫本身逻辑上。


一些常见问题和建议

  • 防止重复抓取:可以用colly.WithDomain("example.com")限制域名,避免进入无关页面。

  • 设置User-Agent:有些网站会屏蔽默认的Go User-Agent,可以在初始化collector后加上:

    c.UserAgent = "Mozilla/5.0 (compatible; ExampleBot/1.0; +http://example.com/bot)"
  • 控制并发和限速:对于大规模抓取,可以设置最大并发数和延迟:

    c.Limit(&colly.LimitRule{DomainGlob: "*", Parallelism: 2, Delay: 1 * time.Second})
  • 处理JavaScript渲染页面:Colly本身只能抓静态HTML,无法执行JS。如果目标页面是动态加载的内容,就得考虑用其他工具配合,比如chromedp或selenium。


基本上就这些。用colly写个简易爬虫并不复杂,关键是熟悉HTML结构和CSS选择器的写法。多练几个小项目,就能掌握常见的抓取套路了。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
golang如何定义变量
golang如何定义变量

golang定义变量的方法:1、声明变量并赋予初始值“var age int =值”;2、声明变量但不赋初始值“var age int”;3、使用短变量声明“age :=值”等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

210

2024.02.23

golang有哪些数据转换方法
golang有哪些数据转换方法

golang数据转换方法:1、类型转换操作符;2、类型断言;3、字符串和数字之间的转换;4、JSON序列化和反序列化;5、使用标准库进行数据转换;6、使用第三方库进行数据转换;7、自定义数据转换函数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

247

2024.02.23

golang常用库有哪些
golang常用库有哪些

golang常用库有:1、标准库;2、字符串处理库;3、网络库;4、加密库;5、压缩库;6、xml和json解析库;7、日期和时间库;8、数据库操作库;9、文件操作库;10、图像处理库。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

356

2024.02.23

golang和python的区别是什么
golang和python的区别是什么

golang和python的区别是:1、golang是一种编译型语言,而python是一种解释型语言;2、golang天生支持并发编程,而python对并发与并行的支持相对较弱等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

214

2024.03.05

golang是免费的吗
golang是免费的吗

golang是免费的。golang是google开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的开源编程语言,采用bsd开源协议。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

409

2024.05.21

golang结构体相关大全
golang结构体相关大全

本专题整合了golang结构体相关大全,想了解更多内容,请阅读专题下面的文章。

490

2025.06.09

golang相关判断方法
golang相关判断方法

本专题整合了golang相关判断方法,想了解更详细的相关内容,请阅读下面的文章。

201

2025.06.10

golang数组使用方法
golang数组使用方法

本专题整合了golang数组用法,想了解更多的相关内容,请阅读专题下面的文章。

1458

2025.06.17

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.9万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.6万人学习

CSS教程
CSS教程

共754课时 | 42.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号