如何使用Golang抓取网页内容_GolangHTTP页面爬取示例

P粉602998670

发布时间：2025-12-23 16:24:08

895人浏览过

来源于php中文网

原创

Golang抓取网页核心是http.Get+io.ReadAll，需错误处理、resp.Body.Close()防泄漏、检查StatusCode；可设User-Agent绕反爬；用golang.org/x/net/html解析HTML；建议加超时与重试。

如何使用golang抓取网页内容_golanghttp页面爬取示例

用 Golang 抓取网页内容，核心是 http.Get 发起请求 + io.ReadAll 读取响应体，再配合错误处理和基础 HTML 解析即可完成简单爬取。不需要额外框架，标准库足够起步。

基础 HTTP 请求与响应读取

最简方式就是调用 http.Get，检查状态码和错误，然后读取 Response.Body：

务必调用 resp.Body.Close() 防止连接泄漏
建议检查 resp.StatusCode == 200，避免静默拿到 404/500 响应
用 io.ReadAll（Go 1.16+）或 io.Copy + bytes.Buffer 读取全部内容

示例代码：

resp, err := http.Get("https://example.com")
if err != nil {
    log.Fatal(err)
}
defer resp.Body.Close()
if resp.StatusCode != 200 {
log.Fatalf("HTTP %d", resp.StatusCode)
}
body, err := io.ReadAll(resp.Body)
if err != nil {
log.Fatal(err)
}
fmt.Println(string(body))

设置请求头模拟浏览器访问

很多网站会拒绝默认的 Go User-Agent，加个 User-Agent 头能绕过基础反爬：

立即学习“go语言免费学习笔记（深入）”；

使用 http.NewRequest 构造请求，再设置 Header.Set
常见 UA 可设为 "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
必要时还可加 Accept、Accept-Language 等字段

示例：

RecoveryFox AI

AI驱动的数据恢复、文件恢复工具

下载

req, _ := http.NewRequest("GET", "https://example.com", nil)
req.Header.Set("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36")
client := &http.Client{}
resp, err := client.Do(req)
// 后续同上：检查状态码、读 body、关闭...

解析 HTML 提取文本或链接

抓到 HTML 字符串后，可用 golang.org/x/net/html 包做轻量解析：

用 html.Parse 构建节点树，或用 html.NewTokenizer 流式解析（更省内存）
常用目标：提取所有链接，或某个文本
注意处理字符编码（如网页是 GBK，需先转 UTF-8；多数现代网页是 UTF-8，可跳过）

简单提取所有链接示例：

doc, err := html.Parse(strings.NewReader(string(body)))
if err != nil {
    log.Fatal(err)
}
var f func(*html.Node)
f = func(n *html.Node) {
    if n.Type == html.ElementNode && n.Data == "a" {
        for _, attr := range n.Attr {
            if attr.Key == "href" {
                fmt.Println(attr.Val)
            }
        }
    }
    for c := n.FirstChild; c != nil; c = c.NextSibling {
        f(c)
    }
}
f(doc)

添加超时与重试机制（进阶建议）

真实场景中，网络不稳定或目标响应慢，需主动控制：

用 http.Client{Timeout: 10 * time.Second} 防止卡死
简单重试可封装函数，失败后 sleep 再试 1–2 次（避免高频触发风控）
如需 Cookie 管理、代理、并发控制，可考虑 colly 或 goquery 等成熟库，但标准库已覆盖 80% 简单需求

基本上就这些。Golang 抓网页不复杂但容易忽略错误处理和资源释放，写几行就能跑通，稳住这三点就立得住。

如何使用Golang实现Web安全防护_Golang Web安全控制技巧

如何在 Go 的 html/template 中正确传递数据给子模板

如何在Golang中进行模板渲染_Golang text/template与html/template方法

如何在Golang中实现字符串模板渲染_Golang text/template使用方法

如何在Golang中实现模板渲染_Golang Web模板渲染技巧

相关标签:

html node go windows cookie golang 编码浏览器 app win apple 状态码 golang 封装 Cookie 字符串 copy 并发 href windows http

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何在Golang中判断值是否为nil_通过reflect判断空接口或指针下一篇：如何使用Golang优化Kubernetes控制器性能_减少API调用和延迟

作者最新文章

搜狗浏览器历史记录删除不了搜狗浏览器数据清理教程

2026-01-28 19:35

Excel如何实现单元格输入内容自动生成二维码图片_利用ActiveX控件调用插件

2026-01-28 19:37

Excel表格中数据含有不可见空格导致匹配失败_利用CLEAN与TRIM函数清理

2026-01-28 19:38

edge浏览器夜间模式打不开 edge浏览器护眼模式设置

2026-01-28 19:41

Word文档里的拼写检查红色线条怎么关_在校对设置中隐藏拼写错误

2026-01-28 19:41

米侠浏览器书签无法同步米侠浏览器收藏同步教程

2026-01-28 19:42

IE浏览器打不开HTTPS网页 IE浏览器安全协议设置

2026-01-28 19:43

Windows10系统怎么查看硬盘SMART信息_Win10 wmic diskdrive status

2026-01-28 19:44

Gemini生成的代码无法在Colab中运行_点击回复下方的Export to Colab按钮自动部署

2026-01-28 19:45

Win11怎么设置不显示最近打开的项目_Windows11开始菜单设置

2026-01-28 19:49

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

golang如何定义变量

golang定义变量的方法：1、声明变量并赋予初始值“var age int =值”；2、声明变量但不赋初始值“var age int”；3、使用短变量声明“age :=值”等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

182

2024.02.23

golang有哪些数据转换方法

golang数据转换方法：1、类型转换操作符；2、类型断言；3、字符串和数字之间的转换；4、JSON序列化和反序列化；5、使用标准库进行数据转换；6、使用第三方库进行数据转换；7、自定义数据转换函数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

229

2024.02.23

golang常用库有哪些

golang常用库有：1、标准库；2、字符串处理库；3、网络库；4、加密库；5、压缩库；6、xml和json解析库；7、日期和时间库；8、数据库操作库；9、文件操作库；10、图像处理库。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

343

2024.02.23

golang和python的区别是什么

golang和python的区别是：1、golang是一种编译型语言，而python是一种解释型语言；2、golang天生支持并发编程，而python对并发与并行的支持相对较弱等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

209

2024.03.05

golang是免费的吗

golang是免费的。golang是google开发的一种静态强类型、编译型、并发型，并具有垃圾回收功能的开源编程语言，采用bsd开源协议。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

394

2024.05.21

golang结构体相关大全

本专题整合了golang结构体相关大全，想了解更多内容，请阅读专题下面的文章。

220

2025.06.09

golang相关判断方法

本专题整合了golang相关判断方法，想了解更详细的相关内容，请阅读下面的文章。

193

2025.06.10

golang数组使用方法

本专题整合了golang数组用法，想了解更多的相关内容，请阅读专题下面的文章。

398

2025.06.17

俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总，涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

158

2026.01.28

热门下载

网站特效

网站源码

网站素材

前端模板