Go语言如何实现简单爬虫_Golang网络爬虫入门项目

P粉602998670

发布时间：2026-02-01 16:24:58

766人浏览过

来源于php中文网

原创

用net/http发GET请求需自定义Client设超时、手动Close响应体、谨慎处理重定向；解析HTML推荐goquery，注意编码与选择器判空；并发需用channel限流。

go语言如何实现简单爬虫_golang网络爬虫入门项目

Go 自带的 net/http 足够发起基础请求，不需要额外依赖。关键不是“能不能发”，而是怎么处理响应体、超时和重定向。

Go 原生 html 包能解析 DOM，但写选择器太 verbose；goquery 提供 jQuery 风格语法，开发效率高，且底层仍用原生 html 包，安全可靠。

安装：go get github.com/PuerkitoBio/goquery
加载 HTML：用 goquery.NewDocumentFromReader() 接收 io.Reader（比如 resp.Body），避免先读成字符串再转 strings.NewReader
选择器写错不会 panic，而是返回空集合 —— 所以每次 .Each() 或 .Text() 前建议加 .Size() > 0 判断
注意编码：如果网页是 GBK 或 GB2312，goquery 默认按 UTF-8 解析会乱码；需先用 golang.org/x/net/html/charset 检测并转换

盲目对每个 URL 启 goroutine，很容易触发连接数限制、被封 IP，或耗尽文件描述符。

用带缓冲的 channel 控制并发数，例如 sem := make(chan struct{}, 5)，每次请求前 sem ，结束后
别用 time.Sleep 模拟限速 —— 它阻塞整个 goroutine；应使用 time.After 或更稳妥的 token bucket（如 golang.org/x/time/rate）
HTTP 复用很重要：http.Client 的 Transport 应启用连接池（默认已开），但要调小 MaxIdleConns 和 MaxIdleConnsPerHost，避免打爆目标服务器
日志里别打完整 URL（含参数），可能泄露敏感信息；用 url.URL{Scheme: u.Scheme, Host: u.Host, Path: u.Path} 截断后再记录

绕过 robots.txt 或伪造 UA 不仅违反爬虫伦理，还常导致 403、429 或直接 TCP RST。合规性是长期稳定运行的前提。

讯飞星火

科大讯飞推出的多功能AI智能助手

下载

请求前先 GET /robots.txt，用 golang.org/x/net/robotstxt 解析，检查 txt.TestAgent(path, "your-bot")
User-Agent 必须设为真实、可追溯的值（如 "my-crawler/1.0 (+https://example.com/bot)"），不能用浏览器 UA 混淆身份
有些站点通过 JS 渲染内容，纯 HTTP + goquery 拿不到数据 —— 这时候不是爬虫写得不对，而是该换方案（如 chromedp），但性能和资源开销会显著上升

真正难的不是发请求或选选择器，而是判断什么时候该停、什么时候该退、什么时候该换策略。网络不稳定、页面结构突变、反爬升级，这些都不会报编译错误，但会让爬虫在凌晨三点静默失败。

Go语言HTML解析：使用goquery高效提取特定元素文本

Go语言中高效提取HTML特定元素文本：使用goquery库的专业指南

使用Goquery进行Go语言HTML解析与元素选择

利用AJAX和Go构建交互式Web应用：从JavaScript调用Go后端服务

从JavaScript调用Go后端服务：构建交互式Web应用的AJAX实践