Golang并发爬虫架构设计_多协程URL调度与去重

P粉602998670

发布时间：2026-02-25 17:40:58

921人浏览过

来源于php中文网

原创

用 sync.map 做 url 去重会出问题，因其不保证“写入即可见”，新协程可能读不到刚存的 url；正确做法是用 loadorstore 并检查返回的 bool 值判断是否首次存入。

golang并发爬虫架构设计_多协程url调度与去重

为什么用 `sync.Map` 做 URL 去重会出问题

并发爬虫里最常踩的坑是：把 sync.Map 当成万能去重容器，结果漏爬或重复请求。它确实线程安全，但不保证「写入即可见」——新协程可能读不到刚存进去的 URL，尤其在高频插入+快速判断的场景下。

真正该用的是带原子语义的「判存并设」操作。Go 标准库没直接提供，得自己封装：

sync.Map.LoadOrStore(url, struct{}{}) 返回值第二个 bool 才表示「本次是首次存入」，必须检查这个布尔值，不能只看第一个返回值
如果用 sync.Map.Store + sync.Map.Load 两步走，中间必然存在竞态窗口，URL 会被重复调度
高吞吐下 sync.Map 的哈希冲突会导致性能抖动，实际压测发现比 map + sync.RWMutex 慢 15%～30%

如何让多个协程安全地从队列取 URL

别用 chan string 直接当任务队列——一旦消费者协程 panic 或提前退出，未消费的 URL 就永远卡在 channel 里，后续无法回收或重试。

推荐用带状态管理的「工作池模式」：

立即学习“go语言免费学习笔记（深入）”；

知元AI

AI智能语音聊天对讲问答 AI绘画 AI写作 AI创作助手工具

下载

用 sync.Pool 缓存 url.URL 实例，避免高频分配 GC 压力
URL 调度器内部维护一个 list.List + sync.Mutex，出队时先 mutex.Lock()，取完立即 mutex.Unlock()，不等解析完成再释放锁
每个协程取到 URL 后，立刻调用 markInFlight(url)（用 sync.Map 记录 in-flight 状态），防止超时重试时被其他协程重复领取

`context.WithTimeout` 在 HTTP 请求里为什么总失效

不是 context 不生效，而是很多人只给 http.Client 设了 Timeout，却忘了给单次请求传 context。结果是：全局超时起作用，但单个请求卡死在 DNS 解析或 TLS 握手阶段，context 根本没机会触发取消。

正确做法是两者都配：

http.Client 的 Timeout 控制整个请求生命周期（含重定向）
每次 client.Do(req.WithContext(ctx)) 必须传入带超时的 ctx，否则 DNS/TLS 阶段不响应 cancel
如果用了自定义 Transport，还要确保 DialContext 和 TLSHandshakeTimeout 也基于同一 context

Redis 做分布式去重时，`SETNX` 和 `SET ... NX EX` 差在哪

本地单机用 sync.Map 还能凑合，一上分布式就暴露问题：SETNX 只能设 key，没法同时设过期时间，导致机器宕机后 key 永久残留，整个爬虫系统停摆。

必须用原子命令一次性完成「设值 + 过期」：

SET url:xxx "1" NX EX 3600 是唯一可靠方案，NX 保证不存在才设，EX 防止 key 永驻
不要用 GET + SET 两步，网络分区时可能产生脏数据
如果 Redis 版本 SET 不支持 NX EX 组合，得降级用 Lua 脚本封装 redis.call("SET", KEYS[1], ARGV[1], "NX", "EX", ARGV[2])

去重逻辑越往后越容易被忽略：URL 归一化（去掉 fragment、统一 scheme）、子域名归并（a.example.com 和 b.example.com 是否算同站）、以及重试时要不要跳过已失败过的 URL —— 这些不写进调度器核心，光靠外围补丁很难兜住。

Go Protobuf 导入路径迁移与版本控制问题解决方案

如何在Golang中捕获并处理多个错误_Golang多重错误处理与管理方法

Go 中结构体指针接收者自动解引用机制详解

Go Protobuf 导入路径迁移与 protoc-gen-go 升级指南

如何在Golang中使用mime/multipart解析上传 Go语言多文件接收实战

相关标签:

go golang 爬虫 golang并发 lua golang 架构分布式 String 封装 bool Struct 线程 map 并发 channel redis http

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何在Golang中利用text/template生成代码 Go语言模板引擎实战下一篇：暂无

作者最新文章

Java元空间与永久代的区别是什么_Java元空间结构与内存管理说明

2026-02-25 17:34

钉钉怎么开启健康打卡_钉钉每日健康上报设置

2026-02-25 17:35

Windows电脑开机速度慢怎么办_Win10快速启动功能开启教程

2026-02-25 17:35

Java中的委派(Delegation)是什么_对象间协作的新思路

2026-02-25 17:35

闲鱼怎么拉黑讨厌的人_闲鱼用户屏蔽与拉黑设置

2026-02-25 17:36

Java异常处理全书总结：从语法规范到架构级错误防御的终极指南

2026-02-25 17:37

如何安装JavaFX并配置图形化开发环境_模块化路径引用方法

2026-02-25 17:37

Go语言中的值类型封装与封装成本 Golang抽象与性能权衡

2026-02-25 17:38

如何在Golang中利用text/template生成代码 Go语言模板引擎实战

2026-02-25 17:39

百度地图怎么开启通勤模式_百度地图上下班路况提醒

2026-02-25 17:39

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

golang如何定义变量

golang定义变量的方法：1、声明变量并赋予初始值“var age int =值”；2、声明变量但不赋初始值“var age int”；3、使用短变量声明“age :=值”等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

207

2024.02.23

golang有哪些数据转换方法

golang数据转换方法：1、类型转换操作符；2、类型断言；3、字符串和数字之间的转换；4、JSON序列化和反序列化；5、使用标准库进行数据转换；6、使用第三方库进行数据转换；7、自定义数据转换函数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

242

2024.02.23

golang常用库有哪些

golang常用库有：1、标准库；2、字符串处理库；3、网络库；4、加密库；5、压缩库；6、xml和json解析库；7、日期和时间库；8、数据库操作库；9、文件操作库；10、图像处理库。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

350

2024.02.23

golang和python的区别是什么

golang和python的区别是：1、golang是一种编译型语言，而python是一种解释型语言；2、golang天生支持并发编程，而python对并发与并行的支持相对较弱等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

212

2024.03.05

golang是免费的吗

golang是免费的。golang是google开发的一种静态强类型、编译型、并发型，并具有垃圾回收功能的开源编程语言，采用bsd开源协议。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

405

2024.05.21

golang结构体相关大全

本专题整合了golang结构体相关大全，想了解更多内容，请阅读专题下面的文章。

365

2025.06.09

golang相关判断方法

本专题整合了golang相关判断方法，想了解更详细的相关内容，请阅读下面的文章。

200

2025.06.10

golang数组使用方法

本专题整合了golang数组用法，想了解更多的相关内容，请阅读专题下面的文章。

1111

2025.06.17

batoto漫画官网入口与网页版访问指南

本专题系统整理batoto漫画官方网站最新可用入口，涵盖最新官网地址、网页版登录页面及防走失访问方式说明，帮助用户快速找到batoto漫画官方平台，稳定在线阅读各类漫画内容。

127

2026.02.25

热门下载

网站特效

网站源码

网站素材

前端模板

Golang并发爬虫架构设计_多协程URL调度与去重

为什么用 sync.Map 做 URL 去重会出问题

如何让多个协程安全地从队列取 URL

context.WithTimeout 在 HTTP 请求里为什么总失效

Redis 做分布式去重时，SETNX 和 SET ... NX EX 差在哪

为什么用 `sync.Map` 做 URL 去重会出问题

`context.WithTimeout` 在 HTTP 请求里为什么总失效

Redis 做分布式去重时，`SETNX` 和 `SET ... NX EX` 差在哪