aiohttp + asyncio 比 requests 快因协程非阻塞I/O复用,单线程高效并发;需用ClientSession复用连接、Semaphore控并发、TCPConnector调优参数,并注意SSL、重定向、Cookie、系统限制等细节。

asyncio + aiohttp 为什么比 requests 快得多
因为 requests 是同步阻塞的:发一个请求,必须等响应回来才能发下一个;而 aiohttp 配合 asyncio 能在等待网络 I/O 时立刻切走,去处理其他请求——本质是单线程内高效复用空闲时间,不是靠多线程/多进程硬堆资源。
常见错误现象:RuntimeWarning: coroutine 'ClientSession.get' was never awaited,本质是混用了 async/await 和普通函数调用;或者用 loop.run_in_executor 包裹 requests,结果并发数上不去还更慢。
- 真正高并发(比如同时跑 100+ 请求)必须用
aiohttp.ClientSession复用连接,不能每次 new 一个 session -
aiohttp默认不支持 HTTP/2,但对多数网站影响不大;若目标站强制 HTTP/2(如某些 CDN),得换httpx - DNS 解析可能成为瓶颈:默认用系统 resolver,高并发下建议配
connector = TCPConnector(resolver=AsyncResolver())
怎么写一个能跑满带宽的异步爬虫主循环
核心是控制并发量、避免压垮目标站或触发风控,而不是“越多 task 越好”。asyncio.Semaphore 是最直接可控的方式。
使用场景:批量抓取列表页详情、分页接口、API 批量查询。
立即学习“Python免费学习笔记(深入)”;
sem = asyncio.Semaphore(50) # 控制最大并发为 50
<p>async def fetch(session, url):
async with sem: # 每个请求先抢锁
try:
async with session.get(url, timeout=10) as resp:
return await resp.text()
except Exception as e:
return f"ERROR: {e}"</p><p>async def main():
connector = TCPConnector(limit=100, limit_per_host=30)
timeout = ClientTimeout(total=15)
async with ClientSession(connector=connector, timeout=timeout) as session:
tasks = [fetch(session, url) for url in urls]
results = await asyncio.gather(*tasks, return_exceptions=True)
return results</p>-
limit控制全局总连接数,limit_per_host防止单域名被限流(关键!) -
ClientTimeout必须显式设,否则默认 5 分钟,出问题会卡死整个任务 -
return_exceptions=True让失败不中断整个gather,后续可统一过滤isinstance(r, Exception)
遇到 SSL 错误、重定向、Cookie 怎么办
异步库对证书和跳转更敏感,不是所有 requests 里的“小技巧”都能平移。
常见错误现象:aiohttp.client_exceptions.ClientConnectorCertificateError、TooManyRedirects、登录态丢失。
- 跳过 SSL 验证(仅测试用):
connector = TCPConnector(ssl=False),生产环境务必配好证书路径 - 重定向控制:
session.get(url, allow_redirects=False),手动处理resp.headers.get('Location') - Cookie 不自动共享?确保用同一个
ClientSession实例,它自带 CookieJar;如需预置,传cookie_jar=CookieJar(unsafe=True) - UA 和 headers 必须每个请求都带:
session.get(url, headers={"User-Agent": "xxx"}),别只在 session 初始化里设
为什么本地跑得飞快,一上服务器就变慢甚至超时
真实瓶颈往往不在 Python 代码,而在系统级配置和网络环境。
性能 / 兼容性影响:Linux 默认的 net.core.somaxconn 和文件描述符限制会直接掐断大量并发连接。
- 检查 ulimit -n,至少设到 65535;
sysctl net.core.somaxconn建议 ≥ 65535 - 云服务器(尤其低配 ECS)可能限制 outbound 连接数或 DNS QPS,换阿里云/腾讯云的 DNS(如
223.5.5.5)常有奇效 - 用
aiohttp抓 HTTPS 站点时,OpenSSL 版本太旧(如 CentOS 7 自带 1.0.2)会导致 handshake 失败,升级到 1.1.1+ 更稳 - 别在
async for line in response.content里做繁重解析——流式读取本身快,但解析逻辑如果同步且耗 CPU,会拖慢整个 event loop
最易被忽略的一点:aiohttp 的 session 生命周期必须和 async context manager 严格匹配,漏掉 async with 或提前 close,会导致连接泄漏、后续请求莫名卡住或复用旧连接失败。









