php curl 伪装浏览器需完整设置 user-agent 及 accept、accept-language 等配套请求头,并用 curl_setopt_array() 正确传入索引数组格式的 httpheader;file_get_contents() 仅支持基础 ua,不适用于现代反爬场景。

PHP cURL 如何设置 User-Agent 伪装浏览器
直接改 User-Agent 是最基础也最容易失效的一环。很多目标站只校验这个字段,但也有不少会连带检查 Accept、Accept-Language、Sec-Fetch-* 等现代浏览器必带的头。光设 User-Agent 不配齐其他字段,反而更容易被识别为爬虫。
实操建议:
- 用主流浏览器最新版本的真实 UA 字符串(例如 Chrome 126 on Windows),不要用“Mozilla/5.0 (compatible; …)”这种泛化写法
- 必须同步设置
Accept、Accept-Language、Accept-Encoding,保持与 UA 匹配 - 对较新的站点,补上
Sec-Fetch-Dest、Sec-Fetch-Mode、Sec-Fetch-Site(值参考真实请求抓包) - 避免在单个请求中混用不兼容的头组合(比如用移动端 UA 却发桌面端 Sec-Fetch 值)
curl_setopt_array() 设置多请求头的正确写法
很多人用 curl_setopt($ch, CURLOPT_HTTPHEADER, [...]) 手动拼数组,结果因换行符、空格或键名格式出错——cURL 的 HTTPHEADER 要求每项是 "Key: Value" 格式的字符串,不是关联数组。
推荐写法:
立即学习“PHP免费学习笔记(深入)”;
- 用
curl_setopt_array()统一配置,更清晰不易漏 -
HTTPHEADER必须是索引数组,每项为完整头字符串,如"User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36" - 别把
Content-Type或Cookie写进HTTPHEADER后又单独设CURLOPT_POST或CURLOPT_COOKIE,容易冲突 - 若需动态更新 Cookie,优先用
CURLOPT_COOKIEJAR+CURLOPT_COOKIEFILE,比手动拼Cookie:头更可靠
file_get_contents() 能不能伪装浏览器?
能,但非常受限。它底层不走 cURL,而是用 PHP 的 stream context,支持的头字段少,不支持 Sec-Fetch 类字段,且无法控制连接复用、DNS 缓存等关键行为。
仅适合简单场景:
- 目标站无反爬,只要求基础 UA
- 请求频率极低(
- 你确认对方没校验
Accept-Encoding或 TLS 指纹(file_get_contents无法干预 TLS 握手细节) - 否则果断换 cURL —— 它能设
CURLOPT_SSL_VERIFYPEER、CURLOPT_TCP_KEEPALIVE、CURLOPT_HTTP_VERSION,这些对绕过 WAF 很关键
UA 随机化要不要做?
单任务没必要,多线程/分布式批量采集时才值得引入。随机本身不提高成功率,反而可能因 UA 与请求头不匹配触发校验失败。
如果决定加:
- 用固定 UA 池(比如 5–10 条真实、近期有效的 Chrome/Firefox UA),不要实时抓取或生成
- 每个 UA 对应一套完整的头模板(包括 Accept、Encoding、Sec-Fetch 值),而不是只换 UA 字段
- 记录每次使用的 UA 和响应状态,便于排查是 UA 问题还是其他规则拦截
- 注意:某些站点会根据 UA 推断客户端能力并返回不同 HTML 结构,随机 UA 可能导致解析逻辑崩溃











