安全还原短链接需禁用cURL自动跳转并解析Location头获取目标URL,再用parse_url+白名单(如id/token/type)过滤参数,最后用http_build_query(RFC3986)重建URL。

短链接还原后如何安全提取原始 URL
PHP 中还原短链接(如通过 file_get_contents 或 cURL 请求跳转)得到的最终 URL,往往附带平台埋点参数(如 utm_source、ref、_t、fbclid),这些不是业务需要的原始链接参数。直接用 parse_url + parse_str 拆解再手动过滤,容易漏掉动态参数名或破坏原有语义。
用 parse_url 和白名单过滤保留核心参数
最稳妥的做法是明确哪些参数必须保留(比如 id、token、type),其余一概剔除。不要依赖“去掉已知垃圾参数”的黑名单逻辑,因为新埋点随时可能出现。
- 先用
parse_url解析完整 URL,拿到scheme、host、path和query - 用
parse_str将query转为关联数组 - 定义白名单数组:
$keep_keys = ['id', 'token', 'type', 'lang']; - 用
array_intersect_key筛出合法参数,再用http_build_query重建查询串
$url = 'https://example.com/page?id=123&utm_medium=email&ref=nl&token=abc&_t=1712345678'; $parsed = parse_url($url); parse_str($parsed['query'], $params); $keep_keys = ['id', 'token', 'type', 'lang']; $clean_params = array_intersect_key($params, array_flip($keep_keys)); $clean_query = http_build_query($clean_params); $clean_url = $parsed['scheme'] . '://' . $parsed['host'] . $parsed['path'] . ($clean_query ? '?' . $clean_query : '');
还原跳转时避免被重定向污染原始地址
很多短链接服务(如 bit.ly、t.cn)返回的是 301/302 跳转,如果用 file_get_contents 直接请求,PHP 默认会跟随跳转,你拿到的是最终页面的 HTML,不是跳转目标 URL。必须禁用自动跳转,从响应头中读取 Location 字段。
- 用
cURL更可靠:设置CURLOPT_FOLLOWLOCATION为false,并开启CURLOPT_HEADER - 手动解析响应头,匹配
Location:行(注意大小写不敏感,且可能含空格) - 若返回状态码非 3xx,说明该短链已失效或指向静态页,此时原始 URL 即为请求地址本身
注意 http_build_query 的编码兼容性问题
原始短链跳转后的 URL 参数值可能含中文、斜杠或特殊符号,http_build_query 默认使用 urlencode 编码,但某些旧系统期望的是 rawurlencode(空格转 %20 而非 +)。如果下游接口报 signature_invalid 或 400 Bad Request,大概率是编码不一致。
立即学习“PHP免费学习笔记(深入)”;
- 改用
http_build_query($params, '', '&', PHP_QUERY_RFC3986)强制 RFC 3986 编码标准 - 或者手动遍历参数,用
rawurlencode处理键和值再拼接 - 特别留意
path部分是否含未编码的斜杠 ——parse_url不会解码,还原时若原path含%2F,需保持原样,不能二次编码
白名单过滤比正则清理更可控,而跳转头解析比内容抓取更轻量。真正麻烦的不是还原,而是确认哪些参数算“业务必需”——这得和前端、产品对齐,别自己猜。











