php爬虫中文乱码需先确认网页真实编码:优先解析http响应头content-type中的charset,其次才是html的meta标签;转换时用mb_convert_encoding或iconv并指定准确编码名(如cp936而非gbk),必要时加//ignore;domdocument加载前须确保html为utf-8并添加声明。

PHP爬虫抓到的中文是乱码?先看网页真实编码
乱码不是PHP的问题,而是你没拿到网页声明的编码。很多新手直接用 file_get_contents() 或 curl_exec() 拿回内容就硬解,结果 iconv() 或 mb_convert_encoding() 越转越糊。
真实编码藏在 HTTP 响应头的 Content-Type 里(比如 text/html; charset=utf-8),其次才是 HTML 中的 <meta charset="gbk"> 鎴











