0

0

Java里的java.net.URL类如何解析网页源码_基础爬虫逻辑实现

P粉602998670

P粉602998670

发布时间:2026-03-10 11:24:40

|

579人浏览过

|

来源于php中文网

原创

必须调用openconnection()并获取输入流才能读取网页内容;需检查响应码、设置超时、指定字符编码、处理重定向、设置user-agent、关闭连接,且无法获取js渲染后的内容。

java里的java.net.url类如何解析网页源码_基础爬虫逻辑实现

java.net.URL 打开连接后读不到网页内容?

直接 new URL("https://example.com") 只是构造了一个地址对象,不发起请求,也不加载数据。必须调用 openConnection(),再显式获取输入流才能读源码。

常见错误现象:NullPointerException 或空字符串 —— 忘了调用 getInputStream(),或者没处理重定向、字符编码。

  • 务必检查 HttpURLConnection.getResponseCode() 是否为 200,否则可能拿到 301/404 响应体(甚至空)
  • 默认使用平台编码读取流,中文会乱码;必须用 HttpURLConnection.getContentEncoding() 或响应头 Content-Type 中的 charset 指定编码,比如 UTF-8
  • 别跳过 setConnectTimeout()setReadTimeout(),否则网络卡住会无限阻塞

HttpURLConnection 不自动处理 302 重定向?

Java 默认对 HttpURLConnection 的重定向行为是“有限自动”:JDK 7+ 对 GET/HEAD 请求默认跟随 3xx,但前提是 setInstanceFollowRedirects(true)(默认是 true),且服务器返回的 Location 是绝对 URL。一旦遇到相对路径、307/308,或手动设置了 setInstanceFollowRedirects(false),就会停在重定向响应上,读到的是 HTML 跳转页而非目标页源码。

  • 检查响应码是否为 301/302,如果是,手动解析 getHeaderField("Location") 并重建 URL 再请求
  • 避免依赖自动重定向,尤其在爬虫场景下——它不保留 Cookie、不复用连接,还可能绕过你设置的请求头
  • 若需完整重定向链追踪(比如调试跳转逻辑),必须自己循环处理,不能只靠一次 connect()

为什么读出来的源码里有 JavaScript 渲染的内容缺失?

java.net.URL + HttpURLConnection 只拿原始 HTML 响应体,不执行 JS、不解析 DOM、不触发 AJAX 请求。所谓“网页源码”,在这里就是服务器吐出的那坨纯文本,和你在浏览器里右键“查看网页源代码”看到的一致,但和 F12 开发者工具里 Elements 面板显示的动态结果完全不同。

Beautiful.ai
Beautiful.ai

AI在线创建幻灯片

下载

立即学习Java免费学习笔记(深入)”;

  • 如果目标内容由 fetch()axios 加载,或通过 document.write() 插入,URL 方式一定拿不到
  • 别试图用正则从 HTML 里硬扒 JSON 数据块——先确认该数据是否真在初始 HTML 中(查看 Network → Doc 标签页的响应),否则徒劳
  • 需要渲染后内容?换方案:用 WebDriver(如 ChromeDriver)或带 JS 执行能力的 HTTP 客户端(如 Playwright Java),不是 URL 类的问题

URL 实现基础爬虫时最常漏掉的三件事

很多人写完 url.openStream() 就以为完事了,结果线上跑几天就挂:超时、连接泄漏、被封 IP。根本原因不是代码逻辑错,而是忽略了 HTTP 协议层的实际约束。

  • 每次 HttpURLConnection 用完必须显式调用 disconnect(),否则连接不会释放,容易耗尽 socket 资源
  • 没设 setRequestProperty("User-Agent", "...") —— 大量网站会直接拒掉空 UA 的请求,返回 403 或空白页
  • 没加请求间隔(Thread.sleep(1000)),高频请求会被服务端限流或拉黑,且违反 robots.txt 约束

复杂点在于:这些不是语法错误,编译全过,本地测几次也正常,但一放真实环境就崩。最容易被忽略的是连接没关和 UA 没设——它们不会报错,只会静默失败。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

454

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

546

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

334

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

82

2025.09.10

ajax教程
ajax教程

php中文网为大家带来ajax教程合集,Ajax是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换,Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。php中文网还为大家带来ajax的相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

166

2023.06.14

ajax中文乱码解决方法
ajax中文乱码解决方法

ajax中文乱码解决方法有设置请求头部的字符编码、在服务器端设置响应头部的字符编码和使用encodeURIComponent对中文进行编码。本专题为大家提供ajax中文乱码相关的文章、下载、课程内容,供大家免费下载体验。

170

2023.08.31

ajax传递中文乱码怎么办
ajax传递中文乱码怎么办

ajax传递中文乱码的解决办法:1、设置统一的编码方式;2、服务器端编码;3、客户端解码;4、设置HTTP响应头;5、使用JSON格式。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

124

2023.11.15

ajax网站有哪些
ajax网站有哪些

使用ajax的网站有谷歌、维基百科、脸书、纽约时报、亚马逊、stackoverflow、twitter、hacker news、shopify和basecamp等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

254

2024.09.24

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

24

2026.03.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 4.3万人学习

C# 教程
C# 教程

共94课时 | 11万人学习

Java 教程
Java 教程

共578课时 | 79.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号