0

0

怎么用Java写一个简易的网页爬虫_Jsoup解析HTML获取图片链接

P粉602998670

P粉602998670

发布时间:2026-03-11 13:59:31

|

439人浏览过

|

来源于php中文网

原创

jsoup连接超时或403被拒绝时,需显式设置.timeout(10000)和.useragent(),补充referer等请求头;遇懒加载取data-src,用absurl()补全路径,下载前解析url并编码中文文件名,控制并发防封ip。

怎么用java写一个简易的网页爬虫_jsoup解析html获取图片链接

Jsoup连接超时或403被拒绝怎么办

直接用 Jsoup.connect(url).get() 经常卡住或抛出 IOException,不是代码写错了,而是目标网站加了反爬或网络不稳定。默认超时是 3 秒,很多服务器响应慢一点就直接失败;更常见的是没带 User-Agent,被当成爬虫直接 403 拒绝。

  • 必须显式设置超时:用 .timeout(10000)(单位毫秒),10 秒对大多数网页够用
  • 一定要加请求头:用 .userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"),否则多数新闻、博客类站点会拦
  • 如果仍 403,先用浏览器开发者工具看真实请求的 User-Agent 和是否带 Referer,再补上 .header("Referer", "https://example.com")

用select()提取img标签src但结果为空

doc.select("img[src]") 却拿不到链接?常见原因是 HTML 里 src 是懒加载属性(比如 data-src),或者图片在 JS 渲染后才插入 DOM —— Jsoup 不执行 JS,只解析原始 HTML。

  • 先检查原始 HTML 是否真有 src:用 System.out.println(doc.html()) 打印出来看一眼
  • 遇到 data-srcdata-original,改用 img.attr("data-src") 取值
  • 如果 select("img") 能拿到元素但 .attr("src") 返回空字符串,说明属性名不对,用 .attributes() 看全量属性
  • 绝对路径和相对路径要处理:用 img.absUrl("src") 自动补全成完整 URL,别用 img.attr("src") 直接拼

下载图片时文件名重复或乱码

src 提取文件名用 url.substring(url.lastIndexOf("/")+1) 很容易出错:URL 带查询参数(如 ?v=2023)、中文名未编码、后缀缺失都会导致保存失败或打不开。

蛙蛙写作——超级AI智能写作助手
蛙蛙写作——超级AI智能写作助手

蛙蛙写作辅助AI写文,帮助获取创意灵感,提供拆书、小说转剧本、视频生成等功能,是一款功能全面的AI智能写作工具。

下载
  • java.net.URL 解析再取路径: new URL(imgUrl).getPath(),比字符串截取可靠
  • 文件名含中文?用 URLEncoder.encode(filename, "UTF-8") 编码,但注意只编码文件名部分,别把整个 URL 都 encode
  • 没后缀的 URL(如 https://site.com/pic/123)要根据 Content-Type 推断:下载前发 HEAD 请求,或用 Connection.head().execute().contentType()
  • 多个图片同名?在保存前加时间戳或哈希前缀,比如 "img_" + System.currentTimeMillis() + "_" + filename

批量抓取时内存爆掉或线程阻塞

循环里反复调用 Jsoup.connect() 不关连接、不控制并发,跑几十个链接就 OOM 或线程卡死。Jsoup 默认用 HttpURLConnection,不自动复用连接,也不限速。

立即学习Java免费学习笔记(深入)”;

  • 每个 Connection 调用完不用管,但大循环里建议加 Thread.sleep(500) 降低频率,避免被封 IP
  • 别用 ExecutorService 无限制开线程:最多设 3–5 个线程,用 Executors.newFixedThreadPool(3)
  • 大 HTML 文档(>1MB)解析慢且吃内存,用 .maxBodySize(0) 关闭 body 大小限制,但得确保你真需要全部内容
  • 如果只是扒图,没必要 parse 整个文档:用 Jsoup.parseBodyFragment(htmlString) 更轻量

真正麻烦的从来不是怎么取到 src,而是 URL 是否有效、重定向是否跟、图片是否已删、服务器是否限流——这些没法靠 selector 一行代码解决。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

760

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1566

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

649

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1208

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

1184

2024.04.29

go语言字符串相关教程
go语言字符串相关教程

本专题整合了go语言字符串相关教程,阅读专题下面的文章了解更多详细内容。

192

2025.07.29

c++字符串相关教程
c++字符串相关教程

本专题整合了c++字符串相关教程,阅读专题下面的文章了解更多详细内容。

131

2025.08.07

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

3

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 4.3万人学习

C# 教程
C# 教程

共94课时 | 11.1万人学习

Java 教程
Java 教程

共578课时 | 80.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号