怎么用Java写一个简易的网页爬虫_Jsoup解析HTML获取图片链接

P粉602998670

发布时间：2026-03-11 13:59:31

439人浏览过

来源于php中文网

原创

jsoup连接超时或403被拒绝时，需显式设置.timeout(10000)和.useragent()，补充referer等请求头；遇懒加载取data-src，用absurl()补全路径，下载前解析url并编码中文文件名，控制并发防封ip。

怎么用java写一个简易的网页爬虫_jsoup解析html获取图片链接

Jsoup连接超时或403被拒绝怎么办

直接用 Jsoup.connect(url).get() 经常卡住或抛出 IOException，不是代码写错了，而是目标网站加了反爬或网络不稳定。默认超时是 3 秒，很多服务器响应慢一点就直接失败；更常见的是没带 User-Agent，被当成爬虫直接 403 拒绝。

必须显式设置超时：用 .timeout(10000)（单位毫秒），10 秒对大多数网页够用
一定要加请求头：用 .userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36")，否则多数新闻、博客类站点会拦
如果仍 403，先用浏览器开发者工具看真实请求的 User-Agent 和是否带 Referer，再补上 .header("Referer", "https://example.com")

用select()提取img标签src但结果为空

写 doc.select("img[src]") 却拿不到链接？常见原因是 HTML 里 src 是懒加载属性（比如 data-src），或者图片在 JS 渲染后才插入 DOM —— Jsoup 不执行 JS，只解析原始 HTML。

先检查原始 HTML 是否真有 src：用 System.out.println(doc.html()) 打印出来看一眼
遇到 data-src 或 data-original，改用 img.attr("data-src") 取值
如果 select("img") 能拿到元素但 .attr("src") 返回空字符串，说明属性名不对，用 .attributes() 看全量属性
绝对路径和相对路径要处理：用 img.absUrl("src") 自动补全成完整 URL，别用 img.attr("src") 直接拼

下载图片时文件名重复或乱码

从 src 提取文件名用 url.substring(url.lastIndexOf("/")+1) 很容易出错：URL 带查询参数（如 ?v=2023）、中文名未编码、后缀缺失都会导致保存失败或打不开。

蛙蛙写作——超级AI智能写作助手

蛙蛙写作辅助AI写文，帮助获取创意灵感，提供拆书、小说转剧本、视频生成等功能，是一款功能全面的AI智能写作工具。

下载

用 java.net.URL 解析再取路径： new URL(imgUrl).getPath()，比字符串截取可靠
文件名含中文？用 URLEncoder.encode(filename, "UTF-8") 编码，但注意只编码文件名部分，别把整个 URL 都 encode
没后缀的 URL（如 https://site.com/pic/123）要根据 Content-Type 推断：下载前发 HEAD 请求，或用 Connection.head().execute().contentType()
多个图片同名？在保存前加时间戳或哈希前缀，比如 "img_" + System.currentTimeMillis() + "_" + filename

批量抓取时内存爆掉或线程阻塞

循环里反复调用 Jsoup.connect() 不关连接、不控制并发，跑几十个链接就 OOM 或线程卡死。Jsoup 默认用 HttpURLConnection，不自动复用连接，也不限速。

立即学习“Java免费学习笔记（深入）”；

每个 Connection 调用完不用管，但大循环里建议加 Thread.sleep(500) 降低频率，避免被封 IP
别用 ExecutorService 无限制开线程：最多设 3–5 个线程，用 Executors.newFixedThreadPool(3)
大 HTML 文档（>1MB）解析慢且吃内存，用 .maxBodySize(0) 关闭 body 大小限制，但得确保你真需要全部内容
如果只是扒图，没必要 parse 整个文档：用 Jsoup.parseBodyFragment(htmlString) 更轻量

真正麻烦的从来不是怎么取到 src，而是 URL 是否有效、重定向是否跟、图片是否已删、服务器是否限流——这些没法靠 selector 一行代码解决。

什么是Java中的方法区与元空间_JDK 8移除永久代的原因与内存影响

如何在Java中定义和使用记录类(Record)_Java14数据载体新特性

Java项目中如何配置Tomcat服务器_IDEA集成Tomcat容器教程

如何使用Java 11的HTTP Client发送异步请求_新版核心网络库应用

如何在Java中开发基于控制台的RPG文字游戏_状态机模式与角色属性计算逻辑

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

java select 字符串循环线程 Thread 并发 JS dom windows https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何在Java中分析GC日志_PrintGCDetails与Xlog参数配置详解下一篇：如何解决Java序列化破坏单例模式的问题_readResolve方法修复方案

作者最新文章

CSS如何实现背景色跟随定位元素移动_通过JS监听坐标并同步css变量颜色

2026-03-11 16:15

如何使用javap命令反编译.class文件_阅读底层字节码指令的入门基础

2026-03-11 16:15

如何在Golang中配置Content Security Policy安全头 Go语言Web安全CSP防护

2026-03-11 16:15

如何在Golang中利用反射实现简单的序列化工具 Go语言对象转字节流

2026-03-11 16:17

CSS如何避免因引入过多样式导致内存溢出_通过工具检测并删除未使用的无用CSS

2026-03-11 16:17

如何在GridFS中对特定业务线的数据设置不同的访问控制

2026-03-11 16:18

如何在Golang中配置私有Git仓库访问权限 Go语言GOPRIVATE环境变量设置

2026-03-11 16:19

如何在Golang中管理数据库迁移Migration Go语言Golang-Migrate在CI中应用

2026-03-11 16:19

如何在Golang中应用中介者模式实现聊天室广播 Go语言并发消息路由

2026-03-11 16:20

Golang中的代码覆盖率对性能压测的影响 Go语言测试与性能的平衡

2026-03-11 16:20

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

760

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1566

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

649

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1208

2024.03.22

php中定义字符串的方式

php中定义字符串的方式：单引号；双引号；heredoc语法等等。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

1184

2024.04.29

go语言字符串相关教程

本专题整合了go语言字符串相关教程，阅读专题下面的文章了解更多详细内容。

192

2025.07.29

c++字符串相关教程

本专题整合了c++字符串相关教程，阅读专题下面的文章了解更多详细内容。

131

2025.08.07

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板