0

0

java简单爬虫教程

爱谁谁

爱谁谁

发布时间:2024-08-18 18:51:45

|

1312人浏览过

|

来源于php中文网

原创

如何使用 java 构建简单爬虫?创建 maven 项目并添加依赖项。编写爬虫逻辑,包括发送 http 请求、解析 html 文档、提取链接并递归爬取网页。限制并发请求数,使用 jsoup 库解析 html 文档,并使用 completablefuture 在异步模式下爬取网页。

java简单爬虫教程

Java 简单爬虫教程

如何使用 Java 构建爬虫

Java 是构建网络爬虫的理想语言,因为它提供了强大的库、良好的并发性和可扩展性。在本教程中,我们将介绍使用 Java 构建简单爬虫的基础知识。

先决条件

立即学习Java免费学习笔记(深入)”;

  • Java 开发环境 (JDK)
  • Maven 或 Gradle 构建工具

依赖项

  • Jsoup (用于解析 HTML 文档)
  • HttpClient (用于发送 HTTP 请求)

步骤 1:创建 Maven 项目

<code class="xml"><groupId>com.example</groupId>
<artifactId>crawler</artifactId>
<version>1.0-SNAPSHOT</version>

<dependencies>
  <dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.15.3</version>
  </dependency>
  <dependency>
    <groupId>org.apache.httpcomponents</groupId>
    <artifactId>httpclient</artifactId>
    <version>4.5.13</version>
  </dependency>
</dependencies></code>

步骤 2:编写爬虫逻辑

Crawler.java 类中编写以下逻辑:

DBShop开源电子商务网店系统
DBShop开源电子商务网店系统

DBShop电子商务系统具备统一的系统设置、简单的商品管理、灵活的商品标签、强大的商品属性、方便的配送费用管理、自由的客服设置、独立的广告管理、全面的邮件提醒、详细的管理权限设置、整合国内外知名支付网关、完善的系统更新(可在线自动更新或手动更新)功能、细致的帮助说明、无微不至的在线教程……,使用本系统绝对是一种享受!

下载
<code class="java">import java.io.IOException;
import java.net.URI;
import java.net.http.HttpClient;
import java.net.http.HttpRequest;
import java.net.http.HttpResponse;
import java.util.List;
import java.util.concurrent.CompletableFuture;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class Crawler {

  public static void main(String[] args) throws IOException, InterruptedException {
    // 创建 HTTP 客户端
    HttpClient client = HttpClient.newHttpClient();

    // 起始 URL
    String url = "https://example.com";

    // 限制最大并发请求数
    int maxConcurrentRequests = 10;

    // 创建一个异步请求列表
    List<CompletableFuture<Void>> requests = List.of();

    // 递归爬取网页
    crawlRecursively(client, url, maxConcurrentRequests, requests);

    // 等待所有请求完成
    CompletableFuture.allOf(requests).get();
  }

  private static void crawlRecursively(HttpClient client, String url, int maxConcurrentRequests, List<CompletableFuture<Void>> requests)
      throws IOException, InterruptedException {
    // 发送 GET 请求
    HttpRequest request = HttpRequest.newBuilder().GET().uri(URI.create(url)).build();
    HttpResponse<String> response = client.send(request, HttpResponse.BodyHandlers.ofString());

    // 解析 HTML 文档
    Document doc = Jsoup.parse(response.body());

    // 提取页面上的链接
    for (Element link : doc.select("a[href]")) {
      String nextUrl = link.attr("href");

      // 过滤不必要的链接
      if (!nextUrl.startsWith("http") || nextUrl.startsWith("javascript")) {
        continue;
      }

      // 限制并发请求数
      if (requests.size() >= maxConcurrentRequests) {
        CompletableFuture.allOf(requests).get();
        requests.clear();
      }

      // 异步爬取新页面
      requests.add(CompletableFuture.runAsync(() -> {
        try {
          crawlRecursively(client, nextUrl, maxConcurrentRequests, requests);
        } catch (IOException | InterruptedException e) {
          e.printStackTrace();
        }
      }));
    }
  }
}</code>

步骤 3:运行爬虫

在命令行中执行以下命令:

<code class="bash">mvn clean install
java -jar target/crawler-1.0-SNAPSHOT.jar</code>

如何限制并发请求

通过设置 maxConcurrentRequests 变量限制并发请求数。这有助于避免服务器过载。

如何解析 HTML 文档

使用 Jsoup 库解析 HTML 文档。它提供了便捷的方法来提取页面上的元素和链接。

如何在异步模式下爬取网页

使用 CompletableFuture 在异步模式下爬取网页。这允许并行爬取多个页面,提高效率。

相关文章

java速学教程(入门到精通)
java速学教程(入门到精通)

java怎么学习?java怎么入门?java在哪学?java怎么学才快?不用担心,这里为大家提供了java速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Java Maven专题
Java Maven专题

本专题聚焦 Java 主流构建工具 Maven 的学习与应用,系统讲解项目结构、依赖管理、插件使用、生命周期与多模块项目配置。通过企业管理系统、Web 应用与微服务项目实战,帮助学员全面掌握 Maven 在 Java 项目构建与团队协作中的核心技能。

0

2025.09.15

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

495

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

449

2023.11.14

HTTP 503错误解决方法
HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容,可以阅读本专题下面的文章。

3492

2024.03.12

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2901

2024.08.16

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

24

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

80

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

187

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

339

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
RunnerGo从入门到精通
RunnerGo从入门到精通

共22课时 | 1.8万人学习

尚学堂Mahout视频教程
尚学堂Mahout视频教程

共18课时 | 3.3万人学习

Linux优化视频教程
Linux优化视频教程

共14课时 | 3.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号