0

0

使用 Jsoup 解析特定菜单组中的元素

花韻仙語

花韻仙語

发布时间:2025-08-03 18:32:16

|

190人浏览过

|

来源于php中文网

原创

使用 jsoup 解析特定菜单组中的元素

本文档旨在指导开发者如何使用 Jsoup 库从 HTML 页面中提取特定菜单组下的元素,尤其是在页面结构复杂,包含多个相似的卡片式结构时。通过精确定位目标菜单组,并利用其唯一的标识符,我们可以有效地提取所需的数据,避免抓取整个页面的信息。

目标

假设我们需要从一个包含多个菜单组的网页中,仅提取特定菜单组(例如 "Freshen's")下的所有 row recipe_container div 元素。网页结构如下:

解决方案

以下是使用 Jsoup 实现此目标的 Java 代码:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class JsoupMenuScraper {

    public static void main(String[] args) throws IOException {
        String pageUrl = "your_page_url_here"; // 替换为你的网页URL
        String inputMenuHeading = "Freshen's";

        // 1. 连接到网页并解析 HTML
        Document doc = Jsoup.connect(pageUrl).get();

        // 2. 找到包含目标菜单标题的 card-header 元素,并提取 data-target 属性
        String targetId = doc.select("[class=card-header][id*=menu_group_heading]")
                .stream()
                .filter(e -> e.html().contains(inputMenuHeading))
                .findFirst()
                .map(e -> e.select("a").attr("data-target"))
                .orElse(null);

        // 3. 如果找到了目标 ID,则选择目标菜单组下的所有 row recipe_container 元素
        if (targetId != null && !targetId.isEmpty()) {
            Elements result = doc.select(String.format("%s .card-body .row.recipe_container", targetId));

            // 4. 打印结果或进行其他处理
            System.out.println("Found " + result.size() + " recipe containers for " + inputMenuHeading + ":");
            for (Element element : result) {
                System.out.println(element.outerHtml()); // 打印整个元素
                // 或者提取特定数据
                // System.out.println(element.text()); // 打印文本内容
            }
        } else {
            System.out.println("Menu heading '" + inputMenuHeading + "' not found.");
        }
    }
}

代码解释:

云点滴客户关系管理CRM OA系统
云点滴客户关系管理CRM OA系统

云点滴客户解决方案是针对中小企业量身制定的具有简单易用、功能强大、永久免费使用、终身升级维护的智能化客户解决方案。依托功能强大、安全稳定的阿里云平 台,性价比高、扩展性好、安全性高、稳定性好。高内聚低耦合的模块化设计,使得每个模块最大限度的满足需求,相关模块的组合能满足用户的一系列要求。简单 易用的云备份使得用户随时随地简单、安全、可靠的备份客户信息。功能强大的报表统计使得用户大数据分析变的简单,

下载
  1. 连接并解析 HTML: 使用 Jsoup.connect(pageUrl).get() 连接到目标网页并将其解析为 Document 对象。
  2. 查找目标菜单标题:
    • doc.select("[class=card-header][id*=menu_group_heading]") 选择所有 class 为 card-header 且 id 包含 menu_group_heading 的元素。
    • .stream().filter(e -> e.html().contains(inputMenuHeading)) 过滤出包含指定菜单标题的元素。
    • .findFirst().map(e -> e.select("a").attr("data-target")) 获取第一个匹配元素的 a 标签的 data-target 属性值。
    • .orElse(null) 如果没有找到匹配的元素,则返回 null。
  3. 选择目标元素:
    • doc.select(String.format("%s .card-body .row.recipe_container", targetId)) 使用 targetId 构建 CSS 选择器,选择指定 ID 下的 card-body 元素内部的所有 class 同时包含 row 和 recipe_container 的元素。
  4. 打印结果: 遍历 result 集合,打印每个元素的 HTML 或提取所需的数据。

注意事项:

  • URL 替换: 将 your_page_url_here 替换为实际的网页 URL。
  • 异常处理: 在实际应用中,需要添加适当的异常处理,例如 try-catch 块,以处理网络连接错误或 HTML 解析错误。
  • CSS 选择器: 根据实际网页结构调整 CSS 选择器。
  • orElse(null): 确保在找不到目标菜单标题时,程序不会抛出 NoSuchElementException 异常。
  • 数据提取: element.outerHtml() 打印整个元素的 HTML,你可以使用其他 Jsoup 方法(如 element.text()、element.attr("属性名"))提取特定的数据。
  • 网页结构变化: 网页结构可能会发生变化,需要定期检查并更新代码。

总结

通过使用 Jsoup 的强大选择器和灵活的 API,我们可以轻松地从复杂的 HTML 页面中提取所需的数据。 本教程展示了如何通过定位特定菜单组,并利用其唯一的标识符,提取该组下的所有相关元素。 在实际应用中,需要根据具体的网页结构进行适当的调整和优化。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

483

2023.08.02

c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

237

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

458

2024.03.01

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

804

2023.07.31

python中的format是什么意思
python中的format是什么意思

python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

435

2024.06.27

mysql标识符无效错误怎么解决
mysql标识符无效错误怎么解决

mysql标识符无效错误的解决办法:1、检查标识符是否被其他表或数据库使用;2、检查标识符是否包含特殊字符;3、使用引号包裹标识符;4、使用反引号包裹标识符;5、检查MySQL的配置文件等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

183

2023.12.04

Python标识符有哪些
Python标识符有哪些

Python标识符有变量标识符、函数标识符、类标识符、模块标识符、下划线开头的标识符、双下划线开头、双下划线结尾的标识符、整型标识符、浮点型标识符等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

289

2024.02.23

java标识符合集
java标识符合集

本专题整合了java标识符相关内容,想了解更多详细内容,请阅读下面的文章。

259

2025.06.11

C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

14

2026.01.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.8万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.1万人学习

CSS教程
CSS教程

共754课时 | 25万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号