
本文档旨在指导开发者如何使用 Jsoup 库从 HTML 页面中提取特定菜单组下的元素,尤其是在页面结构复杂,包含多个相似的卡片式结构时。通过精确定位目标菜单组,并利用其唯一的标识符,我们可以有效地提取所需的数据,避免抓取整个页面的信息。
目标
假设我们需要从一个包含多个菜单组的网页中,仅提取特定菜单组(例如 "Freshen's")下的所有 row recipe_container div 元素。网页结构如下:
解决方案
以下是使用 Jsoup 实现此目标的 Java 代码:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class JsoupMenuScraper {
public static void main(String[] args) throws IOException {
String pageUrl = "your_page_url_here"; // 替换为你的网页URL
String inputMenuHeading = "Freshen's";
// 1. 连接到网页并解析 HTML
Document doc = Jsoup.connect(pageUrl).get();
// 2. 找到包含目标菜单标题的 card-header 元素,并提取 data-target 属性
String targetId = doc.select("[class=card-header][id*=menu_group_heading]")
.stream()
.filter(e -> e.html().contains(inputMenuHeading))
.findFirst()
.map(e -> e.select("a").attr("data-target"))
.orElse(null);
// 3. 如果找到了目标 ID,则选择目标菜单组下的所有 row recipe_container 元素
if (targetId != null && !targetId.isEmpty()) {
Elements result = doc.select(String.format("%s .card-body .row.recipe_container", targetId));
// 4. 打印结果或进行其他处理
System.out.println("Found " + result.size() + " recipe containers for " + inputMenuHeading + ":");
for (Element element : result) {
System.out.println(element.outerHtml()); // 打印整个元素
// 或者提取特定数据
// System.out.println(element.text()); // 打印文本内容
}
} else {
System.out.println("Menu heading '" + inputMenuHeading + "' not found.");
}
}
}代码解释:
云点滴客户解决方案是针对中小企业量身制定的具有简单易用、功能强大、永久免费使用、终身升级维护的智能化客户解决方案。依托功能强大、安全稳定的阿里云平 台,性价比高、扩展性好、安全性高、稳定性好。高内聚低耦合的模块化设计,使得每个模块最大限度的满足需求,相关模块的组合能满足用户的一系列要求。简单 易用的云备份使得用户随时随地简单、安全、可靠的备份客户信息。功能强大的报表统计使得用户大数据分析变的简单,
- 连接并解析 HTML: 使用 Jsoup.connect(pageUrl).get() 连接到目标网页并将其解析为 Document 对象。
-
查找目标菜单标题:
- doc.select("[class=card-header][id*=menu_group_heading]") 选择所有 class 为 card-header 且 id 包含 menu_group_heading 的元素。
- .stream().filter(e -> e.html().contains(inputMenuHeading)) 过滤出包含指定菜单标题的元素。
- .findFirst().map(e -> e.select("a").attr("data-target")) 获取第一个匹配元素的 a 标签的 data-target 属性值。
- .orElse(null) 如果没有找到匹配的元素,则返回 null。
-
选择目标元素:
- doc.select(String.format("%s .card-body .row.recipe_container", targetId)) 使用 targetId 构建 CSS 选择器,选择指定 ID 下的 card-body 元素内部的所有 class 同时包含 row 和 recipe_container 的元素。
- 打印结果: 遍历 result 集合,打印每个元素的 HTML 或提取所需的数据。
注意事项:
- URL 替换: 将 your_page_url_here 替换为实际的网页 URL。
- 异常处理: 在实际应用中,需要添加适当的异常处理,例如 try-catch 块,以处理网络连接错误或 HTML 解析错误。
- CSS 选择器: 根据实际网页结构调整 CSS 选择器。
- orElse(null): 确保在找不到目标菜单标题时,程序不会抛出 NoSuchElementException 异常。
- 数据提取: element.outerHtml() 打印整个元素的 HTML,你可以使用其他 Jsoup 方法(如 element.text()、element.attr("属性名"))提取特定的数据。
- 网页结构变化: 网页结构可能会发生变化,需要定期检查并更新代码。
总结
通过使用 Jsoup 的强大选择器和灵活的 API,我们可以轻松地从复杂的 HTML 页面中提取所需的数据。 本教程展示了如何通过定位特定菜单组,并利用其唯一的标识符,提取该组下的所有相关元素。 在实际应用中,需要根据具体的网页结构进行适当的调整和优化。









