如何从HTML格式的自动邮件中健壮提取并解码密码

霞舞

发布时间：2026-02-27 10:30:01

885人浏览过

来源于php中文网

原创

如何从HTML格式的自动邮件中健壮提取并解码密码

本文介绍一种稳定、可复用的方法，从含HTML实体编码（如 >、&）的自动化邮件正文中精准提取密码字段，并完成HTML字符解码，支持多种常见密码格式及嵌套结构。

本文介绍一种稳定、可复用的方法，从含html实体编码（如 `>`、`&`）的自动化邮件正文中精准提取密码字段，并完成html字符解码，支持多种常见密码格式及嵌套结构。

在自动化用户注册或密码重置流程中，系统常通过邮件发送临时密码（如 83Pp>epn 或 Y5y>eAy&）。这类密码常以HTML片段形式嵌入邮件正文（例如

Password: 83Pp>epn

），且包含转义字符（> 表示 >，& 表示 &）。若直接使用固定偏移量截取（如 substring(index + 11, index + 24)），极易因密码长度变化、标签换行、多余空格或HTML结构微调而失败。

推荐方案：基于HTML语义边界定位 + 安全解码

核心思路是避开硬编码长度，转而利用语义明确的HTML标签边界（

Password: 和

）精确定位密码内容，再通过标准库进行HTML实体解码。该方法不依赖密码具体长度或内部字符组成，对 jO3S>Eu1

、83Pp>epn、u8P>SIzk 等所有组合均鲁棒有效。

✅ 正确实现如下：

立即学习“前端免费学习笔记（深入）”；

import org.apache.commons.text.StringEscapeUtils; // 需引入 commons-text 1.10+（推荐）或 commons-lang3

public class PasswordExtractor {
    public static String extractAndDecodePassword(String emailHtml) {
        if (emailHtml == null || emailHtml.trim().isEmpty()) {
            throw new IllegalArgumentException("Email content cannot be null or empty");
        }

        // 步骤1：定位 <p>Password: 开始位置
        int startTagIndex = emailHtml.indexOf("<p>Password: ");
        if (startTagIndex == -1) {
            throw new IllegalStateException("Cannot find '<p>Password: ' in email HTML");
        }

        // 步骤2：跳过标签，获取后续内容起始点（"Password: " 长度为 12，但含 <p> 共13字符）
        int passwordStart = startTagIndex + 13;

        // 步骤3：查找紧随其后的 </p> 结束位置
        int endTagIndex = emailHtml.indexOf("</p>", passwordStart);
        if (endTagIndex == -1) {
            throw new IllegalStateException("Cannot find closing '</p>' after 'Password:'");
        }

        // 步骤4：提取原始密码字符串（含HTML实体）
        String rawPassword = emailHtml.substring(passwordStart, endTagIndex).trim();

        // 步骤5：安全解码HTML实体（如 > → >, & → &）
        return StringEscapeUtils.unescapeHtml4(rawPassword);
    }

    // 使用示例
    public static void main(String[] args) {
        String emailContent = "<p>A temporary password has been created for your user account.</p><div class="aritcle_card flexRow">
                                                        <div class="artcardd flexRow">
                                                                <a class="aritcle_card_img" href="/ai/2137" title="提客AI提词器"><img
                                                                                src="https://img.php.cn/upload/ai_manual/000/000/000/175680088531646.png" alt="提客AI提词器"  onerror="this.onerror='';this.src='/static/lhimages/moren/morentu.png'" ></a>
                                                                <div class="aritcle_card_info flexColumn">
                                                                        <a href="/ai/2137" title="提客AI提词器">提客AI提词器</a>
                                                                        <p>「直播、录课」智能AI提词，搭配抖音直播伴侣、腾讯会议、钉钉、飞书、录课等软件等任意软件。</p>
                                                                </div>
                                                                <a href="/ai/2137" title="提客AI提词器" class="aritcle_card_btn flexRow flexcenter"><b></b><span>下载</span> </a>
                                                        </div>
                                                </div>" +
                "<p>User Name:  <a class=\"__cf_email__\" href=\"/cdn-cgi/l/email-protection\">[email&#160;protected]</a></p>" +
                "<p>Password: 83Pp>epn</p>" +
                "<p>Log into the platform with the provided URL to complete your user account set up.</p>";

        String password = extractAndDecodePassword(emailContent);
        System.out.println("Decoded password: '" + password + "'"); // 输出: '83Pp>epn'
    }
}

? 关键注意事项：

依赖项：需添加 org.apache.commons:commons-text（Maven）以使用 StringEscapeUtils.unescapeHtml4() —— 它比旧版 commons-lang3 的 unescapeHtml() 更严格、更安全，能正确处理 '、" 及数值实体（如 >）。
HTML结构假设：本方案假设密码始终位于
Password: ...
标签内。若实际邮件使用
、或无标签纯文本，请先用轻量级解析器（如 Jsoup）提取，而非正则或 indexOf。
异常防御：代码显式检查 indexOf 返回值，避免 StringIndexOutOfBoundsException；生产环境应记录原始邮件快照用于故障排查。
安全性提醒：临时密码属敏感信息，提取后应立即擦除内存引用（如用 Arrays.fill(charArray, '\0')），避免日志打印明文。

? 进阶建议：若邮件HTML结构多变（如密码可能出现在

、或无包裹标签中），建议升级为使用 Jsoup 进行健壮DOM解析：
Document doc = Jsoup.parse(emailHtml); String raw = doc.select("p:containsOwn(Password:)").text().replace("Password:", "").trim(); return StringEscapeUtils.unescapeHtml4(raw);
此方法将提取逻辑与HTML结构解耦，显著提升长期可维护性。

如何使用 Jsoup 精准定位并提取 HTML 中的指定文本元素

Jsoup 中精准定位并提取 HTML 元素文本的完整指南

如何用 Java Jsoup 抓取 YouTube 评论？答案是：无法直接实现

在Java里如何实现一个简易的浏览器应用_Java网络请求与HTML解析实战

什么是JDK中的jhat工具_分析堆转储文件并生成HTML报告

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

Java Maven专题

本专题聚焦 Java 主流构建工具 Maven 的学习与应用，系统讲解项目结构、依赖管理、插件使用、生命周期与多模块项目配置。通过企业管理系统、Web 应用与微服务项目实战，帮助学员全面掌握 Maven 在 Java 项目构建与团队协作中的核心技能。

2025.09.15

DOM是什么意思

dom的英文全称是documentobjectmodel，表示文件对象模型，是w3c组织推荐的处理可扩展置标语言的标准编程接口；dom是html文档的内存中对象表示，它提供了使用javascript与网页交互的方式。想了解更多的相关内容，可以阅读本专题下面的文章。

4025

2024.08.14

li是什么元素

li是HTML标记语言中的一个元素，用于创建列表。li代表列表项，它是ul或ol的子元素，li标签的作用是定义列表中的每个项目。本专题为大家li元素相关的各种文章、以及下载和课程。

436

2023.08.03

apache是什么意思

Apache是Apache HTTP Server的简称，是一个开源的Web服务器软件。是目前全球使用最广泛的Web服务器软件之一，由Apache软件基金会开发和维护，Apache具有稳定、安全和高性能的特点，得益于其成熟的开发和广泛的应用实践，被广泛用于托管网站、搭建Web应用程序、构建Web服务和代理等场景。本专题为大家提供了Apache相关的各种文章、以及下载和课程，希望对各位有所帮助。

418

2023.08.23

apache启动失败

Apache启动失败可能有多种原因。需要检查日志文件、检查配置文件等等。想了解更多apache启动的相关内容，可以阅读本专题下面的文章。

937

2024.01.16

Java 流式处理与 Apache Kafka 实战

本专题专注讲解 Java 在流式数据处理与消息队列系统中的应用，系统讲解 Apache Kafka 的基础概念、生产者与消费者模型、Kafka Streams 与 KSQL 流式处理框架、实时数据分析与监控，结合实际业务场景，帮助开发者构建高吞吐量、低延迟的实时数据流管道，实现高效的数据流转与处理。

119

2026.02.04