0

0

如何从HTML格式的自动邮件中健壮提取并解码密码

霞舞

霞舞

发布时间:2026-02-27 10:30:01

|

885人浏览过

|

来源于php中文网

原创

如何从HTML格式的自动邮件中健壮提取并解码密码

本文介绍一种稳定、可复用的方法,从含HTML实体编码(如 >、&)的自动化邮件正文中精准提取密码字段,并完成HTML字符解码,支持多种常见密码格式及嵌套结构。

本文介绍一种稳定、可复用的方法,从含html实体编码(如 `>`、`&`)的自动化邮件正文中精准提取密码字段,并完成html字符解码,支持多种常见密码格式及嵌套结构。

在自动化用户注册或密码重置流程中,系统常通过邮件发送临时密码(如 83Pp>epn 或 Y5y>eAy&)。这类密码常以HTML片段形式嵌入邮件正文(例如

Password: 83Pp>epn

),且包含转义字符(> 表示 >,& 表示 &)。若直接使用固定偏移量截取(如 substring(index + 11, index + 24)),极易因密码长度变化、标签换行、多余空格或HTML结构微调而失败。

推荐方案:基于HTML语义边界定位 + 安全解码

核心思路是避开硬编码长度,转而利用语义明确的HTML标签边界(

Password: 和

)精确定位密码内容,再通过标准库进行HTML实体解码。该方法不依赖密码具体长度或内部字符组成,对 jO3S>Eu1

、83Pp>epn、u8P>SIzk 等所有组合均鲁棒有效。

✅ 正确实现如下:

立即学习前端免费学习笔记(深入)”;

import org.apache.commons.text.StringEscapeUtils; // 需引入 commons-text 1.10+(推荐)或 commons-lang3

public class PasswordExtractor {
    public static String extractAndDecodePassword(String emailHtml) {
        if (emailHtml == null || emailHtml.trim().isEmpty()) {
            throw new IllegalArgumentException("Email content cannot be null or empty");
        }

        // 步骤1:定位 <p>Password: 开始位置
        int startTagIndex = emailHtml.indexOf("<p>Password: ");
        if (startTagIndex == -1) {
            throw new IllegalStateException("Cannot find '<p>Password: ' in email HTML");
        }

        // 步骤2:跳过标签,获取后续内容起始点("Password: " 长度为 12,但含 <p> 共13字符)
        int passwordStart = startTagIndex + 13;

        // 步骤3:查找紧随其后的 </p> 结束位置
        int endTagIndex = emailHtml.indexOf("</p>", passwordStart);
        if (endTagIndex == -1) {
            throw new IllegalStateException("Cannot find closing '</p>' after 'Password:'");
        }

        // 步骤4:提取原始密码字符串(含HTML实体)
        String rawPassword = emailHtml.substring(passwordStart, endTagIndex).trim();

        // 步骤5:安全解码HTML实体(如 > → >, & → &)
        return StringEscapeUtils.unescapeHtml4(rawPassword);
    }

    // 使用示例
    public static void main(String[] args) {
        String emailContent = "<p>A temporary password has been created for your user account.</p><div class="aritcle_card flexRow">
                                                        <div class="artcardd flexRow">
                                                                <a class="aritcle_card_img" href="/ai/2137" title="提客AI提词器"><img
                                                                                src="https://img.php.cn/upload/ai_manual/000/000/000/175680088531646.png" alt="提客AI提词器"  onerror="this.onerror='';this.src='/static/lhimages/moren/morentu.png'" ></a>
                                                                <div class="aritcle_card_info flexColumn">
                                                                        <a href="/ai/2137" title="提客AI提词器">提客AI提词器</a>
                                                                        <p>「直播、录课」智能AI提词,搭配抖音直播伴侣、腾讯会议、钉钉、飞书、录课等软件等任意软件。</p>
                                                                </div>
                                                                <a href="/ai/2137" title="提客AI提词器" class="aritcle_card_btn flexRow flexcenter"><b></b><span>下载</span> </a>
                                                        </div>
                                                </div>" +
                "<p>User Name:  <a class=\"__cf_email__\" href=\"/cdn-cgi/l/email-protection\">[email&#160;protected]</a></p>" +
                "<p>Password: 83Pp>epn</p>" +
                "<p>Log into the platform with the provided URL to complete your user account set up.</p>";

        String password = extractAndDecodePassword(emailContent);
        System.out.println("Decoded password: '" + password + "'"); // 输出: '83Pp>epn'
    }
}

? 关键注意事项:

  • 依赖项:需添加 org.apache.commons:commons-text(Maven)以使用 StringEscapeUtils.unescapeHtml4() —— 它比旧版 commons-lang3 的 unescapeHtml() 更严格、更安全,能正确处理 '、" 及数值实体(如 >)。
  • HTML结构假设:本方案假设密码始终位于

    Password: ...

    标签内。若实际邮件使用
    或无标签纯文本,请先用轻量级解析器(如 Jsoup)提取,而非正则或 indexOf。
  • 异常防御:代码显式检查 indexOf 返回值,避免 StringIndexOutOfBoundsException;生产环境应记录原始邮件快照用于故障排查。
  • 安全性提醒:临时密码属敏感信息,提取后应立即擦除内存引用(如用 Arrays.fill(charArray, '\0')),避免日志打印明文。
  • ? 进阶建议:若邮件HTML结构多变(如密码可能出现在

  • 或无包裹标签中),建议升级为使用 Jsoup 进行健壮DOM解析:
    Document doc = Jsoup.parse(emailHtml);
    String raw = doc.select("p:containsOwn(Password:)").text().replace("Password:", "").trim();
    return StringEscapeUtils.unescapeHtml4(raw);

    此方法将提取逻辑与HTML结构解耦,显著提升长期可维护性。

相关文章

HTML速学教程(入门课程)
HTML速学教程(入门课程)

HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

下载

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Java Maven专题
Java Maven专题

本专题聚焦 Java 主流构建工具 Maven 的学习与应用,系统讲解项目结构、依赖管理、插件使用、生命周期与多模块项目配置。通过企业管理系统、Web 应用与微服务项目实战,帮助学员全面掌握 Maven 在 Java 项目构建与团队协作中的核心技能。

0

2025.09.15

DOM是什么意思
DOM是什么意思

dom的英文全称是documentobjectmodel,表示文件对象模型,是w3c组织推荐的处理可扩展置标语言的标准编程接口;dom是html文档的内存中对象表示,它提供了使用javascript与网页交互的方式。想了解更多的相关内容,可以阅读本专题下面的文章。

4025

2024.08.14

li是什么元素
li是什么元素

li是HTML标记语言中的一个元素,用于创建列表。li代表列表项,它是ul或ol的子元素,li标签的作用是定义列表中的每个项目。本专题为大家li元素相关的各种文章、以及下载和课程。

436

2023.08.03

apache是什么意思
apache是什么意思

Apache是Apache HTTP Server的简称,是一个开源的Web服务器软件。是目前全球使用最广泛的Web服务器软件之一,由Apache软件基金会开发和维护,Apache具有稳定、安全和高性能的特点,得益于其成熟的开发和广泛的应用实践,被广泛用于托管网站、搭建Web应用程序、构建Web服务和代理等场景。本专题为大家提供了Apache相关的各种文章、以及下载和课程,希望对各位有所帮助。

418

2023.08.23

apache启动失败
apache启动失败

Apache启动失败可能有多种原因。需要检查日志文件、检查配置文件等等。想了解更多apache启动的相关内容,可以阅读本专题下面的文章。

937

2024.01.16

Java 流式处理与 Apache Kafka 实战
Java 流式处理与 Apache Kafka 实战

本专题专注讲解 Java 在流式数据处理与消息队列系统中的应用,系统讲解 Apache Kafka 的基础概念、生产者与消费者模型、Kafka Streams 与 KSQL 流式处理框架、实时数据分析与监控,结合实际业务场景,帮助开发者构建 高吞吐量、低延迟的实时数据流管道,实现高效的数据流转与处理。

119

2026.02.04

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

60

2025.12.13

Golang 实际项目案例:从需求到上线
Golang 实际项目案例:从需求到上线

《Golang 实际项目案例:从需求到上线》以真实业务场景为主线,完整覆盖需求分析、架构设计、模块拆分、编码实现、性能优化与部署上线全过程,强调工程规范与实践决策,帮助开发者打通从技术实现到系统交付的关键路径,提升独立完成 Go 项目的综合能力。

2

2026.02.26

Golang Web 开发路线:构建高效后端服务
Golang Web 开发路线:构建高效后端服务

《Golang Web 开发路线:构建高效后端服务》围绕 Go 在后端领域的工程实践,系统讲解 Web 框架选型、路由设计、中间件机制、数据库访问与接口规范,结合高并发与可维护性思维,逐步构建稳定、高性能、易扩展的后端服务体系,帮助开发者形成完整的 Go Web 架构能力。

5

2026.02.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.5万人学习

AngularJS教程
AngularJS教程

共24课时 | 3.9万人学习

CSS教程
CSS教程

共754课时 | 36.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号