如何在 Java 中高效匹配多个关键词与短语（含子串和完整词组）

碧海醫心

发布时间：2026-03-09 11:21:10

312人浏览过

来源于php中文网

原创

如何在 Java 中高效匹配多个关键词与短语（含子串和完整词组）

本文介绍如何使用 java stream api 高效实现多模式文本匹配，支持单个词汇及连续短语（如“while swam”）在目标文本中的子串级检测，并给出可落地的代码实现、性能注意事项与最佳实践。

本文介绍如何使用 java stream api 高效实现多模式文本匹配，支持单个词汇及连续短语（如“while swam”）在目标文本中的子串级检测，并给出可落地的代码实现、性能注意事项与最佳实践。

在实际业务场景中（如内容审核、商标合规检测），我们常需判断一段自然语言文本（如 words.keyword 字段）是否包含任意一个黑名单条目（如 trademarks.trademark）。关键挑战在于：黑名单不仅包含原子词（如 "ibm"），还可能包含多词短语（如 "while swam"），且匹配应为子串匹配（即 "while swam" 出现在 "while swam is interesting" 中即视为命中），而非分词后精确匹配。

以下是一个简洁、可扩展的 Java 实现方案：

✅ 核心匹配逻辑（基于 Stream + String.indexOf()）

import java.util.*;
import java.util.stream.Collectors;

public class TrademarkMatcher {

    /**
     * 在 keywords 列表中查找所有包含任一黑名单短语的记录
     * @param keywords 待检测的文本列表（如 words 表数据）
     * @param blacklistedWords 黑名单短语列表（如 trademarks 表数据）
     * @return 命中文本的 ProcessedWords 列表
     */
    public static List<ProcessedWords> findMatches(
            List<ProcessedWords> keywords,
            List<BlacklistedWords> blacklistedWords) {

        return keywords.stream()
                .filter(processedWord -> {
                    String text = processedWord.getKeyword();
                    // 对每个黑名单项检查是否为 text 的子串
                    return blacklistedWords.stream()
                            .anyMatch(blacklisted -> 
                                text != null && 
                                blacklisted.getTrademark() != null &&
                                text.indexOf(blacklisted.getTrademark()) >= 0
                            );
                })
                .collect(Collectors.toList());
    }

    // 使用示例
    public static void main(String[] args) {
        List<BlacklistedWords> trademarks = Arrays.asList(
                new BlacklistedWords(1L, "while swam"),
                new BlacklistedWords(2L, "ibm"),
                new BlacklistedWords(3L, "bmw")
        );

        List<ProcessedWords> words = Arrays.asList(
                new ProcessedWords(1L, "while swam is interesting"),
                new ProcessedWords(2L, "ibm is a company like bmw"),
                new ProcessedWords(3L, "miss")
        );

        List<ProcessedWords> matches = findMatches(words, trademarks);
        System.out.println("匹配结果：" + matches);
        // 输出：
        // [ProcessedWords(id=1, keyword=while swam is interesting), 
        //  ProcessedWords(id=2, keyword=ibm is a company like bmw)]
    }
}

⚠️ 关键注意事项

大小写敏感性：String.indexOf() 区分大小写。若需忽略大小写，请统一转为小写（如 text.toLowerCase().indexOf(blacklisted.getTrademark().toLowerCase())），但注意性能开销；更优解是预处理黑名单与文本为统一大小写，或使用 String.contains() 配合 Pattern.compile(..., Pattern.CASE_INSENSITIVE)（适用于复杂场景）。
空值防护：示例中已加入 text != null && blacklisted.getTrademark() != null 判断，生产环境务必保留，避免 NullPointerException。

立即学习“Java免费学习笔记（深入）”；
性能瓶颈预警：当前方案时间复杂度为 O(N × M × L)，其中 N 是待查文本数、M 是黑名单长度、L 是平均文本长度。当黑名单达数千条、文本量巨大时，建议：
- ✅ 预加载黑名单到内存（如 ConcurrentHashMap 或 List），避免重复数据库查询；
- ✅ 对高频短语建立索引（如使用 Aho-Corasick 算法库 ahocorasick 实现 O(N + M) 多模式匹配）；
- ✅ 数据库层前置过滤（如 PostgreSQL 中用 ILIKE ANY(ARRAY[...]) 或全文检索 to_tsvector + @@，再交由 Java 精确校验短语边界）。
边界语义增强（可选）：若需避免误匹配（如 "ibm" 不应匹配 "ibmization"），可在匹配后增加单词边界验证（正则 \b），但会显著降低性能；推荐在业务规则明确要求时再引入。

✅ 最佳实践总结

场景	推荐方案
黑名单	直接使用 Stream.anyMatch() + indexOf()（本文方案）
黑名单 > 1000 条，高吞吐	集成 Aho-Corasick 算法（单次扫描匹配全部模式）
需要区分大小写/全词匹配/正则逻辑	改用 Pattern.compile(...).matcher(text).find()，并缓存 Pattern 实例
数据库为主、Java 为辅	先用 SQL WHERE keyword ILIKE '%term%' 粗筛，Java 再做精准短语校验

通过以上设计，你既能快速上线基础匹配能力，又为后续规模扩展预留了清晰的优化路径。记住：匹配逻辑应始终服务于业务语义——是宽松子串？还是严格单词？或是带标点/空格约束的短语？明确这一点，才是健壮实现的第一步。

如何理解Java中的副作用(Side Effect)_表达式计算注意事项

Java中的CAS操作是什么_Compare-And-Swap底层CPU指令解析

深入理解Java中的静态内部类_为什么它不持有外部类的引用

Java中接口可以定义变量吗_接口常量与默认方法说明

如何实现Java的代理模式_静态代理与动态代理的OOP实现

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1133

2023.10.12

SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

340

2023.10.27

SQL中months_between使用方法

在SQL中，MONTHS_BETWEEN 是一个常见的函数，用于计算两个日期之间的月份差。想了解更多SQL的相关内容，可以阅读本专题下面的文章。

381

2024.02.23

SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容，可以阅读本专题下面的文章。

2109

2024.03.06

sql procedure语法错误解决方法

sql procedure语法错误解决办法：1、仔细检查错误消息；2、检查语法规则；3、检查括号和引号；4、检查变量和参数；5、检查关键字和函数；6、逐步调试；7、参考文档和示例。想了解更多语法错误的相关内容，可以阅读本专题下面的文章。

380

2024.03.06

oracle数据库运行sql方法

运行sql步骤包括：打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果，错误消息或退出sql plus。想了解更多oracle数据库的相关内容，可以阅读本专题下面的文章。

1642

2024.04.07

sql中where的含义

sql中where子句用于从表中过滤数据，它基于指定条件选择特定的行。想了解更多where的相关内容，可以阅读本专题下面的文章。

585

2024.04.29

sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name；该语句将永久删除指定表的表和数据。想了解更多sql的相关内容，可以阅读本专题下面的文章。

439

2024.04.29

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板