0

0

php怎么实现敏感词过滤_php基于Trie树或关键词库屏蔽【过滤】

穿越時空

穿越時空

发布时间:2026-02-21 17:52:03

|

229人浏览过

|

来源于php中文网

原创

敏感词过滤不能只用str_replace,因其易误杀(如“青苹果”)、漏杀(缺“苹果”时仅含“苹”“果”不匹配)且性能差(1000词需1000次全量扫描);应采用trie树实现一次扫描多词匹配。

php怎么实现敏感词过滤_php基于trie树或关键词库屏蔽【过滤】

敏感词过滤为什么不能只用 str_replace

因为会误杀、漏杀,且性能差。比如关键词是 "苹果",文本里有 "苹果手机" 被替换了,但 "青苹果" 也被干掉了;反过来,如果词库有 "苹""果" 却没 "苹果",那又漏了。更麻烦的是,逐个 str_replace 扫一遍词库,1000 个词就得做 1000 次全量字符串扫描,QPS 上去就卡住。

真正靠谱的做法是预建匹配结构,让一次扫描完成所有关键词判断——Trie 树(字典树)就是干这个的。

用 PHP 写一个轻量 Trie 过滤器要注意什么

别直接抄网上“完整版 Trie 类”,多数带冗余方法、递归遍历、甚至支持模糊匹配,你只需要「前缀匹配 + 最短/最长命中」就够了。核心就三步:建树、插入词、搜索命中。

  • insert() 时统一转小写(或按需保留大小写),避免 "VIP""vip" 被当成两个词
  • 叶子节点存 is_end => true 和可选的 word => "原词",方便后续替换时还原原貌
  • 搜索时用双指针:外层遍历文本位置 $i,内层从 $i 开始沿 Trie 走,一旦碰到 is_end 就记录,然后跳出内层继续 $i+1 ——这是「最短匹配」;若要「最长匹配」,则内层走到不能走为止,取最后那个 is_end

示例片段(非完整类):

立即学习PHP免费学习笔记(深入)”;

MakeLogo AI
MakeLogo AI

AI驱动的Logo生成器

下载
$root = ['children' => [], 'is_end' => false];
function insert($root, $word) {
    $node = &$root;
    for ($i = 0; $i < strlen($word); $i++) {
        $char = $word[$i];
        if (!isset($node['children'][$char])) {
            $node['children'][$char] = ['children' => [], 'is_end' => false];
        }
        $node = &$node['children'][$char];
    }
    $node['is_end'] = true;
    $node['word'] = $word; // 可选
}

实际部署时词库加载和缓存怎么搞

每次请求都 file_get_contents('keywords.json') + json_decode + 构建 Trie?太慢。PHP-FPM 下每个 worker 进程都要重复一遍,内存还浪费。

  • apcu_store() 缓存构建好的 $trie_root 数组,key 可设为 "sensitive_trie_v2",版本号随词库更新而变
  • 首次加载失败(如 APCu 关闭)就退回到文件 + opcache_compile_file() 预编译的静态数组(把词库转成 PHP 数组代码,include 进来)
  • 避免在 CLI 或测试环境误用 APCu 缓存(它默认不共享),加个 if (php_sapi_name() !== 'cli') 判断

错误现象:APCu is not enabled 导致过滤器每次重建,CPU 突增;或者缓存 key 写成硬编码 "trie",换词库后不生效。

替换策略和边界情况怎么处理

不是所有场景都适合直接替换成 ***。用户发的是 "微信支付",你只屏蔽 "微信",结果变成 "***支付",语义全毁。所以得区分「整词匹配」和「子串匹配」。

  • 建 Trie 时对每个词加标记:'type' => 'full''type' => 'partial',搜索时按需判断是否要求前后为非字母数字(用 ctype_alnum() 或正则 /\W|^/ 检查边界)
  • 替换时优先用原词长度生成 *str_repeat('*', mb_strlen($word))),别硬写 '***',否则中英文混排错位
  • 注意 UTF-8 多字节问题:strlen() 会把中文算成 3 字节,必须用 mb_strlen($word, 'UTF-8'),否则 Trie 走不到底

容易被忽略的是:用户输入含零宽空格(\xe2\x80\x8b)、全角标点、甚至 emoji,这些字符进 Trie 前得先 normalize,否则永远匹配不上。

相关文章

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

443

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

544

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

322

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

81

2025.09.10

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

826

2023.08.22

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

595

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

217

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1555

2023.10.24

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

916

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 12.2万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.3万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号