php分割文本过滤敏感词_php分割后逐段过滤敏感词【技巧】

星夢妙者

发布时间：2026-01-31 13:49:44

683人浏览过

来源于php中文网

原创

推荐用 preg_split 并开启 PREG_SPLIT_DELIM_CAPTURE 标志保留分隔符，配合 mb_stripos 精准匹配 UTF-8 敏感词，预扫描全文或使用 AC 自动机优化性能，避免跨段漏检与编码错误。

php分割文本过滤敏感词_php分割后逐段过滤敏感词【技巧】

用 `preg_split` 分段时保留分隔符更安全

直接用 explode 切文本，遇到连续换行、中英文混排或带空格的分隔符（比如 "\n\n" 或 "。"）容易漏切或错切，导致敏感词跨段残留。推荐用 preg_split 并开启 PREG_SPLIT_DELIM_CAPTURE 标志，把分隔符也捕获进结果数组，后续处理时能准确还原边界。

例如按中文句号、换行、两个及以上空格切分：preg_split('/([。！？；\n]|\s{2,})/u', $text, -1, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY)
这样得到的数组是 ['内容1', '。', '内容2', '\n\n', '内容3']，过滤时可跳过分隔符项，只扫字符串段
不加 PREG_SPLIT_DELIM_CAPTURE 就丢掉了标点，拼回去时可能把“机密。”和“文件”连成“机密。文件”，绕过“机密文件”关键词检测

`mb_stripos` 比 `stripos` 更可靠地匹配中文敏感词

PHP 默认的 stripos 按字节匹配，遇到 UTF-8 中文会截断字符，导致假阴性（该命中没命中）。尤其在分段后文本长度不一、含 emoji 或生僻字时风险更高。

必须用 mb_stripos($segment, $word, 0, 'UTF-8')，显式指定编码
敏感词列表本身也要确保是 UTF-8 编码，避免从数据库或配置文件读取时乱码（常见于 MySQL 连接未设 SET NAMES utf8mb4）
若敏感词含正则元字符（如 "+"、"."），别直接丢进 mb_stripos —— 它不支持通配，得先 preg_quote($word, '/') 再进 preg_match

逐段过滤后拼接需防“跨段敏感词”漏检

有些敏感词天然横跨分隔符，比如“国家机密”被切在两段末尾和开头：“国家” + “机密”。纯逐段过滤无法发现这类情况。

论论App

AI文献搜索、学术讨论平台，涵盖了各类学术期刊、学位、会议论文，助力科研。

下载

简单补救：对每段末尾 N 个字符（如 5）和下一段开头 N 个字符拼起来再查一次，N 取最长敏感词长度
更稳妥的做法是预扫描全文标记所有敏感词位置，再按分段逻辑做区间映射，而不是真“分段后过滤”
如果业务允许延迟，建议改用流式扫描（如用 mb_substr 滑动窗口），比切分再合并更准，也省去边界处理逻辑

性能差往往卡在敏感词循环里

每段都遍历全部敏感词列表，O(n×m) 复杂度，1000 段 × 500 词就 50 万次调用 mb_stripos，CPU 直接拉满。

立即学习“PHP免费学习笔记（深入）”；

优先用 AC 自动机（如 php-aho-corasick 扩展），一次性扫描整段文本，时间复杂度接近 O(n)
若不能装扩展，至少把敏感词按首字符哈希分组，先 mb_substr($segment, 0, 1) 查对应组再遍历，减少 70%+ 无效匹配
注意：正则批量匹配（preg_match_all('/词1|词2|词3/u', $segment)）看似简洁，但词多时编译慢、回溯爆炸，实际比循环更慢

敏感词过滤不是切开再塞回去那么简单，分段逻辑、编码处理、跨段边界、性能瓶颈，每个环节都有隐性坑。真正上线前，拿含“国”“家”“机”“密”错位排列的测试文本跑一遍，比看文档管用。

php数据库怎么进不同用户的mysql_php切换用户连mysql法【教程】

php数据库怎么进用swoole协程进_phpSwoole协程连库法【教程】

如何在 MySQL 中按关联表中的出现频次对查询结果排序

如何在 MySQL 中根据关联表出现频次对查询结果进行排序

如何在 MySQL 查询中正确组合必需条件与可选条件

PHP速学教程(入门到精通)

PHP怎么学习？PHP怎么入门？PHP在哪学？PHP怎么学才快？不用担心，这里为大家提供了PHP速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

mysql php word 编码字节配置文件性能瓶颈排列 asic mysql 字符串循环数据库 word

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：php数据库怎么进连elasticsearch_php连es库法【教程】下一篇：php页面怎么加对角渐变特效_php页面对角渐变实现法【步骤】

作者最新文章

php判断字符串长度与前端一致_php前后端长度对齐【要点】

2026-01-30 09:12

忘记三星手机指纹关联密码咋整_三星手机指纹密码重设流程【指南】

2026-01-30 09:19

小猿口算在线练习官方网站_小猿口算网页版免费登录地址

2026-01-30 09:42

盒马春运买生鲜怎么保证新鲜送达【教程】

2026-01-30 10:06

2026人事考试录用公示在哪找_2026人事考试公示查询渠道【技巧】

2026-01-30 10:11

php页面渐变能加发光效果吗_php页面发光渐变搭配法【技巧】

2026-01-30 10:21

php动态网站开发怎样实现用户注册_PHP动态网站用户注册逻辑【教程】

2026-01-30 10:46

iphone怎么开启屏幕旋转 iphone自动旋转设置方法【教程】

2026-01-30 10:47

猛鬼宿舍游戏平台大全_猛鬼宿舍免费小游戏在线体验

2026-01-30 10:49

华硕电脑安装软件报错1603_华硕电脑报错解决法【技巧】

2026-01-30 11:08

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

mysql修改数据表名

MySQL修改数据表：1、首先查看数据库中所有的表，代码为：‘SHOW TABLES；’；2、修改表名，代码为：‘ALTER TABLE 旧表名 RENAME [TO] 新表名；’。php中文网还提供MySQL的相关下载、相关课程等内容，供大家免费下载使用。

668

2023.06.20

MySQL创建存储过程

存储程序可以分为存储过程和函数，MySQL中创建存储过程和函数使用的语句分别为CREATE PROCEDURE和CREATE FUNCTION。使用CALL语句调用存储过程智能用输出变量返回值。函数可以从语句外调用(通过引用函数名)，也能返回标量值。存储过程也可以调用其他存储过程。php中文网还提供MySQL创建存储过程的相关下载、相关课程等内容，供大家免费下载使用。

268

2023.06.21

mongodb和mysql的区别

mongodb和mysql的区别：1、数据模型；2、查询语言；3、扩展性和性能；4、可靠性。本专题为大家提供mongodb和mysql的区别的相关的文章、下载、课程内容，供大家免费下载体验。

281

2023.07.18

mysql密码忘了怎么查看

MySQL是一个关系型数据库管理系统，由瑞典MySQL AB 公司开发，属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一，在 WEB 应用方面，MySQL是最好的 RDBMS 应用软件之一。那么mysql密码忘了怎么办呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

516

2023.07.19

mysql创建数据库

MySQL是一个关系型数据库管理系统，由瑞典MySQL AB 公司开发，属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一，在 WEB 应用方面，MySQL是最好的 RDBMS 应用软件之一。那么mysql怎么创建数据库呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

257

2023.07.25