
本文介绍如何在 php 中安全移除 html 标签后,进一步压缩多余空格、制表符和换行符,避免 `
在使用 strip_tags() 处理从 WordPress REST API 或其他富文本源(如 content.rendered)获取的 HTML 内容时,虽然标签被成功剥离,但原始 HTML 中的缩进、换行、多空格等空白字符仍会保留在纯文本中。这会导致
推荐采用两步清理策略:
- 先用 strip_tags() 移除所有 HTML 标签;
- 再用正则表达式规范化空白字符——将连续两个及以上空白符(含空格、制表符 \t、换行符 \n、回车符 \r)统一替换为单个空格,并可选去除首尾冗余空白。
以下是优化后的完整示例代码:
<?php
// 假设 $data 已通过 cURL 获取并解码为关联数组
$text = '';
$title = '';
foreach ($data as $item) {
if (isset($item['id']) && $item['id'] == $_GET['id']) {
$text = $item['content']['rendered'] ?? '';
$title = $item['title']['rendered'] ?? '';
break;
}
}
// 第一步:剥离 HTML 标签
$text = strip_tags($text);
$title = strip_tags($title);
// 第二步:规范化空白 —— 合并连续空白符为单空格,并 trim 首尾
$stripped = preg_replace('/\s+/', ' ', $text); // \s 包含 \t, \n, \r, 空格等
$stripped = trim($stripped);
?><div class="form-outline">
<label><b><?php echo htmlspecialchars($title); ?></b></label>
<textarea
class="form-control"
id="textAreaExample1"
rows="25"
style="width:50%; font-family: monospace;"
><?php echo htmlspecialchars($stripped); ?></textarea>
</div>✅ 关键注意事项:
立即学习“PHP免费学习笔记(深入)”;
- 使用 preg_replace('/\s+/', ' ', $text) 比分别匹配 \t\n 更全面,能同时处理 \r\n(Windows)、\n(Unix)、\r(旧 Mac)及任意数量空格/制表符;
- 务必对输出到 HTML 的内容调用 htmlspecialchars(),防止 XSS(尤其当原始内容未严格过滤时);
- 若需保留段落结构(如将
换行转为 \n),应改用 DOMDocument 解析 + 自定义文本提取,而非纯正则;
- 避免直接 echo $text 到 textarea —— 未转义的文本可能破坏 HTML 结构(如嵌入 字符串)。
通过以上处理,你将获得干净、紧凑、安全且符合预期格式的纯文本,完美适配











