
本文介绍如何在 php 中处理格式错误的 json 文件——多个 json 对象紧挨着拼接(无换行、无逗号、缺左引号),通过字符串预处理将其转换为标准 json 数组,再安全解析并提取 timestamp 和 order_id 字段。
本文介绍如何在 php 中处理格式错误的 json 文件——多个 json 对象紧挨着拼接(无换行、无逗号、缺左引号),通过字符串预处理将其转换为标准 json 数组,再安全解析并提取 timestamp 和 order_id 字段。
在实际开发中,我们常会遇到非标准 JSON 数据源:例如日志系统导出的“伪 JSON”文件,其内容为多个 JSON 对象连续拼接(如 {...}{...}{...}),既无换行分隔,也缺少数组外壳和对象间逗号,甚至存在语法缺陷(如 "timestamp" 误写为 timestamp")。这类数据无法直接用 json_decode() 解析。本文提供一种稳健、低依赖的 PHP 处理方案,无需正则回溯或外部库,适用于中小型数据量场景。
核心思路:修复为合法 JSON 数组
关键在于将原始字符串转化为符合 RFC 8259 的 JSON 文本。观察示例:
{timestamp":"2022-03-25 00:25:41.476+00","order_id":"1659616"}{timestamp":"2022-03-25 00:18:51.892+00","order_id":"1560808"}存在三处典型问题:
- 缺少首字段键名的左引号 → timestamp" → "timestamp"
- 相邻对象间无分隔符 → }{ → }, {
- 整体无数组包裹 → 需补 []
因此,修复流程为:
立即学习“PHP免费学习笔记(深入)”;
- 读取整个文件内容(注意:file() 默认按行读取,但本例无换行,故需 file_get_contents());
- 补全数组外壳:在开头加 [,结尾加 ];
- 修复缺失引号:全局替换 timestamp" 为 "timestamp"(若存在其他字段如 order_id",同理处理);
- 插入对象分隔符:将 }{ 替换为 }, {;
- 调用 json_decode($json, true) 安全解析。
完整可运行代码示例
<?php
$filePath = 'abovefile.txt';
// 步骤1:读取完整文件内容(非 file(),因无换行)
$content = file_get_contents($filePath);
if ($content === false) {
throw new RuntimeException("无法读取文件: {$filePath}");
}
// 步骤2–4:字符串预处理(顺序敏感!)
$json = '[' . $content . ']';
$json = str_replace('timestamp"', '"timestamp"', $json); // 修复 timestamp 键
$json = str_replace('order_id"', '"order_id"', $json); // 修复 order_id 键(推荐一并处理)
$json = str_replace('}{', '}, {', $json); // 分割对象
// 步骤5:解析并验证
$data = json_decode($json, true);
if (json_last_error() !== JSON_ERROR_NONE) {
throw new RuntimeException('JSON 解析失败: ' . json_last_error_msg());
}
// 提取所需字段并输出
foreach ($data as $index => $item) {
echo "条目 {$index}: \n";
echo " Timestamp: {$item['timestamp']}\n";
echo " Order ID: {$item['order_id']}\n";
}
?>注意事项与健壮性增强建议
- ✅ 优先使用 file_get_contents():原问题中 foreach(file(...)) 假设按行读取,但该文件无换行符,会导致整个内容被当作单行读入 $line[0],虽偶然可行,但语义错误;file_get_contents() 更准确、高效。
- ⚠️ 字段修复需覆盖全部键名:示例中仅展示 timestamp 和 order_id,若实际含 user_id、amount 等,须逐个添加 str_replace() 或改用正则(如 preg_replace('/([a-zA-Z_][a-zA-Z0-9_]*)":/', '"$1":', $json))。
- ? 务必校验 json_decode() 结果:始终检查 json_last_error(),避免静默失败导致空数组或 null。
- ? 大数据量慎用字符串替换:若文件超 10MB,多次 str_replace() 可能影响性能,此时建议流式解析(如逐字符状态机识别 {/} 边界),但本方案已满足绝大多数运维与 ETL 场景。
- ? 扩展性提示:若格式存在更多变体(如空格不一致、末尾逗号等),可集成 jsonlint 类库进行二次校验,或使用 spatie/json-api-parser 等容错解析器。
通过以上方法,您能将混乱的 JSON 片段快速转化为结构化 PHP 数组,实现可靠的数据提取。核心在于理解:JSON 解析器只认标准语法,而数据清洗是开发者不可回避的前置责任。











