将多行独立 JSON 对象高效合并为标准 JSON 数组结构

霞舞

发布时间：2026-03-14 18:52:11

509人浏览过

来源于php中文网

原创

本文介绍如何在不加载全部数据到内存的前提下，将大体积（如 1.1 GB）的“每行一个 JSON 对象”文件（JSON Lines 格式）转换为符合 RFC 8259 的单个有效 JSON 文件，包含外层 Records 数组封装，并支持批量处理多个文件。

本文介绍如何在不加载全部数据到内存的前提下，将大体积（如 1.1 gb）的“每行一个 json 对象”文件（json lines 格式）转换为符合 rfc 8259 的单个有效 json 文件，包含外层 `records` 数组封装，并支持批量处理多个 files。

在实际数据工程中，常遇到以 JSON Lines（NDJSON） 格式存储的日志或导出数据：每个换行符分隔一个独立、合法的 JSON 对象，例如：

{"job": "developer"}
{"job": "taxi driver"}
{"job": "police"}

这类格式便于流式写入和追加，但不符合标准 JSON 规范（标准 JSON 要求且仅允许一个顶层值），因此无法被 json.load() 直接解析，也不适用于需严格校验的下游系统（如 Spark Structured Streaming、AWS Athena 或前端 JSON Schema 验证器）。目标是将其无损、高效地重构为：

{
  "Records": [
    {"job": "developer"},
    {"job": "taxi driver"},
    {"job": "police"}
  ]
}

✅ 推荐方案：流式字符串拼接（零内存解析）

针对 1.1 GB 大文件，绝对避免 f.readlines() 或 json.loads() 全量解析——这会引发内存爆炸（Python 字典/对象开销远超原始文本）。正确做法是跳过反序列化，直接按行构造合法 JSON 文本：

def convert_json_lines_to_wrapped_array(input_path: str, output_path: str, key: str = "Records") -> None:
    """
    将 JSON Lines 文件流式转换为带外层数组的 JSON 文件。
    无需解析 JSON，纯文本拼接，内存占用恒定 O(1)。
    """
    with open(input_path, 'r', encoding='utf-8') as fin, \
         open(output_path, 'w', encoding='utf-8') as fout:

        # 写入开头：{"Records":[
        fout.write(f'{{"{key}":[\n')

        # 逐行读取并写入（自动处理逗号分隔）
        first_line = True
        for line in fin:
            line = line.strip()
            if not line:  # 跳过空行
                continue
            if not first_line:
                fout.write(',\n')
            fout.write(line)
            first_line = False

        # 写入结尾：]}
        fout.write('\n]}')

? 为什么高效？

AssemblyAI
转录和理解语音的AI模型

下载

每次仅读取一行（默认缓冲，内存占用 < 1 KB），不构建 Python 对象；

避免 json.dumps() 序列化开销（尤其是对嵌套结构）；

时间复杂度 O(n)，空间复杂度 O(1)。

? 批量处理多个文件

若目录 ./input/ 下有数百个 .json 文件，可结合 pathlib 安全批量转换：

from pathlib import Path

def batch_convert(input_dir: str = "input", output_dir: str = "output", key: str = "Records"):
    input_path = Path(input_dir)
    output_path = Path(output_dir)
    output_path.mkdir(exist_ok=True)  # 确保输出目录存在

    for json_file in input_path.glob("*.json"):
        if json_file.is_file():
            out_file = output_path / json_file.name
            try:
                convert_json_lines_to_wrapped_array(
                    str(json_file), str(out_file), key
                )
                print(f"✅ Converted: {json_file.name}")
            except Exception as e:
                print(f"❌ Failed on {json_file.name}: {e}")

# 执行批量转换
batch_convert()

⚠️ 注意事项与最佳实践

编码兼容性：显式指定 encoding='utf-8'，防止中文等非 ASCII 字符乱码；
空行/注释处理：原始 JSON Lines 不允许注释，但允许空行；上述代码已跳过空行；

验证输出：转换后建议用 jq 快速校验：

jq -n 'empty' ./output/sample.json  # 无报错即为合法 JSON

错误容忍（进阶）：若输入可能含非法 JSON 行，可添加 try/except 并记录错误行号，而非中断整个流程；
替代工具链：对超大规模场景（TB 级），推荐使用 jq 命令行（jq -s '{Records: .}' *.json）或 Apache NiFi，Python 方案仍是最易集成的通用解法。

通过该方法，你可在数秒内完成 GB 级文件的合规化封装，兼顾性能、可靠性和可维护性。

相关标签:

json 封装 try 字符串对象 input ASCII spark apache 重构

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何避免 PyMuPDF 中非链接文本被误识别为超链接下一篇：暂无

作者最新文章

SQLModel 中处理时区感知 datetime 字段的正确方法

2026-03-12 14:35

如何在保留首列字符串的前提下，用每行数值列均值填充 NaN

2026-03-12 14:35

如何让 Flex 布局的双栏页脚在移动端自动堆叠为单列

2026-03-12 14:47

鄂汇办app如何修改昵称

2026-03-12 14:49

海信发布E7S Pro终结取舍困境，玲珑真彩背光开启“原生色彩”时代

2026-03-12 15:02

如何在 MongoDB 中高效防止用户名和邮箱重复（推荐实践）

2026-03-12 15:05

如何在保留首列字符串的前提下，用每行数值列的均值填充 NaN

2026-03-12 15:40

vscode怎么还原隐藏的工具栏

2026-03-12 15:43

React应用中实现登录页与主页的双向路由保护

2026-03-12 15:43

高效求解轮盘弹跳路径：基于循环节检测的 O(n) 优化算法

2026-03-12 15:46

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

457

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

549

2023.08.23