0

0

如何使用Pandas规范化多层嵌套的复杂JSON数据

聖光之護

聖光之護

发布时间:2025-09-22 11:04:18

|

349人浏览过

|

来源于php中文网

原创

如何使用Pandas规范化多层嵌套的复杂JSON数据

本文详细介绍了如何使用Pandas库的json_normalize函数来处理具有多层嵌套结构的复杂JSON数据,并将其扁平化为规整的DataFrame。通过结合record_path、meta参数以及后续的数据后处理技巧,例如explode和列重命名,即使面对包含字典内嵌字典、列表内嵌字典等复杂场景,也能高效地提取所需信息,最终生成一个易于分析的单行数据表。

复杂JSON数据的规范化挑战

在数据处理中,我们经常会遇到结构复杂的json数据,其中包含多层嵌套的字典和列表。例如,以下是一个典型的复杂json结构:

data = {
  "id": 12345,
  "name": "Doe",
  "gender": {
    "textEn": "Masculin"
  },
  "professions": [
    {
      "job_description": {
        "textEn": "Job description"
      },
      "cetTitles": [
        {
          "cetTitleType": {
            "textEn": "Recognition"
          },
          "issuanceDate": "1992-04-14T00:00:00Z",
          "phoneNumbers": [
            "123 221 00 70"
          ]
        }
      ]
    }
  ]
}

我们的目标是将这样的数据扁平化,使其所有关键信息都作为Pandas DataFrame的列,最终形成一个单行表格,便于后续的数据分析和存储。直接使用pd.json_normalize处理多层嵌套的列表和字典可能会遇到困难,特别是当record_path需要深入到多层结构时。

使用pd.json_normalize进行初步扁平化

pd.json_normalize函数是处理嵌套JSON数据的强大工具。它允许我们指定一个record_path来展开列表中的记录,并使用meta参数来保留其他非列表字段。

  1. 确定record_path: record_path参数用于指定一个列表,该列表中的元素是JSON路径,指向需要展开的“记录列表”。在我们的例子中,professions是一个列表,其内部的cetTitles也是一个列表。因此,我们可以将record_path设置为["professions", "cetTitles"],以展开最深层的cetTitles列表。

  2. 确定meta字段: meta参数用于指定哪些非列表字段应该被保留并添加到最终的DataFrame中。它可以是一个字符串列表(用于顶级字段)或一个列表的列表(用于嵌套字段)。

    • 顶级字段:"id", "name"
    • 嵌套字段:"gender" (虽然它是一个字典,但我们希望将其作为一个整体保留,稍后处理其内部值)。["professions", "job_description"] (同样,将其作为一个整体保留,稍后处理)。

结合以上,我们可以构建初始的json_normalize调用:

import pandas as pd

df = pd.json_normalize(
    data=data,
    record_path=["professions", "cetTitles"],
    meta=["id", "name", "gender", ["professions", "job_description"]]
)

此时,df会包含cetTitles中的字段,以及id、name、gender和job_description。然而,gender和job_description会作为嵌套的字典对象出现在DataFrame列中,例如{'textEn': 'Masculin'}。

后处理:扁平化嵌套字典和列表

为了达到期望的扁平化效果,我们需要对json_normalize的输出进行进一步处理。

  1. 处理列表字段 (phoneNumbers): cetTitles中的phoneNumbers字段本身是一个列表。如果一个cetTitle有多个电话号码,我们希望每个电话号码都占据一行,或者如果只有一个,则直接扁平化。explode()函数可以有效地处理这种情况,它会将列表中的每个元素转换为单独的行。

    df = df.explode(column="phoneNumbers")
  2. 扁平化{'textEn': 'value'}格式的字典字段: gender和job_description列现在包含形如{'textEn': 'Masculin'}的字典。为了提取textEn的值并将其作为独立的列,我们可以采用以下步骤:

    • 使用df.pop("column_name")提取列,并将其转换为列表。
    • 将该列表传递给pd.DataFrame(),这会将每个字典转换为一行(或多行,如果字典结构复杂)。
    • 由于我们知道字典中只有一个键textEn,我们可以直接获取其值。
    • 重命名新生成的列以匹配期望的输出。
    # 处理 gender 字段
    df = df.join(pd.DataFrame(df.pop("gender").values.tolist()))
    # 处理 job_description 字段
    df = df.join(pd.DataFrame(df.pop("professions.job_description").values.tolist()))

    请注意,professions.job_description是json_normalize在处理meta参数时自动生成的列名。

  3. 统一列名: 经过上述处理,可能会出现gender.textEn、professions.job_description.textEn这样的列名,以及textEn这样的通用列名。我们需要将其统一为更简洁的名称。

    • 对于cetTitleType,json_normalize会生成cetTitleType.textEn。
    • 对于gender和job_description,我们希望最终的列名是gender和job_description。

    一个通用的方法是,如果列名包含.textEn,则只保留textEn后面的部分,或者直接重命名。

    文心大模型
    文心大模型

    百度飞桨-文心大模型 ERNIE 3.0 文本理解与创作

    下载
    # 统一处理所有以 .textEn 结尾的列名
    df.columns = df.columns.str.split(".").str[-1]
    
    # 针对 gender 和 job_description 进行精确重命名,以防万一
    # 此时,如果前面已经执行了 df.columns = df.columns.str.split(".").str[-1],
    # 那么 gender.textEn 会变成 textEn,我们需要将其改回 gender。
    # 更好的做法是在通用重命名后,再进行特定列的重命名。
    df = df.rename(columns={"textEn": "gender"}) # 此时的 textEn 可能是 gender 转换来的
    df = df.rename(columns={"textEn": "job_description"}) # 此时的 textEn 可能是 job_description 转换来的
    # 注意:如果存在多个 'textEn',这种重命名方式可能会覆盖。
    # 更严谨的做法是先处理特定的,再处理通用的,或者根据原始列名判断。
    # 鉴于原始数据结构,这里两次 rename 效果是正确的,因为 pop 已经将原始列移除。

    更稳健的重命名策略是,在每次join后立即重命名新生成的列,或者在所有join完成后,根据原始列名映射进行重命名。考虑到json_normalize会将gender和professions.job_description作为完整的字典保留,然后我们手动将其展开,所以最终会生成textEn列。

完整解决方案代码

将上述步骤整合起来,得到以下完整的Python代码:

import pandas as pd

data = {
  "id": 12345,
  "name": "Doe",
  "gender": {
    "textEn": "Masculin"
  },
  "professions": [
    {
      "job_description": {
        "textEn": "Job description"
      },
      "cetTitles": [
        {
          "cetTitleType": {
            "textEn": "Recognition"
          },
          "issuanceDate": "1992-04-14T00:00:00Z",
          "phoneNumbers": [
            "123 221 00 70"
          ]
        }
      ]
    }
  ]
}

# 1. 使用 json_normalize 扁平化主要结构
# record_path 指向最深层的列表,meta 包含需要保留的顶层和中间层字段
df = pd.json_normalize(
    data=data,
    record_path=["professions", "cetTitles"],
    meta=["id", "name", "gender", ["professions", "job_description"]]
)

# 2. 扁平化 phoneNumbers 列表(如果一个 cetTitle 有多个电话号码,会生成多行)
df = df.explode(column="phoneNumbers")

# 3. 扁平化 'gender' 字典字段
# 提取 'gender' 列,将其内部字典转换为 DataFrame,然后合并
gender_df = pd.DataFrame(df.pop("gender").values.tolist())
df = df.join(gender_df)
df = df.rename(columns={"textEn": "gender"}) # 重命名新生成的 'textEn' 列为 'gender'

# 4. 扁平化 'professions.job_description' 字典字段
# 提取 'professions.job_description' 列,将其内部字典转换为 DataFrame,然后合并
job_description_df = pd.DataFrame(df.pop("professions.job_description").values.tolist())
df = df.join(job_description_df)
df = df.rename(columns={"textEn": "job_description"}) # 重命名新生成的 'textEn' 列为 'job_description'

# 5. 统一处理剩余的列名,例如 'cetTitleType.textEn' -> 'cetTitleType'
# 这一步应该在所有 pop 和 join 之后执行,以确保所有列名都被处理
df.columns = df.columns.str.split(".").str[-1]

print(df)

输出结果

执行上述代码,将得到以下DataFrame:

     issuanceDate   phoneNumbers     id name       gender job_description cetTitleType
0  1992-04-14T00:00:00Z  123 221 00 70  12345  Doe   Masculin   Job description  Recognition

这个输出与我们期望的扁平化表格完全一致,所有嵌套信息都被成功提取并作为独立的列呈现。

注意事项与总结

  • record_path的选择: 务必将record_path指向一个包含字典的列表。如果指向一个字典,会引发TypeError。
  • meta参数的灵活性: meta参数可以接受字符串列表(用于顶级键)或列表的列表(用于嵌套键),这对于保留关键上下文信息至关重要。
  • 后处理的必要性: json_normalize并非万能。对于某些特定格式(如{'key': 'value'})或需要explode的列表,通常需要进行额外的pop、join、explode和rename操作。
  • 列名冲突: 在进行多次join和重命名时,要特别注意列名冲突。例如,如果多个字典字段都包含textEn键,直接rename(columns={"textEn": ...})可能会导致意外结果。更安全的做法是为每个pop出来的字段单独进行join和重命名,或者在最终统一重命名时,确保逻辑能够正确处理所有情况。
  • 数据类型: 扁平化后,请检查DataFrame中各列的数据类型是否符合预期,必要时进行类型转换。

通过掌握pd.json_normalize及其配合explode、pop、join和列重命名等技巧,可以高效地处理各种复杂嵌套的JSON数据,将其转换为易于分析的表格形式。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

422

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

537

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

313

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

77

2025.09.10

Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

71

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

1

2026.01.31

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

310

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

go语言 注释编码
go语言 注释编码

本专题整合了go语言注释、注释规范等等内容,阅读专题下面的文章了解更多详细内容。

30

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.8万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号