
本文介绍如何将三层嵌套字典(block → text → key)高效转换为结构清晰的pandas dataframe,通过转置、`json_normalize`、`concat`与`multiindex.from_product`组合实现自动化的多级列构建。
在实际数据处理中,我们常遇到类似 {"block1": {"text1": {"key1": "v1", "key2": "v2"}, ...}} 这样的三层嵌套字典结构,目标是将其展平为具备语义化层级的表格:行索引为 block 名(如 "block1"),一级列名为 text 标签(如 "text1"),二级列名为原始键名(如 "key1")。这本质上是构建一个具有 MultiIndex 列 的 DataFrame。
以下为完整、可复现的解决方案:
import pandas as pd
data = {
"block1": {
"text1": {
"key1": "value1",
"key2": "value2",
},
"text2": {
"key1": "value3",
"key2": "value4",
},
},
"block2": {
"text1": {
"key1": "value5",
"key2": "value6",
},
"text2": {
"key1": "value7",
"key2": "value8",
},
},
}
# Step 1: 初始化基础 DataFrame(按 block 为列)
df = pd.DataFrame(data)
# Step 2: 转置 → block 变为行索引,text 变为列名
df_t = df.T # shape: (2, 2), index=['block1','block2'], columns=['text1','text2']
# Step 3: 对每一列(即每个 text)用 json_normalize 展开其内部字典
# 每个 textX 列对应一个 dict → json_normalize 生成单列 DataFrame(key1/key2 为列)
normalized_parts = [pd.json_normalize(df_t[col]) for col in df_t.columns]
# Step 4: 水平拼接所有展开结果,并设置行索引对齐原 df_t.index
new_df = pd.concat(normalized_parts, axis=1).set_index(df_t.index)
# Step 5: 构建 MultiIndex 列:外层为 text 名,内层为 key 名(需预先确定键名)
# 注意:此处假设所有 text 下的键结构一致;若不一致,建议先统一提取 keys = list(data["block1"]["text1"].keys())
keys = ["key1", "key2"]
new_df.columns = pd.MultiIndex.from_product([df_t.columns, keys], names=["text", "key"])
print(new_df)输出结果如下(已自动对齐并支持分层访问):
text text1 text2 key key1 key2 key1 key2 block1 value1 value2 value3 value4 block2 value5 value6 value7 value8
✅ 关键说明与注意事项:
- json_normalize 是处理嵌套字典的利器,它能将 {"key1":"v1","key2":"v2"} 直接转为含两列的 DataFrame;
- pd.concat(..., axis=1) 实现横向拼接,确保各 textX 部分并列;
- set_index(df_t.index) 确保最终行索引与原始 block 顺序一致;
- MultiIndex.from_product 要求明确知道所有子键(如 ["key1","key2"]),若键名动态变化,可统一提取:
all_keys = sorted(set(k for block in data.values() for text in block.values() for k in text.keys()))
- 若某 text 缺失某个 key,json_normalize 会自动填 NaN,保持列对齐。
该方法简洁、可扩展,适用于任意数量的 block 和 text,且天然支持 Pandas 的 .xs()、.loc[] 等多级索引操作,是构建结构化报表的理想选择。










