将字符串格式的字典安全解析并展开为多列结构化数据

花韻仙語

发布时间：2026-01-25 17:05:01

505人浏览过

来源于php中文网

原创

将字符串格式的字典安全解析并展开为多列结构化数据

本文介绍如何使用 ast.literal_eval 安全解析 dataframe 中形如 {key: [v1, v2, v3, v4]} 的字符串列，并将其高效拆分为独立的 id 与数值列（如 id、t1–t4），避免 eval() 的安全风险，适用于日志、api 响应等场景下的非标准 json 数据清洗。

在实际数据处理中，我们常遇到存储为字符串的类字典结构（例如数据库导出或 API 返回的非标准 JSON 字段），如 "{827056812014862: [0.05, 0.0608, 0.476464, 0.53535]}"。这类数据无法直接用 pd.json_normalize() 解析，且使用 eval() 存在严重安全风险。推荐方案是借助 Python 标准库中的 ast.literal_eval ——它仅允许解析基础字面量（数字、字符串、元组、列表、字典、布尔值和 None），可安全反序列化可信但非标准的字符串字典。

以下为完整实现步骤：

✅ 第一步：导入必要模块

import pandas as pd
from ast import literal_eval

✅ 第二步：构造示例数据

df = pd.DataFrame({
    "column_A": [
        "{827056812014862 : [0.05, 0.0608, 0.476464, 0.53535]}",
        "{263746262748835 : [0.08, 0.0333, 0.8263, 0.9463]}",
        "{63673738736362 : [0.05, 0.0926, 0.8694, 0.9903]}",
        "{73737681201484 : [0.08, 0.0425, 0.1948, 0.3958]}"
    ]
})

✅ 第三步：解析并展开为结构化 DataFrame

AITDK

免费AI SEO工具，SEO的AI生成器

下载

out = []
for d in df["column_A"].apply(literal_eval):
    for key, values in d.items():
        # 确保 values 是长度为 4 的列表（可根据实际调整）
        if not isinstance(values, (list, tuple)) or len(values) != 4:
            raise ValueError(f"Unexpected value format for key {key}: {values}")
        out.append({
            "id": key,
            "t1": values[0],
            "t2": values[1],
            "t3": values[2],
            "t4": values[3]
        })

result = pd.DataFrame(out)
print(result)

输出结果严格匹配预期：

                id    t1      t2        t3       t4
0  827056812014862  0.05  0.0608  0.476464  0.53535
1  263746262748835  0.08  0.0333  0.826300  0.94630
2   63673738736362  0.05  0.0926  0.869400  0.99030
3   73737681201484  0.08  0.0425  0.194800  0.39580

? 关键注意事项：

✅ 永远避免 eval()：literal_eval 是唯一安全替代方案，防止任意代码执行；
⚠️ 健壮性增强建议：生产环境应添加异常捕获（如 try/except）和空值/格式校验；
? 灵活扩展：若列表长度不固定，可用 **{f"t{i}": v for i, v in enumerate(values, 1)} 动态生成列名；
? 性能提示：对超大数据集，可改用 pd.json_normalize() 配合预处理（如正则提取 + json.loads），或向量化 apply + pd.Series（需确保结构统一）。

该方法简洁、安全、可维护，是处理“伪字典字符串”列的标准实践。

Pyomo 调试指南：修复因无序集合导致的时序约束逻辑错误

SHA1 实现中常见的填充长度计算错误及修复指南

如何在临时目录中正确创建并确保文件存在

Python 手写 SHA-1 算法实现常见错误解析与正确填充方案

SHA1 实现差异的根源：消息填充长度计算错误

相关标签:

python js json 大数据 ai 数据清洗标准库 json for try 字符串数据库

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何安全重命名文件并处理跨分区情况下一篇：Python logging 如何让不同模块输出不同级别的日志

作者最新文章

如何精准裁剪 div 以精确覆盖图像区域

2026-03-12 15:29

vscode怎么选中同一个标签

2026-03-12 15:36

Laravel Blade 组件中图片路径失效的根源与正确解决方案

2026-03-12 15:43

如何在 Windows 上实现文件独占锁（Go 语言兼容方案）

2026-03-12 16:13

Laravel Blade 组件中图片路径失效的根源与解决方案

2026-03-12 16:24

《宿命残响》德国开发者起诉发行商不作为 M站91分JRPG

2026-03-12 16:35

如何基于子字符串去重数组中的字符串元素

2026-03-12 16:39

JavaScript 中数组与 TypedArray 的内存分配机制解析

2026-03-12 16:55

PHP 中动态变量名的正确用法：避免 $$ 误用与数组赋值陷阱

2026-03-12 17:13

《狼人：内在野兽》Steam版5月6日发售性感女主上阵

2026-03-12 17:31

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

457

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

549

2023.08.23