Pandas 多列分组比对行数据并标记不一致性

聖光之護

发布时间：2026-01-16 16:30:20

696人浏览过

来源于php中文网

原创

Pandas 多列分组比对行数据并标记不一致性

本文介绍如何使用 pandas 对 dataframe 中具有相同关键列（如 country 和 reference year）的行进行分组比对，自动识别并标记 value 值不一致的记录为“invalid”，一致则为“valid”。核心方法是 groupby + transform('nunique')。

在实际数据清洗与质量校验中，常需检测同一业务主键（如国家+年份）下指标值是否唯一。若存在多个不同 value，则说明数据存在逻辑冲突或录入错误，需标记为异常。

以下是一个典型示例：我们有包含 Country、Reference Year 和 value 三列的数据，目标是——对 Country 与 Reference Year 完全相同的行进行分组，若该组内 value 存在多个不同非空/有效值（或含空值与非空混存），则整组标记为 "Invalid"；否则为 "Valid"。

import pandas as pd
import numpy as np

df1 = pd.DataFrame(
    data=[['Afghanistan','2015','5.1'],
          ['Afghanistan','2015','6.1'],
          ['Bahrain','2020',''],
          ['Bahrain','2020','32'],
          ['Bahrain','2021','32'],
          ['Bahrain','2022','32']],
    columns=['Country', 'Reference Year', 'value']
)

关键思路是：
✅ 按 ['Country', 'Reference Year'] 分组；
✅ 对每组的 'value' 列统计其去重后数量（nunique）；
✅ 若某组 nunique > 1，说明该组 value 不一致 → 全部标记为 "Invalid"；
✅ 否则标记为 "Valid"。

实现代码简洁高效：

df1['Validity'] = np.where(
    df1.groupby(['Country', 'Reference Year'])['value'].transform('nunique').gt(1),
    'Invalid',
    'Valid'
)

✅ transform('nunique') 会将每组的去重计数广播回原 DataFrame 的对应行，保持索引对齐； ✅ .gt(1) 等价于 > 1，返回布尔 Series； ✅ np.where 根据条件批量赋值，避免循环或 apply，性能优异。

运行后结果如下：

阿里妈妈·创意中心

阿里妈妈营销创意中心

下载

Country	Reference Year	value	Validity
Afghanistan	2015	5.1	Invalid
Afghanistan	2015	6.1	Invalid
Bahrain	2020		Invalid
Bahrain	2020	32	Invalid
Bahrain	2021	32	Valid
Bahrain	2022	32	Valid

⚠️ 注意事项：

nunique() 默认忽略 NaN，但本例中空字符串 '' 被视为有效值（非 NaN），因此 ['', '32'] 被计为 2 个不同值；如需将空字符串视作缺失，建议预处理：df1['value'] = df1['value'].replace('', np.nan)；
若 value 列含混合类型（如数字与字符串），nunique 仍能正确识别差异，但建议统一数据类型以提升鲁棒性；
此方法天然支持任意数量的关键列（只需扩展 groupby([...]) 列表），扩展性强。

该方案兼具可读性、性能与工程实用性，是 Pandas 数据一致性校验的标准实践之一。

Dash App 多下拉框联动失效的常见原因与修复方案

Python怎么抓包_mitmproxy实现手机PC中间人网络请求拦截篡改与数据截获

Python Flask怎么配路由_app.route装饰器绑定与带类型约束的动态URL参数传递

Django怎么创建App_startapp命令与INSTALLED_APPS注册

Flask怎么用中间件_包装app.wsgi_app拦截底层WSGI请求

相关标签:

ai 数据清洗 pandas 数据类型字符串循环 transform

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Pandas 中基于多列检测行间数据一致性并标记异常下一篇：如何正确读取含逗号小数点的DSC文本数据并转换为浮点数进行绘图

作者最新文章

Go 中为何不能直接转换切片类型？深入解析类型转换规则与安全替代方案

2026-03-12 09:23

Vue 中实现多选限制：仅允许勾选 3 项，其余自动禁用（支持反选）

2026-03-12 09:25

OpenGL 3.x 渲染 20K 精灵体（Sprites）性能优化实战指南

2026-03-12 09:26

上海停车app如何进行预约

2026-03-12 09:27

vscode源控件里怎么好多数字

2026-03-12 09:43

Java 中正确解码 Unicode 私用区（PUA）字符的完整指南

2026-03-12 09:46

《生化危机9》MOD让疯狂难度更难被丧尸咬了会感染

2026-03-12 09:47

如何让图片的20%移出网页可视区域实现“半隐式”视觉效果

2026-03-12 10:09

如何在 Go 的 flag 包中为必需的位置参数提供清晰的 Usage 提示

2026-03-12 10:10

如何让图片的20%移出视口实现“半隐式”边缘展示效果

2026-03-12 10:24

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

338

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

225

2025.10.31

c语言数据类型

本专题整合了c语言数据类型相关内容，阅读专题下面的文章了解更多详细内容。

138

2026.02.12

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1570

2023.10.24

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

热门下载

网站特效

网站源码

网站素材

前端模板